Page 70 - Anuario AC/E de cultura digital 2017
P. 70
70
Underwood, 2016). En otras palabras, estamos ante una verdadera conversación en la que los distintos interlocutores dialogan y se escuchan.
De lo particular en lo universal
Desde el año 2011 la expresión «Big Data» se ha extendido en las ciencias experimentales y los medios de comunicación como si el incremento de los datos disponibles fuera la próxima revolu- ción científica. Se trata de una expresión utili- zada en la academia, la industria y los medios de comunicación..., pero ¿qué es exactamente? ¿Es un objeto de estudio, un método, un conjunto de tecnologías o una disciplina?
Uno de los pocos artículos que han arrojado algo de luz al respecto lleva por título «Undefined
By Data: A Survey of Big Data Definitions».
Los autores (Ward y Barker, 2013) se dedican a rastrear las distintas definiciones de «Big Data» proporcionadas por grandes empresas tecnoló- gicas como Oracle, Intel y Microsoft, y algunos informes previos. En términos generales, las definiciones aúnan dos ideas importantes: por un lado, el almacenaje de un gran volumen de datos (algunos autores hablan de 500 Terabytes sema- nales); por el otro, el análisis cuantitativo y visual de estos datos con el fin de encontrar patrones, establecer leyes y predecir conductas.
Big Data implica tanto el almacenaje de
un gran volumen de datos como el análisis cuantitativo y visual de esos datos con el fin de encontrar patrones, establecer leyes y predecir conductas.
La definición clásica de «Big Data» consta de una fórmula fácil de entender y memorizar —las tres V—: el Volumen (Terabytes, Petabytes, Exabytes), la Velocidad (datos en continua gene- ración) y la Variedad (textos, imágenes, sonidos) (Ward y Barker, 2013). Posteriormente, algunos informes han añadido a la definición una cuarta V correspondiente al término Veracidad. En cual- quier caso, esta definición del Big Data, anclada
en el volumen, solo tiene sentido si tenemos en cuenta como principal fuente de datos los blogs, las redes sociales y los sensores.
Por el contrario, el objeto clásico de las humanida- des suelen ser textos e imágenes analógicas que, con fortuna, han sido digitalizadas y publicadas
en un formato legible por el ordenador. En otras palabras, si atendemos a las tres V, debemos admitir que en las humanidades no podemos hablar de Big Data en sentido estricto. Por un lado, los clásicos de la poesía española del Siglo de Oro caben en un pendrive de 4GB; por el otro, los archivos y bibliotecas no producen de manera continua nuevos datos y a gran velocidad sobre nuestros poetas, literatos o artistas (o, mejor di- cho, estos no son accesibles para el investigador). En cuanto a la variedad, estaríamos ante archivos de imágenes en TIFF, JPEG o algún formato similar, y de texto semiestructurado en formato XML o sin marcado alguno, en formato TXT.
Antes del advenimiento de Google Books en 2004, los humanistas digitales han estado traba- jando para digitalizar corpus de textos e imáge- nes en forma de ediciones, bibliotecas y archivos digitales. La Asociación Europea de Humanida- des Digitales (EADH) nos ofrece una buena muestra del tipo de proyectos desarrollados. Desde el año 2015, la asociación ha dedicado un espacio en su página web para documentar y promover el acceso a proyectos europeos de humanidades digitales realizados durante los últimos cinco años. La iniciativa tiene naturaleza participativa porque cualquier investigador (sea miembro de la asociación o no) puede rellenar el formulario accesible en la web y enviar una descripción de su proyecto con información sobre el nombre del mismo, un resumen descrip- tivo, las instituciones colaboradoras o el equipo responsable, entre otros campos. En el momento en que escribo este artículo, la asociación ha recibido 175 envíos. Si se analizan los títulos y los resúmenes con Voyant, una herramienta que cuenta las palabras más frecuentes, se puede percibir sin dificultad que abundan palabras relacionadas con el tema analizado en este
BIG DATA EN LAS HUMANIDADES DIGITALES · ANTONIO ROJAS
Cultura inteligente: Análisis de tendencias digitales