Page 72 - Anuario AC/E de cultura digital 2017
P. 72
72
el proceso de recolección. Así, por ejemplo, la investigadora Johanna Drucker (2011) rechaza el término «data» —que en latín significa «lo que nos es dado»— y utiliza en su lugar el término «capta», es decir, «lo que ha sido capturado o recogido»; como es obvio, esta intervención crítica pone de relieve la naturaleza imparcial e incompleta de los datos.
Los humanistas digitales también han insistido en la temporalidad de los datos —pues todos tienen fecha de creación y caducidad— y en la falacia consistente en separar los datos de los metadatos (esto es, datos como título, creador, tema, descripción, fecha, formato, identificador, fuente, lengua, etc.). En realidad, no existe el segundo grado de los datos, que se cristaliza en la raíz meta-; los metadatos son tan importantes, selectivos e imparciales como los datos porque son producidos por seres humanos (o bien por algoritmos diseñados por seres humanos). Tam- poco es válida la distinción, que se remonta al triángulo culinario de Lévi-Strauss, entre «datos en crudo» y «datos cocinados», o entre «datos», «materia prima» e «información».
De hecho, para investigadores como Tom Boells- torff (2013), los datos tienen una naturaleza densa, interpretativa y contextual, y por eso es preferible hablar de «thick data». Parafraseando al antro- pólogo Clifford Geertz, los datos deben tomarse como «construcciones propias basadas en las construcciones de otras personas sobre objetos imaginados por una comunidad determinada».
Por ejemplo, la Text Encoding Initiative es una organización sin ánimo de lucro que tiene por objetivo publicar unas Recomendaciones sobre cómo codificar textos humanísticos con lenguaje de marcado XML para que sean intercambiables y, más o menos, estándares. Se trata de una organización participativa en la que cualquier investigador puede proponer cambios o mejoras basados en su experiencia sobre el conjunto de etiquetas definidas por el consorcio. Hasta el año 2012, sin embargo, ninguno de sus miembros había puesto en cuestión que la etiqueta <sex>,
utilizada para describir el género de una persona mencionada en un texto, siguiera la norma ISO/ IEC 5218:2004 y, por tanto, tuviera como valor del atributo @value las cifras 1 (hombre), 2 (mujer), 9 (no aplicable) y 0 (desconocido).
La situación fue reformulada cuando una investigadora denunció que esta tipología era sexista, porque situaba a la mujer en segundo lugar respecto al hombre y codificaba con lenguaje de marcado las estructuras patriarcales (Terras, 2013). Con esto no quiero restar valor
a la importancia de la TEI, sobre todo en la configuración de las humanidades digitales, sino poner de relieve que la tecnología, los datos,
los algoritmos y los estándares son producto de una interpretación del mundo y llevan marcas culturales. En conclusión, los datos no deben verse como verdades absolutas sino interrogarse de manera crítica.
La tecnología, los datos, los algoritmos
y los estándares son producto de una interpretación del mundo y llevan marcas culturales. Los datos no deben verse como verdades absolutas sino interrogarse de manera crítica.
En defensa de la teoría
En la bibliografía sobre el Big Data también
es frecuente encontrarse un descrédito de la teoría. La argumentación, a grandes rasgos,
es la siguiente: si disponemos de grandes cantidades de datos y de métodos estadísticos eficaces, no necesitamos teorías, modelos e hipótesis, que deban demostrarse o refutarse con experimentos. Dicho en otras palabras, en la era del Petabyte, el método científico resulta obsoleto (Anderson, 2008). El rechazo a las teorías y modelos no solo ha recibido crédito en el mundo empresarial; también ha sido aceptado en algunos trabajos de naturaleza humanística. Así, por ejemplo, Jean-Gabriel Ganascia (2015: 632-633) afirma que ya no es necesaria una teoría o hipótesis previa si se analizan todos los datos
BIG DATA EN LAS HUMANIDADES DIGITALES · ANTONIO ROJAS
Cultura inteligente: Análisis de tendencias digitales