La revista Science en su número del 14 de enero del 2011, ha publicado un artículo en el que diversos investigadores y profesionales, Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, Dale Hoiberg,
Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker,
Martin A. Nowak, Erez Lieberman Aiden dan a conocer una nueva técnica para analizar la evolución de las tendencias culturales a través de millones de libros digitalizados.
Hasta ahora era posible hacer inferencias sobre tendencias en el pensamiento humano a través de un número escogido de obras intelectuales pero, por falta de datos suficientes, no se podían hacer mediciones precisas de los fenómenos que subyacen a las mismas. Pero el esfuerzo de Google por digitalizar libros lo va a conseguir. Los investigadores que usan esta nueva técnica a la que llaman Culturomics han utilizado los datos de 5.195.769 libros que corresponden a aproximadamente el 4% de todos libros jamás publicados. Culturomics extiende las fronteras de la investigación cuantitativa rigurosa a un amplio espectro de nuevos fenómenos que pueden abarcar las ciencias sociales y las humanidades.
El corpus sobre el que se ha trabajado contiene 500 mil millones de palabras en inglés, francés, español, alemán, chino, ruso y hebreo. Las palabras más antiguas fueron publicadas en 1500 y están representadas por unos pocos libros que contienen varios cientos de miles de palabras. Alrededor del SXIX hay 98 millones de palabras por año, en el SXX 1.8 mil millones y en el 2000 11 mil millones de palabras por año.
Este conjunto no puede ser leído por un ser humano. Sólo leer las entradas en inglés del año 2000 a un ritmo razonable de 200 palabras por minuto sin interrupción para comer o dormir tomaría 80 años. La secuencia de las letras es 1000 veces más larga que la del genoma humano. Si se escribiera de corrido en una sola línea podría cruzar la distancia entre la Tierra y la Luna 10 veces.
Este método puede aportar nueva información sobre campos tan diversos como la lexicografía, la evolución de la gramática, la memoria colectiva, la adopción de una tecnología, la consecución de la fama por un personaje, la censura política de un tema o una persona o la epidemiología histórica.
Culturomics es la aplicación de una alta muestra de datos para el análisis y estudio de la cultura humana. El trabajo concreto al que nos referimos se ha efectuado con libros pero se está previsto hacerlo con periódicos, manuscritos, mapas, obras de arte y una miríada de otras muchas creaciones humanas. Esto ofrece nueva evidencia para el estudio de las humanidades. Igual que con los fósiles de antiguas criaturas, el desafío de Culturomics está en la interpretación de la misma.
