La humanidad en 500 mil millones de palabras

<font face="tahoma, arial, helvetica, sans-serif"><span style="font-size: 12px;">Olvidamos el pasado con rapidez, la fama es efímera y los inventos se propagan veloces. Así lo demuestra un análisis de Harvard sobre la frecuencia con que aparecen ciertos términos en los milloenes de libros digitalizados por Google.</span></font>




El año 2004 apenas comenzaba y Jean-Baptiste Michel, investigador de posgrado del Departamento de Sicología de la U. de Harvard, y su compañero Erez Lieberman, de la misma casa de estudios, se propusieron descifrar el origen de varios verbos de la lengua inglesa. Al poco tiempo de iniciar su investigación se dieron cuenta que no sería nada fácil: la digitalización masiva de libros aún era solo un sueño, por lo que debieron analizar estantes completos de libros, palabra por palabra, línea por línea, página por página. El proceso, que tuvo como resultado un informe publicado en 2007, requirió 18 meses.

Pero mientras los expertos pasaban días y noches encerrados en bibliotecas, en los laboratorios de la empresa Google se gestaba un ambicioso plan. Se trataba de Books, una iniciativa concebida para crear una biblioteca digital y almacenar cada libro publicado en la historia de la humanidad. Tanto Michel como Lieberman se dieron cuenta del potencial de este sistema y se acercaron a Google con la intención de usar la información literaria escaneada y cruzar datos.

El resultado es una herramienta disponible en la web para cualquier persona y que, por ahora, da acceso a unos 5,2 millones de libros digitalizados, el 4% de todos los volúmenes jamás publicados en la historia y que totalizan 500 mil millones de palabras publicadas entre 1.500 y 2.008 en inglés, español, francés y otros idiomas (http://ngrams.googlelabs.com). La plataforma, empleada por los expertos de Harvard para realizar otro estudio de reciente publicación en Science, permite ingresar términos de búsqueda y detecta la frecuencia con que aparecen en los libros a lo largo de los años, generando un retrato de las transformaciones que ha experimentado la memoria colectiva humana a lo largo de las décadas.

¿Dos ejemplos? El impacto de la tecnología en la vida moderna también se refleja en la velocidad con que se propagan los avances. Por ejemplo, las menciones de inventos surgidos a fines del siglo XIX se propagaron dos veces más rápido que las alusivas a creaciones aparecidas a comienzos de 1800. De forma similar, el estudio muestra el cambio en la preponderancia femenina: a nivel general el uso de la palabra "mujer" estuvo en alza constante durante los últimos 200 años hasta eclipsar las menciones de "hombre" a mediados de los 80.

Según indicó Michel a La Tercera, este método al que llama culturomics -término que mezcla cultura con genómica, el estudio sobre el origen de la información genética- ilumina aspectos de la cultura que eran imposibles de observar cuantitativamente: "Hay algunas temáticas en las que es muy efectiva, como el análisis de la dinámica de la fama o los cambios lingüísticos, y otras en las que aún no es tan eficiente". A manera de ejemplo, el investigador añade que con esta tecnología su estudio de hace seis años habría tomado segundos y no meses.

El pasado se olvida

La información disponible mediante Ngram Viewer constituye la mayor entrega de datos en la historia de las ciencias humanistas, formando una secuencia de letras 1.000 veces más larga que el genoma humano (si se colocaran una tras la otra, las letras viajarían 10 veces entre la Tierra y la Luna). Uno de los datos revelados por Harvard indica que, debido al flujo constante y cambiante que hoy tiene la información, la humanidad olvida su pasado cada vez más rápido y se enfoca en el presente: al rastrear la frecuencia con que se mencionan los años entre 1875 y 1975, descubrieron que las referencias al pasado decaen hoy de forma mucho más acelerada que en el siglo XIX. Mientras la frecuencia con que se aludía a "1880" cayó más de 50% recién en 1912, las referencias a "1973" lograron esa marca en 1983.

Al realizar el ejercicio con los términos en español se revela un declive permanente del término "hombre" a partir de los 60 y un alza constante de "mujer", lo que coincide con el ingreso más frontal al ámbito laboral y la aparición de temas como la píldora anticonceptiva. "El cambio en el patrón de uso de las palabras puede ser causado por muchas cosas; alteraciones en el lenguaje -ya no decimos 'la gran guerra' sino 'Primera Guerra Mundial'- o cambios en la cultura. Y en algunos casos también reflejan cambios importantes en la sociedad", explica Michel.

Estas transformaciones se expresan incluso en la incidencia de términos cotidianos como "pizza" y "helado", los cuales se dispararon desde los 70. Esto también ocurre en el caso del español, aunque el uso de palabras como "hamburguesa" tuvo un salto dramático en los 80, lo que coincide con el surgimiento de la obesidad infantil: de acuerdo con el Instituto de Nutrición y Tecnología de los Alimentos (Inta) de la U. de Chile entre 1986 y 1997 la prevalencia de obesidad en escolares chilenos de entre seis y 16 años aumentó de 5% a 25% en los varones y de 10% a 27% en las mujeres.

Las palabras utilizadas por los autores en los últimos dos siglos muestran cambios en otras áreas como la fama. Si bien las celebridades modernas son más jóvenes y famosas que las nacidas en el siglo XIX, su estatus dura menos tiempo. Los famosos nacidos en 1950 alcanzaban la fama a los 29 años, comparados con los 43 años en las celebridades de 1800. Pero los expertos hallaron que las referencias a los famosos de mediados del siglo XX desaparecían dos veces más rápido que las del siglo XIX: "En el futuro todos serán famosos por solo 7,5 minutos", escriben los autores.

Según Lieberman, el hecho que los clérigos generaran más obras literarias a comienzo de 1800 podría explicar por qué el uso de la palabra "Dios" alcanzó su punto cúlmine alrededor de 1830, cuando representaba 12,5 de cada 10.000 palabras. En el 2000, la prevalencia había caído 2,6 veces.

De forma similar, antes de 1950 la fama de Darwin en términos de menciones era mayor que la del sicoanalista Sigmund Freud, el físico Albert Einstein y el astrónomo Galileo Galilei. Pero después de ese año, con el creciente interés en el sicoanálisis infantil, Freud pasó a la delantera.

Franco Moretti, codirector del Laboratorio Literario de la U. de Stanford, dijo a La Tercera que esta herramienta tecnológica tiene un potencial único, pero agregó que el desafío estará en hallar enlaces entre cantidad y significado: "De la misma forma en que la pertenencia de un hueso a la cola o el cuello de un animal marca una gran diferencia para un paleontólogo, el uso de la palabra 'Dios' en una discusión de principios  puede ser totalmente distinto a su uso en una frase banal, una obra de teatro o en un poema de amor".

Comenta

Por favor, inicia sesión en La Tercera para acceder a los comentarios.