Edge (30-6-08) Traducción: Verónica Puertollano
«Todos los modelos son erróneos, pero algunos son útiles».
Dijo el proclamado estadístico George Box hace treinta años, y llevaba razón. Pero ¿qué opción teníamos? Sólo los modelos, desde las ecuaciones cosmológicas a las teorías de la conducta humana, parecían ser capaces de explicar de forma coherente, si bien imperfecta, el mundo que nos rodea. Hasta ahora. Hoy, las empresas como Google que han crecido en una era de masiva abundancia de datos, no tienen que conformarse con modelos erróneos. De hecho, no tienen que conformarse con modelos en general.
Hace sesenta años los ordenadores hicieron la información legible. Hace veinte, internet la hizo alcanzable. Hace diez, los primeros robots araña1 la hicieron una base de datos sencilla. Ahora Google y compañías similares escudriñan la época más medida de la historia, tratando este corpus masivo como un laboratorio de la condición humana. Son hijos de la Era del Petabyte.
La Era del Petabyte es diferente porque más es diferente. Los kilobytes se almacenaban en disquetes. Los megabytes, en discos duros. Los terabytes, en sistemas disk array2. Los petabytes se almacenan en clústeres3. De igual modo que avanzamos en esa progresión, y fuimos de la analogía de la carpeta a la del archivador y de ahí a la de la biblioteca, al llegar al petabyte nos quedamos sin analogías organizativas.
En la escala del petabyte, la información no es sólo una cuestión tridimensional ─y tetradimensional─ de simple taxonomía y orden sino de estadísticas dimensionalmente agnósticas.
Esto exige un enfoque completamente distinto, que nos haga desprendernos de la red de datos como algo que pueda ser visualizado en su totalidad. Nos fuerza a ver los datos matemáticamente primero y establecer un contexto después. Por ejemplo, Google conquistó el mundo de la publicidad con nada más que matemáticas aplicadas. No pretende saber nada sobre la cultura y los convencionalismos de la publicidad ─simplemente supuso que unos mejores datos, con mejores herramientas de análisis, triunfarían. Y Google estaba en lo cierto.
La filosofía fundacional de Google es que no sabemos por qué esta página es mejor que esa otra: si las estadísticas de los links entrantes lo dicen, es suficientemente buena. No se requiere un análisis semántico o causal. Por eso es por lo que Google puede traducir idiomas sin «saberlos» realmente (dados idénticos cuerpos de datos, Google puede traducir del klingon4 al persa con la misma facilidad con que traduce del francés al alemán). Y por qué puede casar los anuncios con los contenidos sin ningún conocimiento o presunción sobre el anuncio o los contenidos.
Hablando en la Conferencia O’Reilly de Tecnologías Emergentes el pasado marzo, Peter Norving, director de investigación de Google, aportó una actualización de la máxima de George Box: «Todos los modelos son erróneos, y se puede cada vez más triunfar con ellos”.
Este es un mundo en el que las cantidades masivas de datos y las matemáticas aplicadas reemplazan a cualquier otra herramienta que pudiera ser utilizada. Fuera con cada teoría del comportamiento humano. Olvide la taxonomía, la ontología y la psicología. ¿Quién sabe por qué las personas hacen lo que hacen? La cuestión es que lo hacen, y podemos seguir su pista y medirlo con una fidelidad sin precedentes. Con suficientes datos, los números hablan por sí mismos.
No obstante, el gran objetivo aquí no es la publicidad. El método científico está construido sobre hipótesis comprobables. Estos modelos, en su mayoría, son sistemas visualizados en la mente de los científicos. Los modelos son entonces probados, y los experimentos confirman o falsan los modelos teoréticos de cómo funciona el mundo. Esta es la manera en que la ciencia ha trabajado durante cientos de años.
Los científicos están preparados para reconocer que la correlación no implica causalidad, que ninguna conclusión debería apoyarse sólo en la base de la correlación entre X e Y (podría ser sólo una coincidencia). En su lugar, se deben comprender los mecanismos subyacentes que conectan a las dos. Una vez que se tiene un modelo, se puede unificar el conjunto de datos con seguridad. Los datos sin un modelo son sólo ruido.
Pero en contraste con los datos masivos, este planteamiento de la ciencia ─elaboración de hipótesis, modelo, prueba─ está volviéndose obsoleto. Considérese la física: los modelos newtonianos fueron rudas aproximaciones a la verdad (equivocadas al nivel atómico, pero aún útiles). Hace cien años, la mecánica cuántica fundada estadísticamente ofreció un mejor retrato ─pero aún la mecánica cuántica es otro modelo, y como tal, también es defectuosa, sin duda la caricatura de una realidad profunda más compleja. La razón por la que la física se ha deslizado hacia la especulación teorética sobre los modelos n-dimensionales unificados globalmente durente las últimas décadas (etapa de «bonita historia» de una disciplina privada de datos) es que no sabemos cómo ejecutar los experimentos que falsarían las hipótesis ─las energías son demasiado altas y los aceleradores demasiado caros, y así.
Ahora la biología apunta a la misma dirección. Los modelos que tomamos en la escuela sobre los genes «dominantes» y «recesivos» regidos por un proceso estrictamente mendeliano han resultado ser una simplificación de la realidad aún mayor que las leyes de Newton. El descubrimiento de las interacciones del gen proteína y otros aspectos de la epigenética han cuestionado la visión del ADN como destino e incluso ha aportado indicios de que el ambiente puede influir en rasgos no heredables, algo que fue una vez considerado genéticamente imposible.
En resumen, cuanto más aprendemos sobre biología, más lejos nos encontramos de un modelo que pueda explicarla.
Ahora hay un método mejor. Los petabytes nos permiten decir: «la correlación es suficiente». Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis sobre qué podrían mostrar. Podemos arrojar los números hacia los clústeres de computación más grandes que el mundo haya visto y dejar que los algoritmos estadísticos encuentren patrones que la ciencia no puede.
El mejor ejemplo práctico de esto es la secuenciación aleatoria del genoma por J. Craig Venter. Gracias a secuenciadores de alta velocidad y superordenadores que analizan estadísticamente los datos que producen, Venter pasó de secuenciar organismos individuales a secuenciar ecosistemas enteros. En 2003, comenzó a secuenciar gran parte del océano, recorriendo el viaje del Capitán Cook. Y en 2005 empezó a secuenciar el aire. En el proceso, descubrió miles de especies de bacteria antes desconocidas y otras formas de vida.
Si las palabras «descubrir nuevas especies» le recuerdan a Darwin y a los dibujos de pinzones, probablemente esté situado en el modo viejo de hacer ciencia. Venter no puede decirle casi nada de las especies que él encuentra. No conoce su apariencia, ni cómo viven, ni mucho más sobre su morfología. No puede incluso teniendo su genoma entero. Todo lo que tiene es una variación estadística ─una secuencia única que, siendo distinta a cualquier otra secuencia de la base de datos, debe representar una nueva especie.
Esta secuencia puede correlacionarse con otras secuencias que se parecen a aquellas de especies más conocidas. En ese caso, Venter puede hacer algunas conjeturas sobre los animales ─que convierten la luz del sol en energía de una determinada manera, o que descienden de un ancestro común. Pero al margen de eso, no tiene mejores modelos de estas especies de los que tiene Google de su página MySpace. Son sólo datos. Sin embargo, analizándolos con los recursos informáticos avanzados de Google, Venter ha modernizado la biología mucho más que cualquiera de su generación.
Esta forma de pensar está lista para ser la corriente dominante. En febrero, la Fundación Nacional de la Ciencia anunció el Cluster Exploratory [CluE] un programa de fondos para la investigación diseñado para ser ejecutado en una plataforma de computación distribuida a gran escala, desarrollada por IBM y Google en conjunto con seis universidades piloto. El cluster consistirá en 1.600 procesadores, varios terabytes de memoria y cientos de almacenaje, junto al software, que incluye el Tivoli de IBM y versiones open source de Google File System [GFS] y Google MapReduce. Los primeros proyectos CluE incluirán simulaciones del cerebro y del sistema nervioso y otras investigaciones biológicas que se sitúan entre el wetware y el software.
Aprender a usar un «ordenador» de estas proporciones puede ser un reto. Pero la oportunidad es grande: la nueva disponibilidad de enormes cantidades de datos, junto a las herramientas estadísticas que hagan los cálculos, ofrece toda una nueva forma de entender el mundo. La correlación sustituye a la causalidad, y la ciencia puede avanzar aun sin modelos coherentes, teorías unificadas o ciertamente cualquier otra explicación mecanística. No hay razones para aferrarnos a nuestros viejos usos. Es hora de preguntar: ¿Qué puede aprender la ciencia de Google?
Sobre El fin de la teoría de Chris Anderson.
George Dyson
Durante mucho tiempo he estado obcecado en la idea de que el cerebro contiene de alguna forma un «modelo» de la realidad, y que la Inteligencia Artificial se hará realidad cuando entendamos ese modelo inserto en una máquina. ¿Qué es un modelo? Podemos plantear dos condiciones: a/ algo que funcione y b/ algo que entendamos. Se puede tener a sin b. Nuestras grandes creaciones distribuidas a escala petabyte están empezando a captar la realidad de un modo que funciona bien, pero que no necesariamente entendemos. Pero cuando podamos finalmente apartar el cerebro, neurona por neurona, sin encontrar nunca el modelo, podremos descubrir que la verdadera IA vino a la existencia sin que nadie desarrollara nunca un modelo coherente de realidad o una teoría inequívoca de la inteligencia. La realidad, con sus ambigüedades, funciona. Puede que nuestro verdadero destino como especie sea construir una inteligencia de probado gran éxito, entendamos o no cómo funcione. La memoria colectiva asociativa distribuida masivamente que constituye la «supramente» (o el Ordenador Único de Kevin) ya está formando asociaciones, detectando patrones y haciendo predicciones –aunque esto no signifique pensar en el modo en que lo hacemos o en una escala que podamos comprender. El repentino aluvión de grandes bases de datos y la apertura de un territorio científico completamente nuevo promete una vuelta a la emoción del nacimiento de la ciencia (moderna) en el siglo XVII, cuando era, como Newton, Boyle, Hooke, Petty y el resto vieron, «el negocio de la Filosofía Natural» el que averiguaba las cosas. Lo que Chris Anderson da a entender es que la ciencia irá perteneciendo cada vez más a una nueva generación de filósofos naturales que no sólo están leyendo la naturaleza, sino que están empezando a leer la «supramente». ¿Hará esto que el método científico quede obsoleto? No. Aún estamos muy cerca de los comienzos del método científico para hablar de su fin. Como Sir Robert Southwell escribió a William Petty el 28 de septiembre de 1687, poco antes de ser elegido presidente de la Royal Society, «La intuición de la verdad no resulta tan sabrosa como la Verdad ya cazada».
Kevin Kelly
Existe la incipiente sensación de que las bases de datos extremadamente grandes, a partir del nivel petabyte, podrían cambiar el modo en que aprendemos las cosas. El modo tradicional de hacer ciencia implica construir una hipótesis que coincida con los datos observados o solicitar otros nuevos. Dado un grupo de observaciones ¿qué teoría explica cuántos datos son suficientes para poder predecir la siguiente observación? Puede resultar que volúmenes de datos tremendamente grandes sean suficientes para saltarse la teoría y hacer una observación predictiva. Google fue uno de los primeros en darse cuenta de esto. Pongamos el ejemplo del corrector ortográfico de Google. Cuando, googleando, escribes una palabra mal, Google surgiere la forma correcta. ¿Cómo lo sabe? ¿Cómo predice la palabra correcta? No es porque tenga una teoría sobre la ortografía, ni porque haya llegado a dominar las reglas ortográficas. De hecho, Google no sabe nada en absoluto sobre ortografía. En su lugar, Google opera con un gran conjunto de datos de observaciones que muestran que para cualquier palabra escrita hay x personas que dicen «sí» cuando se les pregunta si querían decir la palabra «y». El motor ortográfico de Google consiste enteramente en estos puntos de referencia, más que en cualquier otra noción sobre la correcta escritura del inglés. Por eso, el mismo sistema puede corregir la ortografía de cualquier idioma. Lo cierto es que Google emplea la misma filosofía de aprendizaje mediante datos masivos para sus programas de traducción. Pueden traducir del inglés al francés, o del alemán al chino, haciendo correlaciones entre inmensos conjuntos de datos a partir del material traducido por el hombre. Por ejemplo, Google entrena su motor de traducción francés-inglés surtiéndolo de documentos canadienses que han sido publicados de manera frecuente tanto en inglés como en francés. Los de Google no conocen la teoría del idioma, especialmente del francés, tampoco un traductor con inteligencia artificial. Y las traducciones son bastante buenas. No al nivel de experto, pero lo suficiente para entender lo esencial. Puedes coger una web china y al menos captar el sentido de lo que significa en inglés. Pero como Peter Norving, director de investigación de Google, presumía ante mí, «ni una sola persona que trabajara en el traductor de chino hablaba chino». No hay teoría de chino, ni comprensión. Sólo datos. (Si alguien ha querido alguna vez una refutación del enigma de Searle de la Sala China, aquí la tiene).
Si se puede saber cómo se escribe una palabra sin saber nada sobre ortografía o gramática, y si se puede saber cómo traducir idiomas sin tener ninguna teoría o concepto sobre la gramática de esos idiomas que estás traduciendo, entonces ¿qué más se puede saber sin la teoría? Chris Anderson está explorando la idea de que quizá se pueda hacer ciencia sin tener teorías.
Este es un mundo en el que las cantidades masivas de datos y las matemáticas aplicadas reemplazan a cualquier otra herramienta que pudiera ser utilizada. Fuera con cada teoría del comportamiento humano. Olvide la taxonomía, la ontología y la psicología. ¿Quién sabe por qué las personas hacen lo que hacen? La cuestión es que lo hacen, y podemos seguir su pista y medirlo con una fidelidad sin precedentes. Con suficientes datos, los números hablan por sí mismos.
Quizá haya algo respecto a esta observación. Muchas ciencias como la astronomía, la física, la genómica, la lingüística y la geología están generando hoy conjuntos de datos extremadamente grandes y constantes flujos de datos a nivel petabyte. En una década habrán alcanzado el nivel exabyte [mil millones de Gb]. Usando «máquinas de aprendizaje» pasadas de moda, los ordenadores pueden extraer patrones en este océano de datos que ningún humano podría detectar posiblemente nunca. Estos patrones son correlaciones. Pueden ser o no causales, pero podemos aprender nuevas cosas. Por tanto, logran lo que la ciencia hace, aunque no de la manera tradicional. Lo que Anderson está planteando es que a veces basta con las suficientes correlaciones. Hay un buen paralelismo en la salud. Un montón de trabajos médicos en el enfoque correlativo. El doctor puede no encontrar nunca la causa real de una dolencia, pero puede predecir correctamente su curso y tratar los síntomas. ¿Pero es esto verdadera ciencia? Se pueden tener resultados, pero si no se tiene un modelo ¿es algo en lo que otros puedan basarse? No lo sabemos todavía. El término técnico para este enfoque científico es Data Intensive Scalable Computation (DiSC). Otros términos son «Grid Datafarm Architecture» o «Petascale Data Intensive Computing ». Estas técnicas hacen más hincapié en la naturaleza de los datos intensivos que en los propios clusters de computación. La industria online llama a esta forma de investigación una especie de «analytics». Empresas de cloud computing como Google, IBM y Yahoo, y algunas universidades han hecho talleres sobre el tema. En esencia, estos pioneros están intentando explotar el cloud computing, o la Máquina Única, para la ciencia a gran escala. Las herramientas actuales incluyen masivas plataformas software como MapReduce (Ver: A Cloudbook For The Cloud), almacenaje barato, y gigantescos clusters de centros de datos. Hasta la fecha, muy pocos científicos, al margen de la genómica, están empleando estas nuevas herramientas. La intención del NSF’s Cluster Exploratory program es reunir a científicos que posean grandes cantidades de datos basados en las observaciones con los científicos informáticos que tienen contacto y pericia con el cluster/cloud computing.
Mi impresión es que este método naciente será una herramienta adicional en la evolución del método científico. No reemplazará a ninguno de los métodos vigentes (¡lo siento, la ciencia no se acaba!) pero complementará la teoría establecida por la ciencia. Llamemos a este enfoque de datos intensivos, para solucionar el problema, Correlative Analytics. Creo que Chris Anderson desaprovecha una oportunidad única titulando su tesis «El fin de la teoría», porque eso es una negación, la ausencia de algo. Es más bien el comienzo de algo, y ahora es cuando se tiene la posibilidad de acelerar ese nacimiento dándole un nombre positivo. Un nombre no negativo también ayudará a clarificar la tesis. Estoy sugiriendo Correlative Analytics en lugar de No Teoría porque no estoy completamente seguro de que estos sistemas correlativos carezcan de modelo. Creo que hay un incipiente e inconsciente modelo implícito incrustado en el sistema que genera las respuestas. Si ninguno de los que trabajan en la Sala China de Google que habla inglés conoce la teoría del chino, podemos seguir pensando en la Sala como una forma de teoría. El modelo puede estar más allá de la percepción y la comprensión de los creadores del sistema, y ya que funciona, no merece la pena intentar descubrirlo. Pero puede seguir estando ahí. Simplemente opera a un nivel al que no tenemos acceso.
Pero no importa la invisibilidad de los modelos, porque funcionan. No es el fin de las teorías, sino el fin de las teorías que entendemos. George Dyson dice esto mucho mejor en su respuesta a Chris Anderson. Lo que George Dyson sugiere es que este nuevo método de hacer ciencia –reunir zillones de puntos de referencia y después hacer que la Máquina Única calcule una respuesta correlativa– puede ser también pensado como método de comunicación con un nuevo tipo de científico, uno que puede crear modelos a niveles de abstracción (en el mundo de los zillones) más alla de nuestras propias facultades. Hasta ahora Correlative Analytics, o el modo Google de hacer ciencia, han sido principalmente utilizados en áreas sociológicas, como la traducción de idiomas, o el marketing. Ahí es donde los zillones de datos han estado. Todos esos zillones de puntos generados por nuestra vida colectiva online. Pero a medida que nuestras observaciones y medidas de la naturaleza sean captadas durante 24 horas, 7 días a la semana, con una variedad creciente de pruebas y sensores, la ciencia también entrará en el campo de los zillones y será procesada fácilmente por las nuevas herramientas de Correlative Analytics. En esta parte de la ciencia, podemos obtener respuetas que funcionan, pero que no entendemos. ¿Es esto una comprensión parcial? ¿O una nueva forma de comprensión? Quizá la comprensión y las respuestas están sobrevaloradas. «El problema de los ordenadores», se rumorea que dijo Pablo Picasso, «es que sólo te dan respuestas». Estos inmensos sistemas correlativos basados en datos nos darán montones de respuestas –de buenas repuestas– pero es todo lo que nos darán. Eso es lo hace al Ordenador Único –darnos buenas respuestas. En el nuevo mundo del cloud computing las buenas respuestas se convertirán perfectamente en una mercancía. El valor real del resto de la ciencia se convierte entonces en hacer buenas preguntas. [Ver The Google Way of Science en el blog de Kevin Kelly].
Stewart Brand
La humanidad digital ha pasado aparentemente de un hito a otro durante los últimos pocos años. Ahora nos damos cuenta. Darse cuenta suele ser de ayuda. Coincidiremos en uno o dos nombres para el nuevo hito y observaremos lo que la inducción nos diga sobre cómo funciona o para qué sirve.
W. Daniel Hills
Soy un gran fan de Google, y me encanta buscar patrones matemáticos en los datos, pero el artículo de Chris Anderson, El fin de la teoría, establece una falsa distinción. Afirma que usando una gran colección de datos para «ver los datos matemáticamente primero y establecer un contexto después» es en cierto modo distinto de «la manera en que la ciencia ha trabajado durante cientos de años». No estoy de acuerdo.
La ciencia siempre comienza buscando patrones en los datos, y los primeros modelos simples eran siempre meras extrapolaciones de lo que habíamos visto antes. Los astrónomos eran capaces de predecir con precisión los movimientos de los planetas mucho antes de las teorías de Newton. Lo hicieron reuniendo montones de datos y buscando patrones matemáticos.
El «nuevo» método que Chris Anderson describe ha estado siempre en el punto de partida: reunir una cantidad de datos y asumir que es representativa de otras situaciones. Esto funciona bien mientras no intentemos extrapolarlo demasiado a partir de lo que hemos observado. Es un tipo de modelo muy sencillo, un modelo que dice «lo que vamos a ver a continuación será mucho más de lo que hemos visto hasta ahora». Suele ser una buena conjetura. Los datos existentes siempre nos dan nuestra primera hipótesis. Los humanos y otros animales están probablemente preparados para ese tipo de extrapolación. Las herramientas matemáticas como las ecuaciones diferenciales y la estadística fueron desarrolladas para ayudarnos a hacer un mejor uso de ellas. Estas herramientas científicas han sido usadas durante siglos y los ordenadores nos han dejado aplicarlas a mayores conjuntos de datos. También nos han permitido reunir más datos que extrapolar. Los métodos basados en datos que aplicamos a los petabytes son los métodos que siempre hemos probado en primer lugar.
El método experimental (hipótesis, modelo, prueba) es lo que permite a la ciencia ir más allá de lo que puede ser extrapolado a partir de los datos existentes. Las hipótesis son más interesantes cuando predicen algo que es diferente de lo que hemos visto hasta ahora. Por ejemplo, el modelo de Newton pudo predecir las trayectorias de planetas no descubiertos, mientras que los obsoletos modelos basados en datos, no. El modelo de Einstein, a su vez, predijo métodos que habrían sorprendido a Newton. Los modelos son interesantes precisamente porque pueden llevarnos más allá de los datos.
Chris Anderson dice que «este planteamiento de la ciencia –hipótesis, modelo, prueba– se está volviendo obsoleto». No dudo que la frase pretende ser provocadora, pero no veo ni siquiera una pizca de verdad en ella. Comparto su entusiasmo por las posibilidades creadas por los conjuntos de datos de petabytes y la computación paralela, pero no veo por qué grandes las grandes cantidades de datos vayan a minar el método científico. Empezaremos, como siempre, por buscar patrones sencillos en lo que hemos observado y los usaremos para hacer una hipótesis sobre lo que es cierto en otra parte. Cuando nuestras extrapolaciones funcionen, creeremos en ellas, y cuando no, crearemos nuevos modelos y probaremos sus consecuencias. Extrapolaremos a partir de los datos primero y los estableceremos en un contexto después. Esta es la forma de hacer ciencia que ha funcionado durante cientos de años.
Chris Anderson acierta en su intuición de que hay algo diferente sobre estas nuevas y grandes bases de datos, pero no ha identificado bien lo que es. Lo que es interesante es que por primera vez tenemos datos significativamente cuantitativos sobre las variaciones de los individuos: su comportamiento, su interacción e incluso sus genes. Estos nuevas bases de datos inmensas nos dan una medida de la riqueza de la condición humana. Ahora podemos vernos a nosotros mismos con las herramientas que hemos desarrollado para estudiar las estrellas.
Sean Carroll
¿Qué es una buena teoría?
A principios del siglo XVII, Johannes Kepler propuso sus Tres Leyes del Movimiento Planetario: los planetas se mueven en elipses, barren áreas iguales en tiempos iguales y sus periodos son proporcionales al cubo de la distancia media desde el Sol. Esto fue un gran avance en el aspecto astronómico de la cultura, descubriendo un conjunto de relaciones simples en los voluminosos datos sobre los movimientos de los planetas que habían sido reunidos por su mentor Tycho Brahe. Más tarde, en el mismo siglo, Sir Isaac Newton propuso su teoría de la mecánica, que incluía sus Leyes del Movimiento y su Ley de la Gravitación Universal (la fuerza ejercida por la gravedad inversamente proporcional al cuadrado de la distancia). En el sistema de Newton, se podían derivar las leyes de Kepler –en vez de oponerlas– y muchas otras cosas. Esto era generalmente considerado como un importante paso al frente. No sólo teníamos reglas de una aplicabilidad mucho más amplia, sino que podíamos afirmar con sensatez que entendíamos lo que estaba pasando. Entender es algo bueno, y es en cierto sentido el primer objetivo de la ciencia.
Chris Anderson parece querer que lo deshagamos. Comienza con un verdaderamente importante y emocionante desarrollo –las nuevas bases de datos gigantes de petabytes que resisten modos ordinarios de análisis, pero que podemos usar para descubrir patrones inesperados hasta ahora indagando en los torrentes de información– de que la era de la teoría ha terminado. Él imagina un mundo en el cual los científicos escudriñan las pilas gigantes de números, buscando cosas frescas, y que no se molestan en entender lo que todo eso significa en términos de los sencillos principios que subyacen.
Ahora hay un método mejor. Los petabytes nos permiten decir: «la correlación es suficiente». Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis sobre qué podrían mostrar.
Bien, podemos hacer eso. Pero, como le gustaba decir a Richard Nixon, sería incorrecto. A veces será duro, o imposible, descubrir modelos sencillos que expliquen las inmensas colecciones de datos enmarañados tomados de los fenómenos ruidosos y no lineales. Pero eso no significa que no debamos intentarlo. Las hipótesis no son sólo herramientas útiles en algunas visiones de la ciencia potencialmente obsoletas; lo son todo. La teoría es comprender, y comprender nuestro mundo es de lo que trata totalmente la ciencia.
Jaron Lanier
El objetivo de la teoría científica no es que un ángel vaya a apreciarla. Su propósito es la comprensión humana. La ciencia sin una búsqueda de teorías significa una ciencia sin humanos. Los científicos están mundialmente contentos con los nuevos grandes recursos relacionados con la computación. Soy consciente de que nadie discute ese punto. La única idea en el texto de Chris Anderson que se sale de esa feliz zona de consenso es que no deberíamos querer entender nuestro propio trabajo cuando usamos los nuevos recursos. Encuentra emocionante que podamos hacer algo que funciona sin comprender el porqué. Esto es precisamente lo que no debería ser emocionante. Algunos remedios caseros funcionan y no sabemos por qué. La ciencia va de entender. La comprensión es mucho más excitante que los remedios caseros. Anderson parece decir que es inútil ser humano. Las máquinas deberían ser ahora las que piensen, y ser las heroínas del descubrimiento. Digo «parece» porque no me creo que esté siendo sincero. Creo que es una treta para lograr cierto tipo de atención. Escuchar la retórica antihumana produce la misma punzada que la trama de una película sobre un asesino en serie. Alguna parte profunda y moral de todos nosotros está tan ofendida que no podemos desviar nuestra atención.
Joseph Traub
Estoy de acuerdo con Danny Hills en que las grandes cantidades de datos no socavarán el método científico. De hecho, las leyes científicas codifican una inmensa cantidad de datos. Pienso en el ejemplo de las ecuaciones de Maxwell o en las leyes de Kepler. ¿Por qué piensa Chris Anderson que con más datos aún, las leyes (lo que él llama teoría) se volverá menos importante?
John Horgan
Mi primera reacción al ensayo de Chris Anderson fue, no, otra Gran-Profecía-del-Fin-de-Algo. Anderson, además, recicla la retórica del caos, la complejidad y la Inteligencia Artificial. ¡Ordenadores aún más poderosos van a encontrar patrones ocultos en bases de datos cada vez mayores y van a revolucionar la ciencia! No necesitas ser un ordenador para trazar los ciclos de auge y caída de estas afirmaciones. Pero la idea de que los ordenadores obviarán la teoría y la comprensión inspira unos pocos pensamientos:
Montones de grupos que ya trabajan en soluciones a los problemas sin comprenderlas. Los economistas emplean métodos puramente numéricos para predecir los mercados, y los matemáticos construyen «pruebas computacionales» basadas en cálculos masivos en lugar de la lógica comprensible. Esto es menos ciencia que ingeniería. La ingeniería no busca la verdad. Buscan una solución al problema. Lo que funciona, funciona. Se podría decir que desde la aparición de la mecánica cuántica, la física moderna ha dado la predicción sin comprensión. La teoría cuántica tiene un éxito estupendo, casi demasiado para el que la conviene, prediciendo los resultados de los experimentos del acelerador. Pero como Niels Bohr solía decir, cualquiera que diga que entiende la teoría cuántica no sabe lo primero que hay que saber sobre ella.
Pero dudo de que computadoras procesadoras de cálculo vayan a reemplazar por completo a los expertos humanos, como da a entender Anderson. Los físicos del Gran Colisionador de Hadrones tienen que hacer programas que ayuden a sus ordenadores a averiguar entre la avalancha de datos eventos potencialmente importantes. El procesador de cálculo masivo de IBM permitió a Deep Blue vencer a Gary Kasparov. Pero los expertos humanos de ajedrez también incorporaron sus conocimientos al software de Deep Blue para hacerlo más eficiente y encontrar las jugadas óptimas. Apuesto a que el traductor de Google incorpora mucha habilidad humana.
Chris Anderson parece creer que los ordenadores reducirán la ciencia a la pura inducción, prediciendo el futuro basado en el presente. Este método no puede naturalmente predecir cisnes negros, anomalías y sucesos verdaderamente originales. La carga teórica de los expertos humanos no puede prever cisnes negros, pero para el futuro previsible, los expertos humanos sabrán cómo manejar mejor a los cisnes negros cuando aparezcan.
Bruce Sterling
La ciencia ficción inmediatamente obsoleta por la «petabyte ficción»
Estoy tan impresionado por los prefijos «peta» y «exa» como el que más. También me inclino a pensar que los motores de búsqueda son más grandes y mejores que la Inteligencia Artificial (incluso aunque la IA se las hubiera arreglado alguna vez para existir fuera de la ciencia ficción). También me encanta la idea de grandes, nubladas [cloudy] y sin embargo profundas relaciones entre fenómenos aparentemente inconexos –en literatura, llamamos a esos gadgets «metáforas». ¡Son geniales!
Pero he de preguntarme por qué Chris Anderson quiere que Google –después de que haya echado inmediatamente por tierra la publicidad– aborde la teoría científica. La publicidad no tiene nada que ver con la teoría científica. La publicidad ha sido siempre una completa paparruchada de hechiceros. Despues de que soplara esa casa de paja, Google puede querer seguir con las de ladrillo (eso es una metáfora). Seguramente hay otros frutos de fácil alcance que los petabytes podrían recoger fructíferamente antes de aspirar a las remotas, frágiles y altísimas ramas de la ciencia. (Otra metáfora –aquí me enrollo).
Por ejemplo: la ideología política. Todo el mundo sabe que la ideología es muy similar a la publicidad. Así que ¿por qué no hacemos que los zillones establezcan nuestras creencias políticas, basadas en algunas grandes escalas y asociaciones con otros fenómenos estadísticamente verificables como, digamos, el color de nuestra piel o el lugar donde nacimos? La abogacía. ¿Por qué argumentar los casos con lógica, intentando determinar los hechos, la culpa o la inocencia? Echemos toda la carga legal de todos los casos conocidos en la tolva de petabytes, y dejemos que los algoritmos seleccionen el resultado del juicio. Después podemos «colgar a todos los abogados», como dijo Shakespeare (no es una metáfora). El amor y el matrimonio. No puedo entender por qué la gente sigue insistiendo en casarse con sus amiguitas de la infancia cuando una búsqueda petabyte de miles de millones de potenciales compañeras de todo el mundo resulta demostrablemente más barato y más efectivo. Las inversiones. Hacer cálculos en el mercado de valores tiene que ser trabajo de tecnología petabyte. Ningún humano sabe cómo oscila el mercado –es todo la hora del «triple embrujo», es pura, baja y sucia superstición. Pero seguramente los propietarios petabyte pueden deducir mecánicamente el (sólo aparente) caos de los mercados, convirtiéndose en súper-ultramagnates. Entonces compran toda la ciencia y hacen lo que les parezca con ella. Los escépticos no se reirán entonces. El diseño gráfico. Éste se mata fácilmente. Se compara el conjunto total de pixels de un proyecto de página para Wired con el conjunto de todos los píxeles de todas las páginas de papel que haya escaneado Google. Se pone el creatímetro en marcha y se genera la imagen gráfica definitiva. Ah, y lo mismo para toda la música digitalizada en tu iPod, nada más y nada menos. ¿Por qué mezclar las canciones en random [aleatoriamente] cuando puedes reducir las canciones a puras longitudes de onda en un alucinante mashup petabyte? Así puedes patentarlo en vez de poner copyright. Finalmente –aquí llegaré a una pequeña meta–, el último número de Edge. En lugar de esos dolorosos comentarios que Edge publica como respuesta a acreditados científicos y sus parásitos culturetas, la Tercera Cultura conquistará la Tierra cuando todos los comentarios de internet de cualquier tipo sean analizados para las posibles repuestas Edgy, del modo en que Google puede traducir estonio a klingon ¡en un solo paso! ¡El resultado es la última tesis cultural crítico-científica! No es una «Gran Teoría Unificada» –(así de acabada está la teoría, ya que nunca podrás estampar los datos bancarios de Google en una camiseta). Siguiendo con las metáforas –aquí quédate conmigo–, visualizo este Edge petabyte como una especie de infinito cantoriano, de debate intelectual posthumano, una cibercultura autogeneradora que muerde delicadamente su cola de dragón como un ouroboros chino, masticando la naturaleza de la verdad remota con una poética claridad cristalina, girando y precesando en su propio eje de escamas, en una nube de internet del tamaño de California.
Douglas Rushkoff
Sí, pero.
Tengo mis sospechas en unos pocos puntos:
Lo primero: no creo que Google haya sido probado «correcto». Sólo efectivo, por el momento. Una vez que la propia publicicidad se revele como un modelo de negocio temporal, la habilidad de Google de explotar correctamente la trayectoria de una industria en descenso podrá entonces ser tenida en cuenta. Sin un contexto más amplio, el éxito de Google es en realidad una mera táctica. No es una extensión de una agencia humana (o incluso de una agencia corporativa), sino una puñalada estratégica basada en la lógica del momento. No es un esfuerzo guiado, sino una respuesta pasiva. ¿Funciona? De momento. ¿Va a la cabeza? En absoluto. Asimismo, para determinar la elección humana, o hacer política u obtener ciencia a partir de la nube [cloud] niega a todos estos campos la presunción de significado. Vi cómo, durante las elecciones de 2004, las firmas de investigación de mercado procesaban los datos de esta forma para las campañas de Bush y Kerry. Usarían la información no relacionada con la política para identificar hogares que parecieran contener a más votantes indecisos. El modelo predictivo usaría puntos de referencia tales como si los votantes tenían un perro o un gato, un coche de dos o cuatro puertas, a qué distancia les quedaba el trabajo y cuánto debían en sus hipotecas para determinar qué tipo de votantes había dentro. Estas técnicas no tenían lógica para ellos. La lógica era vista como una distracción. Todo lo que importaba eran las correlaciones que eran determinadas por ordenadores que estudiaban minuciosamente los datos. Si resultaba que quienes tenían un gato y un coche con dos puertas parecían más votar en un cierto sentido o favorecer cierta causa, entonces las compañías de encuestas podían indicar a los que encuestadores a qué teléfono tenían que llamar para hacérselas. Chicos con reproductores de DVD que contenían anuncios personalizados para ciertos hogares se dejarían ver en las esquinas de las casas, pondrían la canción por ordenador, dejarían un folleto y se dirigirían a la siguiente. Algo, durante ese proceso, me hizo cínico respecto a ese campo que emergía de forma no piramidal, contraria a la taxonomía. Estoy totalmente a favor de una buena «folksonomía», como cuando los chicos etiquetan sus vídeos favoritos o los post de los blogs. Es así como sabemos qué vídeo de YouTube ver; hacemos una búsqueda general y luego del hit que ha sido visto más veces. Pero los números más certeros no hablan por sí mismos. Al olvidar la taxonomía, la ontología y la psicología, olvidamos por qué estamos aquí en primera instancia. Quizá el consumidor de vídeos puede olvidar esas disciplinas, ¿pero y el que hace los vídeos?
Cuando leí los sumamente astutos argumentos de Anderson sobre la dirección de la ciencia, me sentí preocupado por que la ciencia pudiera muy bien seguir el mismo curso en la política o en los negocios. Las técnicas del petabyte sin cerebro favorecen a la industria sobre la reflexión, al consumo sobre la creación, y –me atrevo a decir– al fascismo descerebrado sobre el reflexivo autogobierno. Son compatibles con los objetivos ético-agnósticos de las grandes empresas mucho más de lo que lo son las ciencias más intencionalmente aplicadas a una comunidad o civilización. Aunque para los propios agnósticos, estas técnicas no son imparciales. Mientras que su tendencia puede ser menos obvia de lo que les han enseñado a los científicos humanos en las instituciones de élite, su tendencia no está sin embargo implícita en el aparente pero falsamente postmecanicista y absolutamente abierto enfoque de los datos y sus implicaciones. No son en realidad más abiertas que la apertura de mercados, y en definitiva están inclinadas a su favor. Sólo porque eliminemos los límites y las distorsiones de la narratividad humana de la ciencia, no significa que otras distorsiones se apresuren a llenar el vacío.
Oliver Morton
Las provocaciones de Chris Anderson despiertan muchos pensamientos –me limitaré a dos específicos y dos generales. El primero específico es que Anderson hace una caracterización equivocada de la física de partículas. El problema con la física de partículas no es la pobreza de datos –es la complejidad teórica. El Tevatron, y el LEP antes, habían producido cantidades inmensas de datos para sus épocas –datos que son un rico suministro. El problema es que el modelo estándar lo explique todo. El paso que va más allá del modelo estándar no es una reflexión sobre la pobreza de datos, sino teoría que se nutre de teoría porque los datos están bien servidos. Esto no significa que no haya un ángulo Googlesco que se pueda usar aquí –hay un equipo observando los datos de Fermilab en lo que entiendo que es una efectiva forma de «teoría agnóstica» (ver Particle physicists hunt for the unexpected de mi colega de Nature Sarah Tomlin)– pero no es algo de vital importancia. (Y añado brevemente: una teoría como la de Newton, que permite a los profesionales predecir con precisión las posiciones de los pequeños trozos de roca que vuelan velozmente, con décadas de antelación, en un sistema solar 10[25] más grande que las rocas en cuestión pude ser incompleta pero, «en bruto», no lo es.
La segunda caracterización errónea es de la biología. Sugerir que ver el fenotipo como una interacción del genoma y el entorno es en cierto modo un nuevo conocimiento, o teóricamente confuso, simplemente no es así. Pero es a lo que equivale en realidad todo eso que dice de la epigenética y las interacciones de los genes y las proteínas. No me queda realmente claro en qué sentido serio la biología forma hoy un modelo «más allá» del que había hace cincuenta años. Ahora hay nuevos modelos de biología que explican más de lo que entonces era explicable, y no hay un modelo para todos. En cuanto a los puntos generales, no creo que el discurso alejado de las normas de Feyerabend del método científico –«vale todo»– sea la última palabra en este asunto. Pero está más cerca de la verdad que decir que la ciencia siempre avanza por los modelos, o por cualquier otra estrategia. La ciencia como proceso de descubrimiento es mucho más interesante que las herramientas que usa en cualquier momento o en cualquier área disciplinaria.
Y supongo que mi otro punto es «petabytes-¡bah!». Sin duda, un petabyte es algo grande –pero el número de formas en que uno puede hacer preguntas es mucho más grande. No soy matemático, y con mucho gusto aceptaré que me corrijan en esto, pero según lo veo yo, una forma de entender un kilobit es la de un recurso que puede agotarse –o quizá un espacio que pueda colapsarse– con diez pregutnas de sí o no: eso es lo que es 2 [10]. Para un kilobyte el número sube a 13. Para un petabyte, a 53. Hoy, en muchos casos, 53 es un montón de preguntas. Pero en las redes de miles de genes, no son en verdad tantas. Para entender la biología, necesitas pensar mucho más grande. Es posible que yo describiera los comienzos del camino a seguir en «A Machine With a Mind of Its Own», un artículo que escribí para Wired sobre la científica de robótica de la universidad de Aberystwyth, y tuve el gusto de escuchar hace poco que ese programa ha comenzado haciendo verdaderos descubrimientos nada triviales. Pero quizá, para hacerle justicia real a estas cosas necesitas un millón de millardos de experimentos elegidos por tales algoritmos –datos que generan datos, en lugar de datos que generan conocimiento; la clase de futuro retratada en Rainbows End de Vernor Vinge, con sus indescriptiblemente grandes laboratorios subterráneos automatizados en San Diego.
Ps. Cualquiera que no aprecie la ironía en el «no, otra Gran-Profecía-del-Fin-de-Algo» de John Horgan, debería.
Daniel Everett
El ensayo de Chris Anderson hace que me pregunte sobre la lingüística en la era de los petabytes. En la primera hora de la teoría lingüística en Estados Unidos, los lingüistas estuvieron, como todos los científicos, preocupados con el descubrimiento de las regularidades. La antropóloga Ruth Benedict primero, llamó «patrones en la cultura» a las regularidades en los modos de los humanos de dar significado al mundo. Más tarde, Edward Sapir, Kenneth Pike y otros buscaron patrones en el lenguaje, especialmente en las lenguas indias americanas que se convirtieron en el centro de la lingüística americana diferenciándose así de los incipientes estudios lingüísticos de los investigadores europeos. Habiendo acabado de terminar una guía de investigación de campo, mi propio énfasis pedagógico para los nuevos investigadores es en gran parte el mismo que el de los primeros estudios de las lenguas indígenas de las Américas –entrar en una comunidad que habla un idioma no estudiado y seguir procedimientos inductivos estándar para encontrar regularidades y patrones. Una vez que los patrones han sido descubiertos, articularlos como normas, anotar las excepciones y ahí lo tienes: una gramática.
Pero hay dos aspectos en los que los lingüistas están empezando a estar descontentos con esta metodología, como el resultado de unas cuestiones que conectan con las tesis de Chris Anderson. El primero, que los lingüistas han comenzado a cuestionar la relevancia de distinguir las reglas de las listas. Segundo, que han comenzado a preguntarse si el niño procede de facto como un pequeño lingüista en el aprendizaje de su lengua con procedimientos de inducción y deducción construidos en él genéticamente, o si el aprendizaje del niño del idioma tiene lugar de forma muy distinta del modo en que los lingüistas estudian en campo nuevas lenguas. La diferencia entre las reglas y las listas y los enunciados extensionales vs. intencionales es la confrontación de que la ley rige contra el desorden. Así, los humanos estamos motivados por nuestra evolución a clasificar. Estamos profundamente insatisfechos con los recuentos de datos que parecen más listas y «meras estadísticas» que generalizaciones basadas en la detección de un comportamiento estructurado por leyes. Y sin embargo, como muchos han empezado a señalar, algunos de los hechos más interesantes sobre las lenguas, especialmente los hechos cruciales que distinguen una lengua de otra, son con frecuencia listas, más que reglas (o esquemas). La gente tiene que aprender listas en cualquier lenguaje. Ya que tienen que hacerlo, ¿hay alguna razón para proponerles un segundo tipo de aprendizaje, o de adquisición en forma de reglas, estén las propuestas motivadas genéticamente o no? Más curiosamente ¿adquieren el lenguaje los niños basándose en un conjunto de hipótesis limitado genéticamente, o tratan el lenguaje como internet y funcionan como calculadoras estadísticas, como pequeños «Googlers»? Los psicólogos conexionistas de Carnegie Mellon, Stanford y otras universidades han impulsado hipótesis relacionadas con nosotros durante años, aunque los lingüistas han tardado en abrazarlas.
La lingüística tiene mucho que hacer durante los próximos años para restituirse a sí misma en la era de los petabytes. Las generalizaciones estadísticas sobre grandes cantidades de datos pueden ser más útiles en algunos aspectos, al menos si las usamos como herramientas paralelas, que la reflexión superficial sobre pequeños montones de datos que caracteriza a los primeros modelos de las ciencias humanas. Puede muy bien ser, de hecho a muchos de nosotros nos parece más probable, que los modelos previos basados principalmente en la inducción o en los genes eran incapaces de explicar qué es lo fundamental qué queremos explicar –cómo los niños aprenden las lenguas y cómo las lenguas pueden diferir de interesantes formas mientras comparten profundas similitudes.
Gloria Origgi
Estoy de acuerdo con Daniel Hills en que lo que dice Chris Anderson: aunque provocador y oportuno, no es exactamente una nueva noticia. La ciencia se ha valido siempre de las correlaciones con el fin de ganar fuerza predictiva. La ciencia social más que otras ciencias: tenemos pocos mecanismos causales sólidos que expliquen por qué la gente se comporta de un modo o de otro, o por qué estallan las guerras, pero un montón de correlaciones sólidas –para las que no tenemos fundamentos– que es mejor tener en cuenta si queremos entender mejor un fenómeno. Si el aumento de la tasas de mortalidad infantil resulta estar correlacionado con la caída del Imperio soviético (como se ha señalado), es en efecto información relevante, aunque carezcamos de una explicación causal para ello. De modo que buscamos un posible mecanismo causal que sustente esta correlación. La buena ciencia social encuentra mecanismos causales que no son completamente ad hoc y que sustentan las generalizaciones en otros casos. La mala ciencia social se atasca en las interpretaciones que suelen confirmar los prejuicios ideológicos del científico. La ciencia describe, predice y explica el mundo: las correlaciones ayudan a predecir, y también pueden describir el mundo de una nueva forma, como un enredado conjunto de petabytes, pero no explican nada si no son sustentadas por un mecanismo causal. La función explicativa de la ciencia, esto es, responder los porqués, puede ser sólo un pequeño elemento de la empresa en su totalidad: y de hecho, coincido plenamente con Anderson en que las técnicas y los métodos de recopilación de datos pueden ser transformados completamente por la densidad de la información disponible y la existencia de algoritmos estadísticos que filtren esta información con una tremenda capacidad de computación.
Así que nada de nostalgia por los buenos viejos métodos si las nuevas técnicas de compilación de datos son más eficientes para predecir eventos. Ni nada de nostalgia por los «malos» modelos si las nuevas técnicas son lo suficientemente buenas como para proporcionarnos comprensión (la Inteligencia Artificial frente a los motores de búsqueda, por ejemplo). De modo que, pensemos en la era de los petabytes como una era en la que «el contexto del descubrimiento», por usar el viejo estribillo de la filosofía de la ciencia, es masivamente mecanizado por el tratamiento algorítmico de enormes cantidades de datos, mientras que el «contexto del descubrimiento» sigue perteneciendo a la ambición humana de dar sentido al mundo que nos rodea.
Esto deja sitio para los porqués, es decir, ¿por qué algunas de las correlaciones estadísticas extraídas por los algoritmos son tan condenadamente buenas? Sabemos que son buenas porque tenemos la intuición de que funcionan y de que nos dan la respuesta correcta, pero este «equilibrio reflexivo» entre las respuestas clasificadas de Google a nuestras peticiones y nuestra intuición de que la clasificación es satisfactoria sigue necesitando ser explicado. En el caso de PageRank, me parece que el algoritmo incorpora un modelo de la web como una red social estructurada en la que cada link de un nodo a otro es interpretado como un «voto» de ese nodo al otro. Esto me suena a «teoría», a método de extracción de información que, aunque sea realizado por máquinas, se realiza en la base de una conceptualización de la realidad con el fin de obtenerla correctamente.
Puede surgir una nueva ciencia en la era Petabyte, esto es, una ciencia que intenta responder las preguntas a cómo los procesos de la inteligencia colectiva hicieron posible, mediante las nuevas y enormes cantidades de datos que pueden combinarse fácilmente por potentes algoritmos de forma fiable. Quizá sea una ciencia «más suave», totalmente nueva, liberada al fin de la carga del rigor de los «métodos cuantitativos» que hacen a los documentos científicos tan aburridos de leer, que deja esta carga para los algoritmos y deja que las mentes se muevan libremente entre los datos en el más creativo sentido. La ciencia puede convertirse en un juego más barato desde el punto de vista de las inversiones para descubrir nuevos hechos: pero, como filósofa, no creo que estos juegos intelectuales baratos sean un desafío menor o que merezcan menos jugarse.
Lee Smolin
Para saber qué pensar sobre la hipótesis de Anderson de que el almacenamiento y procesamiento informáticos de cantidades masivas de datos reemplazarán la necesidad de formular hipótesis y teorías, se puede ver si tiene alguna relevancia en la forma en que las supercomputadoras están siendo actualmente usadas en la física contemporánea. Un ejemplo que me viene a la mente es el de la astronomía de ondas gravitacionales, en la que una señal amplia al receptor hace imposible observar las ondas gravitacionales a partir de lo que producen los detectores. En vez de eso, los flujos de datos masivos creados por la LIGO, VIRGO y otras antenas de ondas gravitacionales son escaneados por ordenadores sobre plantillas con formas de onda creadas por los teóricos que modelan las posibles fuentes. Estas fuentes, como la rotación espiral y la fusión de los agujeros negros y las estrellas de neutrones, precisan por sí mismas una simulación en superordenadores para producir las plantillas necesarias.
¿Cuál ha sido la experiencia tras varias décadas de trabajo? Mientras que las ondas gravitacionales no han sido hasta ahora identificadas, los detectores están activos y en funcionamiento, como los programas que generan las plantillas con las formas de las ondas a partir de las fuentes simuladas por el superordenador. Alcanzar este estadio ha requerido una gran cantidad de cómputos, pero que han sido guiados en cada fase por los conocimientos teóricos y los enfoques analíticos. Las cuestiones claves que asomaban fueron resueltas por teóricos que lograron comprender lo que estaba yendo bien y mal en sus simulaciones, porque eran capaces de formular hipótesis y probarlas con cálculos analíticos. Aunque no trabajo en este campo, he tenido claro todos estos años en que he estado observando su desarrollo que el progreso era gracias a los buenos físicos que hacían lo que los buenos físicos hacen siempre, construir historias y dibujos intuitivos en sus mentes que les conducen a hipótesis probables. El hecho de que las hipótesis se basaran en lo que estaba sucediendo en sus simulaciones informáticas, y no en los datos que provenían de las observaciones, no quita que se utilizase la misma clase de creatividad y pensamiento intuitivo, como es tradicional en la ciencia no computacional.
Algo parecido sucede en la cosmología, en la que las simulaciones por ordenador de la formación de la estructura son parte de un arsenal de herramientas, algunas computacionales, otras analíticas y otras intuitivas, que siempre son puestas a prueba y comprobadas unas con otras. Y también se da algo parecido en los estudios numéricos de la física de hadrones, en la que hay una interacción de resultados e ideas entre las simulaciones del superordenador y los enfoques analíticos. También, los obstáculos claves que surgieron tuvieron que ver con cuestiones de principios físicos; hasta qué punto las simetrías en la teoría están rotas en los modelos númericos. Ha llevado mucho trabajo creativo y de pensamiento físico intuitivo, para superar estos obstáculos, que nos ha llevado recientemente a conciliar teoría y experimento.
Del resultado de observar el desarrollo de estos y otros campos numéricamente intensivos, tengo claro que mientras la simulación numérica y la computación son unas herramientas muy útiles, sólo son de ayuda cuando son utilizadas por los buenos científicos para mejorar sus poderes de razonamiento creativo. Rara vez se logra algo «volcando un problema a un ordenador», sino que a una simulación le lleva años e incluso décadas de cuidadoso mantenimiento y desarrollo hasta llega al punto en que cede a la ayuda externa, y siempre que se ha hecho así ha sido por el trabajo de teoría creativa y fundamentada, como la que ha estado tradicionalmente en el núcleo del progreso científico.
Joel Garreau
Quizá las cosas son diferentes en la física y la biología. Pero por mi experiencia al estudiar la cultura, los valores y la sociedad, los datos demoran la realidad por definición –son un pantallazo del pasado. Y cuando la realidad humana no se alínea convenientemente con los modos establecidos de pensar, los datos pueden retrasarse durante años, si no décadas.
Los datos son un artefacto de selección, lo que significa que reflejan una hipótesis subyacente, ya que si no, no habrían sido recogidos. Por ejemplo, en mi trabajo descubrí que no tenía datos a tiempo para «probar» mi hipótesis de que Norteamérica estaba actuando como si consistiera en nueve civilizaciones o economías separadas que rara vez son ligadas por las jurisdicciones políticas de los países, estados o condados. Era igualmente problemático sacarme datos para probar que lugares como Silicon Valley se estaban convirtiendo en una versión moderna de la «ciudad», aunque sus millones de metros cuadrados de grandes edificios estuvieran justo ante nuestros ojos. Hasta que aquellos modelos de las «nueve naciones» o la «ciudad en las afueras» no empezaron a ser considerados útiles por otros, la gente no comenzó a pasar por el gran problema de verificarlos reuniendo datos de una forma que no conocía los límites anteriores. La vida no está obligada a seguir los datos, y no es algo que haga con frecuencia.
Ahora los pensadores producen hipótesis con las que se puede trazar un mapa del cambio cultural y social sobre la Ley de Moore. Será interesante ver el momento en que los datos demuestren apoyar sus predicciones. Ray Kurzweil y los de la Singularidad ven una curva exponencial que conduce finalmente a la perfección de la humanidad análoga a la versión cristiana del «cielo». Los pesimistas como Billy Joy, Francis Fukuyama, Susan Greenfield y Martin Rees ven una curva gemela que conduce rápidamente a algo parecido al «infierno». Ambas hipótesis son creíbles. Pero los datos se retrasan. Es difícil encontrar «pruebas» de que estemos llegando a lo uno o a lo otro, aunque se basen en las bellas y tersas curvas tecnodeterministas, de esas que rara vez han sido –si es que lo han sido– un objeto importante en la historia de la humanidad. Sabe Dios cómo se podría demostrar, a través de los datos, la llegada de la hipotesis «predominante» descrita por Jaron Lanier y otros. Esa hipótesis se basa en la idea de que un aspecto importante de la futura historia es que estamos cubriendo el incremento de nuestros retos mediante las respuestas imaginativas, tercas, maledicentes y colectivas nutridas desde abajo por los hombres, desviando los acontecimientos en direcciones impredecibles. En una gráfica, el resultado –como mucha de la materia prima de la historia– se mostraría probablemente tan organizado como un plato de espaguetis. Me encantaría pensar que la ausencia de datos tras las hipótesis –mucho menos la realidad– está a punto de cambiar. (¡Al fin! ¡Una bola de cristal!) Pero espero impaciente una demostración.