The world that Bert built. Huge ‘foundation models’ are turbo-charging AI progress

Cita: 

The Economist [2022], “The world that Bert built. Huge ‘foundation models’ are turbo-charging AI progress”, The Economist, London, 11 de junio, https://www.economist.com/interactive/briefing/2022/06/11/huge-foundatio...

Fuente: 
The Economist
Fecha de publicación: 
Sábado, Junio 11, 2022
Tema: 
Los “modelos fundacionales”, un avance reciente en inteligencia artificial que apunta a transformar la economía.
Idea principal: 

La empresa diseñadora de chips Graphcore intenta construir una supercomputadora 10 veces más potente que la mejor actualmente, que se ubica en el Oak Ridge National Laboratory, en Estados Unidos. La computadora que intenta construir Graphcore se llama “Good Computer”. El nombre de esta computadora no se refiere a que sea “buena”, sino que es un homenaje a Jack Good, un científico que trabajó con Alan Turing. En 1965 Good publicó un artículo influyente, titulado “Speculations concerning the first ultraintelligent machine” [Especulaciones en relación con la primera máquina ultrainteligente]. Graphcore aspira a que su Good Computer sea la primera máquina ultrainteligente, o al menos que represente un primer gran paso en esa dirección.

Para lograr producir máquinas ultrainteligentes, las empresas están construyendo modelos de inteligencia artificial (en adelante, IA) con un número creciente de “parámetros” (coeficientes aplicados a diferentes cálculos dentro de un programa). En 2018, Google dio a conocer un revolucionario modelo de procesamiento del lenguaje natural llamado Bert, que incorporó 110 millones de parámetros. En 2022, sólo 4 años después del lanzamiento de Bert, los programas de IA más avanzados son 10 mil veces más grandes, con más de un billón [trillion] de parámetros. Graphcore aspira a que su Good Computer sirva para ejecutar programas con aproximadamente 500 billones de parámetros.

Hasta antes de la puesta en funcionamiento de Bert, se creía que al añadir parámetros a los modelos se alcanzaría un punto donde los rendimientos serían decrecientes. No obstante, se demostró que sucede lo contrario: el desempeño de los modelos mejora constantemente conforme se vuelven más grandes, al incorporar más parámetros y ser entrenados con más datos. “Bigger is better” (cuanto más grande, mejor), se dice en la industria. Como resultado de lo anterior, los nuevos modelos superan por mucho el desempeño de los que los precedieron.

Además, los nuevos modelos de IA han demostrado nuevas capacidades no planeadas ni esperadas por sus creadores, conocidas como capacidades emergentes. Algunas de estas capacidades son simples, como que un modelo que no fue diseñado para hacer operaciones matemáticas sencillas pueda hacerlo; otras, son más sorprendentes, como la capacidad de los sistemas de generación de texto para describir imágenes con suma precisión y de explicar metáforas o analogías no explícitas en las imágenes.

Otra capacidad notable de los sistemas de IA más recientes es la capacidad de generar imágenes a partir de indicaciones mediante texto. En el artículo, el semanario británico muestra algunas imágenes generadas por un modelo llamado Midjourney. Este sistema de IA puede incluso imitar el “estilo” de algún artista, aprendido a partir de las imágenes con las cuales fue entrenado.

Otro caso de capacidades emergentes de los nuevos modelos de IA es el de GPT-3. GPT-3 es un modelo fundacional de generación de lenguaje que puede escribir código computacional aun cuando no fue diseñado específicamente para ello. Al ser entrenado con millones de páginas de internet, GPT-3 no sólo aprendió a escribir frases en inglés, también aprendió a escribir código. Hay dos servicios basados en GPT-3, llamados Codex y Copilot, a los cuales los programadores pueden dar instrucciones con la descripción de lo que quieren hacer y el modelo entregará líneas de código.

Las propiedades emergentes de los sistemas de IA están vinculadas con otro uso sumamente prometedor: la flexibilidad. Mientras que las generaciones previas de sistemas de IA sólo podían ser usadas para objetivos muy específicos y claramente delimitados, se espera que los nuevos modelos puedan ser reasignados para nuevos usos con relativa facilidad, únicamente realizando pequeños ajustes. Debido a esta característica de servir como fundamento para múltiples herramientas, estos nuevos modelos de IA se conocen en la industria como “modelos fundacionales” [foundation models].

A partir de la década de 1990, los historiadores económicos comenzaron a hablar sobre las “tecnologías de propósito general” (TPG) como factores que impulsaban el incremento de la productividad en el largo plazo. Entre las TPG más importantes se encuentran la imprenta, la máquina de vapor y el motor eléctrico. Las características más importantes de las TPG son: 1) un rápido mejoramiento de las tecnologías; 2) amplia aplicabilidad entre sectores; y 3) su desarrollo estimula nuevas innovaciones en productos, servicios y modelos de negocios asociados. A partir del desarrollo de los modelos fundacionales, la IA cada vez parece más una TPG.

Hay varios motivos de preocupación en relación con la aplicación de la IA: que su difusión genere una mayor concentración de poder económico y político; que reproduzca sesgos de manera automatizada en la sociedad; que la IA se vuelva negativa e incontrolable conforme los modelos se vuelven más y más grandes.

The Economist se pregunta, ¿por qué los modelos fundacionales representan un “cambio de fase” en el desarrollo de la IA? Al igual que otros modelos precedentes, los modelos fundacionales usan “redes neuronales”, una forma de programación que imita la forma en que las células cerebrales procesan la información. El punto de quiebre hacia los modelos fundacionales se dio en 2017, cuando investigadores de Google y de la Universidad de Toronto inventaron una nueva arquitectura de software que fue usada por Bert, de Google. A diferencia de las arquitecturas previas, que trabajaban con los datos de manera secuencial, Bert se basó en un mecanismo que “miraba” todos los datos de una sola vez –no mediante el procesamiento de dato por dato–, para identificar patrones en el conjunto.

Otro cambio relevante es que los modelos fundacionales no se entrenan con series de datos previamente etiquetados, sino mediante una técnica llamada aprendizaje auto-supervisado [self-supervised learning]. Bert se entrenó de la siguiente manera: en un texto, el modelo se escondía palabras a sí mismo para adivinar la palabra faltante considerando el texto que la acompaña; al repetir este proceso miles de millones de veces, Bert aprendó a adivinar con creciente precisión las palabras faltantes. Aunque esta técnica se diseñó inicialmente para adivinar palabras faltantes en textos, ha demostrado ser muy útil para el tratamiento de otros datos, como imágenes, videos, información molecular, entre otras.

El ritmo de innovación es vertiginoso: difícilmente pasan un par de semanas sin que alguna empresa anuncie un nuevo modelo fundacional aplicado a nuevas áreas. Asimismo, grandes empresas –como IBM o Accenture– y numerosas startups están buscando la manera de aplicar los modelos fundacionales a nuevos procesos, productos y servicios.

Debido a las características de los modelos fundacionales, hay grandes expectativas sobre su impacto económico. No obstante, incluso antes de que estos modelos se incorporen a la vida cotidiana, hay preocupaciones por los riesgos que implican. Por ejemplo, una preocupación es que los modelos sean menos útiles de lo que parecen debido a que sus respuestas sean básicamente repeticiones de los datos con que fueron entrenados. Otra preocupación es que inventen respuestas que no se basen en la realidad, lo que se conoce como “alucinaciones de IA”. Otra, que en sus respuestas reproduzcan sesgos al recibir instrucciones con premisas tendenciosas o por los datos con que fueron entrenados.

Ante estos riesgos, los desarrolladores de IA están implementando técnicas para mejorar su desempeño y para evitar que reproduzcan discursos lesivos. Entre esas técnicas están algunas como el “reforzamiento de aprendizaje con retroalimentación humana” [reinforcement learning with human feedback].

Por otra parte, algunos investigadores temen que se pasen por alto otras consideraciones, como su impacto social. Por ejemplo, el economista Erik Brynjolfsson, profesor de la Universidad de Stanford, señala que el interés por automatizar funciones humanas hace que se dejen de lado posibilidades alternativas, que podrían permitir aumentar lo que la gente hace, en lugar de sustituirla. Esto podría llevar a una mayor concentración de la riqueza y el poder en la sociedad. The Economist reconoce que en algunos aspectos esa concentración ya es evidente. Por ejemplo, Google y Microsoft no sólo son de los más importantes desarrolladores de modelos fundacionales, sino que además controlan la nube [cloud computing] donde esos modelos se ejecutan. Por otra parte, se estima que en los próximos años entrenar un nuevo modelo de IA costará más de mil millones de dólares. Los elevados costos de desarrollar y entrenar nuevos modelos de IA impiden que organizaciones sin fines de lucro y universidades participen del desarrollo de esta tecnología, lo que hace que la agenda de investigación quede dominada por empresas privadas. Otra razón que podría conducir a la centralización de la IA es que los gobiernos generen “campeones nacionales” al seleccionar y apoyar a unas pocas empresas.

Los modelos fundacionales también generan crecientes preocupaciones sobre la seguridad nacional. Mediante ellos, se podría generar desinformación y propaganda; los ejércitos podrían usarlos para diseñar estrategias en el campo de batalla. Por las posibilidades y peligros que plantea su uso, es probable que los militares quieran tener y controlar sus propios sistemas de IA.

Aunque prácticamente ningún experto en IA piensa que los modelos actuales puedan desarrollar sentimientos, algo que sí genera preocupación es el riesgo de que los modelos de IA puedan producir nuevos y mejores modelos, que a su vez produzcan otros mejores, en una curva exponencial.

Para concluir, el autor de la nota de The Economist señala que en el proceso de escribir el artículo recurrió a una herramienta de escritura basada en GPT-3 llamada CoAuthor. Reconoce que, al usarla, “la experiencia fue reveladora. Las sugerencias del EconoBot a menudo fueron poco útiles, pero a veces proporcionó inspiración sobre cómo terminar una frase o párrafo”. El EconoBot de CoAuthor concluye que los modelos fundacionales pueden ser inspiradores para los periodistas, pues estimulan la imaginación y ofrecen ideas novedosas para la escritura.

Datos cruciales: 

1.- Se estima que en 2022, 80% de la investigación en IA se centra en modelos fundacionales, con empresas como Meta (matriz de Facebook), Alphabet (matriz de Google) o Tesla a la cabeza.

Nexo con el tema que estudiamos: 

Los "modelos fundacionales" representan un paso adelante en el proceso de implementación de la inteligencia artificial, pues ofrecen posibilidades de aplicación rentable de esta tecnología y, además, ofrecen mayor flexibilidad para su adaptación a usos diversos, lo que puede contribuir a acelerar su difusión. No obstante, sus características económicas, en particular las economías de escala para su desarrollo e implementación, probablemente conducirán a una situación en la cual esta tecnología de vanguardia esté altamente concentrada en un puñado de empresas.