A.I. Is Mastering Language. Should We Trust What It Says?

Cita: 

Johnson, Steven [2022], "A.I. Is Mastering Language. Should We Trust What It Says?", The New York Times, New York, 17 de abril, https://www.nytimes.com/2022/04/15/magazine/ai-language.html

Fuente: 
Otra
Fecha de publicación: 
Domingo, Abril 17, 2022
Tema: 
Una revisión general sobre los alcances y los riesgos de la inteligencia artificial general y su expresión particular, los grandes modelos de lenguaje
Idea principal: 

Steven Johnson es escritor de libros populares sobre ciencia y tecnología. Es una autoridad líder en innovación, cuyos libros, podcasts y series de televisión han explorado las historias de algunos de los avances más cruciales en la historia de la salud, la medicina y la tecnología.


La empresa tecnológica OpenAI nació en 2015, destacando entre sus miembros fundadores a barones de la industria tecnológica como Elon Musk, Greg Brockman y Sam Altman. La firma tomó relevancia en el verano de 2020 con la creación del programa Generative Pre-Trained Transformed 3 (GPT-3), un programa informático con gran destreza en el lenguaje e ilusión de cognición capaz de responder preguntas complejas de final abierto con respuestas compuestas y complejas. Esta tecnología vendría a ser la evolución de los asistentes personales como Siri y Alexa que ofrecen un acercamiento a la conversación con máquinas.

GPT-3 es un tipo de inteligencia artificial (IA) que pertenece a una categoría del aprendizaje profundo llamada gran modelo lingüístico o gran modelo de lenguaje, la cual es una red neuronal compleja entrenada con vastos conjuntos de datos de texto (dato crucial 1). Cabe destacar que la IA es un gran campo fragmentado con diversas tendencias y propósitos, tal es el caso de la conducción autónoma, la robótica, el reconocimiento facial o la naciente resolución de problemas científicos complicados como la predicción de la estructura de proteínas, esencial para el desarrollo de fármacos.

La constante en los tipos de IA antes descritos es el aprendizaje profundo, el cual emula a la estructura de una red neuronal del cerebro humano con diferentes capas de neuronas artificiales que corresponden a niveles de abstracción cada vez más altos; con el aprendizaje profundo se puede aprender a identificar patrones o resolver problemas mediante bucles de ciclos “ensayo-error”, mejor conocido como entrenamiento.

De esta manera, el entrenamiento que ha tenido GPT-3 le ha permitido realizar tareas sencillas como autocompletar (escribir la palabra que falta de una oración) hasta escribir párrafos enteros con un estilo lingüístico y sintáctico definido por el usuario. A su vez, la potencia computacional desarrollada por GPT-3 ha permitido que otros modelos de lenguaje (como los de Meta o Google y su filial Deepmind) tomen nota y utilicen mayores conjuntos de datos y empleen capas mucho más profundas de neuronas artificiales para su entrenamiento.

Toda la potencia computacional requerida por OpenAI es alimentada por un complejo de superordenadores en Iowa, Estados Unidos, del que se presume es el más potente de todo el planeta. Son 285 mil núcleos de CPU unidos a un superordenador gigante, movido por paneles solares y refrigerado por ventiladores industriales, los cuales operan las 24 horas del día realizando cálculos con las técnicas de IA más avanzadas.

En términos generales, el potencial de los grandes modelos de lenguaje supone una próxima revolución en la forma de buscar información a través de preguntas que generarían una respuesta de forma convincente y precisa; así, servicios como el de atención a clientes podrían transformarse por completo al sustituir el trabajo humano por un gran modelo de lenguaje. No obstante, hasta el momento esta tecnología únicamente ha sido utilizada para realizar experimentos que prueban la inteligencia del modelo, explorando sus usos creativos pero también develando sus sesgos y delirios; esto ha puesto de manifiesto sus limitaciones y el potencial dañino si se adopta en esta fase aun temprana.

Como se mencionó, el potencial comercial de los grandes modelos de lenguaje puede implicar la sustitución del trabajo humano en ciertas áreas, sin embargo, esta característica no es exclusiva de este tipo de IA, sino que más bien es generalizada para el campo de la IA y la robótica. En tal sentido, los pronosticadores la catalogan como una amenaza que en sus inicios tenía que ver con el desplazamiento de los trabajadores de las cadenas de montaje, pero que ahora, con el surgimiento de GPT-3, profesiones de más alto perfil podrían mermar su requerimiento humano; esta idea se funda en las capacidades de autoaprendizaje de GPT-3, tal es el caso de la habilidad adquirida para programar sin que los desarrolladores hubieran incluido deliberadamente ejemplo de código informático, pero que el gran modelo de lenguaje pudo aprender con la ayuda de su propio código y de información obtenida en internet. Así, GPT-3 ha adquirido la capacidad de generar documentos sofisticados como licencias o contratos de arrendamiento, además que ha servido para que OpenAI cree Codex, una interfaz que genera código informático en 12 lenguajes partiendo del lenguaje natural.

Así como hay adeptos de la IA y los grandes modelos de lenguaje, también existen sus detractores. En este marco, los escépticos consideran que los sesgos y la desinformación siempre serán intrínsecos a estas tecnologías, debido al uso que le pueda dar el usuario final. Por otra parte, los críticos ponen en cuestión la limitación de este tipo de IA ya que consideran que nunca logrará madurar hasta alcanzar el tipo de inteligencia humana ya que solo imitan patrones de lenguaje humano, pero son incapaces de generar sus propias ideas o tomar decisiones complejas; de este modo, este sector considera que solo se trata de la invención de moda de la IA que desatiende el desarrollo de tecnologías más prometedoras.

Ante esto, y de acuerdo con las tendencias, el despliegue comercial de los grandes modelos de lenguaje es casi seguro, lo que pone sobre la mesa el cómo debería desplegarse sobre el mundo y cómo regular y gestionar algo de semejante magnitud, si se considera que será superior a los efectos que tuvo la llegada de las redes sociales de grandes tecnológicas como Facebook y Google.

¿O deberíamos construirlo?

La llegada de OpenAI en 2015 es particular ya que en el mundo se suscitaban dos acontecimientos importantes para la industria tecnológica:

Por un lado, el avance en la potencia computacional y las redes neuronales en el aprendizaje automático con la creación del programa AlexNet para identificar clases de objetos en fotografías –una IA artificial muy superior a las anteriores desarrolladas– y que le sucedieron Google Brain y los asistentes inteligentes como Siri y Alexa.

Por otro lado, las críticas generadas por las actitudes públicas de empresas como Google y Facebook debido a sus prácticas monopólicas y el enfoque de sus algoritmos sobre los usuarios, se agravaron con los temores en el largo plazo de la IA cristalizadas y difundidas por la obra de Nick Bostrom de la Universidad de Oxford, titulado “Superinteligencia” (donde predice el potencial desastroso de la IA si se desvía de los intereses primordiales), y los comentarios de Stephen Hawking en 2014 a la BBC sobre el nexo entre el desarrollo de la IA y el fin de la raza humana. Ambas posturas hicieron que las redes sociales fueran vistas negativamente porque era evidente la polarización y la manipulación que ejercían las grandes empresas tecnológicas de Silicon Valley sobre la sociedad; un preludio a lo que Bostrom y Hawking habían mencionado.

Desde ese entonces, los fundadores de OpenAI (Sam Altman y Greg Brockman) comenzaron a plantearse la gestión de la llamada inteligencia artificial general (IGA, por su sigla en inglés) y así evitar escenarios peligrosos como los que aparecieron con la llegada de la web 2.0. Para tal cuestión, Altman y Brockman tenían en mente que el despliegue de la IGA requeriría de innovación por parte de los gobiernos y las corporaciones involucradas; no obstante el cómo lograrlo aún no estaba claro.

En diciembre de 2015 se consolida la formación de OpenAI con Altman como director ejecutivo y Brockman supervisando la tecnología, cabe destacar que entre sus filas se encuentra el cocreador de AlexNet y jefe de investigación de Google, Ilya Sutskever (también estaba Elon Musk pero este se retiró en 2018). Brockman y Sutskever dejaron en claro que OpenAI es una empresa sin ánimos de lucro creada para hacer que la IA beneficie a la humanidad en su conjunto con la generación de beneficios económicos, por lo que la IA debe ser tomada como una extensión de la voluntad humana individual y su distribución debe ser lo más equitativa posible; esta fue la razón por la cual OpenAI prometió hacer del dominio público su trabajo mediante el esquema de código abierto, una acción contraria a lo que las grandes tecnológicas hicieron (y hacen) para alcanzar el éxito, es decir, cerrar su código y patentarlo.

La tarea de ser lo más transparente posible en OpenAI tomó tiempo, desde la cimentación de los principios de la empresa en 2018. Para 2022, 20% de la organización se dedicaba a revisar temas de alineación de la tecnología con los intereses de la humanidad, dicha labor se escinde en varios puntos:

• Revisar cómo es utilizado su trabajo por desarrolladores externos.
• Crear herramientas para reducir el riesgo a la desinformación o discursos de odio.
• Prohibir que su software de IA sea utilizado para manipular las decisiones sobre créditos, servicios, empleos, spam, promoción de pseudofármacos, etc.
• Bloquear el uso del software de la empresa si se utiliza para influir en procesos políticos.

Un hecho que destaca es que la empresa bajo el eslogan de código abierto y sin ánimos de lucro, se vería obstaculizada en materia de financiamiento ya que la tecnología e infraestructura para desarrollar IGA es cuantiosa. Las opciones eran mantenerse al margen de la investigación en IA y dejar lo más grande a las grandes firmas tecnológicas, o bien, conseguir financiamiento y dejar su empresa en manos de los inversores.

De este modo, en 2019 se optó por crear OpenAI L.P., una empresa con ánimos de lucro subordinada por OpenAI, a simple vista una empresa emergente respaldada por capital de riesgo, en donde los principales inversores fueron Khosla Ventures y más tarde Microsoft. Así, esta “nueva” OpenAI se fundó bajo un modelo de beneficios limitados, es decir, los inversionistas tenían un tope de beneficios (dato crucial 3), y cualquier beneficio adicional se destinaría hacia la OpenAI “original”. En términos generales, las inversiones servirían para conseguir la construcción de un ordenador gigante para llevar a cabo las operaciones complejas que requiere la IGA y además continuar con la misión principal de desarrollar IA segura y equitativa.

Sin embargo, las críticas señalaron que OpenAI había traicionado los principios del código abierto, alineándose cada vez más con las prácticas restrictivas de su socio Microsoft y del gigante Google; al final del día, el haberse asociado con Microsoft ayudó a OpenAI a crear el superordenador de Iowa antes citado. Las críticas aumentaron cuando la empresa decidió no compartir el código de GPT-2 argumentando ser peligroso para el público; cuando se lanzó GPT-3, la empresa emergente fue menos restrictiva con la compartición del código del gran modelo de lenguaje, no obstante, los desarrolladores externos tenían que pasar por una revisión de seguridad para obtener el visto bueno de la empresa. Para Sam Altman y la vicepresidenta de OpenAI, Mira Murati, se trataba de ir desplegando paulatinamente GPT-3 por cuestiones de seguridad y también porque su esquema de negocio de beneficios limitados requería que el acceso público fuera más controlado que como se hacía de costumbre entre los desarrolladores de código abierto; en suma, un cambio gradual era mejor que un cambio repentino.

Mientras que muchas de las IA existentes intentan codificar el mundo, GPT-3 predice la siguiente palabra mediante entrenamiento. En otros términos, cuando el modelo de lenguaje recibe un mensaje que pide que complete determinada frase, mediante cálculos aleatorios y probabilísticos arrojará sugerencias; una secuencia que terminará por arrojar la respuesta correcta o más precisa, guardando en su base de datos la respuesta correcta y desechando las incorrectas. Se trata de un proceso iterativo que genera sugerencias y de esta manera refuerza las conexiones neuronales hasta que el software aprende. En la actualidad GPT-3 tiene además la capacidad de recibir instrucciones directas, puede recibir la misma instrucción una y otra vez y arrojará resultados únicos, pero bien articulados y lúcidos (pedir recetas de cocina, escribir poesía, etc).

Estas capacidades logradas por GPT-3 se añaden al historial de la IA por conseguir la capacidad de cognición. Sin embargo, expertos como la profesora de lingüística Emily M. Bender y el ex-investigador de Google Timnit Gebru, consideran que los grandes modelos de lenguaje no poseen inteligencia como tal, sino que se tratan de loros estocásticos que utilizan la aleatoriedad para remezclar frases e información de autoría humana. En ese sentido, Bender considera que no se trata de un avance en la IA cualitativo sino cuantitativo, es decir, su infraestructura (tanto de software como de hardware) ha conseguido procesar y acumular enormes cantidades de datos; además de la innovaciones económicas, ahora las bases de datos se han ampliado, por lo que la información fluye fácilmente para poder lucrar. Gary Marcus -profesor emérito de la Universidad de Nueva York-también comparte las ideas de los antes citados, para el no hay habilidades lingüísticas sino más bien una mezcolanza de información, parafraseando la información de las bases de datos de internet; no existe un entendimiento de las ideas subyacentes.

De este modo, las expresiones de la IA deben “moverse” con cautela. Los grandes modelos de lenguaje pueden representar una revolución en la manera de descubrir información -y desplazar a los motores convencionales o enciclopedias en línea como Wikipedia- y ser el punto de inflexión hacia la IGA. Pero se habla de tomarlo con cautela porque podría ser todo lo contrario y en efecto, los chatbots del momento podrían resultar en loros estocásticos, por lo que se estaría destinando recursos -económicos e intelectuales- en un falso oráculo. En relación con esto (y para complementar este debate) también existe la cuestión sobre la razón del por qué GPT-3 y sus similares toman las decisiones que toman, qué es lo que subyace realmente detrás de sus algoritmos; un sector considera que se está logrando una compresión de alto nivel debido a la complejidad de la red neuronal, otro tanto cree que no se puede llegar a la cognición unicamente con el ejercicio de autocompletar (adivinar la palabra) indefinidamente.

Si se puede hablar de inteligencia, pero “emergente” entonces debe de reconocerse que los grandes modelos de lenguaje se fortalecen de manera constante mediante las pruebas estándar de compresión lectora (dato crucial 4). Además en el caso de GPT-3, es más que un montón de citas extraídas de internet ya que cada texto generado está hecho a la medida de lo que el usuario solicitó (lo cual abre otro debate sobre sí considerarlo plagio o no). Junto con esto, también es importante considerar que GPT-3 nació sin conocimientos sobre los sistemas gramaticales humanos como sí sucedía con invenciones previas de IA (dato crucial 5), por lo que su capacidad para escribir frases complejas y presentar argumentos competentes fueron producto del entrenamiento de la predicción de palabras. A este respecto, Tulsee Doshi -del equipo de IA y Lógica responsable de Google- considera que esto se trata de una primera fase en las redes neuronales en el proceso de compresión de conceptos más complejos (dato crucial 6), no obstante esto no significa que los grandes modelos de lenguaje comprendan y perciban el pensamiento como el ser humano; ante esto es muy difícil no caer en la falacia de personificar al gran modelo de lenguaje.

A Mirai Murati también se le ha cuestionado sobre la capacidad de compresión de los sistemas de aprendizaje profundo, su respuesta ha sido demasiado puntual al decir que GPT-3 tiene una “concepción bastante buena” de todas las cosas que se le pide que haga, citando a la red neuronal visual DALL-E -una versión de GPT-3 que genera imágenes complejas a partir de texto- y su tasa de éxito al generar figuras tan antropomorfizadas como lo haría un humano. En este marco, Steven Johnson también comprobó esta capacidad emergente al pedirle a GPT-3 que hiciera una comparación entre un delfín y la música de Brian Eno, dos cosas sin relación aparente y hecho así con el objetivo de que el modelo de lenguaje no parafraseará textos escritos por humanos en internet; el resultado arrojó una respuesta bastante compleja, y en algunas partes absurdas, pero es un hecho que el trabajo fue de un nivel superior y sutil considerando que el ensayo fue hecho en medio segundo.

En el tema de la capacidad de compresión y pensamiento, el escenario ciertamente está dividido, lo mismo sucede con la capacidad de los grandes modelos de lenguaje para captar el sentido común. Para Melanie Mitchell -científica del Santa Fe Institute- este tipo de IA tiene que comprender al mundo para entender verdaderamente el lenguaje, es decir, tiene que conocer el contexto en el que se desarrollan las cosas y los pormenores y obviedades de las situaciones. A este debate, la oposición piensa que con datos suficientes un gran modelo de lenguaje puede comprender el mundo y desarrollar algo parecido al sentido común; Blaise Aguera y Arcas -investigador en Google- añade que la estadística pura puede sustituir a la compresión, para poner a prueba esta idea, realizó ensayos con el modelo de Google, LaMDA y GPT-3 para determinar la capacidad de compresión del conocimiento interno en escenarios ficticios por ambas IA. En este sentido, Johnson considera que los resultados del ejercicio de Aguera y Arcas en GPT-3 tiene sus “huecos” pero en sí, existe coherencia en la historia que se desarrolló.

En suma, tomando en cuenta a GPT-3, existe una posibilidad de que con estadística esta tecnología pueda alcanzar un tipo de cognición superior sobre la realidad de las cosas, una habilidad que sería una evolución de las correlaciones estadísticas entre vastos grupos de palabras con las que actualmente se entrena, o bien, no se trataría de eso sino más bien de una parte de lo que se considera pensamiento.

Pero el debate más polémico gira en torno a la confiabilidad en los grandes modelos de lenguaje basado en la cantidad de respuestas erróneas, ofensivas o falsas, que en la jerga especializada llaman alucinaciones. Dichas alucinaciones pueden derivar en escenarios catastróficos, tal es el caso de información conspirativa, discursos racistas o prescripciones médicas o de seguridad que ponen en peligro la vida misma. Para generar una respuesta a una pregunta, el gran modelo de lenguaje tiene que recurrir a internet para obtener la información, una fuente que al día de hoy está plagada de desinformación, prejuicios, toxicidad, etc. Para combatir estos riesgos, actores sociales como Bender et al., y la organización Distributed Artificial Intelligence Research (DAIR), junto con la técnica de OpenAI denominada Process for Adapting Languaje Models to Society (PALMS, una adaptación del modelo a la sociedad), han trabajado sobre estos fallos en los grandes modelos de lenguaje desde sus respectivos campos (datos cruciales 7 y 8). Para OpenAI esta es una tarea importante porque nunca habían tenido que “enseñar” valores a sus invenciones y pensar sobre su gobernanza.

La pregunta en cuestión es pues, quién debe tomar las decisiones de la gobernanza de la IA y sus expresiones como los grandes modelos de lenguaje que aboguen por políticas descentralizadas y en la medida de lo posible fuera de la maximización de beneficios, es decir, cómo se construiría una tecnología verdaderamente democrática. Para Sam Altman, la gobernanza de la IGA tiene que construirse de manera colectiva, que se compagine con los ideales de su socio Sutskever sobre la utopia de una IA que ame a la humanidad; para Johnson es una idea que resulta irónica porque resulta más fácil diseñar un cerebro artificial que se alinee con las palabras y acciones de la humanidad que decirle a la IA cuando y en qué contexto debe de ignorar al ser humano.

A pesar de que OpenAI sostenga estos valores descentralizados sobre la IA y presuma de tenerlos presentes en su estructura organizativa, aún no han dicho públicamente el cómo lo lograrán; para el autor, al final puede que Sam Altman y compañía terminen por hacer lo mismo que hacen los tecnócratas de Silicon Valley, tomar decisiones por un puñado de gente que ni siquiera es una muestra representativa de la humanidad; decisiones sin el consentimiento general como ha sucedido con las últimas oleadas de innovación.

Para ampliar el grupo de interesados en alinear la IA en pro de la humanidad, Johnson considera que en la medida que la tecnología que reside detrás de los grandes modelos de lenguaje se abarate, entonces existirá realmente la posibilidad que los verdaderos movimientos de código abierto construyan los protocolos básicos de la IA como sucedió en su momento con el internet (dato crucial 9). Otra opción es dejar que los gobiernos decidan sobre la ética de la IA encaminándose a un futuro donde el sector tecnológico cree y los gobernantes establezcan cómo utilizar dichas invenciones. Por otra parte, Gary Marcus del Laboratorio europeo de física de altas energías (CERN, por su sigla en inglés), considera que esta tecnología debe de seguir los mismos pasos que sigue el CERN; esfuerzos coordinados, multidisciplinares y multinacionales con los que han conseguido proyectos exitosos como el Gran colisionador de hadrones.

Independientemente de cómo se trazará la gobernanza y los valores de la IA, es un hecho que las máquinas han adquirido el lenguaje, o al menos la capacidad de escribir textos complejos sin la necesidad de la supervisión humana. Puede que sea una ilusión a la inteligencia como la caracterizó Gary Marcus, pero también existe la posibilidad de que la base de los grandes modelos de lenguaje, la predicción de la siguiente palabra, sea una analogía a lo que los niños hacen inconscientemente cuando están aprendiendo a hablar: escuchar el flujo de fonemas que produce un adulto, detectar los patrones y ponerlos a prueba anticipándose a las palabras que se pronuncian, quizás un paso esencial para desarrollar formas complejas de pensamiento que posibiliten el lenguaje.

Finalmente, Johnson considera que se trate de lenguaje o no, de una forma de inteligencia o no, es un hecho que pensar sobre cómo inculcar los valores y hacer políticamente correcta a la IA y sus expresiones, los grandes modelos de lenguaje, significa que se ha cruzado un umbral importante.

Datos cruciales: 

1) El gran modelo de lenguaje GPT-3 utiliza cerca de 700 gigabytes de datos extraídos de todo internet, incluida Wikipedia, complementados con una gran colección de textos de libros digitalizados. GPT-3 se ejecuta en 285 mil núcleos de CPU del clúster de superordenadores de Iowa.

2) Anexo que muestra el orden cronológico de la aparición de grandes modelos de lenguaje, coloquialmente conocidos como chatbots (esta lista está actualizada a 2023):

• ChatGPT: propiedad de OpenAI, ha ganado relevancia desde noviembre de 2022 debido a su capacidad para responder preguntas complejas, escribir poesía, generar código, planificar vacaciones y traducir idiomas. Su motor GPT en su versión 4 fue presentado en marzo de 2023 y ahora puede responder incluso a imágenes.

• Bing: en febrero de 2023 aparece el chatbot de Microsoft, el cual es similar al producto de OpenAI debido a que la gran tecnológica también es inversora y socio de la firma emergente. Este chatbot es introducido a su navegador principal de Microsoft con capacidades similares a ChatGPT solo que sus respuestas en ocasiones resultaron cuestionables y polémicas por lo que atrajo desde sus inicios la atención del público.

• Bard: es el chatbot de Google y fue lanzado en marzo de 2023 a un número limitado de usuarios en Estados Unidos y Reino Unido. Además de redactar correos electrónicos y escribir poemas, puede generar ideas, escribir entradas de blog y responder a preguntar con hechos y opiniones.

• Enhanced Representation through Knowledge Integration (Ernie, por su sigla en inglés): es el primer rival chino de ChatGPT propiedad del gigante de búsquedas Baidu. Presentado en marzo de 2023, se consideró un fracaso después de que se demostró que sus capacidades exhibidas en tiempo real eran grabadas.

3) Para los inversionistas iniciales, el límite máximo era 100 veces su inversión original; en comparación, los primeros inversionistas de empresas como Google o Facebook multiplicaban sus ganancias por más de 1 mil de su inversión inicial.

4) En diciembre de 2021, Deepmind anunció que su gran modelo de lenguaje Gopher obtuvo resultados en la prueba de referencia RACE-h, un conjunto de datos con preguntas de examen comparables a las de las secciones de lectura del SAT. Los resultados obtenidos sugieren que las habilidades de compresión de estas expresiones de la inteligencia artificial (IA) son equivalentes a las de un estudiante promedio de secundaria; cabe destacar que los grandes modelos de lenguaje han obtenido malos resultados en razonamiento lógico y matemático.

5) La mayoría de los productos de IA del pasado venían precargados con conocimiento previo, tal es el caso del algoritmo que ayudó a Deep Blue a derrotar en ajedrez a Garry Kaspárov en los años noventa.

6) En el caso de OpenAI, esta capacidad de aprendizaje profundo procede de la red neuronal visual llamada CLIP. En marzo de 2021, la empresa publicó un artículo donde anunciaba el descubrimiento de las neuronas multimodales, las cuales se activan conjuntamente en respuesta a categorías o conceptos generales. En este sentido, en los ensayos con CLIP también hallaron una red neuronal que se activaba de forma fiable al concepto general de araña -llamada neurona del hombre araña- evocando no solo imágenes de arañas sino también generando imágenes relacionadas con el personaje del cómic, “el hombre araña”.

7) Los riesgos sobre los grandes modelos de lenguaje dieron de que hablar a finales de 2020 cuando Bender, Gebru y coautores, publicaron la primera versión del artículo sobre los loros estocásticos exponiendo sus debilidades. Más tarde Gebru abandonó su puesto de trabajo en Google (una salida que fue igual de polémica), para formar Distributed Artificial Intelligence Research (DAIR) en donde actores diversos (incluidos de grandes firmas tecnológicas) han publicado investigaciones que abordan la cuestión de las alucinaciones de los grandes modelos de lenguaje.

8) En junio de 2021, OpenAI publicó un artículo en el que anunciaba a Process for Adapting Languaje Models to Society (PALMS). PALMS implica una capa adicional de intervención humana, definiendo un conjunto de temas generales que podrían ser vulnerables a GPT-3; una vez definidas las vulnerabilidades, el gran modelo de lenguaje realiza una actualización interna de su modelo, tomando un conjunto más pequeño de datos para su entrenamiento y seleccionado por humanos con la finalidad de tratar el tema adecuadamente, esta tarea se denomina “conjuntos de datos orientados a valores”.

9) Un grupo descentralizado de programadores conocido como EleutherAI publicó recientemente un modelo de lenguaje de código abierto llamado GPT-NeoX pero no tan potente como GPT-3.

Nexo con el tema que estudiamos: 

Esta revisión general de la inteligencia artificial general realiza un balance sobre las posibilidades de la inserción de esta tecnología en la actividad económica general así como el futuro de la gobernanza sobre dicha invención, en una época donde los grandes modelos de lenguaje han logrado poner al mundo en una situación un tanto compleja al cuestionarse sobre la creación del lenguaje y la cognición en una entidad ajena pero creada por el ser humano.

El artículo introduce una pregunta crucial, acerca de la adquisición de las capacidades: la persona humana no nace "conectada" si no que aprende de forma paulatina a enlazar con otras personas, descifrar situaciones y resolver problemas. Aunque las IA no alcancen nunca la singularidad, por sus capacidades de proceso (cantidad, velocidad) y la calidad de sus resultados puede llegar a imitar las funciones complejas del pensamiento humano. En esa vía, una cuestión capital reside en comprender justamente cómo funciona la mente humana, conocimiento básico para reproducir tales funciones.