Artificial intelligence. How AI models are getting smarter
Enviado por Alvaro Heras en Dom, 10/13/2024 - 22:04The Economist [2024], "Artificial intelligence. How AI models are getting smarter", The Economist, London, 10 de agosto, https://www.economist.com/schools-brief/2024/08/06/how-ai-models-are-get... [1]
Los modelos y mecanismos de Inteligencia Artificial (IA) son cada vez más inteligentes, sus redes neuronales aprenden rápidamente. Herramientas como ChatGPT, DALL-E 3, TikTok o Siri, utilizan modelos IA basados en redes neuronales, entrenados con grandes cantidades de datos e información.
Los datos son cruciales para que las conexiones neuronales de la IA "aprendan" de forma más eficiente. Esto se logra extrayendo hallazgos útiles mediante modelos de lenguaje extenso (LLM, por su sigla en inglés; tal es el caso de ChatGPT, Gemini y Claude) y modelos basados en creación de imágenes (dato crucial 1).
Los modelos LLM tienen limitantes, tales como la incapacidad de dar respuestas consistentes; más bien realizan asociaciones de cadenas de palabras en un orden que busca ser "plausible", simulando respuestas reales. Las Inteligencias Artificiales entrenadas con ellos son propensas a caer en las famosas "alucinaciones". Esto es, interpretaciones "turbias" y "fantasiosas" de la información (incluso inventada). Las imágenes que producen también pueden llegar a ser inverosímiles, todo contrario al fotorrealismo que tanto buscan sus desarrolladores.
No es de mi agrado
Los modelos de difusión se basan, en cambio, en los principios de la difusión biofísica. Aplicando ingeniería inversa, son capaces de generar imágenes realistas a partir de la reconstrucción de procesos y el "aprendizaje autosupervisado". Es decir, toman imágenes, las desenfocan y agregan ruido hasta deformarlas; después, se intenta revertir el proceso para obtener la imagen original, haciendo una reproducción lo más fiel posible.
Trabajando con miles de millones de imágenes, la Inteligencia Artificial va adquiriendo patrones y la capacidad de crear imágenes nuevas y originales a partir de simple ruido. Lo interesante es cómo diferentes sistemas de generación de imágenes difieren en sus modelos de difusión: algunos utilizan redes neuronales convolucionales (CNN, por su sigla en inglés) (dato crucial 2) capaces de analizar filas y columnas de píxeles, buscando patrones concretos. Los más novedosos usan, en cambio, los llamados transformadores de difusión (DiT), más potentes y mucho más capaces de captar las relaciones entre partes de imágenes y fotogramas. Sin embargo, pese a los grandes avances, estas tecnologías aún cometen algunos errores.
Otra opción son los modelos de recomendación (DLRM, por su sigla en inglés), desarrollados principalmente por compañías como Meta (dato crucial 3), que convierten "inputs" (los "me gusta", la edad del usuario y el contenido que consume) en "incrustaciones", aprendiendo por medio de recomendaciones y predicciones de su red neuronal sobre relaciones y similitudes entre usuarios y el contenido mostrado. El modelo es aplicable a anuncios, servicios de streaming y productos en los mercados Web. Manejarlo, no obstante, requiere una gran cantidad de dinero, datos y mucha potencia de procesamiento.
Espera hasta que veas el modelo del año que viene
Dentro del mundo académico existen otros modelos más específicos, como las "redes neuronales recurrentes". Estas son útiles para analizar secuencias y patrones de datos. También las "redes generativas adversarias" y las "redes neuronales gráficas", que aprovechan las estructuras y propiedades de los gráficos para percibir resultados de interacciones complejas.
Los diferentes modelos de lenguaje y entrenamiento IA, al igual que las redes neuronales, han pasado de ser meras curiosidades de investigación a un "despliegue tecnológico generalizado". Aun así, no está del todo claro cómo resolverán sus problemas lógicos al razonar y las tendencias a "alucinar". Algunos comienzan a desarrollar tecnologías aún más novedosas que prometen lidiar con estos problemas (arquitecturas "post-transformadores"; "modelos de estadística espacial"; IA "neuro-simbólica".)
Más atención y mayor poder de razonamiento puede ser crucial para dar el siguiente salto, no obstante, la idea de que un ser humano lo realice se antoja improbable por el momento. "¿La IA podrá hacer el trabajo?", se pregunta The Economist.
1) DALL-E, lanzado por OpenAI en 2021, aprende de asociaciones entre los grupos de píxeles de una imagen y traduce lo que "ve" a números, para después realizar operaciones complejas con matrices.
2) Proyectos como Stable Diffusion propiedad de Stability AI e Imagen de Google, utilizan redes neuronales convoluciones para entrenar a sus inteligencias artificiales.
3) Pese a las reservas que sucitó, en mayo de 2019, Facebook -ahora Meta- publicó detalles y presentó su modelo de recomendación de aprendizaje profundo (DLRM, por su sigla en inglés).
Los nuevos proyectos y avances en Inteligencia Artificial son una clara muestra del comportamiento de los gigantes tecnológicos y las empresas emergentes en el sector.
Hacer un seguimiento de cómo y hacia dónde enfocan las grandes compañías transnacionales sus esfuerzos y capital, desarrollando innovación de punta frente a procesos de "despliegue tecnológico generalizados", nos da un panorama ampliado acerca del funcionamiento y las dinámicas del capital internacional, así como de la idea de "vanguardia tecnológica" en su conjunto.
Debemos estudiar los usos y riesgos de estas nuevas tecnologías, así como sus implicaciones dentro de la sociedad del siglo XXI.