Large language models. At least 10% of research may already be co-authored by AI

Cita: 

The Economist [2024], "Large language models. At least 10% of research may already be co-authored by AI", The Economist, London, 29 de junio, https://www.economist.com/science-and-technology/2024/06/27/the-race-to-...

Fuente: 
The Economist
Fecha de publicación: 
Miércoles, Junio 26, 2024
Tema: 
La Inteligencia Artificial y la investigación académica
Idea principal: 

    The Economist sentencia que un porcentaje considerable de las investigaciones científicas están coescritas con la ayuda de Inteligencia Artificial (dato crucial 1). Aunque los textos generados por modelos de IA pueden reproducir sesgos, estos textos son difíciles de detectar, lo que supone un peligro de acuerdo con la revista. No obstante, se están desarrollando métodos novedosos para identificar estos artículos, como el análisis del "exceso de vocabulario" (dato crucial 2), que ha revelado el uso anormal de 329 palabras en la literatura científica desde la disponibilidad de ChatGPT, el chatbot (dato crucial 3). Este fenómeno, según The Economist, se debe al tipo de textos con los que se entrenan los modelos de lenguaje grande (LLM, por su sigla en inglés) de la Inteligencia Artificial.

    Los datos muestran que el uso de Inteligencia Artificial se está extendiendo entre los investigadores, especialmente en países como Corea del Sur, Taiwán, Indonesia y China (datos cruciales 4 y 5), así como en campos como la informática. Para algunos -que reconocen el uso cotidiano de la IA- existen beneficios claros, como la ayuda en la edición y traducción de textos, la rápida codificación de información, la simplificación de resúmenes y las tareas de búsqueda.

    Sin embargo, The Economist hace notar riesgos en el uso extendido de los modelos LLM. Argumenta que la Inteligencia Artificial aún falla en tareas importantes para los artículos académicos, como comunicar adecuadamente la incertidumbre detrás de los resultados de una investigación. Esto puede dar lugar a interpretaciones "turbias" y "fantasiosas" de la información científica. Además, la IA suele incurrir en plagios y sesgos, lo que compromete la calidad de las respuestas e información que proporciona, así como la futura calidad de las publicaciones científicas.

    Aunque la academia comienza a reformular sus políticas sobre el uso de modelos LLM, prohibiendo o dando algunas ventanas de oportunidad en su utilización (como hacen Science, Nature y Cell (sitios especializados), que permiten su uso siempre que se incluyan notas detalladas en la sección de metodología). Lo cierto es que los alcances de la IA aún no están claros y no existen métodos completamente fiables para detectar textos generados por LLM (ni siquiera el análisis del "exceso de vocabulario"). Por lo tanto, el papel de la IA en la investigación presenta nuevos desafíos que, según la revista, deben ser analizados en profundidad.

Datos cruciales: 

    1) Según datos de una investigación conjunta de la Universidad de Tübingen y de Northwestern sugiere que al menos el 10% de las investigaciones científicas (100 mil artículos) ya están coescritas por Inteligencia Artificial.

    2) El "exceso de vocabulario", inspirado en el análisis del exceso de mortalidad en la demografía, busca el uso anormal de palabras que comienzan a aparecer con frecuencia en resúmenes científicos. El gráfico In Other Words (en otras palabras) muestra el exceso de vocabulario por contenido, estilo y otros desde 2013 a 2024, donde se puede apreciar un pico en el exceso de vocabulario relacionado con el estilo de escritura.

    3) Los gráficos Significant Figures (cifras significativas) muestra la frecuencia de uso de palabras como “profundiza” (1), “crucial” (2), “significativo” (3) e “importante” (4).

    4) Según una encuesta de Nature, de 1 600 investigadores, 25% usa algún modelo de lenguaje grande (LLM, por sus sigla en inglés) para escribir sus artículos.

    5) El gráfico muestra el porcentaje estimado de resúmenes científicos publicados el primer trimestre de 2024 con contenido LLM basándose en las palabras de uso común y sospechosas.

    6) La base de datos PubMed estima que cerca de 150 mil artículos al año se escriben con la ayuda de un LLM.

    7) Una encuesta realizada en 2023 a 1 600 investigadores por Nature estimó que cerca de 25% de estos utilizaban LLM para la redacción de sus publicaciones.

Nexo con el tema que estudiamos: 

    El papel de la Inteligencia Artificial en la investigación científica plantea oportunidades y, sobre todo, grandes problemas a analizar dentro del proyecto.

    Mientras desde una perspectiva cercana al capital digital y a la innovación científica los modelos IA pueden parecer beneficiosos y ofrecen algunas mejoras en ámbitos como la edición de textos o la simplificación de tareas de investigación. Su irrupción silenciosa y los riesgos latentes que conlleva entorno a la interpretación analitica y cientifica de datos o evidencias hacen pensar en nuevamente en las fronteras del capital y la relación de este con la sociedad científica. Así, se hacen presentes dentro del ámbito académico la necesidad de mantener una atenta vigilancia a sus desarrollos, así como formular nuevas políticas sobre su uso como herramienta de investigación.