Cómo los gigantes tecnológicos toman atajos para obtener datos para la IA

Cita: 

Metz, Cade, et al. [2024], "Cómo los gigantes tecnológicos toman atajos para obtener datos para la IA'", The New York Times, New York, 14 de abril, https://www.nytimes.com/es/2024/04/14/espanol/openai-google-meta-ia-dato...

Fuente: 
Otra
Fecha de publicación: 
Domingo, Abril 14, 2024
Tema: 
Fuentes y límites de la industria de la Inteligencia Artificial
Idea principal: 

    Cade Metz se encarga de reportar sobre tecnología en The New York Times.

    Cecilia Kang reporta sobre tecnología y políticas regulatorias en The New York Times.

    Sheera Krenkel escribe sobre ciberseguridad en The New York Times.

    Stuart Thompson escribe sobre los efectos de la desinformación online en The New York Times.

    Nico Grant cubre todo lo relacionado con Sillicon Valley en The New York Times.


    Empresas como OpenAI, Google y Meta enfrentan problemas de suministros en sus bases de datos. Los textos "prestigiosos" en idioma inglés comienzan a agotarse y las compañías buscan activamente eludir las leyes de derechos de autor para seguir entrenando sus modelos de Inteligencia Artificial sin problemas mientras se acerca el estreno de nuevas versiones.

    Wisper es una herramienta de reconocimiento de voz, creada para transcribir videos de Youtube y volverlos posible material para el entrenamiento de Inteligencia Artificial (IA). Aunque, según algunos empleados, la herramienta viola las reglas de la compañía propiedad de Google, el sistema ya está siendo usado personalmente por el presidente de la empresa Greg Brockman para transcribir millones de horas de video y así apoyar el desarrollo del proyecto GPT-4 (el motor de ChatGPT).

    El mismo Google ya transcribe videos desde Youtube para tener textos para alimentar sus modelos IA. También amplió sus términos y condiciones con este objetivo: Google ahora puede aprovechar documentos, reseñas de restaurantes y materiales varios.

    Hace un año Meta hizo algo similar. Sus directivos y abogados se reunieron para debatir la compra de la editorial Simon & Schuster, así como para discutir cómo podrían recopilar datos protegidos por derechos de autor en internet, aunque esto suponga enfrentar demandas, ya que negociar y adquirir licencias llevaría demasiado tiempo.

    Estos y otros "atajos" tomados, algunos gigantes tecnológicos, que violan sistemáticamente sus propias normas y abren la posibilidad de manipular las leyes de derechos de autor- dan cuenta de una carrera por hacerse con datos digitales y tener la vanguardia en tecnología de Inteligencia Artificial. Su accionar demuestra que aunque los datos más preciados son "información de alta calidad" (libros y artículos profesionales), ahora más que nunca, toda información pública en internet es clave para el desarrollo IA, principalmente por su gran volumen (dato crucial 1).

    Internet -especialmente Wikipedia y Reddit- da la apariencia de ser una fuente inagotable de datos. Sin embargo, el ritmo voraz de la Inteligencia hace saltar las alertas (dato crucial 2) y las empresas comienzan a buscar repositorios "menos convencionales". Los términos y condiciones de los servicios son, no obstante, la gran barrera para aprovechar tal cometido. La única forma aparente de lidiar con este problema es saltarse las solicitudes de licencias para hacerlo. La información "sintética": imágenes, códigos, textos producidos por la propia IA, también se presenta como una alternativa; el "autoaprendizaje" de la Inteligencia Artificial parece ser algo necesario.

    A pesar de que las empresas defienden estas prácticas dudosas de diversas formas (dato crucial 3), esto ya les ha provocado demandas por violar los derechos de autor y licencias de diferentes obras (dato crucial 4)

    Escala es todo lo que necesitas

    Jared Kaplan, físico teórico de la Universidad John Hopkins, argumentó en 2020 que mientras mayor fuera la cantidad de datos para entrenar a los grandes modelos de lenguaje (LLM, por su sigla en inglés), mejor funcionaria la Inteligencia Artificial (detectando mejor patrones en textos y siendo más precisa en el uso de la información): "Escala es todo lo que necesitas" era la idea.

    Desde entonces, cuando las bases de datos con 30 mil fotografías se consideraban vitales para la industria IA, el salto ha sido considerable (datos cruciales 5). En la actualidad, los nuevos modelos usan entre millones y miles de millones de datos para su entrenamiento (dato crucial 6).

    Transcripciones de YouTube

    El agotamiento de los "datos viables" de internet por las empresas de IA es una realidad incómoda en la industria. En 2021 los suministros de datos de OpenAI se agotaron; fue entonces que surgió la idea de transcribir material audiovisual (podcast, audiolibros, videos de YouTube) y el sistema de reconocimiento de voz "Wisper". La herramienta es, en teoría, una violación flagrante a los términos de YouTube, que no permite a terceras "apps" utilizar o acceder a sus videos.

    Mientras la compañía lanza "GPT-4", basado en la información transcrita de más de un millón de horas de videos de YouTube. Google afirma no conocer los hechos y reitera sus prohibiciones al "scrapling" (la descarga no autorizada de material). Algunos empleados afirman, sin embargo, que la compañía tenía conocimiento de las prácticas de OpenAI, más no emprendió acciones, pues ella misma ha utilizado la misma práctica para entrenar sus propios modelos.

    Desde la llamada "carrera IA", desencadenada por el lanzamiento de "Chat-GPT" en 2022, trabajadores e ingenieros de Google debaten acerca de las posibilidades de "explotar" datos de sus usuarios, que utilizan diariamente las aplicaciones gratuitas. En este contexto, las restricciones de privacidad en los datos de los usuarios son vistas por el mismo Google como una limitante ante la expansión de la Inteligencia Artificial que tanto desea, por lo que la compañía ya busca ampliar los términos de su uso.

    Debate en Meta

    Meta, propiedad de Mark Zuckerberg, está intentando y superar a sus rivales en la competencia por la vanguardia IA. Sin embargo, al intentar desarrollar su propio chatbot también se ha encontrado con la limitante de la falta de datos. Después de agotar la mayoría de las posibilidades, los ejecutivos y abogados de la compañía llegaron a la misma conclusión y debatieron en múltiples reuniones acerca de huecos y estrategias legales poco éticas para obtener los preciados datos. Destaca, por ejemplo, el hacer uso de los miles de millones de videos y fotos compartidos en redes sociales, así contratar externamente a empresas de recolección de datos africanas para hacer resúmenes de datos ficticios y no ficticios (sin importar si estos contienen contenido protegido por los derechos de autor).

    Aunque algunos empleados se han mostrado preocupados, Meta, amparada en el "uso justo" quiere expandir sus capacidades para alimentar a la IA con material y obras creativas de otros autores (aun sin su consentimiento).

    Datos sintéticos

    Otros planes ante la escasez creciente de datos recaen en la propia labor de la Inteligencia Artificial. A la larga, como lo comenta abiertamente OpenAI, podrían recurrir a textos "autogenerados".

    Los datos "sintéticos" podrían llegar a ser una opción que incluso puede potenciar la tecnología existente, mejorándola y reduciendo sus "dependencias" externas. Teóricamente, suena bien, no obstante llevar la idea a la práctica resulta difícil ¿Podrían los modelos IA quedar atrapados en un bucle de información, reforzando sus errores y limitaciones?

Datos cruciales: 

    1) Los principales chatbots disponibles han aprendido de conjuntos de textos que abarcan 3 mil millones de palabras, triplicando la cantidad de palabras almacenadas -por ejemplo- en todos los 1602 textos de la Biblioteca Bodleiana de la Universidad de Oxford.

    2) El instituto de investigación Epoch estima que las tecnológicas, que utilizan datos más rápido de lo que se producen, pueden agotar todos los datos de "alta calidad" disponibles en internet para 2026.

    3 OpenAI afirma que sus modelos tienen conjuntos de datos únicos que son mejorados constantemente. Google dice que entrenar sus modelos con "algunos contenidos de YouTube” está permitido en virtud de acuerdos hechos son sus creadores. Meta está haciendo lo que define como “inversiones agresivas” para integrar la IA en sus servicios, con miles de millones de datos compartidos "públicamente" en Instagram y Facebook para hacerlo posible.

    4) En 2023 NYTimes demandó a OpenAI y a Microsoft por usar indebidamente artículos de prensa protegidos por derechos de autor para entrenar modelos IA.

    5) Algunos investigadores ahora usan grandes bases de datos públicas de información digital para desarrollar modelos IA como Wikipedia y Common Crawl, que ha recopilado más de 250 mil millones de paginas web desde 2007.

    6) A finales de 2020, OpenAI estrenó GPT-3 con cerca de 300 mil millones de "tókenes"; datos, palabras o fragmentos. En 2022 el laboratorio IA de Google "Deepmind" probó 400 modelos variando la cantidad de datos de entrenamiento, algunos como "Chinchilla" fueron entrenados con 1.4 mil millones de tókenes. En 2023, investigadores chinos presentaron el modelo Skywork, para el que se utilizaron 3.2 mil millones de tókenes, mientras que Google uso 3.6 mil millones de datos en su nuevo sistema "PaLM2".

Nexo con el tema que estudiamos: 

    Entender la competencia tecnológica entre las empresas de inteligencia artificial resulta crucial para analizar las dinámicas de despliegue y de acumulación en el siglo XXI. El capital parece dictar ritmos acelerados y la IA comienza a mostrar sus propios "límites", que además pueden entenderse también como límites del capital transnacional. En su tarea de superar estos, la industria IA ha iniciado un extraño y complejo proceso tecnológico, donde para "avanzar" como le es dictado saltarse o violar sus propias normas es necesario. La relación capital-Estado-sociedad conflictiva pende de un hilo, los avances y la competencia voraz y encarnizada por datos podrían traducirse en redefiniciones de las normas y, en gran medida, en vulneraciones hacia los usuarios. Aún es muy pronto para entender cómo evolucionará la situación, pero es crucial empezar a pensar en las repercusiones que estos hechos tendrán sobre el uso de internet y los datos que compartimos, así como dilucidar nuevas formas de convivencia y propuestas de uso inteligente de la información en la red.