The Data That Powers A.I. Is Disappearing Fast

Cita: 

Roose, Kevin [2024], "The Data That Powers A.I. Is Disappearing Fast", The New York Times, London, 19 de julio, https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

Fuente: 
Otra
Fecha de publicación: 
Viernes, Julio 19, 2024
Tema: 
Inteligencia Artificial sin datos. La "caída" del contenido disponible en la red y sus implicaciones para los modelos de aprendizaje autónomo
Idea principal: 

    Kevin Roose es columnista en The New York Times, se especializa en tecnología, negocios y la cultura.


    Los datos disponibles para entrenar a la Inteligencia Artificial en internet (videos, textos, imágenes, etc.) comienzan agotarse y las fuentes WEB tradicionales empiezan a restringir el uso de su información a terceros (dato crucial 1). Protocolos de exclusion de robots y nuevos términos y condiciones en las plataformas impulsan lo que Kevin Roose llama una "crisis en el consentimiento" dentro de internet. La "caída drástica" tendrá probables consecuencias para las empresas del sector (así como para los investigadores, académicos y "entidades no comerciales").

    El uso de los datos públicos del internet es fundamental para alimentar a la Inteligencia Artificial Generativa. La descarga y uso libre de la información WEB es un componentes crucial para herramientas como OpenAI, Gemini y Claude, lo que entra en conflicto con los propietarios de los datos, ya sea por la forma en la que se utilizan sus datos o por razones lucrativas (Reddit y StackOverflow empezaron a cobran a las empresas IA por acceder a sus datos, The New York Times, directamente, demandó a OpenAI y a Microsoft por violar sus derechos de autor).

    Aunque las empresas de Inteligencia Artificial buscan establecer acuerdos para tener acceso continuo a las fuentes de información "de alta calidad" (de la que dependen sus modelos de lenguaje), la restricciones generalizadas supone un gran problema. Roose lo adjudica a las "prácticas agresivas" de la industria IA al recopilar datos durante años. Los mas afectados por estas políticas de limitación -señala- son los excluidos de participar en la gobernanza tecnológica, quienes no pueden permitirse adquirir licencias directas de uso (investigadores y, en general, la sociedad civil).

    En el contexto actual, obtener datos públicos de la WEB se vuelve una tarea cada vez mas complicada. Las restricciones y el temor a la implementación de un "muro de datos" (donde todos los nuevos datos para entrenar al algoritmo se encuentren detrás de muros de pago, bloqueados o concedidos en acuerdos exclusivos) hacen necesario el desarrollo de nuevas herramientas de control en el uso de datos de forma precisa. Estas deben estar dirigidas a controlar el uso lucrativo de la información por chat bots, sin que esto suponga afectar a las instituciones educativas y sin fines de lucro que hacen uso de los datos.

    Aun así -para Roose- los muros de acceso son principalmente una lección para las grandes empresas IA, que usan de forma indiscriminada todos los datos que pueden encontrar en internet, sin tomar en cuenta a quienes los generan: "Eventualmente, si tomas ventaja de la WEB, la WEB comenzará a cerrarte sus puertas".

Datos cruciales: 

    1) La Data Provenance Initiative, en un estudio sobre 14 mil dominios WEB incluidos en los datos de uso común en el entrenamiento de la IA (C4, RefineWeb y Dolma), estima que 5% de los datos comunes y el 25% de los de mayor calidad han sido restringidos por protocolos de exclusión de robots, así como 45% del total de ciertos datos (C4), restringido por los términos de servicio de los sitios web.

Nexo con el tema que estudiamos: 

    Las consecuencias de las restricciones de datos WEB aún no son del todo claras. Es visible, no obstante, el impacto del declive de los datos comunes en internet en la "gobernanza tecnológica" a largo plazo.

    Las grandes empresas tecnológicas se nutren y dependen de los flujos libres de información en la WEB para mejorar sus modelos. La capitalización de la IA sobre los recursos públicos de internet supone un claro conflicto con la sociedad civil. En este caso, el proceso de privatización de la red y la afectación a los usuarios comunes debe ser analizada ampliamente como una forma de relación entre grandes empresas y sociedad, pero también como un proceso de apropiación particular, sobre la información publica dentro de la WEB.