Data. China's success at AI has relied on good data. But cheap labour has also played an important part
The Economist [2020], "Data. China's success at AI has relied on good data. But cheap labour has also played an important part", The Economist, London, 4 de enero, https://www.economist.com/technology-quarterly/2020/01/02/chinas-success...
En los últimos años China se ha convertido en el epicentro de la tecnología de reconocimiento facial. La forma opresiva en que se está usando esta tecnología, como muchos han señalado, no es el único motivo para prender las alarmas. La dependencia de esta tecnología de la mano de obra barata es otro motivo de preocupación.
En particular, las compañías chinas de inteligencia artificial (IA) que se han especializado en el campo del reconocimiento facial son las startups Megbi y SenseTime. Como la mayoría de las empresas de IA, estas compañías dependen de la técnica de aprendizaje automático. Esta técnica consiste en introducir una gran cantidad de datos, fotografías de rostros, por ejemplo, en computadoras que son programadas para encontrar patrones con los que pueden aprender a distinguir entre un rostro y otro de manera confiable. Sólo se necesitan computadoras potentes, software y una base de datos para realizar estas tareas de una forma más eficiente y barata de lo que lo haría cualquier empleado.
En realidad, el secreto de la ventaja china en este campo son sus bases de datos. Si bien las bases de datos chinas son gigantescas, por sí mismos los datos no son suficientes. Para programar software de IA es necesario que estos datos estén correctamente etiquetados. Es decir, los datos necesitan estar acompañados de información contextual con las que las computadoras puedan aprender a realizar las asociaciones estadísticas entre estos datos y su significado para los seres humanos. Por ejemplo, para aprender a distinguir entre gatos y perros, una computadora necesita primero procesar imágenes donde estos animales estén etiquetados correctamente. De la misma forma, para distinguir entre dos rostros, la computadora necesita primero aprender lo que es un rostro a través de su correcto etiquetado. Solo a través del etiquetado las computadoras son capaces de reconocer rostros sin ayuda humana.
Es así que detrás del éxito chino en este campo hay una industria que colecta datos, los limpia y etiqueta para que puedan ser procesados por programas de aprendizaje automático. Compañías como Megvii y SenseTime utilizan estos datos previamente etiquetados por oscuras “fábricas de datos” que se aprovechan de mano de obra barata. Tan solo en los últimos 3 años y medio, Megvii gastó 31 millones de dólares en datos etiquetados, esa es la clave de su éxito. Sin esa infraestructura de etiquetado no serían compañías tan exitosas debido a que sus algoritmos no son innovadores, pues usan tecnología disponible para cualquier programador recién graduado.
MBH es una de estas compañías. Cuenta con 300 mil empleados, principalmente en las provincias más pobres de China. Cada uno de ellos trabaja turnos de 6 horas al día etiquetando rostros, imágenes médicas y paisajes urbanos. Como si fuera una línea de ensamblaje, la compañía les envía un flujo de datos constante que ellos etiquetan. El sistema de la compañía usa aprendizaje automático para distribuir el trabajo según las aptitudes de cada trabajador. El sistema primero recolecta datos de los trabajadores mientras etiquetan para asignarles automáticamente tareas en las que demuestran aptitudes, datos como su mirada, los movimientos del mouse y del teclado, al igual que el tipo de datos que se encuentran etiquetando. El etiquetado se hace casi en tiempo real. Por ejemplo, la aplicación de videos cortos TikTok usa los servicios de la compañía para detectar imágenes pornográficas que no pueden ser detectadas por su propio sistema automatizado, pero que sí pueden ser fácilmente detectado por los trabajadores de MBH en un par de segundos.
Arbitraje de IA
Por su trabajo los empleados de MBH reciben un salario mensual equivalente a 425 dólares, tres veces el salario promedio en las regiones más pobres del país asiático. La compañía se instala en regiones donde los salarios son baratos para disminuir el costo de la producción. Sin embargo, muchos gobiernos provinciales están ansiosos porque algunas de estas fábricas de datos se instalen en sus provincias e incluso llegan a pagar 50 mil yuanes por cada 5 mil empleados contratados en la provincia, lo que representa 3 millones de yuanes al mes, 425 mil dólares, por los 300 mil trabajadores de MBH.
Aunque en 2017 hubo un boom de etiquetado de rostros, estas compañías ahora reciben más trabajo de etiquetado de imágenes médicas (usadas para enseñar a las computadoras a realizar diagnósticos de enfermedades) y de paisajes urbanos (para enseñar a los automóviles autónomos a conducirse por las ciudades). Estas tareas son considerablemente más difíciles que etiquetar rostros y necesitan de mano de obra más especializada, no todos saben como se ve el cáncer en una radiografía, lo que significa que estas compañías tienen que pagar salarios más altos por este tipo de etiquetado. Sin embargo, MBH espera aumentar la cantidad de mano de obra que contrata en 50% para el próximo año. Mientras que, por otro lado, estas nuevas tareas de etiquetado nos hablan de los servicios de IA que podría desarrollar China en los próximos años.
Es esta infraestructura de etiquetado de datos la que ha estado detrás del éxito de los servicios chinos en IA. Compañias como MBH han permitido a Alibaba, por ejemplo, crear el servicio de aprendizaje automático que usa en su sitio Taobao, basado la búsqueda de productos por imagen, donde los clientes pueden subir la fotografía de cualquier producto que encuentren en una tienda física y el sistema de Alibaba los dirige al sitio donde pueden conseguirlo en línea.
Se ha convertido en una cadena. Las grandes bases de datos etiquetados no solo han servido para crear el poderoso software de aprendizaje automático chino. Ahora, estudiando el funcionamiento de dichos software, los diseñadores de microprocesadores están desarrollando chips específicamente diseñados para realizar tareas de aprendizaje automático que compiten con los mejores del mundo.
*Las startups Megvi y SenseTime valen 4 mil millones y 7 mil 500 millones de dólares respectivamente.
La disputa hegemónica entre China y Estados Unidos tiene uno de sus escenarios actuales en el desarrollo y dominio de la inteligencia artificial, donde China ha sabido sacar provecho de sus ventajas competitivas como su mano de obra. Esta tecnología además de ser un nuevo espacio de valorización tiene un carácter estratégico debido a que sus aplicaciones actuales y futuras tienen la capacidad para modificar y reestructurar las actividades tanto económicas como militares.