Computing hardware. The cost of training machines is becoming a problem

Cita: 

The Economist [2020], "Computing hardware. The cost of training machines is becoming a problem", The Economist, London, 11 de junio, https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-tr...

Fuente: 
The Economist
Fecha de publicación: 
Jueves, Junio 11, 2020
Tema: 
El costo de entrenar a los sistemas de inteligencia artificial se está elevando, lo que podría representar una limitante para la implementación de esta tecnología.
Idea principal: 

Según la “ley de Moore”, el número de transistores en un microprocesador se duplica cada dos años. Una implicación económica de esta “ley” es que la capacidad de procesamiento tiende a abaratarse constantemente.

Aunque para algunas aplicaciones simples de la inteligencia artificial los costos de entrenamiento se están reduciendo, para los sistemas de inteligencia artificial más avanzados los costos están elevándose significativamente. Esto es consecuencia de la mayor complejidad de los algoritmos y de una competencia más intensa.

Tras la invención del aprendizaje profundo [deep learning] en 2012, la demanda de capacidad de cómputo creció aceleradamente (esta técnica de inteligencia artificial funciona mejor conforme se le entrena con más datos; para procesar más datos es necesaria una capacidad de cómputo mayor). Según el laboratorio de investigación OpenAI, la capacidad de cómputo requerida para entrenar los modelos más avanzados de inteligencia artificial se ha elevado 300 mil veces entre 2012 y 2018 y tiende a duplicarse cada tres meses y medio.

Aunque hay pocos datos sobre cuánto cuesta entrenar un sistema de inteligencia artificial, una investigación reciente de la Universidad de Massachusetts Amherst estimó que entrenar un sistema de procesamiento de lenguaje natural cuesta aproximadamente 3 millones de dólares. Por otra parte, Jerome Pesenti, el director de inteligencia artificial de Facebook, sostuvo recientemente que el consumo de electricidad que implica entrenar uno de los modelos de inteligencia artificial más complejos que usa esa empresa cuesta “varios millones de dólares”.

Las grandes empresas como Facebook pueden gastar millones de dólares para implementar un sistema de inteligencia artificial, pero empresas más pequeñas no. El elevado costo de la capacidad de cómputo es una de las razones por que las startups de inteligencia artificial son menos atractivas para los inversionistas que otras empresas de software. Para hacer frente a estas dificultades y abaratar la capacidad de procesamiento para las empresas emergentes, algunos connotados especialistas en inteligencia artificial como Christopher Manning y Fei-Fei Li (ambos de la Universidad de Stanford) han impulsado iniciativas como la National Research Cloud.

La creciente demanda de capacidad de cómputo ha provocado un auge en el diseño de chips especializados para responder a las necesidades de procesamiento de la inteligencia artificial. Los directivos de las empresas de chips consideran que la arquitectura de las computadoras debe ajustarse a la estructura de los datos que procesan. La característica más importante de los sistemas de inteligencia artificial es el procesamiento paralelo: los chips deben ser capaces de llevar a cabo múltiples tareas de cómputo de manera simultánea.

Empresas consolidadas como Intel y Nvidia, al igual que startups como Graphcore y Cerebras, están creando nuevos chips que se adecuen a las necesidades de la inteligencia artificial. Incluso la estadounidense Google y la china Baidu están fabricando sus propios chips especializados en inteligencia artificial. La consultora KPMG estima que el mercado de los chips especializados en inteligencia artificial asciende a 10 mil millones de dólares y que hacia 2025 podría alcanzar un valor de 80 mil millones de dólares.

Las mejoras en el diseño de los chips pueden traer grandes beneficios. Los ejecutivos de Graphcore afirman que sus chips especializados en inteligencia artificial son entre 10 y 50 veces más eficientes que las unidades gráficas de procesamiento (GPUs). Actualmente, Graphcore vende sus chips a empresas como Dell y Azure (la división de computación en la nube de Microsoft). Estas mejoras en el diseño de los chips serán cada vez más importantes, pues la creciente demanda de capacidad de cómputo para la inteligencia artificial coincide con lo que múltiples investigadores caracterizan como la pérdida de vigencia de la ley de Moore: encoger los chips es cada vez más difícil, y los beneficios de hacerlo son menos significativos que hace algunos años.

Otros investigadores han apostado por experimentar con ideas más “exóticas”. Una de ellas es la computación cuántica, que usa las propiedades de la mecánica cuántica para acelerar algunas tareas computacionales. Otra de ellas consiste en intentar replicar el funcionamiento del cerebro en el supuesto de que eso permitiría ahorrar energía y costos: un cerebro humano usa aproximadamente 20W de energía, mientras que el chip de Cerebras consume aproximadamente 15kW.

No obstante, hay obstáculos significativos para que esas tentativas puedan aplicarse en el corto plazo. A pesar que la teoría de la computación cuántica es relativamente bien comprendida y de que empresas como Google, Microsoft e IBM han invertido miles de millones de dólares en investigación en el área, la construcción de computadoras cuánticas sigue siendo un reto de ingeniería mayúsculo. Por otra parte, la fabricación de chips “neuromórficos” se enfrenta a la dificultad de que la neurociencia aún no conoce con detalle cómo funciona el cerebro.

Por tanto, en el futuro próximo los investigadores en inteligencia artificial tendrán que echar mano de las tecnologías existentes para desarrollar sus sistemas.

Nexo con el tema que estudiamos: 

Una de las características más importantes de los sistemas de inteligencia artificial basados en el aprendizaje profundo es su capacidad para adaptar y mejorar su funcionamiento conforme son entrenados con más datos. Paradójicamente, esta que es su mayor fortaleza, es también un obstáculo para la implementación generalizada de esta tecnología, pues el procesamiento de más datos exige una capacidad de cómputo mayor y más costosa. Es probable que esta característica de la inteligencia artificial contribuya a una mayor concentración del capital, pues sólo las grandes empresas podrán costear la capacidad de cómputo necesaria para los sistemas de inteligencia artificial cada vez más complejos y especializados.