Big data

Cita: 

Sosa, Walter [2019], Big data, Buenos Aires, Siglo XXI, 208 pp.

Fuente: 
Libro
Fecha de publicación: 
2019
Tema: 
Introducción al Bigdata.
Idea principal: 

Walter Sosa Escudero es profesor de la Universidad de San Andrés y director del departamento de Economía, profesor en la Universidad Nacional de La Plata, investigador principal del Conicet y miembro titular de la Academia Nacional de Ciencias Económicas. Recibió el premio de la Economics Graduate Student Organization (2012 y 2014).


Introducción acuífera

El libro invita a reflexionar acerca de sí la lluvia de datos en nuestros días “será capaz de cambiar radicalmente nuestra forma de ver el mundo y cómo convivirá con los métodos tradicionales de la ciencia” (p. 20). Se propone una aproximación asequible al mundo de los datos y sus técnicas utilizadas para traducirlos en conocimiento relevante.

El capítulo 1 es una breve entrada para aclarar qué es el big data y los algoritmos, así como el rol de la estadística. El capítulo 2 aterriza lo conceptual en experiencias concretas actuales del análisis de datos. El capítulo 3 es una primera lección de algoritmos y métodos. El capítulo 4 profundiza con mayor detalle casos aplicados del análisis de datos. El capítulo 5 indaga en las técnicas más recientes de aprendizaje. En el capítulo 6 se discuten las limitaciones del análisis de datos, y finalmente el capítulo 7 reflexiona sobre el futuro de los datos y los algoritmos (p. 20-21).

1. Perdidos en el océano de datos. Big data, aprendizaje automático, ciencia de datos, estadística y otras yerbas

El capítulo es una introducción general al tema del big data, sin la intención de dar una definición absoluta. Adicionalmente se discute el papel de la estadística y aquello que se llama aprendizaje automático. Sencillamente, una frase que complica y atraviesa todo el capítulo: “Los datos son tierra de todos y de nadie” (p. 23).

El Elvis Presley de la ciencia de datos (vida, muerte, resurrección y nueva muerte de Google Flu Trends)

El autor hace una analogía para explicar que Google Flu Trends es a la ciencia de datos lo que Elvis Presley fue para la historia del rock and roll. Al ser el primero en abrir camino en la revolución de datos y algoritmos*. La aplicación Google Flu Trends surgió en 2009 como un “ingenioso mecanismo” por parte de la empresa Google para monitorear la evolución de la pandemia de gripe A en Estados Unidos. Con ello se pretendía brindar información mucho más oportuna (precisa y veloz) con respecto al tradicional método de seguimiento realizado por un sistema de reportes estadísticos coordinados por el Centro para el Control y la Prevención de las Enfermedades (CDC, por sus siglas en inglés) en Estados Unidos (p. 25).

Google Flu Trends generó una sencilla base de datos que consistía en el análisis de 2 340 datos retomados del sistema hospitalario estadounidense (Dato Crucial 1). Con ello se lograba medir la distribución de la enfermedad por región y en el tiempo. Adicionalmente los expertos de Google “cruzaron los 2 340 datos de porcentaje de visitas a hospitales con la proporción de búsquedas relacionadas con la gripe A en cada período y región” (p. 26). Con el total de datos, Google construyó un modelo** para “predecir la intensidad de gripe A sobre la base de la intensidad de búsquedas” (Ibíd.). En total se estimaron “450 millones de modelos alternativos” para predecir la intensidad de la epidemia.

La diferencia entre Google y la CDC es que la primera “puede observar la intensidad de búsquedas relacionadas con la gripe A en cualquier parte, en tiempo real y con un nivel de precisión tan fino como sea necesario” (p. 27); mientras la segunda solo ve datos semanales y por región, con cierta demora que está lejos de ser a tiempo real.

No obstante, aquí de nuevo la analogía con el rey del rock and roll, después de una abrupta onda de éxito, Google Flu Trends declinó al igual que Elvis (por el ostracismo y el servicio militar). Sus “éxitos predictivos se transformaron rápidamente en preocupantes desaciertos” ya que la empresa había alterado sus motores de búsqueda para sugerir términos de búsqueda que orientará las consultas de los usuarios con la gripe A y así poderlos acechar con publicidad; lo que implicó “que se sobredimensionara su intensidad [de búsqueda de gripe A] y, por lo tanto, la pandemia” (p. 28).

De nuevo, al igual que Elvis con su come back, Google Flu Trends fue resucitado por la comunidad científica para reparar sus errores y renovar su credibilidad. Este caso es emblemático para Sosa puesto que ilustra la historia de éxitos y fracasos que está entorno al auge del big data y sus constantes innovaciones en técnicas de análisis.

¿De qué hablamos cuando hablamos de big data?

Tal como se había advertido en la Introducción el autor no intenta dar ninguna traducción literal del término “porque no hay ninguna comúnmente aceptada, y porque tampoco está claro que big data tenga un significado preciso” (p. 30). Más allá de la obviedad literal de la palabra en “datos masivos”, Sosa menciona que hay una diferencia cualitativa en relación “al volumen y tipo de datos provenientes de la interacción con dispositivos interconectados (…) “capaz de producir información y enviarla electrónicamente a otra parte” (p. 31).

Una distinción notoria para el autor está en que estos datos no han sido creados con el objetivo directo de crearlos, como por ejemplo las encuestas o trabajos encaminados a recopilar cierta información; sino que estos datos son “resultado de otra acción” (p. 32), de cualquier actividad cotidiana en interacción con cualquier dispositivo interconectado digitalmente.

Tradicionalmente se reconocen “tres V de big data” y Sosa agrega una cuarta:
1. Volumen. Tamaño, cantidad de datos.
2. Velocidad. Referencia a su disposición prácticamente en tiempo real.
3. Variedad. Remite a su naturaleza espontánea, anárquica y amorfa.
4. Veracidad. Fidelidad proveniente de su naturaleza espontánea.

Finalmente, Sosa proporciona algo cercano a una definición al afirmar que “big data se refiere a la copiosa cantidad de datos producidos espontáneamente por la interacción con dispositivos interconectados” (p. 33).

Los amplificadores de big data van hasta 11

La cuestión sobre cómo medir algo suficientemente grande para considerar una base como big data. Sosa problematiza con cualquier intento de respuesta en términos cuantitativos, a una interrogante movediza, en la cual lo único cierto es una capacidad creciente para el almacenamiento y procesamiento de datos (Datos cruciales 2, 3 y 4). Un acercamiento a una respuesta posible está en “la conjunción del copioso volumen de datos, los métodos de análisis y procesamiento y las ideas” lo que garantiza la existencia de "un" big data.

La máquina de aprender

Machine learning es el nombre que reciben las técnicas computacionales, matemáticas y estadísticas asociadas al fenómeno de big data” (p. 37). Literalmente puede ser traducido como “aprendizaje automático” o automatizado. Dichas técnicas se ubican en las fronteras difusas de la informática y la estadística. Lo importante, advierte el autor, es que las técnicas buscan “explotar los datos pasados” para la construcción de un modelo (representación de la realidad) que prediga de la mejor manera el futuro. “Significa dar con una suerte de fórmula matemática que funcione para la predicción” (p. 39).

A diferencia de la estadística tradicional donde “la idea era estimar el modelo (…) propuesto por una teoría o tal vez por la experiencia previa” (el modelo es externo), el machine learning “permite construir, estimar y reevaluar el modelo a medida que se lo usa. Esta es la idea de aprender, en vez de estimar” (p. 39). Conforme se incorporan nuevos datos se re-evalúa el desempeño del modelo y se re-ajusta. La parte de lo automático “tiene que ver con que una parte de (y a veces toda) la tarea de reconstrucción [re-ajuste] del modelo puede relegarse a un procedimiento computacional” (p. 39-40). Con lo cual se resalta el carácter altamente dependiente del proceso de aprendizaje automático a los datos.

En pocas palabras, señala Walter Sosa “big data le permite a la estadística liberarse de su mero rol de estimar los modelos que otra disciplina le propone, y pasa a asumir la tarea de construirlos, evaluarlos y rediseñarlos, a través de la conjunción de algoritmos y datos masivos” (p. 40).

Ireneo Funes va a Harvad

El análisis de datos es tan viejo como la humanidad misma y por ende es tierra de nadie y de todos. Sosa dialoga con lo que el historiador de la estadística, Stephen Stigler, dijo respecto que “Funes es big data sin estadística” haciendo analogía al personaje de Ireneo Funes en un cuento de Jorge Luis Borges, donde Funes con una memoria prodigiosa lograba recordar todos los detalles a tal punto que podía “reproducir los eventos de un día” en 24 horas. En cambio, se diría que la abstracción olvida diferencias en su intento por estimar un modelo similar a la realidad, mientras que el big data como Funes reproduce la realidad; así “Funes es big data sin estadística; los datos por sí solos son cacofonía pura” (p. 43).

Da capo

Como cierre del capítulo se sintetiza la delimitación de tres ideas (p. 44):
i) Big data. Es mucho más allá de lo que su etimología sugiere en relación con el tamaño de los datos.
ii) Estadística. Es la disciplina del aprendizaje a partir de datos.
iii) Nueva ciencia de datos. Explota los más recientes avances computacionales para aprovechar la oportunidad única que brinda la irrupción de datos masivos, producto de la interacción con dispositivos interconectados.

Para Walter Sosa “la nueva ciencia de datos ofrece una oportunidad única de interacción entre disciplinas aparentemente disímiles, que tienen en común la necesidad de lidiar con información masiva” (p. 44).


*Algoritmos: Son entendidos como procedimientos y reglas sistemáticas para hallar solución a un problema (p. 27).
**Modelo: Es una representación matemática o computacional de la realidad (p. 26).

Datos cruciales: 

1. Google Flu Trends inició su trabajo con una base de 2 340 datos retomados del Centro para el Control y la Prevención de las Enfermedades (CDC, por sus siglas en inglés) entre 2003 y 2007. Estos datos surgen de la cantidad semanal de visitas por gripe A a las unidades hospitalarias de las nueve regiones en las que el CDC divide a Estados Unidos. Es decir 9 regiones por 52 semanas por 5 años da 2340 datos (9 x 52 x 5 = 2340).

2. Cada segundo se crean 1.7 megabytes de información nueva.

3. Los usuarios de Facebook envían 31.25 millones de mensajes y miran 2.77 millones de videos por minuto.

4. En 2015 se sacaron 1 000 billones de fotos.

Cápitulos relevantes para el proyecto: 

2. Livin' la vida data. Historia de datos y algoritmos en la sociedad

3. Una nueva ferretería para el aluvión de datos. Herramientas, técnicas y algoritmos

4. Gran Hermano, gran data. Datos y algoritmos hasta la sopa

5. Cajas negras para magia blanca. Más herramientas para el aprendizaje automático

6. No todo lo que brilla es oro. La letra chica de los datos y los algoritmos

7. Puedo ver crecer el pasto. El futuro del futuro de los datos

Nexo con el tema que estudiamos: 

La forma específica "dominante" (no única) en la que se articula el paradigma tecnológico digital tiene en su centro, actualmente, los procesamientos de automatización mediante esto que se engloba como BigData. Saber cómo opera el bigtech y cómo funcionan las nuevas mejoras e innovaciones digitales requiere un conocimiento especializado en el BigData.