Síguenos:
Big data
3 de Enero de 2017

Big data, smart data, small data o simplemente tecnología de la información

Big data, smart data, small data o simplemente tecnología de la información

Big data, smart data, small data o simplemente tecnología de la información

Escrito por , 3/01/2017

Uno de los fenómenos comunes del marketing es la facilidad con la que la denominación de una nueva tecnología o categoría de producto se intenta “adherir” a otras tecnologías o categorías adyacentes para, perdón por el término, intentar “parasitar” su éxito.

No solo es difícil y excepcional dar con el producto innovador o disruptivo, sino también encontrar un nombre sencillo, fácil de recordar, que sintetice la idea, y genere marca propia y una categoría diferenciada en la mente del consumidor. Por eso cuando el producto y el nombre surgen de forma arrolladora, aparecen alrededor muchos que intentan beneficiarse del éxito.

Pensemos en el término “reingeniería” en los años noventa a partir del éxito del libro homónimo de Hammer y Champy de 1992. De repente, todas las metodologías de análisis de sistemas y mejoras de procesos pasaron a tener ese apellido. Algo parecido ocurrió con el éxito de Internet y el comercio electrónico en la primera década de este siglo, cuando a muchos productos y servicios se les añadió el prefijo “e-“ o “i-“; la reingeniería, por ejemplo, comenzó a llamarse eEngineering. 

Con big bata está pasando un poco lo mismo. Por eso es muy importante recordar el origen del término y su alcance. En un artículo de The New York Times, Steve Lohr intentó hacerlo y llegó, después de ciertas controversias y muchas dudas, hasta John Mashey, un investigador de Silicon Graphics, que en los noventa ya utilizaba el término big data en sus conferencias.

También es importante saber cuándo realmente estamos usando big data como una tecnología novedosa con un valor diferencial y cuándo no. Según Lohr, actualmente este término no se refiere solo a “muchos datos” sino a “diferentes tipos de datos gestionados de forma novedosa”. Es una definición un poco limitada porque, en mi opinión, big data realmente es una evolución de los conceptos data mining y machine learning de los años ochenta, con dos importantes añadidos: la diversidad y el volumen de las fuentes, y la posibilidad de procesarlos en tiempo real.

En esa década las fuentes de datos eran limitadas. Los datos generados por sensores de campo eran escasos y caros, el procesamiento de imágenes, texto y archivos de sonido era muy lento y errático, así que contábamos con los datos estructurados en sistemas computacionales. Además, el almacenamiento era costoso. Por otro lado, cualquier técnica de data analytics requería un enorme poder computacional que impedía su procesamiento en tiempo real.

Actualmente, lo que llamamos big data es posible por el abaratamiento de los costes de almacenamiento y el crecimiento exponencial de la capacidad de proceso, y la miniaturización de sus componentes físicos. Todo eso, junto a la disponibilidad de datos en cualquier parte del mundo a través de Internet, hace posible que las mismas técnicas de data analytics de años atrás puedan evolucionar y obtener resultados en tiempo real, lo que amplía enormemente su campo de aplicación.

Por esa razón, no todas las iniciativas de data analytics o sus sinónimosdata mining, business intelligence…, aunque sean valiosas, útiles y necesarias, pueden considerarse dentro de la categoría big data, como muchas veces vemos en artículos o mensajes publicitarios. Para que realmente aflore el valor diferencial del concepto tienen que aparecer los siguientes elementos:

  • Abundancia y diversidad de datos de diferentes fuentes (estructurados y no estructurados)
  • Procesamiento en tiempo real

Cuando se empieza a hablar de “smart data” creo que se mezclan conceptos. Big data no anula todas las otras ramas de la tecnología de información, existen millones de aplicaciones que resuelven problemas sin necesidad de aplicar las técnicas de big data. La coletilla “data”, en ese caso, es solo un plus publicitario. Como dice Roberto García, colaborador de este blog, “a veces el big data no tiene que ser demasiado big.

El verdadero valor diferencial de una solución de big data es resolver problemas de negocio, sociales o científicos al tener capacidad de captar un alto volumen de datos relevantes en tiempo real (o de aprovechar los que hay con otro fin), y de procesarlos de forma inteligente para obtener un resultado en el momento justo.

Y una cosa más: no existe, como se insinúa a veces, una diferencia real entre un algoritmo de big data y una solución smart. La enorme mejora en la capacidad de procesamiento y en el coste de almacenamiento no implica necesariamente que tengamos que embrutecer a los programadores.

En un entorno de big data no debemos dejar de lado el uso de la inteligencia y abandonar la búsqueda de los algoritmos más óptimos y los métodos más eficientes para llegar al resultado, y reemplazarlos por técnicas de fuerza bruta que antes eran caras de utilizar.  Siempre habrá un problema al cual un algoritmo eficiente dará una mejor respuesta. Un buen ejemplo lo dio Alan Turing.

Desde 1940, Turing y sus colegas de Bletchley Park habían logrado desarrollar la “Bombe”, una máquina capaz de procesar automáticamente los cientos o miles de señales de radio codificadas de las potencias del Eje en la II Guerra Mundial, con el fin de interpretarlas y conocer sus intenciones. Era un salto exponencial en eficiencia respecto al anterior procesamiento manual.

El problema que tenían era que las máquinas utilizaban la “fuerza bruta” para decodificar el mensaje. Intentaban reproducir todas las combinaciones posibles en la posición de los rotores de los teletipos Enigma alemanes hasta encontrar un texto que tuviese sentido y el tiempo que tardaban en decodificar un mensaje enemigo era demasiado largo como para que tuviese realmente influencia en las decisiones tácticas o estrategia de los Aliados. Necesitaban descifrarlos con mayor rapidez.

Para esto, Turing y sus colegas desarrollaron varios métodos que permitían reducir el número de posibilidades que debían testar las máquinas, lo que disminuía el tiempo de procesamiento. Una de las técnicas, llamada Bamburismo, se basaba en la probabilidad estadística de repetición de letras en la lengua alemana. Otras, en predecir un texto que normalmente se cursaba en los mensajes alemanes. La combinación de estas técnicas y el estudio de las máquinas enemigas capturadas permitió reducir sustancialmente el número de posibilidades y el tiempo de proceso de cada decodificación.

En diciembre de 1942 los británicos eran capaces de interpretar incluso los mensajes de las máquinas más complejas del enemigo. Actualmente, a esta forma de acotar posibilidades la llamaríamos heurística y es la base de muchas técnicas de programación lógica y machine learning. Lo que logró el equipo de Turing fue captar un alto volumen de datos relevantes en tiempo real y de procesarlos en forma inteligente para obtener un resultado en el momento justo. Y eso, precisamente, es big data...

Imagen: Public Domain. Réplica de la “Bomba Criptográfica” construida por Alan Turing y su equipo en Bletchley Park durante la II Guerra Mundial.

Sobre el autor

Víctor Eduardo Deutsch

Víctor Eduardo Deutsch

Tengo veinticinco años de experiencia en gestión de empresas tecnológicas y he trabajado como consultor de grandes empresas en veinte países en Europa y América. Antes que en Telefónica trabajé en KPM Consulting. He sido profesor adjunto de la Universidad de Buenos Aires-UBA, coautor del programa ejecutivo en eProcurement para el Instituto de Empresa (Madrid) en 2003, investigador UBA y coautor de trabajos de inteligencia artificial, así como del Manual de desarrollo Empresario “Líderes del tercer milenio” y autor de numerosos artículos en medios de España y Argentina.
Ver todos sus artículos »