Big Data: todo lo que deberías saber
Contenidos
¿Cuánta información circula por Internet? En enero 2020 existían más de 4 mil millones de usuarios y 1.74 mil millones de sitios web. Google procesa de 7 mil a 10 mil millones de consultas a diario.
El Internet de las cosas ya cuenta con 21 mil millones de equipos y dispositivos conectados. ¡Y todos generan datos que luego son analizados por las empresas!
¿Cómo procesan tanta información? ¿Cuánto saben sobre ti las compañías que emplean las tecnologías más avanzadas? ¿Cómo implementarlo en tu negocio? Te comparto las respuestas a estas y otras preguntas sobre Big Data, una herramienta poderosa en la era digital.
Big Data, un concepto antiguo
El manejo de los datos con fines comerciales, políticos y sociales no es algo nuevo.
Definición de Big Data
El término ‘Big Data’ fue acuñado por Roger Mougalas, el creador de la Web 2.0, en 2005. Designa un conjunto o conjuntos de datos de tal magnitud que resulta imposible gestionar utilizando herramientas tradicionales de procesamiento. Aunque en español se usan equivalentes como ‘macrodatos’ o ‘datos masivos’, es común el empleo de su nombre original.
Big Data en la historia
Te invito a dar una ojeada a los hitos que han marcado su desarrollo.
- Mesopotamia, 1792 a.n.e.: El código Hammurabi exigía a los comerciantes y campesinos llevar un registro estricto de las cocechas y el ganado. También debían contabilizarse las ventas.
- Alejandría, 300 – 48 a.n.e.: La Biblioteca de Alejandría se convierte en el mayor centro de datos del mundo. Su colección estaba integrada por miles de papriros en diversos idiomas.
- Londres, 1663: John Graunt analizó los registros parroquiales en busca de datos que permitieran detener la peste bubónica en Europa. Es considerado actualmente el padre de la estadística.
- Estados Unidos, 1887: Herman Hollerith crea un tabulador que permite marcar tarjetas para organizar los datos del censo.
- Estados Unidos, 1937: IBM desarrolla, por orden de Roosevelt, un lector de tarjetas perforadas. Se utilizaría para asentar las contribuciones a la seguridad social de millones de ciudadanos y trabajadores.
- Reino Unido, 1943: Creación de “Colossus”, la primera máquina procesadora de datos para decifrar códigos nazis durante la segunda guerra mundial.
- Estados Unidos, 1965: Plan gubernamental para crear el primer centro de datos almacenados en cinta magnética.
- Reino Unido, 1989: Tim Berners-Lee crea lo que llegaría a ser la World Wide Web. Se trata de un sistema que facilita la transmisión de información.
- Estados Unidos, 2005: Creación de la Web 2.0 y uso del término Big Data. Se crea Hadoop de Yahoo para indexar toda la World Wide Web.
¿Cuántas son las V del Big Data?
En el manejo de macrodatos se toman en cuenta siete aspectos conocidos como “las 7 V del Big Data”. En sus inicios, se hablaba de tres elementos fundamentales:
- Volumen: Es la captación y almacenamiento de grandes cantidades de datos para su posterior procesamiento. Se mueve en un rango desde 30 – 50 terabytes hasta varios petabytes.
- Velocidad: Es la rapidez con que se crean, almacenan y procesan grandes volúmenes de datos en tiempo real. Algunas acciones como la detección de un fraude en una transacción bancaria demandan respuestas inmediatas.
- Variedad: Es la diversidad de formas, tipos y fuentes en que se presentan los datos generados. Pueden ser estructurados o no y de su complejidad dependerá la selección de herramientas a emplear.
La práctica en el manejo de Big Data ha llevado a describir las otras cuatro características:
- Valor: Es la utilidad de los datos para la toma de decisiones. Estos en sí mismos no constituyen valor, sino cuando, transformados en información, aportan cierto conocimiento.
Entonces pueden servir para la toma de acciones o decisiones. Las compañías hacen uso de aplicaciones dirigidas a seleccionar los que consideren de interés.
- Veracidad: Es la certeza de la fiabilidad de los datos obtenidos. Para ello, las empresas se valen de intrumentos que garantizan la comprobación de que los datos extraídos sean reales. De su calidad dependen los resultados de su posterior análisis.
- Viavilidad: Es la capacidad de hacer un uso eficiente del procesamiento de los datos. Constituye un factor esencial para el éxito empresarial, la innovación y el desarrollo de la inteligencia competitiva.
- Visualización: Es la manera en que se representan los datos obtenidos para su análisis consiguiente. Debe garantizarse que sean legibles, comprensibles y accesibles, lo que permite la identificación de patrones y variables ocultas.
Big Data, ¿qué tipos de datos procesa?
Clasificar los datos es importante en Big Data para determinar qué herramientas utilizar, qué análisis realizar y qué variables estudiar. Se agrupan en tres categorías:
Según su estructura
Pueden clasificarse en:
- Estructurados: Aparecen de forma organizada en filas y columnas, casi siempre enumeradas. Los nombres de cada elemento están definidos. Generalmente son bases de datos y constituyen el 10% de todos los datos que se procesan. Facilitan la realización de análisis y la generación de predicciones fiables.
- No estructurados: Se presentan en una diversidad de formatos, en ocasiones combinados, sin un orden o estructura definida. Por ejemplo, pueden ser publicaciones que incluyan textos, imágenes y videos o el cuerpo de un correo electrónico.
Es un reto para las empresas obtener valor de este tipo de datos. A ello ha contribuido mucho el desarrollo de la Inteligencia Artificial con algoritmos de aprendizaje (machine learning).
- Semi-estructurados: Combinan formas estructuradas y no estructuradas de representación de la información. Es el caso de la información personal que incluye un archivo XML o las tablas y gráficos que acompañan un texto.
Según su fuente
Pueden obtenerse de:
- Fuentes humanas de información: Es toda la información que se puede obtener a partir del registro de la experiencia de vida. Incluye:
- las interacciones de los usuarios en redes sociales
- las visitas sitios web
- la participación en foros y debates
- los documentos personales
- las imágenes y los videos (en Instagram, Flickr, Youtube, etc.)
- las búsqedas de Internet
- el contenido de los mensajes de texto de los móbiles
- el correo electrónico
- los mapas generados por los usuarios
- Datos de procesos mediados: Se originan en los registros que poseen las empresas y las agencias públicas. Comprenden:
- los historiales médicos
- las transacciones comerciales
- los informes bancarios y de acciones
- el comercio electrónico (conversiones de clientes, pedidos, etc.)
- las tarjetas de crédito
- los datos biométricos
- Datos generados por las máquinas: Provienen del Internet de las cosas, captados mediante sensores que guardan determinados hechos en el mundo físico. Entre ellos se encuentran:
- la domótica (automatización doméstica)
- los sensores de clima y contaminación
- los sensores de tráfico (webcam)
- los sensores científicos
- las imágenes y los videos de seguridad
- las ubicaciones de teléfonos móbiles
- las ubicaciones de los carros
- las imágenes satelitales
- los registros web de las computadoras
Según su contenido
Pueden abarcar:
- Contenidos geográficos: Son datos de caminos, edificaciones, direcciones, centros de trabajo, rutas de transporte, lagos, ríos, etc. Resultan de utilidad en la planificación urbanística y la evaluación del impacto ambiental.
- Multimedia en tiempo real: Se trata de publicaciones de audio, video e imágenes en vivo en plataformas como Youtube o Vimeo. También pueden ser videoconferencias.
- Datos de lenguaje natural: Información sobre el lenguaje humano natural, sobre todo verbal. Muestras obtenidas de grabaciones, llamadas telefónicas, el Internet de las cosas. Sirve para mejorar el aprendizaje de las máquinas ya que no está tan estructurado como el que está editado.
- Series de tiempo: Una secuencia sucesiva de puntos de tiempo en los que se observa un fenómeno. Un ejemplo puede ser la medición de la tasa de desempleo una vez al mes.
- Datos de eventos: Los que ofrece una máquina sobre un hecho determinado para establecer causas y predecir comportamientos, como evitar accidentes automovilísticos.
- Datos de redes: Los que se enfocan en la estructura de las redes y las conexiones entre sus nodos. Las redes pueden clasificarse en:
- sociales (nodos: personas)
- de información (nodos: datos)
- biológicas (nodos: células)
- tecnológicas (nodos: dispositivos de Internet)
- Datos vinculados: Son datos incorporados a las tecnologías web estándar. Permiten que la información que proviene de varias fuentes se conecte y se pueda leer.
El Big Data en la práctica
El Big Data es una tecnología automatizada para el manejo de la información. Entre las herramientas más empleadas para su implementación se encuentran:
- Hadoop
- Apache Spark
- Apache Storm
- MongoDB
- Elasticsearch
- Lenguaje R
- Lenguaje Python
¿Cómo funciona?
Conlleva cuatro procesos:
- Obtención de datos: Es un paso esencial en el que es necesario prever que estos serán relevantes, fiables y de calidad.
- Procesamiento: Al extraerse de diversas fuentes y en los más variados formatos, es imprescindible transformar los datos para su utilización.
- Almacenamiento: Creación de la base de datos a gestionar. Debe realizarse de forma organizada, en función de la técnica de análisis a emplear.
- Análisis: Permite el uso de los datos para tomar acciones o decisiones. Existen tres tipos fundamentales:
- Análisis de texto (su contenido y estructura)
- Asociación (relación de variables para describir un hecho)
- Minería de datos (identificar patrones de comportamiento predictivo)
Ventajas del Big Data para las empresas
Esto representa un gran avance en la planificación de estrategias de mercado. Uno de los beneficios es que elimina el elemento distintivo de las campañas de marketing.
Las empresas pueden conocer de antemano a qué públicos dirigirla y qué productos son más demandados. También se puede explotar este instrumento para conocer mejor a los clientes actuales.
Otro elemento a favor es que permite una evaluación acertada del trabajo de la compañía. Contribuye a identificar puntos débiles y aporta elementos de utilidad para hallar su solución. Igualmente, ofrece información importante sobre la competencia, sus estrategias y herramientas.
Por otro lado, los datos geográficos favorecen la optimización de las cadenas de suministros y las rutas de reparto. La gestión de los recursos humanos es más certera al contar con datos precisos y confiables.
Impacto del Big Data en otras áreas
Sus bondades abarcan varios sectores de importancia para todos.
- La vida personal: Las pulseras o relojes inteligentes para medir la condición física y los niveles de sueño son ampliamente utilizadas.
- La salud: Los estudios genéticos y de ADN con Big Data brindan mayores oportunidades de crear medicamentos más efectivos. También se han realizado avances en la predicción de infecciones.
- El deporte: Algunos como el tenis ya emplean herramientas que determinan los patrones y estilos que tienen los deportistas ganadores. Otros como el fútbol buscan mejorar la experiencia de los espectadores en las transmisiones de los partidos.
- La ciencia: Los inmensos volúmenes de datos obtenidos y procesados por este instrumento han permitido avances en la comprensión del universo.
- Las máquinas y dispositivos: También se deben a este la autonomía e inteligencia cada vez mayores de objetos electrónicos digitales.
- La lucha contra el delito: Ayuda a prevenir ciberataques y a detectar fraudes en transacciones con tarjetas de crédito. Sirve para rastrear criminales fugitivos de la ley.
- Las ciudades: Ya existen algunos proyectos de ciudades inteligentes donde distintas variables son analizadas mediante Big Data. Sus resultados permiten mejorar las condiciones de vida de las personas.
- Los mercados de capitales: Se añaden informaciones y algoritmos a los análisis para las decisiones de compra venta. Estos son optimizados y ocurren de forma muy rápida.
El lado oscuro del Big Data
Si bien esta tecnología trae beneficios, también comporta retos.
Obstáculos para las compañías
Su vertiginoso avance no siempre permite a las empresas contar con el personal especializado para manejarla. Demanda la aplicación de cambios sustanciales y la capacitación constante de la fuerza de trabajo en todos los niveles.
Quizás el mayor desafío sea garantizar la seguridad del gran volumen de datos. Un fallo puede abrir la oportunidad a la comisión de delitos y acarrear demandas costosas. Otra problemática puede ser la poca capacidad para el almacenamiento de datos y la falta de soporte.
Big Data, ¿y tus datos privados?
Como toda innovación tecnológica, la diferencia entre sus peligros y beneficios radica en el uso que se hace de ella. Algunas empresas, conocidas como ‘data brokers’ se dedican a la comercialización de datos personales.
Aunque a veces es una transacción ilegal, la mayoría actúa dentro de los marcos de la ley. Ofrecen algún tipo de servicio “gratuito” a sus usuarios que luego cobran a los clientes reales de sus productos.
El truco está en la política de privacidad donde las personas ceden el derecho a utilizar sus datos. ¿Cuántas veces has dado clic en un botón que dice ‘He leído y acepto’? ¿Cuántas veces realmente has leído y eres consciente de lo que estás aceptando?
Hay un peligro con la venta de estos datos. Es que no solo pueden usarse para mejorar tu experiencia de consumo. Una empresa que solicite tu permiso con ese objetivo, no estará autorizada a emplearlos en otro sentido.
Se han dado casos en los que esta información ha servido para realizar perfiles psicológicos con propósitos ocultos. Luego se lanzan campañas de manipulación dirigidas a lograr votos en las elecciones u otros fines políticos.