No tienes, ni necesitas Big Data
Big Data es realmente un problema técnico: radica en la imposibilidad de almacenar, procesar y analizar grandes volúmenes de datos.
Por Matías Sánchez Cabrera
Cuando enfrento una reunión con el equipo gerencial de una empresa, a menudo escucho la frase “Necesitamos Big Data”. ¿Qué es lo que lleva a las empresas a querer Big Data y a necesitar implementar tecnologías en torno a este concepto?
Partiré explicando algunas definiciones:
El término “Big Data” ha sido ampliamente utilizado en la industria, por aproximadamente 10 años, visto como un escenario idílico en el que una empresa va a poder solucionar todo tipo de problemas con sus datos. Esto ha llevado a muchas empresas a generar grandes expectativas y embarcarse en proyectos gigantescos innecesarios, implementando tecnologías complejas y contratando profesionales altamente calificados, en búsqueda de llegar a tener Big Data. Pero, ¿vale realmente la pena esta inversión?
Comencemos respondiendo unas preguntas:
¿Qué es realmente Big Data?
En nuestra experiencia, Big Data es realmente un problema técnico: radica en la imposibilidad de almacenar, procesar y analizar grandes volúmenes de datos.
¿Cuándo tengo Big Data?
Cuando los datos de una organización no se pueden almacenar y procesar eficientemente en una base de datos relacional, debido a su volumen, estructura, velocidad o variabilidad, probablemente tienes Big Data. ¿Y qué es lo preocupante de esto? Podemos estar siendo lentos en el análisis de los datos para tomar decisiones estratégicas o podemos perder oportunidades de negocios o desatendiendo necesidad de clientes por no poder identificarlas a tiempo.
¿Qué implica tener Big Data?
Para enfrentar este escenario se utilizan tecnologías altamente especializadas que buscan almacenar los datos de manera distribuida para poder procesarlos paralelamente por múltiples computadores. Todo esto para realizar operaciones básicas sobre los datos: encontrar las fotos de un usuario, contar el número de clientes que cumplen ciertas características o sumar la facturación total a partir del valor de las facturas válidas.
En la práctica vemos que un porcentaje pequeño de las empresas de la región está cerca de tener Big Data. La mayoría de las empresas con las que trabajamos pueden manejar sus datos en una base de datos estructurada. En este sentido, implementar tecnologías de Big Data es un error debido a sus altos costos.
Acá explico algunas razones:
1.- Se requiere contratar licencias costosas, contratar personal altamente especializado en estas tecnologías y los tiempos de implementación pueden ser altos.
2.- Analistas y perfiles no técnicos van a tener muchas fricciones para acceder a los datos.
3.- La estrategia de datos en la empresa se verá relegada a la implementación de estas tecnologías más que a utilizar datos para solucionar problemas de negocio de hoy.
Entonces, ¿qué se debería hacer?
Mi recomendación es partir con tecnologías sencillas para comenzar a agregar valor a partir de los datos hoy. Luego escalarlas en la medida que aumente su uso y genere beneficios para la empresa.
Te propongo partir ordenando la casa: automatizando la generación de reportes que hoy se hacen en Excel. Esto se hace construyendo proceso de extracción de información (ETL) que se llevan los datos de los diversos sistemas operacionales a una base de datos centralizada (datawarehouse). Luego, estos datos se comparten a través de alguna herramienta de visualización como Tableau o Power BI.
Con este flujo ya pulido podemos destinar más tiempo a analizar los datos y probablemente beneficiar de manera concreta a toda la organización por la calidad del acceso a información. También se va a clarificar el camino y cuáles son los siguientes pasos para avanzar organizacionalmente.
Vemos que las organizaciones se dan cuenta que sus datos sirven para predecir ciertos fenómenos importantes (Machine Learning), que la calidad o estructura de los datos no es la correcta (Data Quality), y hay que invertir tiempo en corregirlo, o que gestionar el acceso controlado y gobernado es un desafío importante (Data Governance). Y ninguno de estos caminos tiene que ver con tecnologías de Big Data.