Integración de datos: ¿qué es y cómo solucionarlo?
Aprende a superar los desafíos de la integración de datos con las mejores prácticas que ofrece Datalized en este artículo.
Actualmente, es común que las empresas utilicen una mezcla de servicios externos, lo que implica que tengan parte de sus datos distribuidos entre sistemas internos y externos. A pesar de todos los beneficios que trae la utilización de los servicios externos altamente especializados que están en el mercado, estos vienen acompañados de dolores de cabeza, puesto que dificultan visualizar un panorama completo del negocio, realizar análisis que crucen datos de distintas fuentes y hacer que los servicios se relacionen entre sí. La integración de datos busca consolidar toda la información en un mismo lugar para solucionar estos problemas.
En Datalized trabajamos hace años resolviendo este dilema con el desarrollo de soluciones que buscan facilitar la integración de datos en servicios externos. En este post te contamos más.
Un poco de contexto
Hace unos años, las empresas contrataban un ERP (Enterprice Resource Planning) para apoyar todos sus procesos internos, tales como la facturación, contabilidad, el pago de remuneraciones y la gestión de inventario, entre otros. ¿El problema? El que mucho abarca, poco aprieta. Dicho de otro modo: al intentar hacer tantas cosas simultáneamente, ninguna de ella se lleva a cabo lo suficientemente bien. (Si somos honestos, conocemos poca gente que ame su ERP.)
En el último tiempo, hemos sido testigos de una proliferación de servicios altamente especializados — generalmente con un buen equipo de tecnología — que solucionan solo alguno de los procesos clave de una empresa pero de manera muy eficiente.
Algunos ejemplos son: Buk y Talana, quienes se enfocan en el problema de recursos humanos; Bsale y SimpleDTE, que brindan herramientas para facilitar la facturación; Chipax y Clay, quienes facilitan la conciliación bancaria; Hubspot y Pipedrive, que ofrecen herramientas el seguimiento y control de leads; y Zendesk e Intercom, quienes brindan funcionalidades para facilitar la atención al cliente. Por otro lado, también existen servicios específicos para ciertas industrias que resultan bastante interesantes. Uno de ellos es Multivende, que permite gestionar las publicaciones en diversos marketplaces (como MercadoLibre, Yapo o Dafiti) para ayudar a empresas en el mundo del e-commerce.
Por lo general, las empresas que han adoptado estos servicios están contentas con ellos puesto que, en realidad, algunos se llevan a cabo de muy buena manera. Ahora bien, hay un problema: este modelo de servicios externos guarda la data que generan las empresas en sus propios sistemas, es decir, al contratar un mix de estos servicios la data de la empresa se almacena fuera de la infraestructura interna y, por lo tanto, se dificulta su manipulación.
Hemos explorado este problema por un buen tiempo, y creemos que los dolores principales que presentan las empresas, independiente del sector al que pertenezcan, son los que enumeramos a continuación:
1. Ver la película completa: la dirección de una empresa necesita tener información sobre todas las áreas del negocio — idealmente en un mismo lugar — de manera conjunta y en tiempo real. Tener los datos distribuidos en muchos servicios distintos hace difícil visualizar todo en un mismo lugar.
2. Automatizar análisis que crucen diferentes fuentes de información: para cruzar datos de distintas fuentes de información, usualmente se terminan realizando procesos manuales, tales como conectarse a los servicios, descargar un excel y cruzarlos con un BUSCARV. Realizar el mismo proceso cada vez que se quieran cruzar datos es realmente muy poco productivo para una empresa.
3. Alimentar otros sistemas externos: parece normal que la información de remuneraciones esté conectada con la información contable, pero no siempre están conectados los servicios de RRHH con los de la contabilidad. Ocurre, entonces y nuevamente, la manualidad de descargar excels y subirlos a otro lugar.
Aquí entra la integración de datos..
En Datalized, nos ocurrió que uno de nuestros clientes — una empresa de transporte de carga — quiso reportar la métrica porcentaje de vehículos disponibles de manera automática. Esta métrica considera elementos como la fecha de vencimiento de la revisión técnica, la caducidad del permiso de circulación, si los choferes asignados están con licencia médica o de vacaciones y si el vehículo está o no en un taller de mantención. Como es posible imaginar, construir esta métrica significó conectar diversas fuentes de información, entre las que estaban una base de datos interna, un servicio de recursos humanos y un servicio de gestión de mantenciones. Nuestra labor fue integrar estas tres fuentes de información para poder automatizar la reportabilidad de esta métrica.
La integración de datos se soluciona construyendo procesos de extracción de información (comunmente conocidos como ETLs) que se conecten automáticamente a los servicios externos que utiliza la organización, extraen los datos relevantes y los carguen en una base de datos centralizada (comunmente conocida como datawarehouse).
La forma de conectarse depende de cada servicio y, por lo general, los métodos de conexión son distintos. Existen, principalmente, tres métodos para conectarse y extraer información de estos servicios: a) algunos cuentan con APIs para solicitar información de manera programática. b) Otros necesitan scrappers, que es un código que simula el comportamiento de un usuario en la web, también conocidos como arañas o robots, que descargan información como lo haría un usuario.c) Finalmente, y en casos muy particulares, se tiene acceso directo a una base de datos desde la que se puede extraer información utilizando SQL, que es lenguaje para consultar una base de datos estructurada.
La carga de información consiste en tomar los datos que se obtuvieron y almacenarlos en una base de datos. Existen muchos motores de bases de datos y, si bien entendemos que para muchos puede resultar intimidante, no es abrumador comprenderlos como un lugar en el que los datos se van a alojar para que cualquiera los pueda consultar. Algo así como un gran excel — sin celdas con colores, lamentablemente — al que mucha gente tiene acceso, en el que se pueden almacenar millones de registros y que se puede cruzar fácilmente con consultas SQL.
¿Por qué es difícil la Integración de Datos?
Por una parte, términos como ‘APIs’, ‘scrappers’ y ‘SQL’ pueden resultar imponentes para varias personas. Al mismo tiempo, las empresas están cada vez más familiarizadas con los términos del mundo tech, pero no lo suficientemente ni necesariamente para construir estos procesos por si mismas, por lo que terminan descargando el excel y cruzándolo con BUSCARV. Por otro lado, las empresas con equipos de desarrollo sí pueden construir estos procesos. Las integraciones necesitan un desarrollo que precisa entender bien la manera correcta de extraer los datos, definir cómo y dónde se guardarán. También necesitan de una mantención en el tiempo, puesto que los servicios y su manera de extraer la información puede cambiar en el transcurso de los días.
Al final de la jornada, al ser un recurso escaso, es mejor que tu equipo de desarrollo esté trabajando en tu producto y no en este tipo de tareas. Use your time wisely.
En Datalized estamos trabajando en una solución simple para este problema.
Tenemos la experiencia de haber trabajado con empresas de distintos tamaños e industrias con la intención de solucionar diversos problemas de negocios utilizando técnicas de Business Intelligence y Machine Learning y lo que se repite con frecuencia es el dilema de integrar los datos de diversas fuentes de información. Es por esto que un datawarehouse, que tenga todos los elementos relevantes del negocio, facilita enormemente el trabajo de un data analyst/data scientist, tanto para la construcción de reportería en línea como para el entrenamiento de modelos de modelos predictivos.
En proyectos pasados hemos desarrollado integraciones con varios de los servicios externos más utilizados en el mercado y nos dimos cuenta de que este problema es mucho más común de lo que se cree. Por eso estamos desarrollando un producto en el que puedas extraer información de los diversos servicios externos que utilices y cargarlos en una base de datos internos con un par de clics.
¿Te interesa? Escríbeme un correo a [email protected] o visita nuestro sitio web aquí. Si además necesitas ayuda con un proyecto de Business Intelligence o Machine Learning dentro de tu organización, ¡escríbenos!
Nos gusta enfocarnos full en el problema y sabemos una que otra cosa de tecnología y datos.