Uno de los principales desafíos a los que se enfrenta la sociedad tecnológica y las empresas es a la velocidad de crecimiento de datos año tras año. Este crecimiento tan desorbitado tiene varios problemas. En primer lugar, es necesario darle forma o estructura a esos datos. Por otro lado, muchos de esos datos son poco o nada útiles y por lo tanto es necesario hacer una limpieza. Por último, el almacenamiento de tantos datos de forma errónea puede dar lugar a problemas de seguridad, que ponen en riesgo la información privada de las entidades. En este post vamos a enfocarnos en el concepto de data lake como repositorio de datos y vamos a analizar algunos ejemplos de empresas específicas.
¿Qué es un data lake?
Podríamos definir un lago de datos como un almacén de datos sin ningún tipo de tratamiento previo, es decir, sin procesar y sin aplicar ningún tipo de jerarquía. Se trata de una alternativa al Data Warehouse, que almacena los datos siguiendo una jerarquía de organización en base a carpetas.
Entre los beneficios principales de utilizar un data lake se encuentran:
- La posibilidad de almacenar datos tanto estructurados como no estructurados.
- Este tipo de almacenamiento aumenta la flexibilidad a la hora de trabajar con los mismos y, además, permite trabajar a tiempo real.
- Los datos pueden ser incluidos en ficheros excel, vivos, de registro…
- Nos permite aplicar Machine o Deep Learning y automatizar.
Algunos de los data lake más importantes
Amazon
A través de Amazon S3 y AWS (Amazon Web Services) Lake Formation podemos construir, proteger y gestionar nuestro data lake. El primer paso sería identificar almacenamientos de datos en S3 y bases de datos NoSQL e introducirla en nuestro data lake. Posteriormente, llavar a cabo la limpieza de datos, catalogar los mismo y prepararlos para su posterior análisis. Por último, proporcionar a los usuarios un forma segura de servicio de acceso al dato con su metodología de análisis de preferencia.
Google es otra de las empresas que ofrecen un servicio de data lake a partir de su plataforma Google Cloud Platform. Esta tiene diferentes clases de almacenamiento ilimitado de hasta 5TB cada archivo. Además es una plataforma bastante económica.
En primer lugar se ha de recopilar todo el data bruto en Cloud Storage. A partir de este punto, se pueden utilizar herramientas como Cloud Pub/Sub para extraer, transformar y cargar data desde Cloud Storage (partiendo del hecho de que con el data lake contamos con todo el data de la empresa en un mismo sistema de almacenamiento). Posteriormente puedes presentar tus datos en data mart para los usuarios finales mejorando aun más su experiencia con herramientas como Data Studio.
IBM
IBM ha colaborado con Cloudera para ofrecer productos empresariales para la construcción de un data lake y su posterior manejo, dominio, acceso y análisis del big data. Esto nos ofrece la posibilidad de reducir costes y analizar datos a tiempo real. Aprovechar el gran potencial de toda nuestra acumulación de data sin analizar y transformarla a un formato más flexible, simple y útil a la hora de tomar decisiones.
Al final las empresas, ante la extensa cantidad de datos que recopilan continuamente, buscan herramientas que simplifiquen la información con la toma de decisiones como último fin. El crecimiento de dicha recopilación de datos es exponencial. Cada dos años, la cantidad de datos recopilados por las empresas se duplica. Los data lake y las posteriores herramientas de visualización y simplificación de datos son muy bien recibidas en el mundo empresarial.
Graduado en Ingeniería de Minas por la Universidad de Oviedo y especializado en Marketing y Gestión Comercial por EAE Business School y la Universidad Rey Juan Carlos.