Data Lakes: un lago de conocimiento

Almacenar Big Data en la Nube facilita su categorización, además que permite correr analíticas en tiempo real.

Desde hace tiempo las organizaciones han almacenado demasiada información que les es útil en el momento de su captura; también han enfrentado dos grandes retos: estructurar los datos almacenados y obtener los datos suficientes para hacer analítica en la empresa.

Para dar solución a estas demandas de almacenamiento de datos, surgen los Data lakes, repositorios centralizados de información estructurada o no estructurada, que permiten a las empresas guardar toda su información mientras corren analíticas en tiempo real.

¿Cuál es la relevancia del almacenamiento?

Las empresas interesadas en aprovechar el valor de Big data requieren de una opción para almacenar la información, así como sistemas para poder localizar la misma. Al estar hablando de grandes cantidades de datos, la mejor manera de almacenarlos es a través de la Nube, no solo por la redundancia de la información, sino por la facilidad que ofrecen para categorizar los datos frecuentemente utilizados y los datos que no se utilizan seguido.

En este sentido AWS Simple Storage Service (S3) ofrece almacenamiento confiable, seguro y escalable de objetos, mientras que AWS Glacier ofrece almacenamiento con las características previamente descritas por un muy bajo costo. Glacier es utilizado para información que se desea guardar a largo plazo, respaldos y cualquier cosa que no vaya a ser ocupada frecuentemente.

La seguridad es primero

Los elementos esenciales para garantizar la seguridad de la información en un data lake son la privacidad y gobierno. En este sentido AWS Identity and Access Management (IAM) permite establecer y personalizar roles, así como la asignación de usuarios, servidores y servicios.

Los servicios de AWS están comprometidos con la seguridad de tus datos y aplicaciones, por ejemplo con Cloudwatch podrás realizar un monitoreo del ambiente completo para responder a los eventos que se presenten, mientras que Cloudtrail te permite auditar la actividad de la cuenta y AWS Key Management Service (KMS) te facilita crear y controlar las llaves para encriptar datos.

Las claves de un Data lake

El uso de un Data lake beneficia a las empresas en términos de reducción de costos, y mayor capacidad de almacenamiento y procesamiento. Si ya contemplas incluir este servicio en tu estrategia de Big Data, conviene hacer un repaso a estos cinco conceptos clave en la adopción de un Data lake:

Base de datos: como hemos mencionado previamente, en un Data lake no toda la información es estructurada. En este entendido, AWS ofrece su servicio administrado de bases de datos llamado Relational Database Service (RDS) en el que se pueden escoger motores de bases de datos tanto comerciales como Open Source. De igual forma, AWS DynamoDB ofrece servicio de base de datos no-relacional, así como ElastiCache para desempeño de memoria.

Analítica: la ventaja del Data lake es poder analizar la misma información varias veces para diferentes casos. Sin embargo, se debe contar con diferentes formas de procesar la información y AWS cuenta con varias soluciones. Redshift funciona como data warehouse, mientras que Elastic Map Reduce (EMR) corre frameworks populares como Hadoop, Spark, Presto, etc. Y SquickSight que sirve como herramienta de Business Intelligence.

Procesamiento en tiempo real: Existe la necesidad de recolectar, almacenar, procesar y analizar información en tiempo real, por lo que debes contar con una herramienta que sea capaz de cumplir esta función.

Servicio de administración de datos: Dado que la intención del Data lake es alimentar distintas plataformas, es necesario hacer el ETL de datos de manera correcta (extraer, transformar, cargar). Amazon Glue es un motor ETL al que se puede acoplar fácilmente diferentes fuentes, para preparar los datos y cargarlos de manera correcta.

Aplicaciones: de poco sirve crear un Data lake si no se integrarán aplicaciones de alto nivel que sean capaces de explotar la información. AWS tiene diferentes servicios para diferentes casos de uso. Por ejemplo, Lambda es un servicio que le permite al usuario correr código sin necesidad del aprovisionamiento de un servidor, a un bajo costo.

Esperamos esta información te sea de utilidad, y si aún tienes dudas, consúltanos, nuestro equipo de especialistas estará listo para responderte.

Javier Paulin

Especialista Cloud

Data Lakes: un lago de conocimiento

Descarga gratis.

Nuestro whitepaper del mes y descubre por qué otras empresas como la tuya están apostando por el poder de Big Data y la Nube.

Contáctanos

Suscríbete al Newsletter.

Averigua cuáles son las tendencias, tecnologías y nuevas formas de digitalizar tu empresa.

Lo más leído

Contáctanos

CDMX

Monterrey, NL

Para más información sobre nuestras soluciones y servicios: