Detona el poder de Big Data & AWS

banner guia

A continuación mostramos las posibilidades que ofrece AWS para cada etapa del proceso de Big Data.

 

Si ya has decidido utilizar Amazon Web Services para tus proyectos de Big Dataquizá te estés preguntando qué servicios del portafolio de AWS te conviene usar en tu proyecto. Para esclarecer tus dudas, hemos creado el presente artículo que te ayudará a entender cuáles son las herramientas que mejor se adaptan a tu estrategia de Big Data.

 Antes que nada es importante entender  el proceso del Big Data:

  1. Colecta de datos.

  2. Almacenamiento de datos.

  3. Análisis y procesamiento de datos.

  4. Visualización de datos para responder las preguntas que den valor a la organización.

A continuación mostramos las posibilidades que ofrece AWS para cada etapa del proceso de Big Data:

Picture1

  1. Colecta de datos. Existen distintas soluciones para la ingesta de datos, se debe considerar la manera en que tu ambiente colecta los datos y el tipo de dato a colectar, para así optar por la mejor solución.

    Los datos transaccionales deben ser capaces de almacenar y recuperar. Los usuarios finales necesitan acceder rápidamente a la información, por ello, el método ideal de colecta son los servidores de aplicaciones o servidores web. En este sentido, las bases de datos como DynamoDB y Amazon RDS son la mejor solución para el almacenamiento.

    Los datos transmitidos a través de archivos individuales, regularmente se ingestan por medio de dispositivos. Este tipo de datos “logs” no necesitan que sean almacenados y recuperados rápidamente, además que provienen de una gran variedad de fuentes. Entonces, la solución de almacenamiento más adecuada es Amazon S3.

    Los datos provenientes de stream como logs de clicks deberían ser ingresados a través de una solución habilitada para utilizar Amazon Kinesis. Inicialmente estos logs se almacenan en AWS Kinesis para que puedan ser analizados en tiempo real. Posteriormente será mejor almacenarlos en una solución de bajo costo como Amazon S3.

  2. Almacenamiento. La mejor solución para tu ambiente puede ser una combinación de soluciones de almacenamiento balanceadas entre latencia y costo. En esta etapa conviene analizar tres formas clave: Data Lake, Data Warehouse y Base de datos noSQL

    Data Lake. Es una manera popular de almacenar y analizar datos de manera masiva. Los data lake conservan todos los datos: los que se usan actualmente y los que pueden ser utilizados posteriormente. Algunos de los beneficios de este almacenamiento son:

  • Ingesta de datos de diferentes fuentes.

  • Colecta y almacenamiento eficiente de datos.

  • Escalamiento de  volumen con datos generados.

  • Aplicación de análisis desde diferentes fuentes a los mismos datos.

    Si contemplas aprovechar un Data Lake, la solución que más te recomendamos es Amazon S3, ya que te da mayor:

  • Durabilidad: Amazon S3 está diseñado para tener 99.999999999% de durabilidad.

  • Disponibilidad: Amazon S3 está diseñado para 99.99% de disponibilidad en el servicio.

  • Alto rendimiento: Amazon S3 soporta operaciones GET y “multipart uploads”.

  • Uso sencillo: Simple REST API, SDKs de AWS, consistencia Read-after-create, notificación de eventos, políticas de ciclo de vida.

  • Escalabilidad: Almacena todo lo que necesites y escala tu almacenamiento independientemente del poder de cómputo. No exige un uso mínimo de almacenamiento.

  • Integración con soluciones de análisis de AWS: Cuenta con integración a herramientas como: AWS EMR, AWS Redshift, AWS DynamoDB, AWS Kinesis Firehose, AWS LAmbda, AWS Athena.

    Data Warehouse. Se tratan de repositorios centrales que almacenan datos estructurados e integrados de una o más fuentes. Los datos almacenados se utilizan para crear reportes del análisis de los mismos.

    Base de Datos NoSQL. Utilizan una variedad de modelos de datos, como documentos, gráficos, clave-valor, en-memoria y búsqueda. Las NoSQL están optimizadas específicamente para aplicaciones que requieren grandes volúmenes de datos, baja latencia y modelos de datos flexibles. El servicio recomendado para este tipo de almacenamiento es Amazon DynamoDB y sus ventajas son:

  • Sin necesidad de tener esquemas.

  • Consistencia.

  • Distribución.

  • Alta disponibilidad.

    Otra solución para el almacenamiento de datos estructurados es Amazon RDS, un servicio de base de datos relacional, el cual soporta motores de base de datos variados, respaldos y parches automatizados, disponibilidad Multi-AZ (Zona de disponibilidad), almacenamiento estándar  y IOPS optimizados para un mejor rendimiento.

    4.  Visualización. El objetivo de esta etapa del proceso es conseguir información de valor para la empresa. Nuestra recomendación es usar Quicksight de AWS, un servicio de Business Intelligence cuyo costo es de una décima parte de las soluciones de BI convencionales, además que cuenta con otros beneficios como:

  • Fácil de empezar.

  • Soporte de múltiples fuentes.

  • Insights rápidos con SPICE.

  • Fácil de usar y compartir.

  • Escalable sin esfuerzo.

    Además de las recomendaciones anteriores, es importante que tomes en cuenta las siguientes consideraciones:

  1. Estructura de los datos.  
  2. La máxima latencia aceptable.
  3. El rendimiento mínimo aceptable.
  4. Los patrones típicos de acceso de los usuarios finales del sistema.

 Otras consideraciones importantes es el orden de los datos y el tamaño de cada objeto que se almacena. El tiempo de respuesta se determina por cómo tu solución balancea latencia/rendimiento y costo. Así mismo, para definir la arquitectura más adecuada es recomendable saber la manera en la que los usuarios finales utilizarán los datos.

 Esperamos estas ideas te permitan elegir los servicios adecuados durante las cuatro etapas de tu proceso de Big Data, toma en cuenta que el ciclo puede ser más largo y enriquecedor, por ejemplo, una vez que hayas obtenido las respuestas necesarias, puedes otorgarles una percepción a los datos para la generación de nuevos cuestionamientos, las posibilidades con Big Data son inmensas, ¡aprovéchalas!

 

Oscar Tapia

Especialista Cloud

Descarga gratis.

Nuestro whitepaper del mes y descubre por qué otras empresas como la tuya están apostando por el poder de Big Data y la Nube.

Descargue nuestros materiales

Contáctanos