Cloud Computing, la mejor opción para alojar Hadoop

3min

Si hay un tipo de herramienta a la que se le puede sacar gran partido mediante una instalación en la Nube, su mejor ejemplo es Hadoop, el conocido sistema de almacenamiento de datos y que está detrás de muchas soluciones de Big Data. En este artículo, explicaremos qué es exactamente este framework de Apache, para qué podemos utilizarlo y por qué alojar este aplicativo en una arquitectura Cloud en la que, según el escenario concreto, la Cloud Híbrida puede ser la mejor opción.

Índice

¿Qué es Hadoop?

Apache Hadoop es un framework para el almacenamiento de datos de manera distribuida, con la característica de ser capaz manejar cantidades gigantes de información, del orden de petabytes. Es un proyecto de código abierto y desarrollado con Java.

Básicamente, es un sistema que permite el almacenamiento y recuperación de la información de gran volumen de datos de una manera muy rápida. Al estar distribuido, el sistema es capaz de mantener los datos en servidores separados, que pueden encontrarse físicamente en la misma red o en servidores a miles de kilómetros de distancia.

Ante un fallo de hardware, Hadoop es capaz de manejarlo automáticamente, asegurando una alta disponibilidad. Para ello, usa una arquitectura de clusters y nodos maestro y esclavo. Un cluster puede tener varios factores de replicación, con uno o varios nodos donde se guarda la información. El maestro es el responsable de que los nodos esclavo tengan una copia actualidad de la información y, en caso de fallo, un nodo esclavo del cluster pasaría a actuar como master.

En sí, Hadoop tiene varias herramientas que unidas forman el framework, el sistema de archivos distribuido HDFS, Hadoop Yarn, que permite la administración de los cluster, y Hadoop MapReduce, que permite procesar en paralelo grandes cantidades de datos. Estas herramientas se complementan con Hadoop Common, que contiene utilidades comunes para dar soporte a los otros módulos.

¿Para qué usar Hadoop?

Obviamente, esta tecnología es útil para administrar de forma fiable y accesible grandes cantidades de información Big Data; no solo a la hora de almacenar los datos, también a la hora de recuperarlos. Además, Hadoop es capaz de almacenar datos de multitud de naturalezas: bases de datos estructuradas como no estructurados (NoSQL), así como archivos de tipos diversos, audio, vídeo, imágenes, etc.

Por ello, los casos de uso donde lo encontramos son de diversa índole, como Business Intelligence, Internet de las Cosas, etc. Hadoop ha sido utilizado en multitud de marcos, como política, servicios financieros en bancos, de salud para la monitorización de los pacientes, telecomunicaciones, viales, logística, almacenamiento de vídeo e imágenes de operadoras de TV, etc.

¿Por qué llevar Hadoop a la Nube?

Al tratarse de un servicio donde es tan importante la alta capacidad de almacenamiento, Hadoop es perfecto para una arquitectura Cloud, capaz de llegar estirarse y encogerse según la demanda, dinámicamente y en caliente. Además, la distribución del sistema de archivos a través de sus diferentes clusters también puede resultar determinante, ya que Cloud nos permite levantar muy fácilmente máquinas virtuales en diferentes Centros de Datos distribuidos geográficamente o configurar diversos nodos dentro de un cluster.

Conviene recordar que no existen las “balas de plata” a la hora de desplegar una arquitectura IT para un proyecto basado en un aplicativo tan crítico para el negocio como puede resultar Hadoop. Aunque podamos optar por una solución 100% basada en la Nube Pública, puede no ser la opción óptima en todos los casos. Con los volúmenes de almacenamiento más exigentes, las infraestructuras Cloud híbridas nos garantizarán el mejor rendimiento para estos aplicativos de Big Data basados en Hadoop. De este modo, contaremos con lo mejor de dos mundos.

Fernán García de Zúñiga

Productos relacionados: