El gran costo del Big Data
ForbesPost invitado escrito por John Bantleman
John Bantleman es CEO de RainStor, que vende software de base de datos utilizado para proyectos de Big Data.
Hemos entrado en la era de Big Data donde se descubren nuevas oportunidades de negocios todos los días porque las tecnologías innovadoras de administración de datos ahora permiten a las organizaciones analizar todo tipo de datos. Los datos semiestructurados y no estructurados que se generan en grandes cantidades a la velocidad de la red son fuentes ricas de información que le dicen a las organizaciones exactamente lo que los clientes necesitan y quieren y cómo o por qué compran. Pero con las nuevas oportunidades de negocio viene el costo, y los verdaderos costos aún no se han apreciado del todo.
Big Data no es exactamente nuevo. Los líderes del mercado han estado almacenando y analizando tipos de datos múltiples no solo para obtener una ventaja competitiva, sino también para lograr una visión más profunda de los patrones de comportamiento del cliente que impactan directamente en su negocio.
Dos sectores específicos - telecomunicaciones y venta minorista - han invertido en soluciones de data warehousing donde se acumulan grandes cantidades de transacciones e interacciones de los clientes para determinar los indicadores de rendimiento clave, como los ingresos por año o por cliente o el costo de adquisición de clientes a través de Internet promociones o picos estacionales. Sin embargo, incluso los líderes del mercado no pueden permitirse almacenar y administrar datos detallados sin procesar a escala de petabytes a lo largo del tiempo en almacenes de datos tradicionales. A menudo almacenan, digamos, los últimos cuatro trimestres y luego descargan el historial a la cinta sin conexión, que no es de fácil acceso. El desafío empresarial se produce cuando la Navidad cae en sábado, y necesitan analizar datos de hace siete años para comprender patrones específicos. La reinstalación de datos más antiguos y voluminosos en el almacén no solo es muy desafiante, sino también costoso.
Dos factores clave entran en juego con respecto a la gestión y análisis Big Data a escala empresarial. Primero, los innovadores web, como Facebook, Google y Yahoo, han desarrollado una arquitectura de almacenamiento y computación escalable para administrar Big Data: Hadoop, que paraleliza grandes conjuntos de datos a través de hardware básico de bajo costo para una escala fácil y reduce drásticamente el costo de petabyte ambientes.
En segundo lugar, los requisitos tecnológicos para administrar Big Data se han trasladado del dominio de unos pocos mercados distintos al aumento de la demanda y los requisitos únicos en una amplia gama de sectores. Los operadores de comunicaciones que administran la escala de petabytes hoy esperan un crecimiento de datos de 10-100x debido al cambio a 4G y LTE con el aumento de los dispositivos de punto final conectados para aprovechar miles de aplicaciones móviles. La red inteligente de servicios públicos se está sumergiendo en Big Data mientras las ciudades de todo el mundo se unen a la nueva "red digitalizada". Las instituciones de servicios financieros están viendo crecimientos compuestos del 100 por ciento en los datos de negociación y opciones, que deben almacenarse durante más de 7 años. Durante los próximos 3 a 5 años, Big Data será una estrategia clave para las organizaciones del sector público y privado. De hecho, en los próximos 5 años, se espera que el 50 por ciento de los proyectos de Big Data se ejecuten en Hadoop.
La realidad es que los enfoques de bases de datos tradicionales no escalan ni escriben datos lo suficientemente rápido para mantenerse al día con la velocidad de creación. Además, los almacenes de datos diseñados para el propósito son excelentes para manejar datos estructurados, pero el hardware tiene un alto costo para escalar a medida que crecen los volúmenes.
Un habilitador clave para Big Data es la escalabilidad de bajo costo de Hadoop. Por ejemplo, un cluster Petabyte Hadoop requerirá entre 125 y 250 nodos que cuestan ~ $ 1 millón. El costo de una distribución Hadoop compatible tendrá costos anuales similares (~ $ 4,000 por nodo), que es una pequeña fracción de un almacén de datos empresarial ($ 10- $ 100s de millones). En la evaluación inicial, Big Data en Hadoop parece ser una gran oferta. Las empresas innovadoras tienen Hadoop en la actualidad: la pregunta es ¿cómo lo aprovecharán ya qué ritmo se convertirá en una misión crítica y central para el enfoque de TI?
Sin embargo, el costo real se encuentra en la operación y administración general o integración de Big Data dentro del ecosistema existente. A medida que los entornos de Big Data escalan, como en Yahoo, la gestión de 200 petabytes en 50,000 nodos requiere que se agreguen más para brindar capacidad de almacenamiento adicional. Muchas organizaciones Web 2.0 que ejecutan Hadoop dependen completamente de la redundancia de datos, pero si usted es un banco empresarial o un operador de comunicaciones, debe cumplir con la seguridad basada en estándares, la recuperación ante desastres y la disponibilidad. Como Hadoop existe hoy, introduce una administración más compleja y la necesidad de recursos especializados.
Detrás de la superficie de Big Data en las implementaciones de Hadoop, muchos innovadores de la plataforma de código abierto han invertido y creado el "Científico de datos", esencialmente un estadístico que puede programar de forma nativa y aprovechar los marcos MapReduce. Para integrar MapReduce, la mayoría de las empresas necesita desarrollar una base de habilidades completamente nueva, y la inversión en capital humano superará rápidamente a la inversión en infraestructura. Además, deben aprovechar el almacén de datos existente y la infraestructura de inteligencia empresarial donde Big Data en Hadoop necesita integrarse para aprovechar las herramientas y habilidades existentes. La imposibilidad de aprovechar los estándares en Hadoop como SQL requiere una mayor inversión sin reducir el costo del almacén de datos.
Big Data ofrece ganancias para las grandes empresas, pero los costos ocultos y la complejidad presentan barreras con las que las organizaciones tendrán problemas. Aunque Hadoop es relativamente nuevo en la empresa, está haciendo grandes avances para mejorar la confiabilidad y la facilidad de uso. No hay escasez de innovación proveniente de las nuevas empresas y los principales contribuyentes al proyecto de código abierto Apache. Las dos áreas que tendrán el mayor impacto tanto en la facilidad de adopción como en el costo son:
- aprovechar el lenguaje de consulta SQL existente y las herramientas de BI existentes contra datos dentro de Hadoop; y
- la capacidad de comprimir datos al nivel más granular, lo que no solo reducirá los requisitos de almacenamiento, sino que reducirá el número de nodos y simplificará la infraestructura.
Sin estas dos capacidades, el aprendizaje de habilidades requerirá tiempo y dinero, y no se adaptará a las demandas de la empresa. Las tasas de crecimiento de los datos simplemente superarán el costo de la escala para administrar cientos de terabytes a petabytes de Big Data que llegan todos los días.
Los CIO y los CTO deben analizar de cerca el verdadero costo de Big Data. Sabemos que una cosa está comprobada: los beneficios de aprovechar Big Data superarán la inversión en TI, y por eso agradecemos a nuestros innovadores de base. Costo por cuánto es la pregunta.