Pasar al contenido principal

ES / EN

¿Por qué cada empresa tiene un gran problema de Big Data?
Mar, 16/10/2018 - 09:02

Joe Chung

¿Por qué cada empresa tiene un gran problema de Big Data?
Joe Chung

Joe Chung es director de Estrategia Empresarial de AWS.

El informe semanal de Excel sale y llega a su correo electrónico. A medida que lo revisa, ve una anomalía en los datos financieros que usted no entiende, a pesar de la tabla dinámica proporcionada en el informe que le permite profundizar al menos algún nivel de detalle. Le pregunta a su analista de operaciones de lo que está pasando. A lo que el analista responde, “No estoy seguro. déjame averiguarlo “.

Al día siguiente, el analista le dice que la razón de la anomalía es que la productividad estaba muy en la planta de fabricación.

“Eso no tiene sentido”, dice usted. “¿Se puede pedir a Recursos Humanos si los días de enfermedad están impactando las cifras de productividad? O podría ser que había un problema con la aplicación de captura de tiempo en la planta?”

‘Va a tomar una semana para llegar a esos datos y fusionarlo con los datos financieros, ‘dice su analista.

“¿No puedes enviarme un volcado de los datos de la aplicación ERP y tiempo, y yo mismo trabajaré  en eso?”

El analista responde, “no tengo acceso a los datos, y se necesitará unos pocos días para presentar las entradas correctas para obtener acceso a ella.”

“¿Bueno, seguro que podemos conseguir el acceso al conjunto de datos de los centros de control de enfermedades con datos específicos de ubicación para ver si los brotes de gripe en el área local están impactando las cifras de productividad en la planta?” usted responde con sarcasmo, su frustración aumente. Su analista te mira como si usted tuviera dos cabezas, a la que usted dice, “Uh, no importa.”

Si este escenario le parece muy familiar, su organización tiene un problema de grandes volúmenes de datos. Su primera reacción puede ser que esto es un desafío de herramientas y proceso de inteligencia de negocios que ha plagado a las organizaciones desde que comenzó el tiempo, no es un verdadero problema de big data. Pero sin entrar en un debate religioso sobre lo que es analítica, versus reportes versus inteligencia de negocios, quédese conmigo mientras muestro por qué todas las empresas tienen un problema de big data. Y, con la inteligencia artificial y las capacidades de aprendizaje automático empezando a llegar a buen término, es aún más importante para las empresas obtener un mejor manejo de los datos que tienen.

Este blog va a ser el primero de una serie de varios capítulos que cubren los temas y enfoques, tanto de organización y técnico, a la creación de una organización basada en los datos. En esta serie, espero ayudarle a ver por qué cada organización debe revisar sus  datos y estrategias de análisis para utilizar mejor las ventajas que el big data puede traer.

La mayoría de nosotros pensamos en los problemas del big data como uno de volumen, y por lo general asociarlos con los casos de uso como El Internet de las Cosas (IoT) o el almacenamiento de objetos grandes como imágenes. Pero la verdad es que cada organización tiene un problema de grandes volúmenes de datos que ha sido enmascarado numerosas maneras diferentes. Voy a utilizar el modelo de 4 V para el big data y ojalá convencerlo de que realmente tiene un problema de big data (y no se preocupe, hay soluciones).

Volumen

Un arquitecto una vez me preguntó por qué necesitamos algo como Hadoop cuando el tamaño promedio de la base de datos en su entorno era algo así como 50 GB. En muchos casos, las bases de datos para las aplicaciones se ejecutan en la memoria en el motor de base de datos. Sin embargo, lo que la mayoría de las organizaciones no se dan cuenta es que una gran cantidad de datos interesantes se tira o simplemente no están accesibles.

Por ejemplo, ¿qué pasa con la actividad del usuario en la aplicación? ¿Está esa información fácilmente disponible? ¿O la telemetría de la infraestructura que aloja la aplicación (incluyendo los equilibradores de carga e interruptores)? ¿Y con respecto a dónde interactúan los usuarios con la aplicación? ¿Cómo están utilizando la aplicación en relación con otras aplicaciones? ¿Qué pasa con las versiones anteriores de los datos que ya no son compatibles con los actuales esquemas de tablas? Sí, hay herramientas de aplicación y monitoreo de usuario final, pero rara vez son analizados en el contexto de los procesos de negocios y actividades.

El otro problema es que el volumen de datos está en silos a través de muchas aplicaciones diferentes y almacenes de datos. Si bien ninguna aplicación puede ser “grande”, la totalidad de todas las aplicaciones en una empresa son grandes. Cuando las empresas se concentra en los resultados que abarcan funciones o unidades, la necesidad de analizar los datos de muchas fuentes se hace muy difícil. Tecnologías de almacenamiento de datos pueden hacer esto hasta cierto punto, pero la mayoría son limitados y no pueden albergar todo. En mi propio pasado, he tenido plataformas de información compartidas con cientos de almacenes de datos, data marts y almacenes de datos operacionales.

Estos silos de datos plantean otro problema: el acceso. Cada lugar donde se almacenan los datos tiene sus propios roles de acceso, reglas y ceremonias que deben ser respetados cuando se trata de acceder a los datos. Esto se vuelve muy marcado cuando usted hace su primer experimento de ciencia de datos sólo para ver que se para porque no puede conseguir en los datos. (Por cierto, si usted tiene archivos de datos debido a problemas de rendimiento, ese es otro silo de datos. Cuando expande los tipos de datos para incluir objetos o datos no estructurados, tiene big data)

Velocidad

Velocidad es la rapidez con que se mueven los datos, pero yo diría que es también la rapidez con que cambian los datos. Spark, AWS Kinesis, y otras tecnologías de streaming parecen, de nuevo, tener poca aplicabilidad fuera de los casos de uso de tipo IoT y no son relevantes para las aplicaciones empresariales. Si compra mi argumento de que los datos sobre lo que está sucediendo con su infraestructura son una preocupación de las aplicaciones comerciales y empresariales, entonces tener la capacidad de almacenar y procesar esta información es realmente importante. Herramientas como Splunk o Sumo Logic son fantásticas, pero, ¿cuántas veces deseó tener metadatos distintos de algún nombre de servidor críptico?

¿Qué tal si yo le preguntara cuánto tiempo se necesita para cambiar una interfaz en su organización? ¿O cuánto tiempo toma para que los datos se propaguen desde su ERP a sus sistemas downstream? ¿Cuántos de sus usuarios de negocios encantaría ser notificado y alertado sobre los acontecimientos claves o algoritmos?

Por cierto, las arquitecturas orientadas a servicios (SOA) e interfaces de programación de aplicaciones (API) no son suficientes para resolver estos problemas. Recuerdo trabajar con arquitectos en mi organización de plataforma de integración recientemente heredada. Ellos estaban afirmando que todas las nuevas integraciones de datos deben basarse únicamente API. A lo que alguien le preguntó, ¿cómo vas a entregar volcados de datos de referencia de 100 GB cuando necesitas actualizar un conjunto de datos y publicar un cambio de datos maestros en SAP? Silencio.

Variedad

Muchas empresas se dan cuenta de que hay una gran cantidad de datos que no encajan perfectamente en las tecnologías tradicionales de almacenamiento de bases de datos (por ejemplo, imágenes, datos de sensores, etc.). Sin embargo, la mayoría de las empresas tampoco se dan cuenta la facilidad y rapidez que esta información puede ser adquirida y almacenada en soluciones adecuadas. O lo fácil que puede ser para almacenar relaciones como las redes sociales en una base de datos gráfica.

Pero la variedad no se detiene en tipos de datos. También hay variedad en la forma de analizar y consume puntos de vista de los datos. Cuando lancé una iniciativa analítica en una empresa anterior, teníamos un principio para brindar información interactiva a los usuarios donde se encuentran. Con el fin de cumplir ese objetivo rápidamente nos dimos cuenta de que ninguna solución de informe o visualización podía satisfacer todos los requerimientos. Sólo se puede pedir a Excel que haga tanto. Estábamos entregando conocimientos procesados a través de algoritmos a través de la API, dentro de las aplicaciones que utilizan widgets de visualización personalizada utilizando frameworks de JavaScript como D3.js, y a través de portales de inteligencia de negocio que aprovechan Tableau y otras soluciones de visualización.

Veracidad

Veracidad de datos le habla al ruido, anormalidad, exactitud o utilidad de los datos. Cuando comienzas a acceder a datos no estructurados o basados ​​en objetos, habrá ruido. Al igual que en el ruido electrónico, existen mecanismos de filtrado, mejora y amplificación que puede utilizar para obtener los datos que desea.

Un caso de uso que preocupa a muchas empresas es el aumento vertiginoso de los costos de envío de datos a herramientas de monitoreo, seguridad o agregación de registros de propiedad. Sin embargo, en la mayoría de los casos una gran parte de los datos de registro se puede filtrar hacia fuera, ya que no es útil. Uno de los patrones que he visto implementado es en lugar enviar los datos directamente a las herramientas especializadas de análisis de registro, puede ser enviado a una arquitectura de datos lake y luego se filtra en tiempo real utilizando herramientas como AWS Apache Spark, permitiendo a los usuarios desviar sólo los datos útiles.

Si usted ha luchado o resuena con cualquiera de los puntos anteriores, es hora de que su organización revise su enfoque de análisis y la arquitectura. En realidad, no me gusta el término “big data”, porque desvía la aplicación y la oportunidad que las arquitecturas de big data pueden proporcionar. Lo que realmente se reduce a esto es que cada empresa tiene la oportunidad de implementar soluciones de análisis apropiadas (almacenamiento, procesamiento, consultas, análisis, presentación, etc.) para cumplir con sus desafíos empresariales y de TI existentes.

A medida que continúo esta serie de varios capítulos, voy a cubrir más detalles sobre el futuro de las soluciones de análisis y algunas ideas sobre la mejor forma de organizarse para hacer de su empresa una organización impulsada por los datos.

Nunca dejar de innovar.

Autores