Conceptos clave
- El “torrente de datos”, la oleada de nuevas y poderosas fuentes de información, se está abatiendo sobre la economía y sobre la mayoría de las empresas.
- El torrente de datos representa oportunidades y requiere herramientas especiales.
- Los datos de la Web – la forma más común del torrente de datos – incluyen textos, identificación de radiofrecuencias (DIRF), “telemática”, información de los medios sociales y datos de redes inteligentes.
- La escalabilidad, las herramientas, los métodos y los procesos del análisis evolucionan de forma muy rápida.
- Un informe le transmite datos en formas esperadas; un análisis plantea preguntas bien elaboradas en formas originales para proporcionar conocimiento nuevo.
- Ciertas herramientas facilitan el análisis, como el “análisis restringido” o análisis de cajón de arena: un conjunto cerrado de recursos que un analista puede remodelar a voluntad.
- Un buen análisis es “orientado, pertinente, comprensible, aplicable y oportuno”.
- Un analista excelente necesita creatividad, intuición y formación estadística.
- Los analistas trabajan bien en una estructura matriz con una jerarquía mínima.
- Organice el análisis para que permita la “innovación analítica”: hacer análisis de maneras nuevas, plantear preguntas nuevas y usar nuevas herramientas y métodos.
Resumen
La evolución del “torrente de datos”
Nada modelará tanto el “análisis avanzado” en el futuro “como la actual explosión de nuevas y poderosas fuentes de datos” o torrente de datos. Las nuevas fuentes de datos poseen características que las diferencian de las “fuentes de datos tradicionales”. El torrente de datos es más veloz, complejo y variado que los datos tradicionales. Las máquinas producen un torrente de datos, el cual se basa en la tecnología de la información, la capacidad de procesamiento y la memoria artificial. Para aprovechar ese torrente, debe separar la información útil de la paja. El torrente de datos sólo es útil en combinación con los datos tradicionales y el análisis aplicado.
“Quizá nada tendrá un impacto tan fuerte en el análisis avanzado en los años venideros como la actual explosión de nuevas y poderosas fuentes de datos”.
Lo datos tradicionales estaban estructurados, pero la mayoría de los datos del torrente no lo están o lo están a medias. Debe aprender la lógica de los datos estructurados a medias y estructurar los datos no estructurados. A medida que las máquinas captan más datos, las empresas deben poner a salvo su repertorio de datos y actuar con ética cuando reúnen y usan la información. Su empresa debe practicar la autorregulación: si captura demasiados datos con demasiada rapidez, los costos pueden superar los beneficios y no sabrá qué hacer con los datos reunidos. Desarrolle una estrategia para “obtener beneficios pequeños y rápidos” al usar el torrente de datos.
Las fuentes del torrente de datos
La mayor fuente del torrente de datos es la Web. La mayoría de los análisis empresariales sólo rastrean el tráfico y el número de transacciones y visitas en línea, pero los datos de la Web tienen más contenido y potencial; por ejemplo: de las personas que buscan un producto y llegan a su página web, al menos el 5%, digamos, podría poner algo en su canasta de compras; quizá la mitad llegue a la caja e incluso menos comprará algo. ¿Qué pasa en cada paso? ¿Qué evita que los clientes hagan su compra?
“El torrente de datos surge de todas partes y su uso apropiado dará impulso a las ventajas competitivas”.
Los datos de la Web le permiten rastrear qué clientes dejaron su página después de leer las especificaciones, cuáles vieron sus videos o leyeron sus reseñas, etcétera, y rastrear los pasos que siguieron para llegar a su sitio. La búsqueda de esa información plantea cuestiones de privacidad, pero puede reunir esa información sin personalizarla y rastrear clientes promedio, no específicos. Los datos de la Web le permiten seguir a los clientes en su proceso de decisión, rastrear su conducta y prever sus necesidades y deseos.
Haga el “modelado de disminución”: un estudio de la conducta de los clientes que podrían cancelar o cambiar servicios; o el “modelado de respuesta”: un análisis de los actos de los clientes para predecir sus probables compras futuras; con más información, puede favorecer ciertos segmentos de clientes. El rastreo de los datos de la Web o los foros de retroalimentación en línea pueden reemplazar las encuestas. La revisión de otras fuentes podría suscitar sus ideas analíticas:
“Datos telemáticos”
Las aseguradoras de automóviles emplean los datos telemáticos para centrar sus ofertas: en lugar de cobrar a una categoría la misma tarifa, usan el análisis telemático para reducir las primas a los conductores seguros y rastrear cómo la gente usa su vehículo. Esos datos proporcionan una medición precisa del riesgo del conductor.
“Datos de los textos”
Los medios de comunicación en línea son una fuente de un torrente de datos poco analizados. Los textos no están estructurados, dependen del contexto y requieren un análisis considerable. Puede rastrear lo que se rumora sobre un tema o hacer un “análisis de sentimientos” para saber cómo reacciona la gente a un tema o a una cuestión.
“Datos de tiempo y lugar”
Ahora que hay más dispositivos con GPS, puede rastrear con más precisión dónde están sus clientes en momentos específicos, lo cual le permite publicar anuncios centrados en ellos, como la oferta de un cupón para un restaurante; también puede situar grupos de gente, por ejemplo, para que las ambulancias eviten los embotellamientos.
“Datos de identificación de radiofrecuencias (DIRF)”
Las chapas de DIRF han remodelado varios aspectos de la gestión, seguridad y ventas de la cadena de existencias y suministro. Las chapas identifican el lugar preciso y la condición de los objetos que las llevan. Unas son móviles, otras estacionarias, algunas muestran mejor las ventas, etcétera.
“Datos de redes inteligentes”
Las nuevas “redes inteligentes” usan “sensores aplicados” para observar el uso. Las empresas de electricidad saben cómo asignar el uso para un beneficio máximo. En la maquinaria industrial, pueden captar los motores en tensión y asegurarse de que todas sus partes funcionen bien; y, cuando los gerentes de productividad los usan para vigilar los diferentes aspectos de la manufactura, pueden mejorar el rendimiento.
“Datos de rastreo de las fichas de casinos” y “datos de telemetría”
Los casinos requieren una seguridad más estricta que otras empresas. Si pudieran aumentar la información de sus sistemas de video mediante el uso de fichas de juego con chapas que pudieran transmitirla, podrían rastrearse los patrones de apuesta, saber qué mesas tienen más actividad y determinar si alguien roba fichas. Los videojuegos usan la telemetría para captar la conducta de los jugadores, transformar los movimientos en datos y desplazar la acción. Los fabricantes podrían usar ese tipo de lecturas con otros propósitos, como establecer servicios de suscripción para videojuegos y reunir datos sobre la manera de jugar para mejorarlos.
“Datos de los medios sociales”
Los medios sociales implican establecer redes y los analistas puede explotar los datos de esos medios para obtener información sobre los individuos y retroalimentación de las redes, y rastrear la influencia de uno o más individuos, saber quién está conectado con quién y conocer qué tipo de conexiones emplean la gente y las sociedades.
Escalabilidad, procesos, herramientas y métodos
Los analistas han ampliado la escala del procesamiento de datos durante años. El producto es el torrente de datos. El almacenamiento de datos está disponible a precios cada vez menores. El análisis y el almacenamiento cada vez se mezclan más. El almacenamiento centralizado da acceso a más clases de datos a la vez y permite analizar con más detalle las relaciones entre las clases de datos.
“Quizá ninguna otra fuente del torrente de datos se use tan ampliamente hoy como la Web”.
La estructura de los sistemas de datos está cambiando. Aunque el procesamiento paralelo (la capacidad de un ordenador para hacer varias tareas al mismo tiempo) está bien establecido, las bases de datos de “procesamiento masivamente paralelo” (PMP) son un avance reciente. El PMP distribuye los datos a muchas unidades centrales de procesamiento, las que los procesan con mayor velocidad, “porque procesan simultáneamente muchas búsquedas independientes, en lugar de una sola gran búsqueda”.
Otro avance reciente es el cómputo en la nube, que ofrece flexibilidad mediante el uso compartido de servidores de gran capacidad: usted sólo paga el procesamiento, en lugar de comprar equipo para todo un sistema. El “MapReduce” es un modelo de programación que permite “distribuir a muchas máquinas la carga de procesar una gran cantidad de datos” y funciona bien con el cómputo en la nube y las bases de datos relacionales para dominar el el torrente de datos.
“Los datos sobre tiempo y lugar son uno de los tipos del torrente de datos más sensibles para la privacidad”.
Analítica
Cada herramienta posee cualidades y defectos analíticos. Los métodos analíticos y las herramientas conceptuales también están evolucionando. Con la elaboración de “modelos múltiples” para el análisis y la combinación de sus resultados se pueden aprovechar las cualidades de las diversas herramientas y reducir al mínimo sus defectos.
“Los textos son una de las fuentes más numerosas y comunes del torrente de datos”.
La avalancha de datos de texto continúa multiplicándose y las empresas prestan más atención a su análisis. Ahora, las “soluciones puntuales” – software prediseñado con herramientas para “solucionar un conjunto de problemas muy específico y limitado – son cada vez más variadas y obtenibles. La “visualización de datos” representa gráficamente la información. También hay ya software de código abierto disponible para el análisis, como para todas las demás operaciones informáticas: “R” es el software de código abierto más popular para el análisis.
“Los datos de la Web son únicos, porque le permiten obtener información sobre lo que sus clientes piensan comprar y sobre cómo funcionan sus procesos de decisión”.
No importa cómo escale el procesamiento y almacenamiento de datos, su inversión no rendirá frutos a menos que mejore su análisis. Las desventajas son que el análisis podría consumir tiempo y recursos, interferir con otros procesos y generar fricciones con el departamento de tecnología de la información. Evite esos problemas y mejore su análisis diseñando un “análisis restringido”, un conjunto de recursos independiente que un analista puede remodelar a voluntad para un proyecto específico.
La calidad y el torrente de datos
Distinga entre informe y análisis; ambos son esenciales y puede entretejerlos, pero no los confunda. Los informes presentan los datos que necesita en una “forma predefinida y normalizada”; el análisis ofrece respuestas a preguntas sobre los datos. Haga su análisis a la medida “de las cuestiones específicas que busca solucionar”. Las listas mnemotécnicas incluyen las pautas para evaluar que el análisis sea:
- “Guiado” – Haga que las necesidades de su empresa guíen su análisis para que sea centrado y determinado.
- “Pertinente” – El análisis debe poder aplicarse inmediatamente a los requerimientos y circunstancias de la empresa.
- “Comprensible” – El análisis debe tener sentido para quienes lo usen.
- “Aplicable” – Un buen análisis está listo para que la empresa lo use y es pertinente para su trabajo: no sugiera opciones que teóricamente serían posibles, pero que nunca se presentarían.
- “Oportuno” – El análisis proporciona la información que se necesita para aplicarlo.
“Es crucial entender la diferencia entre la importancia estadística y la importancia empresarial”.
En un análisis avanzado, sus analistas deben plantear las preguntas adecuadas y estructurarlas para obtener el mayor beneficio. Para derivar las preguntas, examine sus supuestos sobre la situación con sus analistas: ¿busca usted más clientes o más ganancias de su base de clientes actual? Cada opción puede requerir preguntas diferentes; lo importante es la aplicabilidad o “importancia empresarial” de los datos. Un buen análisis está completo y no omite ningún aspecto crucial. Un análisis excelente elimina la paja del torrente de datos para encontrar el mensaje significativo.
La organización adecuada para el torrente de datos
Para hacer buenos análisis, debe contratar buenos analistas. Los analistas excelentes reconocen los datos que son claros y adecuados para usarlos como base de una decisión; siguen la lógica de los datos hasta donde los lleve, aunque vaya contra sus supuestos previos. Los buenos analistas son intuitivos; necesitan un conocimiento profundo de las matemáticas o las estadísticas, así como cualidades innatas, como la creatividad y el compromiso; y deben agudizar su experiencia en la industria, su astucia empresarial y sus habilidades para hacer presentaciones.
“Un análisis excelente combina la solidez de la ciencia con una fuerte dosis de arte”.
Una vez que tenga a la gente apropiada, organice su trabajo apropiadamente: una estructura descentralizada o funcional integra a los analistas en un departamento de la empresa donde sean inmediatamente útiles. Los departamentos también poseen un conocimiento profundo de los proyectos que analizan; sin embargo, una estructura compartimentada puede limitar la carrera de los analistas, porque los departamentos manejan a unos cuantos empleados. Las estructuras centralizadas tienen beneficios diferentes, pero directos: si un departamento tiene poca actividad, puede redistribuir el talento a otros. Una estructura híbrida puede tener un “centro de excelencia” – un grupo de analistas excelentes que dan continuidad a toda la empresa – y especialistas dedicados a departamentos específicos. Los equipos de analistas trabajan bien con una estructura matriz, un líder de equipo y una jerarquía mínima. Forme equipos que mezclen grados de pericia.
“Los analistas han estado llevando la escalabilidad al máximo durante decenios. El torrente de datos es sólo la siguiente intimidante generación de datos por dominar”.
Análisis
Use los análisis para impulsar la innovación mediante la creación de un “centro de innovación analítica” dedicado a explorar ideas. Esos centros requieren una “plataforma de tecnología” que soporte herramientas analíticas, productos y servicios exteriores para aumentar el talento interno, respaldo ejecutivo, un buen equipo de analistas y un “consejo de innovación” para revisar las ideas y seleccionar las que merezcan el patrocinio del centro de innovación.
Sobre el autor
Bill Franks es director de análisis de Teradata y supervisor del Business Analytics Innovation Center que esa compañía patrocina.