Erwin Selg (CTIO del grupo GFT): “La mayoría de las empresas que han empezado a abordar ‘big data’ aún no han pasado de las fases experimentales”


Existe un motivo por el que tantas empresas están tan ocupadas con la tendencia del “big data”; a diario creamos enormes cantidades de datos. Según un estudio realizado por IBM, cada día se generan 2,5 trillones de bytes de datos nuevos a través de elementos como noticias, transacciones online o las redes sociales. ¿Cómo podemos afrontar la difícil tarea de analizar esta información? ¿Qué podemos esperar concretamente de esta megatendencia? Le hemos pedido su opinión experta a Erwin Selg, CTIO (Director de Tecnologías de la Información) del grupo de GFT.

Erwin_Selg_GFT
Erwin Selg – CTIO del grupo GFT

ES: Hoy en día se generan enormes volúmenes de datos cuyo tamaño se duplica cada dos años, principalmente debido al aumento de las fuentes de información electrónicas. Por ello, las fuentes de información convencionales y las tecnologías de representación gráfica no son capaces de procesar dichos volúmenes. Necesitamos nuevas formas de solucionar este problema, ideas para hacer frente a la recopilación, almacenamiento, distribución, técnicas de búsqueda, análisis y representación gráfica de tales volúmenes elevados en tiempos de ejecución aceptables. A esto hay que añadir el hecho de que algunos de estos datos están sin estructurar, por lo que otro de nuestros retos consiste en tratar de comprender mejor esta combinación de información estructurada y sin estructurar, como los millones de sitios web existentes en la red.

JB: Cada vez se oye hablar más del concepto de “fast big data”. Parece que el problema no radica en el análisis de grandes volúmenes de datos, sino en acceder a ellos en tiempo real. A menudo, en este contexto se habla de soluciones como SAP HANA y Apache Hadoop. ¿Qué soluciones tecnológicas existen en la actualidad? ¿Cuáles de ellas cree que acabarán imponiéndose?

ES: En este punto, creo que es importante hacer una distinción. Para realizar un análisis de datos geológicos a largo plazo no se necesita una solución en tiempo real. Pero si un supermercado desea analizar todas las decisiones de compra de sus clientes cada noche (como hace una famosa cadena de tiendas norteamericana) para ajustar sus precios para el día siguiente, deberá hacerlo rápido. El tiempo que se necesita para realizar este tipo de análisis se ha reducido de varios días a 20 minutos. Esto es ahora posible gracias al uso de tecnología in-memory, una tecnología que acabará imponiéndose a medida que se desarrollen las plataformas existentes y los costes de almacenamiento sigan bajando. A las empresas les interesan especialmente los tipos de soluciones de análisis en tiempo real que pueden evitar o mejorar en gran medida las grandes transferencias de datos entre sistemas de bases de datos transaccionales y los sistemas de análisis. SAP HANA lo hace de una forma muy interesante. Y sin duda, también entrarán en juego los servicios basados en la nube, que utilizan enormes plataformas en memoria, lo que ofrece un análisis en tiempo real para cualquier usuario. Los pequeños laboratorios médicos, los departamentos de I+D de pequeñas y medianas empresas y los investigadores de temas nucleares podrían utilizar fácilmente dichas estructuras previa solicitud.

JB: ¿Pero cuál es la situación en la realidad? ¿Cuántas empresas han adoptado ya soluciones de este tipo? A menudo, esto afecta a los procesos internos. Por lo general, ¿cuánto tarda en implementarse por completo un proyecto de esta magnitud?

ES: Aún nos encontramos ante los primeros pasos. La mayoría de las empresas que han empezado a abordar “big data” aún no han pasado de las fases experimentales. Solo unas pocas empresas que han dado con un claro modelo de negocio para emprender el cambio, a pesar de los elevados costes iniciales, han logrado poner en marcha una plataforma productiva y útil. Durante los próximos años se producirán grandes cambios a medida que caigan los costes de infraestructuras y madure la tecnología. Si las empresas le dan la espalda a tal oleada de conocimiento, se arriesgarán a perder progresivamente su posición y, con ello, su ventaja con respecto a la competencia. Gartner estima que aproximadamente el 35% de las grandes y medianas empresas adoptarán una solución in-memory ya en el año 2015.

istockphoto_14501941-3d-computer-screen-tablet-pc_Bigdata-300x171JB: Estos volúmenes de datos de tan rápido crecimiento deben almacenarse en algún sitio. Si pensamos en la nube, ¿qué tendrán que hacer las empresas para garantizar la seguridad de sus datos?

ES: La realidad es que, en un futuro no muy lejano, la mayoría de las empresas no serán capaces de albergar las cantidades de datos que produzcan, independientemente de la bajada de los costes de almacenamiento. Encargar el tratamiento de los datos a terceros podría ser una opción, pero sin duda habrá que pensar más allá. Una gran cantidad de datos no implica que estos sean de calidad: cantidad no es igual a calidad. Por ello, otro paso fundamental será el de segmentar los datos y encontrar una estrategia para empezar a evitar la acumulación de datos innecesarios. ¿Qué datos necesitamos de verdad? ¿Qué datos son relevantes para un análisis en tiempo real en la actualidad pero dejarán de serlo más adelante? La segmentación también es fundamental si se desea encargar el tratamiento de los datos a terceros. Así, los datos menos confidenciales pueden almacenarse en la nube (si es posible, a nivel nacional), mientras que los más confidenciales podrían almacenarse en las instalaciones mismas. Y por último, pero no por ello menos importante, también hay que pensar en los avances en la tecnología de compresión.

JB: ¿Qué opciones ofrece el concepto de “big data” en lo que respecta a Business Intelligence (BI)?

ES: Hasta ahora, el BI en las empresas se ha visto afectado por el hecho de que los datos ya no son actuales en el momento en que se utilizan para el análisis. El análisis lleva demasiado tiempo y no puede respaldar los procesos de toma de decisiones. En este panorama de cuestiones relativas al “big data”, las tecnologías en tiempo real son sin duda las que contribuyen de forma más directa a mejorar el BI. Otro inconveniente importante del BI en las empresas actualmente es el hecho de que se hace referencia de forma casi exclusiva a los datos estructurados. Al utilizar tecnología “big data” para incluir información sin estructurar, se puede añadir más contexto al proceso y los resultados del análisis ofrecen una imagen más realista. Incluso el reconocimiento de patrones y correlaciones está mejorando. La tecnología “big data” permite a las empresas extender sus conocimientos al “mundo real” y no basarlos únicamente en BI derivado de los datos internos. Esto es posible gracias a prácticas sistemáticas basadas en Corporate Intelligence y la Social Intelligence.