Erwin Selg (CTIO do Grupo GFT): “A maioria das empresas que começaram analisar a questão do Big data não passaram dos estágios experimentais.”

Há uma razão pela qual a tendência do Big data está mantendo várias empresas tão ocupadas. Criamos imensas quantidades de dados todos os dias. De acordo com um estudo realizado pela IBM, 2,5 quintilhões de bytes de dados novos são gerados diariamente através de aplicações como notícias, transações on-line, ou redes sociais. Como podemos confrontar a esmagadora tarefa de analisar essas informações? O que exatamente esta megatendência tem para nos oferecer? Pedimos a Erwin Selg, CTIO do Grupo GFT, que nos fornecesse sua opinião de especialista.

Erwin_Selg_GFT-300x256
Erwin Selg – CTIO do grupo GFT

 JB: Olá, Erwin. O Big data parece onipresente no momento. Sabemos que ele está relacionado aos dados, mas o que torna esta megatendência do Big data tão diferente do processamento e da análise de dados convencionais?

ES: Enormes volumes de dados são gerados atualmente, dobrando de tamanho a cada dois anos, principalmente por conta do aumento das fontes de dados eletrônicos. As fontes de dados ou tecnologias de representação gráfica convencionais simplesmente não podem processar esses volumes. Precisamos de novas formas para resolver este problema, ideias sobre como lidar com a coleta, o armazenamento, a distribuição, as técnicas de pesquisa, a análise e a representação gráfica de tais volumes tão grandes, em tempos de execução aceitáveis. Para isso é preciso acrescentar o fato de que alguns destes dados não estão estruturados, assim, um dos desafios que enfrentamos é tentar entender melhor essa mistura de informações estruturadas e não estruturadas, como todos os milhões de sites existentes por aí.

JB: Estamos ouvido cada vez mais o termo “fast big data”. Analisar grandes volumes de dados não parece ser o problema, mas sim obter acessibilidade em tempo real. Muitas vezes, as pessoas apontam para soluções como SAP HANA e Apache Hadoop neste contexto. Que soluções tecnológicas existem atualmente? E quais você acha que vão se estabelecer?

ES: Sobre este ponto, creio que é importante fazer uma distinção . Se você estiver realizando uma análise de longo prazo de dados geológicos, não precisa de uma solução em tempo real. Mas, se você é um supermercado e pretende analisar todas as noites cada decisão de compra feita por seus clientes (como uma popular rede de lojas norteamericana  faz), a fim de ajustar os seus preços para o dia seguinte, você precisa fazê-lo rapidamente. O tempo necessário para este tipo de análise já foi reduzido de vários dias para 20 minutos. Isso foi possível por meio do uso da tecnologia in-memory, uma tecnologia que acabará prevalecendo a medida que se desenvolvam as plataformas já existentes e  os custos de armazenamento continuem a cair. As empresas estão particularmente interessadas ​​nos tipos de soluções de análise em tempo real que possam evitar ou melhorar significativamente as longas transferências de dados de bancos de dados transacionais para os sistemas de análise. O SAP HANA tem uma maneira interessante de fazer isso. Sem dúvida, os serviços baseados em nuvem também terão um papel importante. Eles fazem uso de enormes plataformas in-memory, fornecendo análise em tempo real para todos. Pequenos laboratórios médicos, departamentos de P&D em pequenas e médias empresas, ou pesquisadores nucleares poderiam facilmente usar estas redes, sob demanda.

JB: Mas qual é a situação na prática? Quantas empresas já implementaram esse tipo de solução? Isso muitas vezes afeta os processos internos. Então, quanto tempo normalmente demora para que um projeto desta magnitude seja implementado completamente?

ES: Os desenvolvimentos ainda estão nos primeiros passos. A maioria das empresas que começaram a analisar a questão do Big data não passou dos estágios experimentais. Apenas algumas poucas empresas que apresentaram um caso de negócios claro para uma transição, apesar dos custos iniciais elevados, implementaram realmente uma plataforma produtiva e útil. Haverá grandes mudanças nos próximos anos, à medida que os custos de infraestrutura caem e a tecnologia amadurece. Se as empresas ignorarem essa avalanche de conhecimento, elas correm o risco de gradualmente se misturarem na multidão e perderem sua vantagem competitiva. O Gartner estima que cerca de 35% das empresas de médio e grande porte implementarão de forma eficiente uma solução in-memory até 2015.

JB: Os volumes de dados em rápido crescimento devem ser armazenados em algum lugar. Pensando na nuvem, o que as empresas têm que fazer para manter seus dados seguros?

ES: De fato, em um futuro não muito distante, a maioria das empresas não será capaz de armazenar a quantidade de dados que produz. E isso ocorrerá apesar da redução dos custos de armazenamento. A terceirização do armazenamento de dados pode ser uma opção, mas certamente será importante pensar além disso. Grandes quantidades de dados não significa, necessariamente, dados de qualidade: quantidade não é sinônimo de qualidade. Assim, outra etapa crucial será segmentar os dados e encontrar uma estratégia para começar a evitar o acúmulo de dados desnecessários. Quais são os dados dos quais nós realmente precisamos? Que dados são relevantes para a análise em tempo real agora, mas não serão significativos mais tarde? Segmentar é também crucial se você quer terceirizar o armazenamento dos dados. Assim, os dados menos sensíveis à segurança podem ser armazenados na nuvem (se possível, uma nuvem de âmbito nacional). Os outros dados mais sensíveis poderão então ser mantidos internamente. Por último, mas não menos importante, também é necessário pensar sobre os avanços na tecnologia de compressão.

JB: Quais são as opções que o Big data oferece em termos de Business Intelligence (BI) ?

ES: Até agora, o BI nas empresas tem sido afetado pelo fato de que os dados não são mais atuais no momento em que são usados para análise. A análise leva muito tempo e não pode auxiliar na tomada de decisões. No coquetel dos problemas do Big data, as tecnologias em tempo real, sem dúvida, têm a contribuição mais direta para a melhoria do BI corporativo. Outro grande problema com o BI atual nas empresas é o fato de que praticamente os únicos dados referenciados são dados estruturados. Usando a tecnologia de Big data para incluir informações não estruturadas, você pode adicionar mais contexto ao processo, e os resultados de uma análise fornecem uma imagem mais realista. Mesmo o reconhecimento de padrões e correlações está melhorando. A tecnologia de Big data permite às empresas expandir seus conhecimentos para o “mundo real” e não apenas baseá-los na inteligência de negócios derivada dos dados internos. Isso é possível graças a coisas como inteligência empresarial sistemática e inteligência social.