Calculando a fraude de seguros em tempo real através de Big Data


A exposição ao risco de fraude por meio de reclamações é uma grande preocupação para a indústria de seguros, e está crescendo. Detectar a tentativa de fraude em tempo hábil é um desafio.

Para detectar eficazmente a fraude, é preciso coletar e selecionar informações de grandes volumes de dados provenientes de várias fontes diferentes, tanto dentro como fora da empresa. Em muitos casos, até mesmo a informação interna é armazenada em múltiplos silos de dados, impedindo que as informações existentes sejam aproveitadas para identificar conexões ocultas. Além disso, as empresas devem ser capazes de responder rapidamente aos pedidos de indenização para evitar pagamentos de requerentes fraudulentos.

Como Big Data pode ajudar?

Por um lado, temos este problema complexo. E por outro, temos a promessa de Big Data de gestão da complexidade. Então, como podemos unir os dois para resolver o problema? Essa é a pergunta que nos levou a desenvolver um protótipo, baseado em tecnologias de Big Data, para que a análise de dados em tempo real possa ser usada como uma ferramenta complementar para detecção de fraudes. A ideia por trás do protótipo é simples: fornecer uma ferramenta flexível para descobrir conexões entre as pessoas envolvidas em um pedido de indenização e fornecer feedback imediato sobre essas conexões para acionar imediatamente uma investigação mais aprofundada acerca de possíveis fraudes.

Os resultados iniciais sugerem que esta abordagem pode ser uma ferramenta eficaz e poderosa.

Então como se calcula a fraude em tempo real?

Com o uso combinado do Apache Hadoop, o mecanismo de busca ElasticSearch e o banco de dados orientado por gráfico OrientDB, podemos adquirir, vincular e indexar todas as informações dos clientes de uma empresa. Usamos todas as fontes de dados disponíveis – internas (pedidos de indenização, CRM – custommer relationship management e sistemas de portfólio) e externa (uma lista negra para dar à empresa a opção de tanto executar regras antifraude para identificar ligações suspeitas quanto visualizar graficamente essas conexões). No protótipo, mais de 60 milhões de documentos foram indexados e cerca de 15 milhões de relacionamentos apareceram na rede final.

Assim que um usuário insere todas as informações sobre as pessoas envolvidas no sinistro, o protótipo consulta seus conjuntos de dados em busca de documentos e relacionamentos que envolvem as pessoas listadas e calcula uma pontuação através da aplicação de um conjunto de regras pré-definidas. A pontuação final representa o perfil de risco pedido de indenização: quanto maior a pontuação, maior a probabilidade de a reivindicação ser fraudulenta.

Todo o processo leva apenas alguns segundos para ser concluído.

Como isso é diferente daquilo que já está disponível hoje?

Em primeiro lugar, ao utilizar a tecnologia de mecanismo de busca para armazenar conjuntos de dados, o protótipo é capaz de analisar e processar em tempo real todas as informações que chegam de todas as fontes. Isto faz com que seja possível detectar potenciais fraudes logo que o pedido for aberto e reagir rapidamente para evitar perda financeira.

Além disso, essa solução utiliza um modelo graph-oriented projetado para descobrir possíveis relações entre as partes envolvidas. Isso também pode ser explorado a fim de executar consultas mais sofisticadas em tempo real para aumentar ainda mais a velocidade e a precisão na detecção de risco de fraude.

O uso de bancos de dados NoSQL não esquematizados também facilita integrar novas fontes de informação na ferramenta e desenvolver novas regras para melhor atender às necessidades das empresas individuais, sem a necessidade de mudar o modelo de dados.

Por último, mas não menos importante, o nosso protótipo é inteiramente construído em software open source, o que torna fácil integrar sistemas empresariais já existentes e se adaptar às regras antifraude das empresas.

Como pode ser visto a partir deste exemplo, ao reunir toda a informação que já existe na empresa, Big Data torna possível a descoberta de novos fatos e provas, agregando valor às informações da empresa.

Como esta solução pode tornar-se um sistema antifraude ainda mais completo?

Estamos trabalhando em duas características principais para melhorar o protótipo. Em primeiro lugar, pretendemos apoiar a inclusão de novas fontes de informação, e não apenas os novos fluxos de dados dos sistemas internos e externos, mas também resultados de investigações anteriores. Isto pode levar, por exemplo, a criação de listas negras dinâmicas, o que ajudaria evitar falsos positivos. Isso também permitiria aos investigadores se manterem a par da evolução dos pedidos de indenização, já que, no mundo real, um sinistro está em constante evolução. Identificar alterações suspeitas no «histórico» dos pedidos de indenização também ajuda a melhorar as capacidades de detecção de fraude. Em segundo lugar, estamos trabalhando na extração de informações estatísticas sobre a estrutura da rede de relacionamentos, a fim de implementar diretrizes , com base nessas estatísticas, para evitar fraudes.

Conclusões

Tecnologias de Big Data podem ser o fator que possibilita o desenvolvimento de novos e mais sofisticados sistemas antifraude que irão capacitar as companhias de seguros a explorarem a riqueza de informações disponíveis a eles com o propósito de minimizar a exposição de risco de fraude e, consequentemente, prejuízos financeiros.