Calculando el fraude en seguros en tiempo real mediante Big Data


La exposición al riesgo de fraude en partes o reclamaciones es una de las principales preocupaciones para el sector de los seguros, y está al alza. No obstante, la detección a tiempo del intento de fraude constituye todo un reto.

Para poder detectar fraude de manera eficaz, se deber recopilar y seleccionar información de enormes volúmenes de datos que proceden de diferentes fuentes, tanto de dentro como de fuera de la compañía. En la mayoría de los casos, incluso la información interna se almacena en múltiples silos, lo que impide sacar provecho del valor de la información existente para identificar las conexiones ocultas. Además, las compañías deben ser capaces de responder rápidamente a los partes de reclamaciones para evitar pagar las indemnizaciones a reclamantes fraudulentos.

¿Puede el Big Data servir de ayuda?

Por un lado, tenemos este problema complejo. Y por el otro, tenemos la ayuda de la tecnología Big Data para gestionar la complejidad. De modo que, ¿cómo podemos unir a los dos para resolver el problema?

Esa es la pregunta que nos ha llevado a desarrollar un prototipo, en base a tecnologías de Big Data, para realizar análisis de datos en tiempo real que pueda utilizarse como una herramienta complementaria para la detección de fraude. La idea que hay detrás del prototipo es sencilla: proporcionar una herramienta flexible para descubrir las conexiones entre personas que están implicadas en una reclamación y ofrecer un feedback rápido sobre dichas conexiones para activar investigaciones adicionales del posible fraude.

Los resultados iniciales sugieren que este enfoque puede constituir una herramienta eficaz y potente.

¿Cómo se calcula el fraude en tiempo real?

Mediante el uso combinado de Apache Hadoop, el motor de búsqueda ElasticSearch y la base de datos gráfica OrientDB, podemos adquirir, vincular e indexar toda la información sobre clientes de una compañía. Utilizamos todas las fuentes de información disponibles, tanto internas (reclamaciones, CRM y sistemas de cartera) como externas (una lista negra [simulada en el prototipo]) para ofrecer a la compañía la opción de poner en práctica normas contra el fraude para identificar conexiones sospechosos y visualizarlas de manera gráfica.

En el prototipo, se indexaron más de 60 millones de documentos y aparecieron unos 15 millones de relaciones en la red final.

En cuanto un usuario introduce toda la información sobre las personas implicadas en la reclamación, el prototipo consulta todos sus conjuntos de datos en busca de documentos y relaciones que involucren a las personas que figuran en la lista y calcula una puntuación al aplicar una serie de normas predefinidas a los resultados.

La puntuación representa el perfil de riesgo de la reclamación: cuanta más alta sea la puntuación, mayor es la probabilidad de que la reclamación sea fraudulenta.

Solo se necesita unos segundos para completar todo el proceso.

¿Qué diferencia hay respecto a otras soluciones disponibles en la actualidad?

En primer lugar, al utilizar tecnología de motores de búsqueda para almacenar los conjuntos de datos, el prototipo es capaz de analizar y procesar en tiempo real toda la información procedente de todas las fuentes. Este hecho facilita la detección de posibles fraudes tan pronto como se abra la reclamación y reaccionar rápidamente para evitar pérdidas económicas.

Además, el uso de un enfoque orientado a gráficos y diseñado basándose en el concepto de red, posibilita el descubrimiento de relaciones ocultas. Esta función también se puede aprovechar para realizar consultas más sofisticadas en tiempo real y así incrementar aún más la velocidad y precisión de la detección de riesgo de fraude.

El uso de bases de datos NoSQL no esquematizadas también facilita la integración de nuevas fuentes de información en la herramienta y el desarrollo de nuevas normas para adecuarse mejor a las necesidades de empresas concretas sin tener que cambiar el modelo de datos.

Por último, pero no por ello menos importante, nuestro prototipo se ha desarrollado totalmente en software de código abierto, lo que facilita su integración en sistemas empresariales existentes y su adaptación a las normativas contra el fraude de cada empresa.

Tal y como se puede ver en este ejemplo, al agrupar toda la información que ya existe en la compañía, Big Data hace posible el descubrimiento de nuevos hechos y evidencias, añadiendo así valor a la información de la empresa.

¿Cómo puede convertirse esta solución en un sistema contra el fraude aún más completo?

Estamos trabajando en dos características principales para mejorar el prototipo.

En primer lugar, estamos pensando en añadir nuevas fuentes de información, no solo nuevos flujos de datos de sistemas internos y externos, sino también resultados de investigaciones anteriores. Esto podría conducir, por ejemplo, a la creación de listas negras dinámicas, que serían de ayuda a la hora de evitar falsos positivos. Esto, además, permitiría a las personas que realizan las investigaciones estar al corriente del estado de las reclamaciones, dado que en el mundo real una reclamación evoluciona constantemente. La identificación de cambios sospechosos en el “historial” de la reclamación también ayuda a mejorar la capacidad de detección del fraude.

En segundo lugar, estamos trabajando en la recopilación de información estadística sobre la estructura de la red de relaciones con el fin de implementar pautas, basadas en estas estadísticas, para prevenir el fraude.

Conclusiones

Las tecnologías de Big Data pueden ser el factor que permita el desarrollo de nuevos sistemas contra el fraude más sofisticados que facultarán a las compañías de seguros para aprovechar la enorme cantidad de información que tienen a su disposición. De esta manera, se podría minimizar la exposición al riesgo de fraude y las consiguientes pérdidas económicas.