Uma abordagem assistida por machine Learning contra lavagem de dinheiro
Será que o Machine Learning pode ser usado como uma ferramenta contra crimes financeiros? Poderiam as novas tecnologias ser empregadas para combater o financiamento de organizações terroristas e os desvios de dinheiro público causados pela corrupção? A partir dessa motivação, e como parte de seus investimentos em pesquisa, a GFT desenvolveu uma prova de conceito (PoC) sobre o combate à lavagem de dinheiro em nosso centro de competência em dados. O objetivo foi desenvolver um mecanismo que forneça uma análise muito mais elucidativa das atividades suspeitas dos clientes de instituições financeiras, a fim de mitigar os riscos e ajudar no processo de tomada de decisão.
Os departamentos de gestão de patrimônio privado (Private Wealth Management) atendem clientes de grande poder aquisitivo e patrimônio, oferecendo assessoria em investimentos, serviços bancários e de gestão de ativos. Normalmente, esses clientes têm um grande capital disponível para investir. As pressões regulatórias internacionais para que os bancos realizem revisões periódicas desses clientes vêm aumentando, com objetivo de detectar atividades ilegais, especificamente a lavagem de dinheiro e o financiamento de organizações terroristas.
Quando uma entidade começa a trabalhar para um novo cliente, ela faz uma avaliação inicial e, dependendo do resultado e sensibilidade do levantamento, são realizadas revisões anuais ou mesmo semestrais. Essas avaliações, porém, podem tomar bastante tempo e, em geral, dependem do envio de certos documentos (como declarações fiscais), de pesquisas em repositórios de informação externa (listas de pessoas conhecidas envolvidas em atividades ilegais) ou buscas realizadas na Internet (usando o Google e outros mecanismos de pesquisa) para localizar o nome do cliente, juntamente com certos termos-chave, como “lavagem de dinheiro”, entre outros.
Essas investigações são realizadas manualmente e, normalmente, seguem um procedimento que não é padrão nem auditável. Por isso, o objetivo da prova de conceito (PoC) da GFT é demonstrar a viabilidade de usar um aplicativo para apoiar a tomada de decisão em programas de combate à lavagem de dinheiro. O exercício em questão foi projetado para atender aos seguintes requisitos:
- Assistência para encontrar perfis de redes sociais;
- Detecção e classificação automática de contatos relevantes;
- Identificação automatizada de entidades relacionadas em redes sociais: pessoas, lugares e organizações;
- Compilação de “informações adversas relevantes” do Google com interesse na descoberta de lavagem automática de dinheiro;
- Previsão e registro preliminar de suspeitos;
- Persistência nos processos de due diligence para fins de auditoria.
O resultado concreto é um software para apoio à tomada de decisão por meio do processamento automático de dados não estruturados, obtidos a partir de buscas tanto na web quanto em redes sociais.
Quais técnicas de machine learning foram utilizadas?
Para apoiar a tomada de decisão, esse aplicativo usa algumas das técnicas de aprendizado de máquina, como:
- Agrupamentos K-means. Essa técnica de aprendizado não supervisionada serve para agrupar entidades de acordo com sua similaridade. Sendo não supervisionada, não requer treinamento prévio nem a existência de um conjunto de dados previamente classificados. Como o número de contatos nas redes sociais de um indivíduo pode ser muito elevado, essa técnica permite a classificação e priorização automática desses contatos.
- Técnicas de Processamento de Linguagem Natural (PNL) e Reconhecimento de entidades (Named-Entity Recognition). Normalmente, os resultados das pesquisas na web são apresentados ao usuário sem nenhum processamento. As técnicas de extração de entidades permitem identificar e extrair entidades mencionadas de qualquer texto, bem como sua classificação automática em uma das seguintes categorias: nomes de pessoas, organizações, locais, quantidades, valores monetários etc. Assim, essa técnica permite extrair informações automaticamente sem que o usuário tenha que processar pessoalmente os resultados das buscas, obtendo rapidamente um contexto específico do indivíduo sob investigação. Nesse caso, uma implementação da biblioteca de processamento de linguagem natural de Stanford é usada.
- Técnicas de agrupamento e resumo automático em texto livre. Como no caso anterior, ter que processar todos os resultados da pesquisa leva muito tempo. Ser capaz de agrupar aqueles resultados com o mesmo conteúdo ou similar reduz o tempo e, portanto, o custo da pesquisa. Da mesma forma, ser capaz de obter automaticamente um resumo dos documentos a serem processados pelo analista reduzirá o tempo necessário para realizar a investigação.
- Reconhecimento de imagens. As técnicas de aprendizado de máquina no campo da visão computacional conseguem extrair informações automaticamente das imagens. Assim, essas técnicas permitem a incorporação de documentos gráficos no processo de pesquisa, sem a necessidade de uma pessoa para interpretar cada uma dessas imagens. Foi utilizada a API do Google Vision.
Em resumo, a incorporação de informações obtidas na Internet e nas redes sociais é uma parte natural do processo de pesquisa, mas agrega um volume de dados que é difícil de processar. Empregar técnicas de Machine Learning facilita muito o exame dessa multiplicidade de fontes de dados digitais, incluindo mecanismos de busca como o Google e todos os tipos de redes sociais, para detectar se algum cliente está envolvido em crimes financeiros.
Os benefícios gerados são a sintonia e o foco nos resultados da pesquisa, apoiando a tomada de decisões e reduzindo o tempo e, consequentemente, os custos desses processos de pesquisa.
Este artigo foi publicado originalmente na Computer World.