Detecção de fraude sem dados históricos: o que a ciência diz
Você não tem uma base de fraudes confirmadas para treinar um modelo. A boa notícia: a ciência já resolveu esse problema.
A conversa sobre detecção de fraude em seguros e proteção veicular quase sempre esbarra no mesmo obstáculo: "não temos dados rotulados." Ou seja, não existe um histórico onde alguém marcou cada sinistro como "fraude confirmada" ou "legítimo confirmado". Sem essa marcação, como treinar um sistema para detectar fraude?
Essa é uma pergunta legítima. E a resposta da ciência é surpreendentemente prática.
O problema dos dados rotulados
Em machine learning tradicional, você precisa de exemplos: "isso é fraude, isso não é fraude." O algoritmo aprende os padrões e aplica a novos casos. Mas no mundo real da proteção veicular brasileira, esses rótulos raramente existem. Investigações de fraude são caras, demoram, e a maioria das associações simplesmente nega o sinistro suspeito sem documentar formalmente como fraude.
Debener, Heinke e Kriebel publicaram em 2023 um estudo abrangente no Journal of Risk and Insurance comparando métodos supervisionados (que precisam de rótulos) com não supervisionados (que não precisam). A conclusão principal: métodos não supervisionados, como detecção de anomalias, conseguem identificar fraudes com desempenho comparável aos supervisionados — desde que as variáveis certas sejam utilizadas.
A abordagem por heurísticas
Na prática, quando não há dados rotulados, a ciência recomenda começar com regras baseadas em conhecimento do domínio — as chamadas heurísticas. Uma associação que analisou seus dados implementou 6 regras heurísticas para sinalizar sinistros suspeitos:
- Sinistro ocorrendo muito cedo após a adesão
- Valor do sinistro desproporcional ao perfil do veículo
- Padrão de horário ou local atípico
- Múltiplos sinistros em curto período pelo mesmo associado
- Inconsistências na documentação apresentada
- Combinação de fatores de risco simultâneos
Resultado: 20 sinistros acionaram 2 ou mais heurísticas simultaneamente. O maior score de suspeição calculado foi 0,85 (em uma escala de 0 a 1). Esses 20 casos representam o ponto de partida mais eficiente para investigação.
Por que 2 ou mais heurísticas importa
Uma única heurística acionada pode ser coincidência. Um sinistro logo após a adesão pode ser simplesmente azar. Um valor alto pode ser um veículo caro. Mas quando duas ou mais regras disparam ao mesmo tempo, a probabilidade de coincidência cai drasticamente.
Subudhi e Panigrahi (2020) demonstraram que a combinação de múltiplas features, especialmente features baseadas em grafos de relacionamento entre segurados, aumenta significativamente a precisão da detecção. A intuição é simples: fraudadores raramente agem de forma isolada, e seus padrões deixam rastros em múltiplas dimensões dos dados.
O que a pesquisa mais recente mostra
Um estudo publicado no Nature Scientific Reports em 2025 avançou ainda mais nessa direção, demonstrando que técnicas modernas de aprendizado de máquina conseguem detectar padrões fraudulentos mesmo em datasets com pouquíssimos exemplos confirmados. A chave está na engenharia de features: transformar dados brutos em variáveis que capturam comportamentos anômalos.
O estudo mostrou que a combinação de múltiplas técnicas — detecção de anomalias, análise de grafos e regras heurísticas — supera qualquer método isolado. E, crucialmente, essas técnicas podem ser aplicadas sem um histórico de fraudes rotuladas.
Você não precisa de um banco de dados de fraudes para começar a detectar fraudes. Precisa de dados limpos, regras bem definidas e um processo para investigar os casos sinalizados.
Da teoria à prática: como começar
Para uma associação de proteção veicular que nunca fez detecção de fraude, o caminho prático é:
- Definir heurísticas: conversar com quem resolve sinistros e documentar os "sinais de alerta" que eles já usam intuitivamente
- Aplicar aos dados históricos: rodar essas regras em todos os sinistros passados para calibrar os thresholds
- Priorizar por score: focar investigação nos casos com múltiplas heurísticas acionadas (score alto)
- Documentar resultados: cada investigação alimenta o sistema — mesmo que o resultado seja "legítimo", isso é informação valiosa
- Evoluir para modelos: com o tempo, os rótulos gerados pelas investigações permitem treinar modelos supervisionados mais sofisticados
No caso analisado, os 20 sinistros com score elevado representam o melhor ponto de partida: são os casos com maior probabilidade de retorno sobre a investigação.
O custo de não fazer nada
Fraude em proteção veicular no Brasil é estimada entre 10% e 15% dos sinistros, segundo dados do mercado segurador. Para uma associação que paga R$ 300 mil por mês em sinistros, isso significa entre R$ 30 mil e R$ 45 mil por mês perdidos para fraude — R$ 360 mil a R$ 540 mil por ano.
Mesmo que um sistema baseado em heurísticas capture apenas 20% das fraudes, o retorno já justifica o esforço. E a ciência mostra que, bem implementado, o índice de captura pode ser muito maior.
Referências
- Debener, J., Heinke, V., & Kriebel, J. (2023). "Detecting Insurance Fraud Using Supervised and Unsupervised Machine Learning." Journal of Risk and Insurance, 90(3), 743-768. Acessar artigo
- Nature Scientific Reports (2025). Detecção de fraude em seguros com técnicas avançadas de machine learning. Acessar artigo
- Subudhi, S., & Panigrahi, S. (2020). Detecção de fraude baseada em features de grafos em seguros automotivos.
Quer saber o que seus dados dizem?
O Distilo analisa seus dados e entrega respostas concretas em até 1 semana.
Comece agora