Sinistralidade 25 de abril de 2026 · 7 min de leitura

Detecção de fraude sem dados históricos: o que a ciência diz

Você não tem uma base de fraudes confirmadas para treinar um modelo. A boa notícia: a ciência já resolveu esse problema.

A conversa sobre detecção de fraude em seguros e proteção veicular quase sempre esbarra no mesmo obstáculo: "não temos dados rotulados." Ou seja, não existe um histórico onde alguém marcou cada sinistro como "fraude confirmada" ou "legítimo confirmado". Sem essa marcação, como treinar um sistema para detectar fraude?

Essa é uma pergunta legítima. E a resposta da ciência é surpreendentemente prática.

Você não precisa de dados rotulados para detectar fraude. A ciência (Debener 2023, Nature 2025) mostra que métodos não supervisionados combinados com 6 regras heurísticas sinalizam sinistros suspeitos com desempenho comparável. Em uma análise real, 20 sinistros acionaram duas ou mais heurísticas simultaneamente, com score até 0,85.

O problema dos dados rotulados

Em machine learning tradicional, você precisa de exemplos: "isso é fraude, isso não é fraude." O algoritmo aprende os padrões e aplica a novos casos. Mas no mundo real da proteção veicular brasileira, esses rótulos raramente existem. Investigações de fraude são caras, demoram, e a maioria das associações simplesmente nega o sinistro suspeito sem documentar formalmente como fraude.

Debener, Heinke e Kriebel publicaram em 2023 um estudo abrangente no Journal of Risk and Insurance comparando métodos supervisionados (que precisam de rótulos) com não supervisionados (que não precisam). A conclusão principal: métodos não supervisionados, como detecção de anomalias, conseguem identificar fraudes com desempenho comparável aos supervisionados — desde que as variáveis certas sejam utilizadas.

A abordagem por heurísticas

Na prática, quando não há dados rotulados, a ciência recomenda começar com regras baseadas em conhecimento do domínio — as chamadas heurísticas. Uma associação que analisou seus dados implementou 6 regras heurísticas para sinalizar sinistros suspeitos:

Sinistro ocorrendo muito cedo após a adesão
Valor do sinistro desproporcional ao perfil do veículo
Padrão de horário ou local atípico
Múltiplos sinistros em curto período pelo mesmo associado
Inconsistências na documentação apresentada
Combinação de fatores de risco simultâneos

Resultado: 20 sinistros acionaram 2 ou mais heurísticas simultaneamente. O maior score de suspeição calculado foi 0,85 (em uma escala de 0 a 1). Esses 20 casos representam o ponto de partida mais eficiente para investigação.

Por que 2 ou mais heurísticas importa

Uma única heurística acionada pode ser coincidência. Um sinistro logo após a adesão pode ser simplesmente azar. Um valor alto pode ser um veículo caro. Mas quando duas ou mais regras disparam ao mesmo tempo, a probabilidade de coincidência cai drasticamente.

Subudhi e Panigrahi (2020) demonstraram que a combinação de múltiplas features, especialmente features baseadas em grafos de relacionamento entre segurados, aumenta significativamente a precisão da detecção. A intuição é simples: fraudadores raramente agem de forma isolada, e seus padrões deixam rastros em múltiplas dimensões dos dados.

O que a pesquisa mais recente mostra

Um estudo publicado no Nature Scientific Reports em 2025 avançou ainda mais nessa direção, demonstrando que técnicas modernas de aprendizado de máquina conseguem detectar padrões fraudulentos mesmo em datasets com pouquíssimos exemplos confirmados. A chave está na engenharia de features: transformar dados brutos em variáveis que capturam comportamentos anômalos.

O estudo mostrou que a combinação de múltiplas técnicas — detecção de anomalias, análise de grafos e regras heurísticas — supera qualquer método isolado. E, crucialmente, essas técnicas podem ser aplicadas sem um histórico de fraudes rotuladas.

Você não precisa de um banco de dados de fraudes para começar a detectar fraudes. Precisa de dados limpos, regras bem definidas e um processo para investigar os casos sinalizados.

Da teoria à prática: como começar

Para uma associação de proteção veicular que nunca fez detecção de fraude, o caminho prático é:

Definir heurísticas: conversar com quem resolve sinistros e documentar os "sinais de alerta" que eles já usam intuitivamente
Aplicar aos dados históricos: rodar essas regras em todos os sinistros passados para calibrar os thresholds
Priorizar por score: focar investigação nos casos com múltiplas heurísticas acionadas (score alto)
Documentar resultados: cada investigação alimenta o sistema — mesmo que o resultado seja "legítimo", isso é informação valiosa
Evoluir para modelos: com o tempo, os rótulos gerados pelas investigações permitem treinar modelos supervisionados mais sofisticados

No caso analisado, os 20 sinistros com score elevado representam o melhor ponto de partida: são os casos com maior probabilidade de retorno sobre a investigação.

O custo de não fazer nada

Fraude em proteção veicular no Brasil é estimada entre 10% e 15% dos sinistros, segundo dados do mercado segurador. Para uma associação que paga R$ 300 mil por mês em sinistros, isso significa entre R$ 30 mil e R$ 45 mil por mês perdidos para fraude — R$ 360 mil a R$ 540 mil por ano.

Mesmo que um sistema baseado em heurísticas capture apenas 20% das fraudes, o retorno já justifica o esforço. E a ciência mostra que, bem implementado, o índice de captura pode ser muito maior.

Para entender o custo completo dos sinistros que essa análise ajuda a proteger, veja por que seu gerente erra o custo dos sinistros por 3x. E para ver como sinistros negados (legítimos ou não) impactam a retenção, leia sinistro negado = cliente perdido e o backlog de sinistros como bomba-relógio.

Dados de uma associação de proteção veicular com 3.000 membros. Os 20 sinistros sinalizados são resultados de regras heurísticas, não de investigação concluída. A taxa de fraude de 10-15% é uma estimativa do mercado segurador brasileiro, não desta operação específica.

Referências

Debener, J., Heinke, V., & Kriebel, J. (2023). "Detecting Insurance Fraud Using Supervised and Unsupervised Machine Learning." Journal of Risk and Insurance, 90(3), 743-768. Acessar artigo
Nature Scientific Reports (2025). Detecção de fraude em seguros com técnicas avançadas de machine learning. Acessar artigo
Subudhi, S., & Panigrahi, S. (2020). Detecção de fraude baseada em features de grafos em seguros automotivos.

Perguntas frequentes

Preciso de um banco de dados de fraudes confirmadas para começar?

Não. Métodos não supervisionados (detecção de anomalias, análise de grafos) e regras heurísticas baseadas em conhecimento do domínio conseguem desempenho comparável ao de métodos supervisionados, segundo Debener, Heinke e Kriebel (2023). A ciência mostra que você começa com heurísticas calibradas por especialistas e evolui para modelos supervisionados conforme acumula rótulos das investigações.

Por que priorizar casos com duas ou mais heurísticas acionadas?

Porque uma única heurística pode ser coincidência. Um sinistro logo após a adesão pode ser azar, um valor alto pode ser um carro caro legítimo. Mas quando duas regras disparam ao mesmo tempo, a probabilidade de coincidência cai drasticamente. Na análise, 20 sinistros acionaram múltiplas heurísticas com score até 0,85, e são o melhor ponto de partida para investigação.

Quais heurísticas usar para sinalizar sinistros suspeitos?

Seis regras cobrem a maior parte dos padrões: sinistro muito cedo após adesão, valor desproporcional ao perfil do veículo, horário ou local atípico, múltiplos sinistros do mesmo associado em curto período, inconsistências na documentação, e combinação de fatores de risco simultâneos. Converse com quem resolve sinistros: eles já usam esses sinais intuitivamente, basta formalizar.

Qual o retorno financeiro de um sistema baseado em heurísticas?

Fraude em proteção veicular no Brasil é estimada entre 10% e 15% dos sinistros. Para uma associação que paga R$ 300 mil/mês em sinistros, isso representa R$ 30-45 mil/mês perdidos para fraude (R$ 360-540 mil/ano). Mesmo capturando só 20% das fraudes, o retorno já cobre o esforço; na prática, sistemas bem calibrados capturam muito mais.

Como evoluir das heurísticas para modelos mais sofisticados?

Cada investigação gera um rótulo: "fraude confirmada" ou "legítimo após análise". Com o tempo, esses rótulos formam o dataset supervisionado que antes não existia. Depois de 50-100 casos documentados, modelos como regressão logística ou árvores de decisão já funcionam, e o sistema combina as heurísticas originais com o modelo supervisionado para melhor precisão.

Quer saber o que seus dados dizem?

O Distilo analisa seus dados e entrega respostas concretas, com lista de ações priorizadas.

Comece agora

Todos os artigos