Modelo de IA detecta depressão em conversas naturais com 77% de precisão

Pesquisadores do MIT desenvolveram uma rede neural que identifica automaticamente padrões depressivos a partir de áudio e texto brutos, sem perguntas predefinidas.
O modelo é "livre de contexto", o que significa que pode analisar qualquer conversa casual e extrair pistas linguísticas e acústicas relacionadas à depressão.
Em um estudo de validação, alcançou uma precisão geral de 77%, superando o desempenho das ferramentas convencionais de IA baseadas em perguntas e respostas.

Tradicionalmente, o Questionário de Saúde do Paciente (PHQ‑9) é o padrão ouro para o rastreio da depressão. Ele faz um conjunto fixo de nove perguntas sobre humor, sono, apetite e níveis de energia para calcular uma pontuação de 0 a 27, com pontuações acima de 20 indicando depressão grave.

Ao longo dos últimos anos, as abordagens de aprendizagem automática exploraram com sucesso a fala em busca de marcadores reveladores – entonação, velocidade de fala e escolhas lexicais específicas – sugerindo estados depressivos. No entanto, a maioria destes modelos baseia-se em respostas ao PHQ‑9 ou em entrevistas estruturadas semelhantes, limitando a sua aplicabilidade em contextos do mundo real.

A nova rede neural do MIT elimina essa restrição. Ao alimentá-lo com gravações de entrevistas de formato livre, o sistema aprende a reconhecer padrões sutis – como o uso frequente de palavras como “para baixo”, “baixo” ou “triste”, combinado com uma qualidade vocal achatada ou monótona e um ritmo de fala mais lento – que estão fortemente associados à depressão.

Como funciona o modelo

O algoritmo trata a fala como uma sequência de quadros de áudio com registro de data e hora e palavras transcritas. Ele emprega uma arquitetura profunda de modelagem de sequência que analisa conjuntamente características acústicas (altura, energia, velocidade de fala) e conteúdo linguístico. Por não depender de um questionário fixo, pode ser aplicado a quaisquer dados conversacionais, desde entrevistas clínicas até ligações telefônicas cotidianas.

Os autores referem-se a isto como “modelagem livre de contexto” porque capta indicadores de depressão independentes das perguntas específicas feitas.

Treinamento, validação e desempenho

O modelo foi treinado em 142 interações extraídas do Distress Analysis Interview Corpus (DAIC), que inclui áudio, vídeo e texto de conversas com participantes saudáveis e indivíduos com diagnóstico de transtornos mentais.

A gravidade da depressão de cada sujeito foi quantificada usando a pontuação PHQ‑9 (0–27). No estudo, 28 participantes foram classificados como deprimidos (pontuações ≥20). A rede foi avaliada em termos de precisão e recall:alcançou 71% de precisão e 83% de recall, produzindo uma precisão geral de 77% – uma melhoria notável em relação às abordagens anteriores de IA que normalmente oscilavam em torno de 60–65% de precisão.

O trabalho futuro irá alargar a rede a outras condições, como a demência, e explorar os padrões acústico-linguísticos específicos que orientam as suas previsões.

A longo prazo, a tecnologia poderia ser integrada em aplicações móveis para monitorizar passivamente a voz e o texto dos utilizadores em busca de sinais de sofrimento, oferecendo alertas precoces para aqueles que enfrentam barreiras no acesso aos cuidados de saúde mental.

Modelo de IA detecta depressão em conversas naturais com 77% de precisão

Modelo de IA detecta depressão em conversas naturais com 77% de precisão

Referência:Conferência Interspeech | CSAIL/MIT
Leia:A estimulação cerebral pode diminuir a intenção de uma pessoa de cometer um ato violento

11 principais marcas de tecnologia japonesas [em 2026] Impressão acústica:ondas sonoras criam gotículas precisas de qualquer líquido

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial