Modelo de IA detecta depressão em conversas naturais com 77% de precisão
- Pesquisadores do MIT desenvolveram uma rede neural que identifica automaticamente padrões depressivos a partir de áudio e texto brutos, sem perguntas predefinidas.
- O modelo é "livre de contexto", o que significa que pode analisar qualquer conversa casual e extrair pistas linguísticas e acústicas relacionadas à depressão.
- Em um estudo de validação, alcançou uma precisão geral de 77%, superando o desempenho das ferramentas convencionais de IA baseadas em perguntas e respostas.
Tradicionalmente, o Questionário de Saúde do Paciente (PHQ‑9) é o padrão ouro para o rastreio da depressão. Ele faz um conjunto fixo de nove perguntas sobre humor, sono, apetite e níveis de energia para calcular uma pontuação de 0 a 27, com pontuações acima de 20 indicando depressão grave.
Ao longo dos últimos anos, as abordagens de aprendizagem automática exploraram com sucesso a fala em busca de marcadores reveladores – entonação, velocidade de fala e escolhas lexicais específicas – sugerindo estados depressivos. No entanto, a maioria destes modelos baseia-se em respostas ao PHQ‑9 ou em entrevistas estruturadas semelhantes, limitando a sua aplicabilidade em contextos do mundo real.
A nova rede neural do MIT elimina essa restrição. Ao alimentá-lo com gravações de entrevistas de formato livre, o sistema aprende a reconhecer padrões sutis – como o uso frequente de palavras como “para baixo”, “baixo” ou “triste”, combinado com uma qualidade vocal achatada ou monótona e um ritmo de fala mais lento – que estão fortemente associados à depressão.
Como funciona o modelo
O algoritmo trata a fala como uma sequência de quadros de áudio com registro de data e hora e palavras transcritas. Ele emprega uma arquitetura profunda de modelagem de sequência que analisa conjuntamente características acústicas (altura, energia, velocidade de fala) e conteúdo linguístico. Por não depender de um questionário fixo, pode ser aplicado a quaisquer dados conversacionais, desde entrevistas clínicas até ligações telefônicas cotidianas.
Os autores referem-se a isto como “modelagem livre de contexto” porque capta indicadores de depressão independentes das perguntas específicas feitas.
Treinamento, validação e desempenho
O modelo foi treinado em 142 interações extraídas do Distress Analysis Interview Corpus (DAIC), que inclui áudio, vídeo e texto de conversas com participantes saudáveis e indivíduos com diagnóstico de transtornos mentais.
A gravidade da depressão de cada sujeito foi quantificada usando a pontuação PHQ‑9 (0–27). No estudo, 28 participantes foram classificados como deprimidos (pontuações ≥20). A rede foi avaliada em termos de precisão e recall:alcançou 71% de precisão e 83% de recall, produzindo uma precisão geral de 77% – uma melhoria notável em relação às abordagens anteriores de IA que normalmente oscilavam em torno de 60–65% de precisão.
O trabalho futuro irá alargar a rede a outras condições, como a demência, e explorar os padrões acústico-linguísticos específicos que orientam as suas previsões.
A longo prazo, a tecnologia poderia ser integrada em aplicações móveis para monitorizar passivamente a voz e o texto dos utilizadores em busca de sinais de sofrimento, oferecendo alertas precoces para aqueles que enfrentam barreiras no acesso aos cuidados de saúde mental.
Referência:Conferência Interspeech | CSAIL/MIT
Leia:A estimulação cerebral pode diminuir a intenção de uma pessoa de cometer um ato violento
Tecnologia industrial
- Materiais de isolamento de PCB
- A chave para o setor elétrico 4.0:o gêmeo digital
- RTOS x GPOS:um guia completo
- 8 Dicas práticas e eficazes de liderança em manufatura
- Como o porto interno pode conectar melhor as cadeias de abastecimento dos EUA
- Seis variáveis de controle de processo que são vitais para o sucesso da manufatura aditiva
- Como os sensores de rede 0G protegem a cadeia de frio da vacina
- Desafios mais comuns no projeto elétrico da usina
- Autodesk Fusion 360:software de modelagem 3D para iniciantes e além
- Guia passo a passo para instalação de um receptáculo trifásico 60A NEMA 18‑60 (120/208 V)