Travas de segurança em IA generativa para saúde mental ainda não provam cuidado seguro · Matéria

Classificadores, avaliadores automatizados e auditoria durante a conversa melhoram testes técnicos, mas não demonstram segurança clínica em pacientes reais.

Todo sistema de apoio psicológico digital precisa de barreiras de segurança. A dúvida é outra: quando essas barreiras funcionam em testes, isso já prova que um chatbot é seguro para pessoas em sofrimento? Esta matéria se baseia na revisão ScienceLayers sobre chatbots e IA generativa em saúde mental, que examinou estudos sobre travas de segurança, simulações, manejo de crise e limites clínicos. A revisão trata essas barreiras como parte necessária da discussão. O erro seria transformar melhora em teste técnico em autorização para uso clínico autônomo. Um estudo sustenta que travas especializadas reduzem falsos positivos e falhas simuladas em conversas longas de suporte mental. Isso não sustenta segurança longitudinal, benefício clínico ou desempenho em pacientes reais. Outro estudo sustenta que supervisão durante a execução pode melhorar métricas alinhadas à entrevista motivacional em simulação. A própria crítica local mantém o limite: não sustenta segurança clínica, aceitabilidade, benefício ao usuário real ou superioridade em campo. Ferramentas de avaliação também têm valor restrito. Um estudo mostra alinhamento de um avaliador automatizado baseado em modelo de linguagem a uma rubrica clínica de segurança em conversas simuladas sobre suicídio. Outro sustenta que modelos atuais seguem inconsistentes em dimensões críticas de segurança mental. Nenhum dos dois demonstra terapia segura no mundo real. Arquiteturas como busca controlada de informação, ancoragem em fontes e ajuste por domínio também não resolvem tudo. Elas podem melhorar segurança e fidelidade em testes de aconselhamento, enquanto outros resultados sugerem que ajuste específico para saúde mental não garante melhor triagem automática. Esses achados permanecem evidência indireta. O ponto público é simples: trav…