Um teste positivo de IA generativa não vale para todos os chatbots de saúde mental · Matéria

Modelo, versão, instrução, temperatura, interface e travas de segurança mudam o comportamento; a revisão não autoriza generalização para a categoria inteira.

Um chatbot pode responder bem em um estudo e falhar em outro. Em IA generativa, o resultado depende do sistema testado, da versão, da instrução, da interface e até de ajustes invisíveis ao usuário. Esta matéria se baseia na revisão ScienceLayers sobre chatbots e IA generativa em saúde mental, que examinou estudos sobre desempenho, segurança, reprodutibilidade e limites técnicos. "A IA generativa" parece uma coisa só, mas a literatura avalia sistemas, versões e configurações diferentes. A revisão questiona essa generalização porque muitos estudos dependem da instrução dada ao sistema, da data de acesso, da arquitetura, da busca controlada de informação, do ajuste fino, da temperatura, da interface ou das travas de segurança específicas. Um estudo técnico sustenta que pontuações de segurança mudam com a instrução, a temperatura e a interface. Isso impede tratar um resultado de teste como propriedade estável de um modelo, menos ainda de toda a categoria. Outro estudo reforça que características do modelo e ajuste por instruções podem pesar mais que ajuste fino de saúde mental em tarefas sintéticas. Mas o próprio limite local proíbe concluir que todo ajuste fino em saúde mental seja nocivo ou que o achado prove segurança clínica. Arquiteturas mais elaboradas também continuam restritas. Estudos sobre ancoragem em informação, roteamento de risco, travas especializadas e auditoria durante a conversa mostram ganhos técnicos em testes de aconselhamento. Nenhum deles demonstra segurança ou benefício em pacientes reais. Também há estudo mostrando ganho de qualidade conversacional em uma arquitetura de camada cognitiva. Esse achado não prova equivalência clínica, melhora sintomática sustentada ou segurança em crise. Por isso, a revisão trata reprodutibilidade como limitação estrut…