Em Direção aos Modelos de Linguagem de Grande Escala como Ferramenta Terapêutica: Comparação de Técnicas de Prompting para Aprimorar a Terapia de Resolução de Problemas Entregue pelo GPT. · Artigo de referência
Título original: Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy. Pode sustentar plausibilidade de que prompting melhora avaliação de s…
Como a literatura científica descreve e avalia o uso de sistemas conversacionais de IA generativa, especialmente modelos grandes de linguagem e chatbots baseados em LLMs, em funções de psicoterapia, aconselhamento, psicoeducação, autocuidado em saúde mental ou suporte emocional, e que evidências existem sobre contextos de uso, aceitabilidade, efeitos relatados, segurança, manejo de crise, limitações e salvaguardas?
A literatura disponível descreve usos delimitados de chatbots e IA generativa em saúde mental. No corpus público atual, há sinal baixo a moderado de aceitabilidade e de apoio pontual em contextos de baixo risco, sobretudo quando a tarefa é estruturada e a supervisão humana permanece. Isso não demonstra que esses sistemas “façam terapia” no sentido clínico, nem que sejam seguros em crise ou capazes de substituir psicoterapia humana.
Força da evidência: baixa a moderada para apoio pontual, aceitabilidade e usos estruturados ou supervisionados de baixo risco; baixa para benefício clínico sustentado; insuficiente/não demonstrada para segurança em crise e para substituição de psicoterapia humana
Título original: Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy.
O que este artigo pode sustentar: Pode sustentar plausibilidade de que prompting melhora avaliação de sintomas, metas e empatia percebida em tarefas roteirizadas de PST
O que este artigo não pode sustentar: Não pode sustentar terapia real, eficácia clínica, segurança em crise, aliança terapêutica ou uso autônomo sem supervisão
Alerta metodológico: Os melhores prompts pareceram superiores ao baseline e ao bot rule-based em diálogos simulados, mas o estudo mede textos avaliados por clínicos, não cuidado em usuários reais