Milhões de pessoas estão a recorrer a chatbots de inteligência artificial (IA) para pedir conselhos sobre tudo, desde receitas de cozinha até ao preenchimento da declaração de impostos. Cada vez mais, essas perguntas estendem-se também à saúde.
Ainda assim, como avisou recentemente o principal responsável médico do Reino Unido, usar estes sistemas para orientar decisões médicas pode ser uma má ideia. Num estudo recente, eu e os meus colegas avaliámos até que ponto os chatbots baseados em modelos de linguagem de grande dimensão (LLM) conseguem ajudar o público a lidar com problemas de saúde comuns - e o que encontrámos foi surpreendente.
Chatbots de IA (LLM) na saúde: muita capacidade, pouca utilidade na prática
Nos testes, os chatbots que avaliámos não estavam preparados para desempenhar o papel de médicos. Um comentário frequente a estudos deste tipo é que a IA evolui mais depressa do que a publicação académica: quando um artigo sai, os modelos já podem ter sido actualizados. No entanto, investigações com versões mais recentes destes sistemas, aplicadas à triagem de doentes, apontam para o mesmo tipo de fragilidades - o que sugere que o problema não desaparece apenas com uma “actualização”.
Para perceber o impacto no mundo real, fornecemos aos participantes descrições curtas de situações médicas frequentes. Depois, de forma aleatória, cada pessoa foi colocada num de dois grupos: ou utilizava um de três chatbots amplamente disponíveis, ou recorria às fontes que normalmente usaria em casa.
Após a interação, fizemos duas perguntas simples:
- que condição poderia explicar os sintomas;
- e onde deveriam procurar ajuda.
Os resultados foram claros: quem usou chatbots teve menos probabilidade de identificar a condição correcta do que quem não os usou. E, quanto ao local adequado para procurar cuidados, não foi melhor do que o grupo de controlo. Ou seja, conversar com um chatbot não ajudou as pessoas a tomar decisões de saúde mais acertadas.
Conhecimento forte, resultados fracos
Isto não significa que os modelos não “saibam” medicina. Pelo contrário: os LLM conseguem, com facilidade, aprovar exames de licenciamento médico. Quando retirámos a variável humana e colocámos exactamente os mesmos cenários directamente aos chatbots, o desempenho subiu de forma acentuada.
Sem intervenção de utilizadores, os modelos identificaram condições relevantes na grande maioria dos casos e, muitas vezes, sugeriram níveis de cuidados apropriados.
Então por que motivo a qualidade caiu quando pessoas reais usaram o sistema? Ao analisarmos as conversas, o padrão tornou-se evidente. Em muitos diálogos, o chatbot até referia algures o diagnóstico mais provável - mas os participantes nem sempre o detectavam ou não o retinham quando tinham de resumir a resposta final.
Noutros casos, os utilizadores davam informação incompleta ou o chatbot interpretava mal detalhes essenciais. O ponto crítico não foi apenas conhecimento clínico: foi, sobretudo, uma falha de comunicação entre humano e máquina.
Este estudo também reforça que decisores políticos precisam de dados sobre o desempenho real de uma tecnologia antes de a levar para contextos de alto risco, como a linha da frente dos cuidados de saúde.
Porque é que as avaliações de IA falham quando saem do laboratório
Os nossos resultados sublinham uma limitação importante de muitas avaliações actuais de IA na medicina. Os modelos de linguagem tendem a sair-se muito bem em perguntas de exame, com enunciados estruturados, ou em simulações “modelo com modelo”.
Mas o mundo real é muito mais desorganizado. Doentes descrevem sintomas de forma vaga, esquecem pormenores, ou interpretam mal explicações. Fazem perguntas numa ordem imprevisível. Um sistema que parece brilhante em métricas e benchmarks pode comportar-se de forma muito diferente quando passa a dialogar com pessoas reais.
Este ponto liga-se a algo mais abrangente sobre a prática clínica. Como médica de família, o meu trabalho envolve muito mais do que recordar factos. A medicina é frequentemente descrita como uma arte, não apenas como ciência. Uma consulta não se resume a acertar num diagnóstico: inclui interpretar a narrativa do doente, lidar com incerteza e negociar decisões.
A complexidade do acto clínico é reconhecida há décadas na formação médica. Durante muito tempo, futuros médicos foram ensinados com base no modelo Calgary–Cambridge: criar relação com o doente, recolher informação com perguntas cuidadas, compreender preocupações e expectativas, explicar conclusões de forma clara e chegar a um plano partilhado de acompanhamento.
Todos estes processos dependem de ligação humana, comunicação adaptada, clarificação, exploração cuidadosa, julgamento contextual e confiança - qualidades que não se reduzem facilmente a reconhecimento de padrões.
Um papel diferente para a inteligência artificial (IA) na medicina
A lição do nosso estudo não é que a inteligência artificial (IA) não tenha lugar na saúde - longe disso. O essencial é perceber em que é que estes sistemas já são bons e onde é que, hoje, ainda falham.
Uma forma útil de olhar para os chatbots actuais é vê-los mais como secretários do que como médicos. São notavelmente eficazes a organizar informação, resumir texto e dar estrutura a documentos complexos.
É precisamente neste tipo de tarefas que os modelos de linguagem já demonstram utilidade em sistemas de saúde: redigir notas clínicas, sintetizar registos de doentes ou ajudar a preparar cartas de referenciação.
Há ainda dois aspectos práticos que merecem atenção quando se fala de chatbots de IA na saúde. O primeiro é a literacia em saúde e digital: quanto melhor for a capacidade do utilizador para descrever sintomas, indicar contexto (idade, medicação, doenças prévias) e confirmar o que entendeu, menor tende a ser o risco de mal-entendidos. O segundo é a privacidade: antes de introduzir dados pessoais num chatbot, é essencial saber como essa informação pode ser guardada, utilizada ou partilhada - e se existe conformidade com regras de protecção de dados.
A promessa da IA na medicina continua real, mas, a curto prazo, o seu papel será provavelmente mais de apoio do que de revolução. Os chatbots não devem ser tratados como a “porta de entrada” dos cuidados de saúde. Ainda não estão prontos para diagnosticar condições nem para orientar doentes, de forma fiável, para o nível certo de cuidados.
A inteligência artificial pode ser capaz de passar exames médicos. Mas, tal como passar no código não faz de alguém um bom condutor, exercer medicina implica muito mais do que responder correctamente a perguntas.
Exige julgamento, empatia e capacidade para navegar a complexidade por trás de cada encontro clínico. Por agora, pelo menos, isso continua a depender de pessoas - não de bots.
Rebecca Payne, Professora Sénior Clínica, Universidade de Bangor; Universidade de Oxford
Este artigo é republicado a partir da plataforma The Conversation ao abrigo de uma licença Creative Commons. Leia o artigo original.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário