Inteligência Artificial revoluciona diagnósticos médicos, superando especialistas humanos

Um robô demonstrou desempenho superior ao de médicos humanos em um dos testes mais rigorosos realizados para avaliar a eficácia de chatbots de inteligência artificial no diagnóstico e acompanhamento médico.

Coordenados por pesquisadores da Escola Médica de Harvard, em Boston, os experimentos mostraram que o modelo o1, desenvolvido pela OpenAI, teve resultados comparáveis ou até melhores do que os profissionais do Hospital Geral de Massachusetts e do Beth Israel Medical Center, ambos reconhecidos como alguns dos melhores centros clínicos nos Estados Unidos.

O robô, junto com outros sistemas de IA, foi encarregado de realizar diagnósticos com base nas informações contidas nos prontuários médicos dos pacientes, usando dados obtidos nas fases iniciais do atendimento. As respostas geradas foram então confrontadas com os diagnósticos finais à medida que os casos eram resolvidos.

Os testes incluíram uma variedade de casos, como registros históricos, cenários fictícios e situações reais enfrentadas por pacientes que chegavam aos hospitais em Boston. No total, mais de 250 casos foram analisados, permitindo que o robô fosse comparado ao trabalho de 500 médicos atuantes.

Entre os resultados em que o o1 se destacou notavelmente estavam aqueles extraídos de artigos publicados semanalmente na revista New England Journal of Medicine. Esses casos eram semelhantes a quebra-cabeças clínicos no estilo da série “House”, onde um médico com habilidades investigativas desvela mistérios relacionados à saúde.

A equipe composta por 25 cientistas que desenvolveu e conduziu os testes detalhou suas descobertas em um estudo publicado na revista Science. O trabalho foi liderado por Adam Rodman, do Beth Israel Medical Center, e Arjun Manrai, da Universidade Harvard.

“Em resumo, um modelo de IA ultrapassou a altíssima linha de base estabelecida pelos nossos médicos”, afirmou Manrai durante uma coletiva. “Esse grupo inclui médicos ativos e certificados por associações profissionais que lidam com casos complexos.”

Os cientistas ressaltam que esses resultados quebram um paradigma na pesquisa médica. Até este momento, as ferramentas de IA que apresentaram desempenho superior na medicina eram aquelas desenvolvidas para funções muito específicas, como softwares voltados para análise de imagens em patologia clínica.

Diferentemente disso, o o1 representa apenas a mais recente versão de um “grande modelo de linguagem” (LLM), uma evolução tecnológica similar àquela utilizada em sistemas como ChatGPT e Gemini.

“Esses modelos não são especificamente programados para raciocínio clínico. Eles foram treinados para prever qual conjunto de palavras pode seguir outro conjunto, visando uma utilidade geral”, explicou Manrai. “Contudo, como um efeito colateral desse treinamento, eles também conseguem resolver casos complexos publicados na New England Journal e situações atendidas em pronto-socorros.”

No estudo realizado, o chatbot apresentou sua maior vantagem no diagnóstico inicial nas emergências médicas, alcançando uma precisão de 67,1%, contra 55,3% obtidos pelos médicos humanos. Nesse estágio inicial da triagem há menos informações disponíveis devido à ausência dos resultados dos exames.

Ainda assim, mesmo após a fase inicial nas emergências e durante a alta ou internação dos pacientes, a IA manteve uma pequena vantagem sobre os profissionais humanos: 81,6% contra 78,9% na acurácia dos diagnósticos.

Um exemplo notável foi quando o chatbot identificou corretamente um paciente transplantado com dor escrotal e sinais genéricos de infecção. Enquanto os médicos focavam nos sintomas respiratórios do paciente, o modelo da IA já suspeitava desde o início que se tratava de fasciite necrosante — uma condição que exige cirurgia emergencial — prevendo esse diagnóstico 12 a 24 horas antes dos médicos humanos.

Outra situação onde a IA superou os médicos envolveu uma paciente diagnosticada inicialmente com embolia pulmonar devido a falhas na medicação anticoagulante. Contudo, a IA reconheceu rapidamente que ela tinha um histórico de lúpus e atribuiu os sintomas a uma inflamação latente provocada pela doença autoimune.

Ainda que os resultados sejam impressionantes, os médicos envolvidos no estudo pediram cautela ao interpretar esses achados. Eles enfatizam que isso não significa que a IA possa substituir médicos nem sugere que leigos consigam replicar esses resultados utilizando ferramentas como o ChatGPT; é necessário alimentar o modelo com dados técnicos presentes nos prontuários.

A capacidade dos profissionais humanos de realizar observações visuais e sensoriais vai além das habilidades textuais do robô. “Fico preocupado com a forma como esses resultados poderão ser utilizados”, disse Rodman. “É fundamental compreender também o que eles não significam. Há uma razão para admirarmos figuras como Dr. House ou Sherlock Holmes — inspirados em um médico real chamado Joseph Bell — pois eles são ícones diagnósticos. Porém, diagnóstico é apenas uma parte entre várias facetas da medicina.”

Os pesquisadores defendem a necessidade urgente de investigar seriamente a integração de chatbots na prática médica já que muitos profissionais estão começando essa experiência por conta própria.

“Nossas descobertas não garantem necessariamente melhorias na assistência médica através da IA”, concluiu Manrai. “Ainda temos muito a aprender sobre quando e onde essas tecnologias podem ser aplicadas efetivamente e precisamos realizar rigorosos testes prospectivos para entender melhor seu impacto na prática clínica.”

By Canoas Informa

Você pode gostar