
Foram analisados 50 casos clínicos de patologias hematológicas indicados por hematologistas. Os casos foram divididos em dois grupos: 25 afecções comuns e 25 raras. Relatos de casos, publicados entre 2018 e 2024 nas bases UpToDate, Science Direct, PubMed e Cochrane, foram distribuídos aleatoriamente entre seis estudantes de medicina. Os estudantes inseriram os casos no Google e no ChatGPT 4.0, incluindo entre 3 e 6 sinais, sintomas ou resultados de exames laboratoriais, seguido da pergunta “Qual é o provável diagnóstico? ”. Os resultados foram classificados como “diagnóstico correto”, “diagnóstico diferencial” ou “diagnóstico incorreto”. A adequação das respostas foi avaliada de forma cega e randômica por um grupo de estudantes.
ResultadosPara os casos comuns, o Google identificou corretamente 36% dos diagnósticos, forneceu diagnóstico diferencial em 24% e classificou erroneamente 40%. O ChatGPT 4.0 obteve 56% de diagnósticos corretos, forneceu diagnóstico diferencial em 28% e errou 16% das vezes. Nos casos raros, o Google acertou 32%, fez diagnóstico diferencial em 36% e errou 33%. O ChatGPT 4.0 classificou corretamente 44%, ofereceu diagnóstico diferencial em 32% e errou 24%.
DiscussãoO ChatGPT 4.0 superou o Google em precisão diagnóstica para ambos os tipos de afecções. Esses resultados estão alinhados com estudos anteriores que avaliam o desempenho de modelos de linguagem em contextos médicos. Embora o ChatGPT tenha mostrado boa precisão em diagnósticos básicos, ainda enfrenta desafios em patologias raras, sugerindo que, apesar de sua eficácia na recuperação de informações e gestão clínica básica, ele pode ter dificuldades com análises mais complexas.
ConclusãoO ChatGPT 4.0 apresentou maior acurácia diagnóstica em comparação com o Google nos cenários analisados. Apesar de ser mais preciso em casos comuns, o modelo ainda mostrou limitações em patologias raras. Esses resultados indicam o potencial do ChatGPT para uso em educação e telemedicina, mas sugerem a necessidade de mais estudos e testes aprofundados para melhorar a precisão diagnóstica, especialmente para patologias menos comuns.