Os acidentes vasculares cerebrais isquémicos, que ocorrem quando o fluxo sanguíneo para o cérebro é bloqueado, são uma das principais causas de morte e incapacidade.
Um novo estudo pré-impresso avaliou o potencial da GPT-4 para ajudar os médicos a tomar decisões críticas no tratamento de doentes com AVC.
A equipa de investigação, composta por especialistas do Instituto de Tecnologia Technion-Israel, em Israel, e da Clínica Mayo, nos EUA, analisou dados de 100 pacientes que tinham apresentado sintomas de AVC agudo.
🚨Novo alerta de pré-impressão. O GPT-4 demonstrou funcionar bem para o diagnóstico, mas raramente como uma ferramenta de apoio à decisão clínica. Num trabalho conjunto com @ShellyShahar de @RambamHCC utilizámo-la para decidir como tratar os doentes com AVC. Como é que se saiu? Incrivelmente bem! https://t.co/8q31Mu2PRB pic.twitter.com/Um4IzULJVS
- Dvir Aran (@dvir_a) 27 de janeiro de 2024
A equipa comparou as recomendações de tratamento do GPT-4 com as recomendações dadas por neurologistas experientes e com os tratamentos reais administrados aos doentes.
O objetivo era ver até que ponto as sugestões da IA correspondiam ao julgamento humano especializado e à prática médica do mundo real.
Para cada doente, perguntámos ao GPT-4 se devia tratar ou monitorizar e com que tratamento. Concebemos a pergunta para devolver uma resposta escalonada (1-7) em vez de sim/não. Isto teve muitas vantagens: identificar a incerteza, utilizar o ROC-AUC e reduzir as alucinações através da replicação da pergunta. pic.twitter.com/n0la4Oqgfg
- Dvir Aran (@dvir_a) 27 de janeiro de 2024
Uma das principais medidas utilizadas neste estudo foi a Área Sob a Curva (AUC).
Sem entrar demasiado em pormenores técnicos, a curva ROC é uma forma de visualizar o desempenho de um teste de diagnóstico.
Traça a taxa de verdadeiros positivos (casos corretamente identificados) contra a taxa de falsos positivos (casos incorretamente identificados) em vários limiares.
A AUC é, portanto, um número único que resume o desempenho do teste em todos os limiares possíveis, com 1,0 a representar um teste perfeito e 0,5 a representar um palpite.
No mundo da medicina, uma AUC de 0,7 a 0,8 é considerada aceitável, de 0,8 a 0,9 é excelente e acima de 0,9 é excecional.
Neste estudo, o GPT-4 alcançou uma AUC de 0,85 quando as suas recomendações foram comparadas com as opiniões de especialistas em AVC, indicando um elevado nível de concordância e um excelente desempenho da IA.
Em comparação com os tratamentos administrados, a AUC foi de 0,80, mostrando que as sugestões do GPT-4 estavam estreitamente alinhadas com a prática médica do mundo real.
Então, tratar ou não tratar? A concordância do GPT-4 com o perito foi de AUC=0,85, com 20 diferenças, e com o mundo real a AUC foi de 0,8. Estes valores são semelhantes à concordância entre o perito e o mundo real, o que é bastante notável! pic.twitter.com/6dDbEa6ycv
- Dvir Aran (@dvir_a) 27 de janeiro de 2024
Estes resultados são particularmente promissores porque sugerem que o GPT-4 pode potencialmente fornecer um apoio valioso nas salas de emergência, especialmente quando um especialista em neurologia pode não estar imediatamente disponível.
Além disso, o GPT-4 mostrou uma capacidade notável para prever o risco de mortalidade nos 90 dias após o AVC.
O modelo de IA identificou os doentes de alto risco com uma precisão significativa, superando alguns modelos de aprendizagem automática existentes especificamente treinados para este fim.
Mas o que foi realmente surpreendente foi que também pedimos ao GPT-4 para estimar a mortalidade aos 90 dias e comparámo-lo com dois modelos de previsão ML tradicionais recentes para esta tarefa. O GPT-4 foi significativamente melhor (AUC=0,89 em comparação com 0,77 e 0,7). pic.twitter.com/FFhDQSmQc5
- Dvir Aran (@dvir_a) 27 de janeiro de 2024
Este facto pode ser extremamente útil para os médicos darem prioridade aos tratamentos e gerirem os recursos de forma mais eficaz.
Esta não é a primeira vez que os LLMs são utilizados com sucesso em aplicações de cuidados de saúde.
Google criou recentemente o Articulate Medical Intelligence Explorer (AMIE)que igualou ou mesmo superou o desempenho dos médicos de cuidados primários certificados na recolha de informações sobre os doentes durante as entrevistas médicas e obteve uma pontuação mais elevada em termos de empatia.
Os investigadores dinamarqueses utilizaram mesmo os LLM para compreender como os acontecimentos da vida afectaram a mortalidadee o seu modelo supera o melhor seguinte em 11%.
Outros modelos sofisticados de aprendizagem automática descobriram novos antibióticos ou compostos terapêuticos em poucos minutos, em comparação com os meses ou anos das técnicas experimentais tradicionais.