Att screena patienter för att hitta lämpliga deltagare till kliniska prövningar är en arbetsintensiv, dyr och felbenägen uppgift, men AI kan snart lösa det problemet.
Ett forskarlag från Brigham and Women's Hospital, Harvard Medical School och Mass General Brigham Personalized Medicine genomförde en studie för att se om en AI-modell kunde bearbeta medicinska journaler för att hitta lämpliga kandidater för kliniska prövningar.
De använde GPT-4V, OpenAI:s LLM med bildbehandling, som möjliggörs av Retrieval-Augmented Generation (RAG) för att bearbeta potentiella kandidaters elektroniska patientjournaler (EHR) och kliniska anteckningar.
LLM:er är förtränade med hjälp av ett fast dataset och kan bara svara på frågor som baseras på dessa data. RAG är en teknik som gör det möjligt för en LLM att hämta data från externa datakällor som internet eller en organisations interna dokument.
När deltagare väljs ut till en klinisk prövning avgörs deras lämplighet utifrån en lista med inklusions- och exklusionskriterier. Detta innebär normalt att utbildad personal går igenom journaler för hundratals eller tusentals patienter för att hitta dem som uppfyller kriterierna.
Forskarna samlade in data från en studie som syftade till att rekrytera patienter med symtomatisk hjärtsvikt. De använde dessa data för att se om GPT-4V med RAG kunde göra jobbet mer effektivt än studiepersonalen och samtidigt behålla noggrannheten.
De strukturerade data som finns i de potentiella kandidaternas journaler kan användas för att fastställa 5 av 6 inklusionskriterier och 5 av 17 exklusionskriterier för den kliniska prövningen. Det är den enkla delen.
De återstående 13 kriterierna behövde fastställas genom att undersöka ostrukturerad data i varje patients kliniska anteckningar, vilket är den arbetsintensiva del som forskarna hoppades att AI skulle kunna hjälpa till med.
🔍Kan @Microsoft @Azure @OpenAI's #GPT4 prestera bättre än en människa vid screening för kliniska prövningar? Vi ställde den frågan i vår senaste studie och jag är oerhört glad över att kunna dela med mig av våra resultat i preprint:https://t.co/lhOPKCcudP
Att integrera GPT4 i kliniska prövningar är inte...- Ozan Unlu (@OzanUnluMD) 9 februari 2024
Resultat
Forskarna fick först tillgång till strukturerade utvärderingar som gjorts av studiepersonalen och kliniska anteckningar för de senaste två åren.
De utvecklade ett arbetsflöde för ett frågesvarssystem baserat på kliniska anteckningar som drivs av RAG-arkitekturen och GPT-4V och kallade detta arbetsflöde RECTIFIER (RAG-Enabled Clinical Trial Infrastructure for Inclusion Exclusion Review).
Anteckningar från 100 patienter användes som utvecklingsdataset, 282 patienter som valideringsdataset och 1894 patienter som testdataset.
En sakkunnig läkare genomförde en blindad granskning av patientjournalerna för att besvara behörighetsfrågorna och fastställa "gold standard"-svaren. Dessa jämfördes sedan med svaren från studiepersonalen och RECTIFIER baserat på följande kriterier:
- Sensitivitet - Ett tests förmåga att korrekt identifiera patienter som är kvalificerade för prövningen (sant positiva).
- Specificitet - Ett tests förmåga att korrekt identifiera patienter som inte är kvalificerade för prövningen (sant negativa).
- Noggrannhet - Den totala andelen korrekta klassificeringar (både sant positiva och sant negativa).
- Matthews korrelationskoefficient (MCC) - Ett mått som används för att mäta hur bra modellen var på att välja eller utesluta en person. Ett värde på 0 är samma sak som att singla slant och 1 innebär att man får rätt 100% av gångerna.
RECTIFIER presterade lika bra, och i vissa fall bättre, än studiepersonalen. Det förmodligen viktigaste resultatet av studien kom från kostnadsjämförelsen.
Även om inga siffror angavs för ersättningen till studiepersonalen måste den ha varit betydligt högre än kostnaden för att använda GPT-4V, som varierade mellan $0,02 och $0,10 per patient. Att använda AI för att utvärdera en pool med 1 000 potentiella kandidater skulle ta några minuter och kosta cirka $100.
Forskarna drog slutsatsen att en AI-modell som GPT-4V med RAG kan bibehålla eller förbättra precisionen i identifieringen av kandidater för kliniska prövningar, och göra det mer effektivt och mycket billigare än att använda mänsklig personal.
De påpekade att man måste vara försiktig med att överlåta medicinsk vård till automatiserade system, men det verkar som om AI kommer att göra ett bättre jobb än vi kan om det styrs på rätt sätt.