GPT-4V giver store fordele ved screening af kliniske forsøg

13. februar 2024

Screening af patienter for at finde egnede deltagere til kliniske forsøg er en arbejdskrævende, dyr og fejlbehæftet opgave, men AI kan snart løse det.

Et hold forskere fra Brigham and Women's Hospital, Harvard Medical School og Mass General Brigham Personalized Medicine gennemførte en undersøgelse for at se, om en AI-model kunne behandle lægejournaler for at finde egnede kandidater til kliniske forsøg.

De brugte GPT-4V, OpenAI's LLM med billedbehandling, aktiveret af Retrieval-Augmented Generation (RAG) til at behandle potentielle kandidaters elektroniske sundhedsjournaler (EHR) og kliniske notater.

LLM'er er trænet på forhånd ved hjælp af et fast datasæt og kan kun besvare spørgsmål baseret på disse data. RAG er en teknik, der gør det muligt for en LLM at hente data fra eksterne datakilder som internettet eller en organisations interne dokumenter.

Når deltagere udvælges til et klinisk forsøg, afgøres deres egnethed ud fra en liste med inklusions- og eksklusionskriterier. Det indebærer normalt, at uddannet personale finkæmmer hundredvis eller tusindvis af patienters EPJ'er for at finde dem, der matcher kriterierne.

Forskerne indsamlede data fra et forsøg, der havde til formål at rekruttere patienter med symptomatisk hjertesvigt. De brugte disse data til at se, om GPT-4V med RAG kunne gøre arbejdet mere effektivt end forsøgspersonalet, samtidig med at nøjagtigheden blev opretholdt.

De strukturerede data i de potentielle kandidaters EPJ'er kan bruges til at fastlægge 5 ud af 6 inklusionskriterier og 5 ud af 17 eksklusionskriterier for det kliniske forsøg. Det er den nemme del.

De resterende 13 kriterier skulle bestemmes ved at undersøge ustrukturerede data i hver patients kliniske noter, hvilket er den arbejdskrævende del, som forskerne håbede, at AI kunne hjælpe med.

Resultater

Forskerne indhentede først strukturerede vurderinger udført af studiepersonalet og kliniske notater for de sidste to år.

De udviklede en arbejdsgang til et klinisk notatbaseret spørgsmål-svar-system, der er drevet af RAG-arkitektur og GPT-4V, og kaldte denne arbejdsgang RECTIFIER (RAG-Enabled Clinical Trial Infrastructure for Inclusion Exclusion Review).

Noter fra 100 patienter blev brugt som udviklingsdatasæt, 282 patienter som valideringsdatasæt og 1894 patienter som testsæt.

En klinisk ekspert gennemførte en blindet gennemgang af patienternes journaler for at besvare spørgsmålene om berettigelse og bestemme "guldstandard"-svarene. Disse blev derefter sammenlignet med svarene fra forsøgspersonalet og RECTIFIER baseret på følgende kriterier:

  • Sensitivitet - En tests evne til korrekt at identificere patienter, der er kvalificerede til forsøget (sande positive).
  • Specificitet - En tests evne til korrekt at identificere patienter, der ikke er kvalificerede til forsøget (ægte negative).
  • Nøjagtighed - Den samlede andel af korrekte klassifikationer (både sande positive og sande negative).
  • Matthews korrelationskoefficient (MCC) - En metrik, der bruges til at måle, hvor god modellen var til at vælge eller udelukke en person. En værdi på 0 er det samme som et møntkast, og 1 betyder, at man rammer rigtigt 100% af gangene.
Præstationsmålinger af RECTIFIER og Study Staff for at bestemme den samlede berettigelse baseret på 13 spørgsmål i testsættet. Kilde: arXiv

RECTIFIER klarede sig lige så godt, og i nogle tilfælde bedre, end studiepersonalet. Det mest betydningsfulde resultat af undersøgelsen kom sandsynligvis fra omkostningssammenligningen.

Der blev ikke oplyst tal for aflønningen af forsøgspersonalet, men det må have været betydeligt mere end omkostningerne ved at bruge GPT-4V, som varierede mellem $0,02 og $0,10 pr. patient. At bruge AI til at evaluere en pulje på 1.000 potentielle kandidater ville tage et par minutter og koste omkring $100.

Forskerne konkluderede, at brugen af en AI-model som GPT-4V med RAG kan opretholde eller forbedre nøjagtigheden i identifikationen af kandidater til kliniske forsøg og gøre det mere effektivt og meget billigere end at bruge menneskelige medarbejdere.

De bemærkede, at man skal være forsigtig med at overlade lægehjælp til automatiserede systemer, men det ser ud til, at AI vil gøre et bedre stykke arbejde, end vi kan, hvis det styres korrekt.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser