GPT-4V biedt grote voordelen bij het screenen van klinische tests

13 februari 2024

Het screenen van patiënten om geschikte deelnemers te vinden voor klinische onderzoeken is een arbeidsintensieve, dure en foutgevoelige taak, maar AI kan daar binnenkort verandering in brengen.

Een team onderzoekers van Brigham and Women's Hospital, Harvard Medical School en Mass General Brigham Personalized Medicine, voerde een onderzoek uit om te zien of een AI-model medische dossiers kan verwerken om geschikte kandidaten voor klinische studies te vinden.

Ze gebruikten GPT-4V, OpenAI's LLM met beeldverwerking, mogelijk gemaakt door Retrieval-Augmented Generation (RAG) om de elektronische patiëntendossiers (EHR) en klinische notities van potentiële kandidaten te verwerken.

LLM's zijn vooraf getraind met een vaste dataset en kunnen alleen vragen beantwoorden op basis van die gegevens. RAG is een techniek waarmee een LLM gegevens kan ophalen uit externe gegevensbronnen zoals het internet of interne documenten van een organisatie.

Wanneer deelnemers worden geselecteerd voor een klinische studie, wordt hun geschiktheid bepaald aan de hand van een lijst met in- en exclusiecriteria. Normaal gesproken moet getraind personeel de EHR's van honderden of duizenden patiënten uitkammen om de patiënten te vinden die aan de criteria voldoen.

De onderzoekers verzamelden gegevens van een proef waarbij patiënten met symptomatisch hartfalen werden gerekruteerd. Ze gebruikten die gegevens om te zien of GPT-4V met RAG het werk efficiënter kon doen dan studiepersoneel met behoud van nauwkeurigheid.

De gestructureerde gegevens in de EHR's van potentiële kandidaten kunnen gebruikt worden om 5 van de 6 inclusie- en 5 van de 17 exclusiecriteria voor het klinische onderzoek te bepalen. Dat is het makkelijke deel.

De overige 13 criteria moesten worden bepaald door ongestructureerde gegevens in de klinische aantekeningen van elke patiënt te bestuderen, en dat is het arbeidsintensieve deel waarvan de onderzoekers hoopten dat AI daarbij kon helpen.

Resultaten

De onderzoekers verkregen eerst gestructureerde beoordelingen die waren ingevuld door het studiepersoneel en klinische aantekeningen van de afgelopen twee jaar.

Ze ontwikkelden een workflow voor een op klinische aantekeningen gebaseerd vraag-antwoordsysteem op basis van RAG-architectuur en GPT-4V en noemden deze workflow RECTIFIER (RAG-Enabled Clinical Trial Infrastructure for Inclusion Exclusion Review).

Notities van 100 patiënten werden gebruikt als ontwikkelingsdataset, 282 patiënten als validatiedataset en 1894 patiënten als testset.

Een deskundige arts bekeek geblindeerd de patiëntendossiers om de geschiktheidsvragen te beantwoorden en de "gouden standaard" antwoorden te bepalen. Deze werden vervolgens vergeleken met de antwoorden van het onderzoekspersoneel en RECTIFIER op basis van de volgende criteria:

  • Gevoeligheid - Het vermogen van een test om correct patiënten te identificeren die in aanmerking komen voor het onderzoek (echte positieven).
  • Specificiteit - Het vermogen van een test om correct patiënten te identificeren die niet in aanmerking komen voor het onderzoek (echte negatieven).
  • Nauwkeurigheid - De totale proportie correcte classificaties (zowel ware positieven als ware negatieven).
  • Matthews correlatiecoëfficiënt (MCC) - Een metriek die gebruikt wordt om te meten hoe goed het model was in het selecteren of uitsluiten van een persoon. Een waarde van 0 is hetzelfde als een munt opgooien en 1 staat voor 100% van de tijd goed hebben.
Prestatiecijfers van RECTIFIER en Studiepersoneel om algemene geschiktheid te bepalen op basis van 13 vragen in de testset. Bron: arXiv

RECTIFIER presteerde net zo goed, en in sommige gevallen beter, dan het onderzoekspersoneel. Het belangrijkste resultaat van het onderzoek kwam waarschijnlijk voort uit de kostenvergelijking.

Hoewel er geen cijfers werden gegeven voor de vergoeding van het studiepersoneel, moet dit aanzienlijk meer zijn geweest dan de kosten voor het gebruik van GPT-4V, die varieerden tussen $0,02 en $0,10 per patiënt. Het gebruik van AI om een pool van 1000 potentiële kandidaten te evalueren zou een kwestie van minuten zijn en ongeveer $100 kosten.

De onderzoekers concludeerden dat het gebruik van een AI-model zoals GPT-4V met RAG de nauwkeurigheid bij het identificeren van kandidaten voor klinische proeven kan behouden of verbeteren, en dat dit efficiënter en veel goedkoper kan dan het inzetten van menselijk personeel.

Ze merkten wel op dat voorzichtigheid geboden is bij het overdragen van medische zorg aan geautomatiseerde systemen, maar het lijkt erop dat AI beter werk zal leveren dan wij als we het goed aansturen.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden