Verbetering van de vaststelling van zelfmoordgedachten en zelfmoordpogingen met natuurlijke taalverwerking

Deze studie presenteert een schaalbare NLP-benadering die als invoer een lijst met tekstuitdrukkingen ontvangt die een klinische uitkomst van belang beschrijven (uitkomstquery), alle klinische aantekeningen van een EPD scant en een uitkomstrelevantiescore voor elke patiënt berekent met invoertekstuitdrukkingen in zijn cijfers. De output van dit NLP-systeem is een gerangschikte lijst van patiënten als potentiële gevallen voor de uitkomst van belang, zodat de meest relevante patiënten in de lijst bovenaan worden gerangschikt. Alle methoden zijn uitgevoerd in overeenstemming met de relevante richtlijnen en voorschriften. De studie werd goedgekeurd door de institutionele beoordelingsraad (IRB) van het Vanderbilt University Medical Center (VUMC) met afstand van toestemming (IRB #151156).

Klinische populatie

De klinische gegevens die in dit onderzoek zijn gebruikt, zijn geëxtraheerd uit Synthetic Derivative, een onderzoeksgerichte gegevensopslag die de geanonimiseerde versie van het EPD van de VUMC bevat.16. Vanaf december 2021 bewaart deze repository > 200 miljoen biljetten voor > 3,4 miljoen patiënten. Specifieke gegevenselementen die zijn geëxtraheerd uit Synthetic Derivative omvatten klinische notities, psychiatrische formulieren, demografische gegevens en internationale classificatie van ziekten, 9e/10e revisie, klinische modificatie (ICD-9/10-CM) factureringscodes.

Een gegevensgestuurde benadering om de selectie van zelfmoordzoektermen te begeleiden

We hebben een gegevensgestuurde benadering gekoppeld om automatisch tekstuitdrukkingen te extraheren die zelfmoordgedachten en zelfmoordpogingen beschrijven. Vergelijkbaar met ons vorige werk13hebben we Google’s word2vec (https://code.google.com/p/word2vec/) gebruikt om iteratief een eerste lijst van twee relevante seed-zoekwoorden uit te breiden, ‘zelfmoord’ en ‘suïcidaal’. In het kort hebben we eerst een skip-gram-model van word2vec getraind17 op 10 miljoen notities die willekeurig zijn gesampled van Synthetic Derivative om woordinsluitingen te leren voor elk woord in de notitieverzameling. De voorverwerking van deze notities omvatte tokenisatie, conversie van tokens naar kleine letters en uitsluiting van laagfrequente tokens en interpunctietekens. Voor de modelconfiguratie gebruikten we een vectordimensie van 100 en contextvenstergroottes van 5 en 15. Vervolgens berekenden we de cosinusovereenkomst tussen de seed-inbeddingen en de inbeddingen van alle niet-seed-woorden en selecteerden de hoogst gerangschikte woorden als nieuwe seed woorden en potentiële kandidaten voor zelfmoordzoektermen. Ten slotte hebben we de gegenereerde seed-lijst handmatig geanalyseerd om vragen voor de twee suïcidale uitkomsten voor te stellen.

Ophalen van zelfmoordgedachten en zelfmoordpoging

We hebben een model voor het ophalen van informatie geïmplementeerd om patiënten te rangschikken op basis van hun relevantie voor elke zelfmoordquery die in de vorige stap is geconstrueerd. De systeemarchitectuur is ontworpen als een vectorruimtemodel waarbij invoervragen en patiënten werden weergegeven als multidimensionale vectoren van woorden of woorduitdrukkingen. Hier werd elke patiëntvector geëxtraheerd uit een metadocument dat alle patiëntaantekeningen bevatte. De relevantiescore van een patiënt voor een suïcidale uitkomst werd gemeten als de overeenkomst tussen de overeenkomstige patiëntvector en zelfmoordqueryvector met behulp van de standaardterm frequency-inverse document frequency (TF-IDF) gewogen cosinusmetriek. Specifiek, voor de overeenkomstscore tussen een zelfmoordverzoek en een patiënt lhet gewicht van de zoekterm l in het metadocument van de patiënt l werd berekend als:

$$w_{i,j} = tf_{i,j} cdot {text{log}}frac{N}{{df_{i} }}$$

waar tfik,j is het aantal keren dat term . voorkomt l in het metadocument van patient l (term frequentie), dfl is het aantal patiënten van wie de overeenkomstige metadocumenten de term . bevatten l (documentfrequentie), en NIET is het totale aantal patiënten in het EPD.

Voor elke opgehaalde patiënt hebben we ook assertiestrategieën geïmplementeerd op basis van de frequentie van negatieve zoektermen in patiëntnotities18,19,20. Om te beoordelen of ontkenning het ophalen van zelfmoordgedachten en zelfmoordpogingen verbetert, hebben we aanvullende ranglijsten geëxtraheerd waarin elke patiënt ten minste één positief beweerde zoekterm in patiëntnotities heeft. Deze rangschikkingen bevatten dus geen patiënten voor wie alle zoektermen in hun notities negatief zijn. De selectie en rangschikking van de patiënten werden uitgevoerd met behulp van het softwarepakket Phenotype Retrieval (PheRe), dat beschikbaar is op https://github.com/bejanlab/PheRe.git.

Modelbeoordeling

De prestaties van het model werden beoordeeld voor zowel zelfmoordgedachten als zelfmoordpogingen op patiëntensets die waren geëxtraheerd uit drie informatiebronnen: (1) best gerangschikte patiënten geëxtraheerd door het NLP-systeem, (2) willekeurig geselecteerde patiënten met ICD10CM-codes voor zelfbeschadigende gedachten en gedrag, en (3) willekeurig geselecteerde patiënten met psychiatrische vormen voor zelfmoordbeoordeling. Er was slechts een beperkte set psychiatrische formulieren voor suïcidebeoordeling beschikbaar in Synthetic Derivative, omdat niet alle gestructureerde vormen momenteel op grote schaal kunnen worden geanonimiseerd zonder het risico van onbedoelde heridentificatie. Elke patiënt werd dubbel beoordeeld door handmatige analyse (reviewers KR, RA) van het gehele patiëntendossier en conflicten werden opgelost door een arts met expertise in geneeskunde en in kaartvalidatie voor zelfmoordonderzoek (CGW). De overeenkomst tussen de beoordelaars werd gemeten met behulp van Cohen’s kappa-statistiek. Over het algemeen werd een patiënt handmatig als een geval gelabeld als de bijbehorende patiëntaantekeningen enig bewijs bevatten van zelfmoordintentie of de intentie om te sterven door zelfbeschadigend gedrag4. Patiënten met ICD-codes voor zelfbeschadigende gedachten en gedragingen moesten ook ondersteunende informatie in hun aantekeningen hebben om als gevallen te worden bestempeld. In situaties waarin een patiënt een zelfmoordpoging ontkende, maar een arts documenteerde dat er een poging had plaatsgevonden, volgden de beoordelaars het oordeel van de zorgverlener en kenden ze een casuslabel toe.

De evaluatie bestond uit het vergelijken van de patiëntbeoordelingen door middel van handmatige beoordeling met de automatisch gegenereerde beoordelingen door het NLP-systeem, ICD10CM-codes en psychiatrische formulieren voor zelfmoordgedachten en zelfmoordpogingen. Voor de niet-gerangschikte patiënten hebben we de prestatiewaarden gemeten in termen van precisie (P) of positief voorspellende waarde (PPV), recall (R) en F1-score (F1). Voor de gerangschikte patiëntenlijsten die door het NLP-systeem zijn gegenereerd, hebben we precisie-recall-curves, de precisie van de hoogste K-patiënten met de hoogste ranking (P@K) en het gebied onder de precisie-recall-curve (AUPRC) gerapporteerd, die werd geschat op basis van het gemiddelde precisie meting21. We hebben een bootstrap-procedure gebruikt om de 95%-betrouwbaarheidsintervallen (CI’s) van de AUPRC-schatters te berekenen met behulp van de empirische kwantielen van de opnieuw bemonsterde gegevens die zijn gegenereerd door 1000 bootstrap-replica’s.22.23.

Een zwak gecontroleerde benadering om gevallen van zelfmoordgedachten en zelfmoordpogingen te labelen

Het hoofddoel van deze studie was het uitvoeren van een zeer nauwkeurige extractie van gevallen van zelfmoordgedachten en zelfmoordpogingen van alle patiënten die door het NLP-systeem werden geëxtraheerd. Omdat we het NLP-systeem hebben ontworpen om de meest relevante patiënten te rangschikken voor de twee zelfmoordgerelateerde uitkomsten bovenaan elke lijst, hebben we voorgesteld om deze taak op te lossen door eerst een drempelwaarde, K, te vinden voor een gegeven doelprecisie, P@K en selecteer vervolgens de patiënten met de hoogste K-ranglijst uit de opgehaalde lijst als gevallen. In onze experimenten hebben we K-waarden geëxtraheerd zodat P@K = 90% en P@K = 80%.

Om P@K te berekenen voor elke K in een gerangschikte lijst (aangeduid als geduldig[1..N]waar (Oke dan)), ontwierpen we een zwak gesuperviseerde aanpak die een casuslabel toewijst aan elke patiënt in de lijst met een specifieke betrouwbaarheidswaarde of waarschijnlijkheid (Fig. 1). Deze benadering combineert een kleine groep patiënten die als gevallen of niet-gevallen zijn gelabeld met de rest van de niet-gelabelde patiënten in de gerangschikte lijst. We definieerden de eerste gelabelde set om alle patiënten van de gerangschikte lijst op te nemen die handmatig waren gevalideerd of die psychiatrische vormen hadden voor zelfmoordgedachten en zelfmoordpogingen. Op basis van onze evaluatie gingen we ervan uit dat elke patiënt uit deze initiële set met grote zekerheid (of met een waarschijnlijkheid (p ​​​​=1)). Dit wordt gespecificeerd door de resultaatValidatie procedure in afb. 1.

Figuur 1

Een zwak gecontroleerde methode voor het toewijzen van casuslabels voor een gerangschikte lijst van patiënten die door het NLP-systeem worden opgehaald.

De waarschijnlijkheid van casustoewijzing voor een niet-gelabelde patiënt werd berekend op basis van zijn rang in de lijst en beschikbaarheid van relevante ICD-codes in zijn record (Fig. 1, regels 13-21). Specifiek hebben we voor elke patiënt in de gerangschikte lijst in eerste instantie een relevantiewaarschijnlijkheid berekend (aangeduid als (p_{{{text{rank}}}})) die evenredig is met de rangorde van de patiënt in de lijst zoals beschreven in regels 1-8 in Fig. 1. Zoals waargenomen, (p_{{{text{rank}}}} = 1) voor de eerste patiënt in de lijst; dan, (p_{{{text{rank}}}}) neemt monotoon af tot 0, wat overeenkomt met de relevantiewaarschijnlijkheid van de laatste patiënt in de lijst. Verder, op basis van de evaluatie die in deze studie is uitgevoerd en ons eerdere werk4hebben we berekend (p_{{{text{ICD}}9}}) en (p_{{{text{ICD}}10}}) als kansen op een suïcidale uitkomst voor elke patiënt met respectievelijk ten minste één relevante ICD10CM en ICD9CM. We gingen ervan uit dat deze kansen nul waren voor patiënten zonder ICD-codes voor zelfbeschadigende gedachten en gedragingen. Toen zowel NLP-rangen als ICD-codes werden overwogen, berekenden we de kans op het toewijzen van een patiënt k naar een case-label als (p_{{{text{NLP}} + {text{ICD}}}} left( k right) = max left( {p_{{{text{rank})}} left ( k right),p_{{{text{ICD}}9}} ,p_{{{text{ICD}}10}} } right)) zoals getoond door lijn 14 in Fig. 1. Dus, met behulp van deze kans en een willekeurige variabele a gegenereerd uit de standaard uniforme distributie, de labeltoewijzing voor patiënt k werd uitgevoerd zoals aangegeven door regels 15-20. Om de bijdrage van ICD-codes aan de selectie van gevallen van zelfmoordgedachten en zelfmoordpogingen te evalueren, hebben we bovendien een vergelijkbare, zwak gecontroleerde aanpak geïmplementeerd met alleen (p_{{{text{rank}}}}) kansen voor het toewijzen van een casus. Deze op NLP gebaseerde casustoewijzingsmethode werd uitgevoerd door regel 14 in Fig. 1 met (p_{{{text{NLP}}}} left( k right) = p_{{{text{rank}}}} left( k right)). merkbaar, (p_{{{text{NLP}} + {text{ICD}}}}) en (p_{{{text{NLP}}}}) kan ook worden ingesteld op een minimumwaarde van 0,5, ervan uitgaande dat elke patiënt in de gerangschikte lijst ten minste een gelijke kans had om willekeurig aan een casus te worden toegewezen. Deze benadering zal echter niet bijdragen aan de selectie van top K-gevallen bij P@K = 90% of P@K = 80% en zal voornamelijk resulteren in een toename van het aantal gevallen in de onderste helft van de gerangschikte patiëntenlijst waar (p_{{{text{rank}}}} left( k right) < 0.5). De ICD9CM- en ICD10CM-codes voor zelfbeschadigende gedachten en gedragingen die in dit onderzoek worden gebruikt, staan ​​vermeld in tabellen S1-S4.

Leave a Comment