Forskere skal bruke sykepleienotater for å øve opp norsk språkmodell
I Helse Vest jobber forskere med å lage en norsk medisinsk språkmodell. For å øve seg skal språkmodellen gå gjennom millioner av fritekstdokumenter fra pasientjournaler.
– Alt skal være så anonymt som mulig. Ingen skal kunne spore noe tilbake til navngitte pasienter, betrygger Christian Autenried, teamleder for kunstig intelligens ved Helse Vest IKT.
Autenried er utdannet matematiker. Han er en av forskerne som nå jobber med å lage en modell som kan gjenkjenne språkstrukturer som brukes i helsevesenet. Målet er at modellen, som har fått navnet Klinisk NorBERT, skal få medisinsk tekst- og leseforståelse – på norsk.
Personvern-runder
For å øve på å bli god skal modellen analysere milevis med tekster i medisinsk sjargong – mange av dem skrevet av sykepleiere.
Tekstene skal etter planen hentes fra alle fagområder i spesialisthelsetjenesten. Helse Bergen, Helse Stavanger, Helse Førde og Helse Fonna skal bidra med øvingsmateriale.
Christian Autenried, som leder prosjektet, sier det har vært mange runder med personvern. Og flere gjenstår. Ikke før sommeren 2024 er datasettet klart for bruk, ifølge fremdriftsplanen.
– Pasientjournaler, sykepleiernotater, brev, ja, det er mye denne språkmodellen skal lære av. Derfor er anonymisering og personvern gjerne noe av det første folk spør om når vi er ute og snakker om arbeidet vårt, sier han.
Og akkurat det forstår han godt. Opplysninger fra en pasientjournal skal jo absolutt ikke komme på avveier.
Må ha noe å trene på
Samtidig trenger enhver språkmodell materiale, eller tekstcorpus, som er deres fagterm, å øve seg på.
Mens andre språkmodeller har basert seg på fag- og forskningsartikler, rapporter og annet, vil det å trene en språkmodell med ekte pasientjournaler gi andre muligheter for bruk i etterkant, påpeker Autenried.
Over 80 forskjellige dokumenttyper fra en treårsperiode er utgangspunktet. Det betyr omlag 10 millioner dokumenter.
Som prosjektleder har han hatt kommunikasjon med både REK, Regionale komiteer for medisinsk og helsefaglig forskningsetikk og Helse Vest:
– Det er en veldig streng prosess for å kunne bruke data fra pasientjournaler og liknende. Det har vært frem og tilbake i halvannet år for å få gode og sikre rammer på plass. Nå i ettertid er jeg glad for at prosessen har tatt så lang tid, det har gjort at prosjektet har blitt bedre, sier han.
Alle direkte identifiserende opplysninger skal anonymiseres. Per nå er det anonymiseringsmetoden det flikkes på - den må på plass før de kan gå videre.
Informert bredt om reservasjon
Fristen for pasienter til å reservere seg gikk ut i oktober.
Autenried forteller at de har informert gjennom ulike kanaler som lokalaviser, sykehusenes hjemmesider, radio og Facebook om at pasienter som har ønsket å reservere seg, kunne ta kontakt via edialog.
– Det var få som tok kontakt, sier han.
– Har dere nådd ut til alle aktuelle pasienter?
– Vi har ikke sendt brev til hver og en. Vi har gått bredt ut, og den metoden fikk vi godkjent av REK. Tilbakemeldingene vi har fått, tyder på at mange har fått med seg informasjonen, men svært få har ønsket å reservere seg.
I tillegg til de som aktivt har reservert seg, blir det som er kategorisert «sensitive» journaler utelatt.
– Det er pasienter som har sperret adresseinformasjon i Folkeregisteret. Vi ønsker å være på den helt sikre siden i dette arbeidet, sier Christian Autenried prosjektleder og ansvarlig for kunstig intelligens i Helse Vest IKT.
– Apropos det: Hvordan er sikkerheten rundt dataene i opptreningsperioden, vil dette være et mål for hackere?
– Først og fremst forlater helsedataene aldri serverne hos Helse Vest. Alle data blir lagret i databaser som har samme sikkerhetsstandard som de databasene som håndterer pasientjournalinformasjon i vanlig sykehusproduksjon. Det vil si at det er kryptering, logging og tilgangsstyring, sier han.
Videre blir all bruk av data i opptreningsperioden utført av ansatte fra Helse Vest som har erfaring med håndtering sensitive data.
– Det er et veldig lite antall ansatte som skal håndtere disse dataene, og bruken blir logget, sier han. Autenried opplyser at alle de anonymiserte tekstene fjernes når modellen har øvd ferdig.
Ønsker samarbeid
– Når modellen er ferdigtrent, hva skal den egentlig gjøre?
– Det er viktig å forstå er at vårt prosjekt er å lage en modell som har medisinsk tekst- og leseforståelse. Modellen selv skal ikke løse et konkret problem, svarer Autenried.
Modellen kan imidlertid hjelpe til med å utvikle andre modeller som trenger nettopp informasjon fra medisinske tekster for å kunne løse et konkret problem.
Oppgaver i sykepleierhverdagen som er basert på manuell lesing av tekster, for deretter å ta en beslutning, kan være aktuelle:
KI-forsker Autenried trekker frem sammendrag av sykepleiernotater, kvalitetssikring av diagnoser eller det å finne legemiddelinformasjon i fritekst som noen tenkte eksempler.
Det må ikke være i sammenheng med pasientbehandling. Det kan også være mer administrativt arbeid, påpeker han.
For å finne ut av videre bruk er utviklerne ifølge Autenried avhengig av samarbeid:
Hvis for eksempel sykepleiere peker ut «tidstyver» i hverdagen, kan utviklerne kanskje automatisere noen av oppgavene i videre oppfølgingsmodeller.
– Vi er veldig interessert i å få informasjon om mulighetene språkmodeller gir, ut i den kliniske hverdagen, slik at vi kan få gode forslag for til prosjekter, sier han.
0 Kommentarer