Virkeligheten i tall og figurer
Det er noe du lenge har hatt lyst til å undersøke på avdelingen din - og til slutt får du grønt lys av sjefen. Før du vet ordet av det sitter du med fanget fullt av kji-kvadrat, radvariabler og nøkkeltall. Her er en liten oppklaring i begrepene:
Bruk av statistiske metoder innen medisinsk forskning har
eksplodert de siste 20-30 årene.
Pionerer innen medisinsk forskning var for over 100 år siden
klar over hvor viktig verktøy statistikkfaget var. Florence
Nightingale (1820-1910) anvendte statistikk og bearbeidet data for
å treffe riktige beslutninger i fagfelt vi i dag vil kalle
sykehusadministrasjon og epidemiologi.
Sykepleieforskning befinner seg som et selvstendig fagfelt og
favner områder som helsefag/medisin, psykologi og
samfunnsvitenskap. Behov for statistisk metode enten det er for å
lage design til en klinisk eller epidemiologisk studie, tilpasse
statistiske modeller eller presentere resultater i tabeller og
grafer er en vesentlig del av forskningsaktiviteten. Forståelse for
de metodene som brukes for å oppnå ny kunnskap, usikkerheten
knyttet til resultater fra undersøkelsene og kjennskap til de
muligheter som finnes for hva som kan gjøres, bør bli en del av
sykepleierens hverdag. Kjennskap til dette bør komme så tidlig som
mulig i sykepleierstudiet.
Nightingales polar-area-diagram
Florence Nightingale ivret for systematisk innsamling av data
og bruk av grafisk framstilling for å visualisere sine funn. Dette
vises spesielt i en rapport om helsetilstanden til de britiske
soldatene i Krim. Her viser hun med tall og figurer at dødeligheten
var langt større på sykestuene enn i felten, og at dødeligheten ved
sykestuene var dobbel av det som kan forventes i befolkningen for
øvrig. Etter krigen arbeidet hun for enhetlig rapportering fra
sykehus.
Florence Nightingales kjente bidrag til statistikklitteraturen
er det hun kalte polar-area-diagram (1,2,3). Dette diagrammet er
bygget opp slik at en sirkel er delt inn i tolv kiler - ett for
hver av årets måneder. Arealet av de ulike kilene uttrykte
dødelighet blant britiske soldater i Krim. Kilene ble igjen delt i
tre deler som representerer tre ulike årsaker for død; de som døde
i felten, de som døde av skader på sykestuene og de som døde av
andre årsaker. Hun presenterte to slike diagrammer - ett for hvert
av krigens to år. Leseren kunne da lett se effekten av god
sykepleie ved en kraftig reduksjon i arealet på den delen av kilen
som representerer død på sykestuene for år nummer to - som var året
Nightingale ankom Krim. I et første utkast brukte hun lengden på
kilen, men senere endret hun diagrammet slik at arealet av kilen
representerte antall døde. Diagrammet er ikke i bruk i dag og er
beklagelig nok ikke nevnt i Tuftes klassiske bok om grafiske
metoder (4). Av diagrammer vi bruker i dag er kakediagrammet en
enkel tilnærming til polar-area-diagrammet. Florence Nightingale
ble i 1874 hedret med æresmedlemskap i American Statistical
Association (2).
Rader og søyler
Fire personer har gitt vesentlige bidrag til statistikkfaget.
Felles for de fire er dyp teoretisk kunnskap forbundet med evne til
å se og løse problemstillinger i andre fag. Karl Pearson
(1857-1936) er kanskje mest kjent for (Pearsons)
korrelasjonskoeffisient og ?2-tester (kji-kvadrat). Sistnevnte test
bruker vi for å se om det er avhengighet mellom en radvariabel og
en søylevariabel i en tabell. I en studie av ernæring til
intensivpasienten brukes denne testen for å slå fast at en
eksperimentgruppe starter med enteral ernæring tidligere enn en
sammenlikningsgruppe (5). Radvariabelen er hvilken dag pasienten
starter med enteral ernæring (dag 1, 2 eller 3), mens
søylevariabelen er de to gruppene med pasienter.
Forsøk før forsøk
Ronald Fisher (1890-1962) var sentral i utviklingen av det vi i
dag kaller forsøksplanlegging (herunder nytten av randomisering),
altså hvordan et forsøk best skal legges opp slik at man på
rimeligst måte får testet det man ønsker å studere. Som en
forlengelse av dette bruker vi statistiske argumenter for å beregne
hvor mange pasienter som skal inkluderes når en klinisk studie skal
settes i gang. Forskeren vet dermed at med en gitt sannsynlighet
kan hun påstå den hypotesen hun arbeider med. Som et eksempel fra
livskvalitetsstudier for to pasientgrupper som får ulik behandling
vil man beregne det antall pasienter som er nødvendig i hver
pasientgruppe for at man med 80 prosent sannsynlighet (styrke) kan
finne forventet forskjell i livskvalitet (målt med instrumentet
SF-36) mellom gruppene. Med å finne forskjell i livskvalitet mener
man å kunne forkaste en nullhypotese om ingen forskjell mellom
gruppene.
Å bevise underbemanning
Mange statistiske metoder ble også (videre-)utviklet, slik som
regresjonsanalyse og variansanalyse (ANOVA). Disse metodene er
fortsatt våre viktigste arbeidshester for å studere forholdet
mellom to eller flere variable. I en studie av forholdet mellom
sykepleierbemanning og mortalitet ved utvalgte kirurgiske
avdelinger i USA, brukes regresjon for å studere sammenhengen
mellom mortalitet og de uavhengige variablene sykepleierbemanning
og karakteristika ved de ulike sykehusene (6). Studien viser at ved
sykehus med forholdsmessig høy pasient-sykepleierfaktor er det
høyere mortalitet enn for sykehus med forholdsmessig lavere
pasient-sykepleierfaktor altså færre pasienter pr sykepleier.
Regresjonsanalysen gjør oss i stand til å kontrollere for ulike
typer sykehus for å finne den effekten vi ønsker (her uttrykt som
et oddsforhold).
Stress- og angstmåling
Charles Edward Spearman (1863-1945) er en av psykometriens
fedre. Han la grunnlaget for det vi i dag kaller faktoranalyse ved
å utvikle en matematisk modell for måling av intelligens (7).
Spearmans en-faktor modell er utviklet for å beregne intelligens
som en sum av bidrag fra andre målbare størrelser, som språklige og
matematiske evner. Vi vil i dag kalle intelligens for en latent
variabel fordi den ikke er direkte målbar, men et resultat av
avledede og målbare størrelser. Spearmans arbeid ligger til grunn
for mange instrumenter vi bruker for å måle latente variabler som
angst, depresjon eller stress. I en studie av vold blant jenter (8)
brukes en faktormodell for å lage den latente variabelen vold
(violence). Denne variabelen er en konstruksjon av målbare variable
som reflekterer våpenbruk og erfaring med vold. Spearman er nok
likevel mest kjent for sin korrelasjonskoeffisient - en verdi som
oppsummerer samsvar mellom to målinger slik som angst og alder.
Tung regnekraft
Brian Efron (1935-) er en av de mest innflytelsesrike
statistikere i dag. Efron har utviklet metoder for å studere
usikkerheter til statistiske modeller der man ikke trenger å foreta
ofte strenge antagelser. Metoden kalles bootstrapping - vi ville
nok kalle det å trekke seg selv etter håret mer enn etter
skolissene - fordi man bruker data selv til å studere usikkerheter
ved modellen (9). Efron har også gitt bidrag innen multiple tester
- et område som har fått fornyet aktualitet i vår DNA-tid. I
mikroarray-analyse måles og testes forskjeller på flere tusen
variable for et lite antall pasienter (10). Felles for Efrons
bidrag er behov for tung regnekraft. Dette var en problemstilling
som ikke eksisterte for Pearson og Spearman, og som var vanskelig
og veldig kostbar for Fisher. Brian Efron er for tiden president i
American Statistical Association.
Sykepleieforskning
Det er stor aktivitet innen sykepleieforskning i dag (11). Ved
både universitetene og sykehusene finnes gode sykepleiefaglige
miljøer og man legger til rette for pasientnær klinisk forskning.
De ulike feltene har behov for både kvalitativ og kvantitativ
metodisk kunnskap. Vårt fokus er forskning som er avhengig av
kvantitative metoder.
Kliniske forsøk utføres av både sykepleiere og medisinere for å
studere og sammenlikne ulike sykepleietiltak og/eller medisinske
behandlinger. Design på studien skal bestemmes, antall pasienter i
ulike grupper skal beregnes og plan for randomisering er også
viktig. Ofte brukes et parallelt design der pasientene allokeres
til to grupper, der den ene gruppen kan få sykepleietiltak A, mens
den andre kan få sykepleietiltak B. Hvis effekten av tiltak dør
fort ut, kan vi nytte en overkrysningsstudie der halvparten av
pasientene først får tiltak A, mens den andre halvdelen får tiltak
B. Etter en gitt periode byttes tiltakene slik at de som først fikk
A får B, og de som først fikk B får A. Ved dette designet blir hver
pasient sin egen kontroll og effekten måles mer presist. For å
teste om det er forskjeller mellom ulike grupper nytter man
t-tester, kji-kvadrat-tester eller variansanalyse (ANOVA).
Regresjonsanalyse kan også være aktuelt for å kontrollere for
skjevheter mellom gruppene.
Livskvalitetsforskning er et forskningsfelt med stadig større
fokus. Det er ikke lenger tilstrekkelig å studere effekt av
tiltaket, man skal også på best mulig måte kartlegge forventet
livskvalitet ved ulike typer behandling. Dette forskningsfeltet
introduserer minst tre viktige områder der statistikk er viktig
(12, 13). Disse områdene er
1) multiple tester
2) manglende verdier
3) inklusjon av tidsvariabelen i analysene.
Problemet med multiple tester er at for et gitt signifikansnivå
for hver enkelt test, vil det totale signifikansnivået for alle
testene bli langt høyere. Med signifikansnivå mener vi her
sannsynligheten for feilaktig å forkaste en nullhypotese. Siden
livskvalitetsforskning inkluderer så mange ulike domener og dermed
tester, må man ta høyde for dette når man bestemmer seg for
signifikansnivå (ofte lik 5 prosent) for hver enkelt test. Rent
praktisk løses dette problemet ved at grensen man setter for når en
endring i et effektmål er statistisk signifikant reduseres fra 5
prosent til for eksempel 1 prosent. Manglende verdier er et problem
som oppstår når en pasient uteblir fra en eller flere kontroller
eller for behandlinger der man forventer høy mortalitet. Det finnes
flere løsninger på dette problemet, men man må ofte bruke mer
utilgjengelige dataverktøy enn for eksempel SPSS. Det siste
problemområdet var tidsvariabelen. I repeterte målinger tar man
høyde for at pasienten følges over tid, slik at man både kan se på
utvikling av for eksempel livskvalitet i tid, forskjeller i
livskvalitet mellom grupper og om livskvalitet mellom gruppene
utvikles i gjennomsnitt ulikt over tid. Modellene tar høyde for at
pasientene er uavhengige av hverandre, men observasjonene for hver
pasient er avhengige av hverandre.
Presise målestokker
Evaluering av instrumenter er siste eksempel. Både i klinisk
forskning og i praksis brukes et stort antall instrumenter for å
måle ulike egenskaper til pasientene enten det er smerte, stress,
angst, depresjon eller effekt av opplæringsplan for en
pasientgruppe gitt av sykepleiere. Mange som forsker innen
sykepleiefaget lager også sine egne spørreskjemaer. For å gi svar
på om disse er gode nok må de evalueres for både reliabilitet og
validitet (14). Vi ønsker med andre ord å vite om instrumentet
presist nok måler det vi ønsker det skal måle. Eksempel på
reliabilitetstester innen sykepleieforskning er bruk av ulike
skalaer for vurdering og behandling av en pasients smerte. For at
verktøyet skal ha en verdi må vi være sikre på at hver scoring
gjenspeiler en lik forståelse blant de som scorer. Samtidig skal vi
vite at det er pasientens smerte som måles og ikke noe annet.
Videre vil forskning basert på slike instrumenter ende opp med
store tabeller der variablene kan være grad av tilfredshet, kjønn,
alder og sykehistorie. Forskningsspørsmålene er ofte knyttet til
sammenhenger mellom variablene i slike tabeller. Disse kan besvares
ved tabellanalyse (15) som kan sees på som en videreføring av
Pearsons kji-kvadrat-metoder.
Litteratur
1. www.florence-nightingale.museum.uk
2. Kopf EW. Florence Nightingale as Statistician. Journal of American Statistical Association 1916; 16: 388-404.
3. Nigthingale F. Appendix 72 of the report of the Royal Commission 1858.
4. Tufte ER. The Visual Display of Qualitative Information. Connecticut: Graphics Press, 1983.
5. Wøien H, Bjørk IT, Nutrition of the Critically Ill Patient and Effect of Implementing a Nutritional Support Algorithm in ICU. Akseptert for publisering i Intensive and Critical Care Nursing.
6. Aiken L, Clarke SP, Cheung RB, Sloane DM, Silber JH. Education Levels of Hospital Nurses and Surgical Patient Mortality. Journal of American Medical Association 2002; 290 (12): 1617-1623.
7. Spearman CE. General Intelligence, Objectively Determined and Measured, American Journal of Psychology 1904; 15: 357-416.
8. DiNapoli PP. Guns and Dolls. An Exploration of Violent Behavior in Girls. Advances in Nursing Science; 2003: 36(2): 140-148.
9. Efron B, Tibshirani RJ. An Introduction to the Bootstrap. New York: Chapman and Hall, 1994.
10. Efron B. Large-scale Simultaneous Hypothesis Testing: The Choice of a Null Hypothesis. Journal of American Statistical Association 2003; 79(4): 120-130.
11. Hanestad BR, Ulvik B. Sykepleieforskning i Norge - en stille revolusjon. Tidsskriftet Sykepleien 2002; 6.
12. Fairclogh DL og Gelber RD. Quality of Life: Statistical Issues and Analysis. In Quality of Life and Pharmaeconometrics in Clinical Trials. Ed: Spilker B. New York: Lippencott-Raven 1995.
13. Spilker B. Quality of Life Studies: Definitions and Conceptual Issues. In Quality of Life and Pharmaeconometrics in Clinical Trials. Ed: Spilker B. New York: Lippencott-Raven, 1995.
14. Streiner DL, Norman GR. Health Measurement Scales: A Practical Guide to Their Development and Use. Oxford: Oxford University Press, 1995.
15. Agresti A. Categorical Data Analysis, New York: Wiley and Son, 1993.
0 Kommentarer