O nevrednosti p-vrednosti
Dogmatska znanost je popoln oksimoron, saj je znanstvena metoda čista antiteza dogmi. Pa vendar! Navkljub opozorilom, ki se ponavljajo že celo stoletje, v znanosti vztraja element dogmatičnega. Kar je še huje, zadeva, o kateri govorimo, ni neka temna skrivnost znanosti, ki bi jo našli le v njenih najglobljih kotičkih, ampak je prav povsod. Še več! Iz dneva v dan raste v svoji pomembnosti. Ta škodljivi ritual se imenuje p-vrednost.
No, pa sprva malo o tem, za kaj pri tem orodju sploh gre. P- vrednost je statistika, s katero poskušamo ovrednotiti, ali se naši eksperimentalni podatki resnično razlikujejo od kontrolnih, torej ali je prišlo v našem eksperimentu do kakšne spremembe v primerjavi z normalnim stanjem.
Na primer, če bi radi testirali učinkovitost neke učinkovine, ki ljudem podaljšuje nosove, bi kontrolni skupini dali placebo, eksperimentalni pa učinkovino. Nato bi po določenem času, v katerem naj bi učinkovina delovala, izmerili, za koliko se je vsakemu posamezniku podaljšal nos. Iz tega pa bi preračunali povprečno podaljšanje nosu v obeh skupinah.
Ker v eksperimentih nikoli ne obravnavamo celih populacij, ampak manjše reprezentativne vzorce, so izračunana povprečja le statistični približki pravim populacijskim povprečjem. Torej povprečna dolžina podaljšanja nosu, ki smo jo preračunali, ni tista prava, ki bi jo dobili, če bi eksperiment izvajali na vseh ljudeh na svetu, ampak njen približek. Ravno zato, ker v znanosti nikoli ne delamo s celimi populacijami, uporabljamo statistična orodja, kot je p-vrednost, ki nam lahko pomagajo pri ovrednotenju kvalitete naših izsledkov.
Vrnimo se torej k našemu namišljenemu eksperimentu. V kontrolni skupini, ki je prejemala placebo, smo izračunali povprečno podaljšanje nosu za tri milimetre. V naši eksperimentalni skupini pa so se ljudem nosovi podaljšali v povprečju za pet milimetrov. Oho! Morda pa je nekaj na tem čudežnem prašku. Čas je, da po ustaljeni znanstveni praksi preračunamo, ali gre za resnično razliko ali pa jo vidimo le zaradi inherentnih problemov z vzorčenjem.
V tem trenutku se začne prej omenjeni znanstveni ritual, ki že zadnjih sto let kali mir statistikov po svetu - izračunali in interpretirali bomo p-vrednost. V tem postopku postavimo dve hipotezi, tako imenovani ničta in alternativna hipoteza. Ničta hipoteza je ponavadi tista, ki si jo želimo ovreči, alternativna pa tista, ki se jo trudimo podpreti. Ničta hipoteza bi v našem primeru torej trdila, da učinkovina ne učinkuje in da je opažena razlika med našima skupinama posledica nepremostljivih problemov vzorčenja. Alternativna hipoteza pa bi trdila nasprotno, torej, da obstaja neka resnična razlika med skupinama.
V tem trenutku bi se kot raziskovalci postavili v pozicijo hudičevega odvetnika in predpostavili, da je ničta hipoteza pravilna. Torej, da med našima skupinama ni resničnih razlik in da smo v eksperimentalni skupini opazili bolj povešene nosove iz nekega drugega razloga. P-vrednost je po svoji definiciji verjetnost, da bi pod pogoji določenega statističnega modela dobili tak ali bolj ekstremen statistični povzetek naših rezultatov. Njena vrednost pa se giblje med ena in nič.
Bolj natančno jo lahko razumemo, če sprejmemo dejstvo, da gre pri p-vrednosti za neke vrste simulacijo. Pri računanju p-vrednosti namreč predpostavljamo, da bi eksperiment ponovili neštetokrat in da bi bila variacija v meritvah znotraj teh ponovitev zgolj naključna. P-vrednost nam v našem realnem eksperimentu, kjer smo opravili samo eno izmed teh ponovitev, poda verjetnost, da bi v prej omenjeni simulaciji dobili takšne rezultate.
Kot taka p-vrednost ni nikakršna dokončna sodba o samem učinku, ki ga opazujemo, ampak indic, da učinek morda obstaja. S poudarkom na morda. V najboljšem primeru nam nizka p-vrednost pove samo to, da je eksperiment vredno ponoviti. Pri tem pa je potrebno vedeti, da bo p-vrednost ob naslednji ponovitvi drugačna.
Kako pa se p-vrednost dejansko uporablja? Praktično na vse druge načine. Znanstveniki jo namreč pogosto razumejo precej črno-belo. To pa je do neke mere posledica zablode, stare kakih sto let. Zaradi nekakšne želje po interpretativni standardizaciji računanja p-vrednosti so se v znanosti uvedle tako imenovane stopnje značilnosti. Po domače so p-vrednosti z namenom lažje uporabe popredalčkali s postavitvijo nekakšnih neutemeljenih mej. Iz tega pa verjetno tudi izhaja črno-belo dojemanje njihovega pomena.
Omenjeni predalčki oziroma stopnje značilnosti so p-vrednosti 0,05, 0,01 in 0,001, kjer naj bi bila 0,001 v statističnem žargonu najbolj in 0,05 najmanj značilna. Mnogi znanstveniki dandanes dojemajo te stopnje značilnosti kot nekakšno moč argumenta oziroma kar kot verjetnost, da je ničta hipoteza pravilna. Po tej logiki sklepanja bi p-vrednost 0,001 pomenila, da lahko z 99,9-odstotno verjetnostjo trdimo, da naši rezultati niso naključni in posledično da je eksperiment uspel. Če bi nadaljevali po tej zmotni logiki sklepanja, bi seveda prišli tudi do zaključka, da bomo ob p-vrednosti 0,001 dobili isti rezultat v 999 od tisoč ponovitev eksperimenta.
Vendar nič od tega ni res. P-vrednost nam namreč nikoli ne more podati vrednostne sodbe o legitimnosti ničte ali alternativne hipoteze, lahko nam da le iztočnico. Poleg tega bomo ob vsaki ponovitvi eksperimenta zaradi razlik v distribuciji naših vzorcev dobili drugačno p-vrednost.
Nekateri raziskovalci pa gredo v svoji zablodi celo tako daleč, da p-vrednost zlorabljajo kot merilo velikosti učinka. Nemalokrat se v znanstvenih člankih, ki so ponavadi v angleščini, zasledi naslednje besede: “The effect was significant, p is less than 0.05”. Kot da bi to dejansko nekaj pomenilo.
Z dovolj robustnim oblikovanjem eksperimenta in dovolj velikim vzorcem bomo tako ali tako lahko še pri najmanjšem med učinki sproducirali p-vrednost pod 0,05 in učinek razglasili za “significant”. Njegova značilnost pa seveda ne bo povedala nič o njegovi velikosti. In to so pomembne zadeve. Bi raje vzeli zdravilo, ki preprečuje enega izmed 100 000 primerov zastoja srca s p-vrednostjo 0,01, ali zdravilo, ki prepreči enega izmed treh s p-vrednostjo 0,06?
No, če karikiramo, lahko rečemo, da po sedanjih standardih v uredništvih znanstvenih revij, poročila o učinkovitosti čudežnega zdravila s p-vrednostjo 0,06 ne bi niti objavili, saj rezultat ni dovolj značilen. To pa nas pripelje do naslednjega problema. Zaradi nesmiselnih pogojev znanstvenih revij, ki zahtevajo samo značilne rezultate, se mnogo znanstvenikov poslužuje tako imenovanega p-hekanja. V tako imenovanem objavi-ali-izgini svetu znanosti si znanstveniki tako krvavo želijo tistih zlatih p-vrednosti pod 0,05, da so vse bolj pogosto pripravljeni prirejati rezultate.
In kaj dobimo, ko za merilo učinka uporabljamo vrednost, ki to ni? In ko za merilo ponovljivosti eksperimentalnih izsledkov uporabljamo vrednost, ki o tem ne govori? In ko vso legitimnost naših zaključkov postavljamo na ramena neke statistike, ki tega niti približno ne zdrži? Dobimo neponovljive, nelegitimne in preprosto lažne raziskave.
Čeprav se p-vrednost sama giblje med ničlo in najmanjšim pozitivnim celim številom, posledice njene zlorabe še zdaleč niso majhne. V resnici so tako zaskrbljujoče, da je po stoletju vročih debat lani zavrelo še morda najbolj hladnemu društvu na svetu, Ameriškemu statističnemu združenju ali na kratko ASA. ASA se je prvič po 177 letih delovanja složno sklenila opredeliti glede nekega občega problema. Z namenom, da bi za vedno končala to norost, je izdala kratek petstranski dokument, ki naj bi razjasnil uporabo p-vrednosti.
Neprimerna uporaba p-vrednosti se je kot bolezen razširila v znanosti. Z nadaljevanjem tega početja pa se bodo znanstvenikom z vse večjo hitrostjo podaljševali nosovi. Že zdavnaj je bil čas, da ta blazni cikel prekinemo.
Z najboljšimi nameni je znanost na zatožno klop postavil Atila.
Dodaj komentar
Komentiraj