O nevrednosti p-vrednosti

Mnenje, kolumna ali komentar

O nevrednosti p-vrednosti

15. 12. 2017 - 16.00

2017-12-15-znanstveni-komentar-o-nevrednosti-p-vrednosti.mp3

Dogmatska znanost je popoln oksimoron, saj je znanstvena metoda čista antiteza dogmi. Pa vendar! Navkljub opozorilom, ki se ponavljajo že celo stoletje, v znanosti vztraja element dogmatičnega. Kar je še huje, zadeva, o kateri govorimo, ni neka temna skrivnost znanosti, ki bi jo našli le v njenih najglobljih kotičkih, ampak je prav povsod. Še več! Iz dneva v dan raste v svoji pomembnosti. Ta škodljivi ritual se imenuje p-vrednost.

No, pa sprva malo o tem, za kaj pri tem orodju sploh gre. P- vrednost je statistika, s katero poskušamo ovrednotiti, ali se naši eksperimentalni podatki resnično razlikujejo od kontrolnih, torej ali je prišlo v našem eksperimentu do kakšne spremembe v primerjavi z normalnim stanjem.

Na primer, če bi radi testirali učinkovitost neke učinkovine, ki ljudem podaljšuje nosove, bi kontrolni skupini dali placebo, eksperimentalni pa učinkovino. Nato bi po določenem času, v katerem naj bi učinkovina delovala, izmerili, za koliko se je vsakemu posamezniku podaljšal nos. Iz tega pa bi preračunali povprečno podaljšanje nosu v obeh skupinah.

Ker v eksperimentih nikoli ne obravnavamo celih populacij, ampak manjše reprezentativne vzorce, so izračunana povprečja le statistični približki pravim populacijskim povprečjem. Torej povprečna dolžina podaljšanja nosu, ki smo jo preračunali, ni tista prava, ki bi jo dobili, če bi eksperiment izvajali na vseh ljudeh na svetu, ampak njen približek. Ravno zato, ker v znanosti nikoli ne delamo s celimi populacijami, uporabljamo statistična orodja, kot je p-vrednost, ki nam lahko pomagajo pri ovrednotenju kvalitete naših izsledkov.

Vrnimo se torej k našemu namišljenemu eksperimentu. V kontrolni skupini, ki je prejemala placebo, smo izračunali povprečno podaljšanje nosu za tri milimetre. V naši eksperimentalni skupini pa so se ljudem nosovi podaljšali v povprečju za pet milimetrov. Oho! Morda pa je nekaj na tem čudežnem prašku. Čas je, da po ustaljeni znanstveni praksi preračunamo, ali gre za resnično razliko ali pa jo vidimo le zaradi inherentnih problemov z vzorčenjem.

V tem trenutku se začne prej omenjeni znanstveni ritual, ki že zadnjih sto let kali mir statistikov po svetu - izračunali in interpretirali bomo p-vrednost. V tem postopku postavimo dve hipotezi, tako imenovani ničta in alternativna hipoteza. Ničta hipoteza je ponavadi tista, ki si jo želimo ovreči, alternativna pa tista, ki se jo trudimo podpreti. Ničta hipoteza bi v našem primeru torej trdila, da učinkovina ne učinkuje in da je opažena razlika med našima skupinama posledica nepremostljivih problemov vzorčenja. Alternativna hipoteza pa bi trdila nasprotno, torej, da obstaja neka resnična razlika med skupinama.

V tem trenutku bi se kot raziskovalci postavili v pozicijo hudičevega odvetnika in predpostavili, da je ničta hipoteza pravilna. Torej, da med našima skupinama ni resničnih razlik in da smo v eksperimentalni skupini opazili bolj povešene nosove iz nekega drugega razloga. P-vrednost je po svoji definiciji verjetnost, da bi pod pogoji določenega statističnega modela dobili tak ali bolj ekstremen statistični povzetek naših rezultatov. Njena vrednost pa se giblje med ena in nič.

Bolj natančno jo lahko razumemo, če sprejmemo dejstvo, da gre pri p-vrednosti za neke vrste simulacijo. Pri računanju p-vrednosti namreč predpostavljamo, da bi eksperiment ponovili neštetokrat in da bi bila variacija v meritvah znotraj teh ponovitev zgolj naključna. P-vrednost nam v našem realnem eksperimentu, kjer smo opravili samo eno izmed teh ponovitev, poda verjetnost, da bi v prej omenjeni simulaciji dobili takšne rezultate.

Kot taka p-vrednost ni nikakršna dokončna sodba o samem učinku, ki ga opazujemo, ampak indic, da učinek morda obstaja. S poudarkom na morda. V najboljšem primeru nam nizka p-vrednost pove samo to, da je eksperiment vredno ponoviti. Pri tem pa je potrebno vedeti, da bo p-vrednost ob naslednji ponovitvi drugačna.

Kako pa se p-vrednost dejansko uporablja? Praktično na vse druge načine. Znanstveniki jo namreč pogosto razumejo precej črno-belo. To pa je do neke mere posledica zablode, stare kakih sto let. Zaradi nekakšne želje po interpretativni standardizaciji računanja p-vrednosti so se v znanosti uvedle tako imenovane stopnje značilnosti. Po domače so p-vrednosti z namenom lažje uporabe popredalčkali s postavitvijo nekakšnih neutemeljenih mej. Iz tega pa verjetno tudi izhaja črno-belo dojemanje njihovega pomena.

Omenjeni predalčki oziroma stopnje značilnosti so p-vrednosti 0,05, 0,01 in 0,001, kjer naj bi bila 0,001 v statističnem žargonu najbolj in 0,05 najmanj značilna. Mnogi znanstveniki dandanes dojemajo te stopnje značilnosti kot nekakšno moč argumenta oziroma kar kot verjetnost, da je ničta hipoteza pravilna. Po tej logiki sklepanja bi p-vrednost 0,001 pomenila, da lahko z 99,9-odstotno verjetnostjo trdimo, da naši rezultati niso naključni in posledično da je eksperiment uspel. Če bi nadaljevali po tej zmotni logiki sklepanja, bi seveda prišli tudi do zaključka, da bomo ob p-vrednosti 0,001 dobili isti rezultat v 999 od tisoč ponovitev eksperimenta.

Vendar nič od tega ni res. P-vrednost nam namreč nikoli ne more podati vrednostne sodbe o legitimnosti ničte ali alternativne hipoteze, lahko nam da le iztočnico. Poleg tega bomo ob vsaki ponovitvi eksperimenta zaradi razlik v distribuciji naših vzorcev dobili drugačno p-vrednost.

Nekateri raziskovalci pa gredo v svoji zablodi celo tako daleč, da p-vrednost zlorabljajo kot merilo velikosti učinka. Nemalokrat se v znanstvenih člankih, ki so ponavadi v angleščini, zasledi naslednje besede: “The effect was significant, p is less than 0.05”. Kot da bi to dejansko nekaj pomenilo.

Z dovolj robustnim oblikovanjem eksperimenta in dovolj velikim vzorcem bomo tako ali tako lahko še pri najmanjšem med učinki sproducirali p-vrednost pod 0,05 in učinek razglasili za “significant”. Njegova značilnost pa seveda ne bo povedala nič o njegovi velikosti. In to so pomembne zadeve. Bi raje vzeli zdravilo, ki preprečuje enega izmed 100 000 primerov zastoja srca s p-vrednostjo 0,01, ali zdravilo, ki prepreči enega izmed treh s p-vrednostjo 0,06?

No, če karikiramo, lahko rečemo, da po sedanjih standardih v uredništvih znanstvenih revij, poročila o učinkovitosti čudežnega zdravila s p-vrednostjo 0,06 ne bi niti objavili, saj rezultat ni dovolj značilen. To pa nas pripelje do naslednjega problema. Zaradi nesmiselnih pogojev znanstvenih revij, ki zahtevajo samo značilne rezultate, se mnogo znanstvenikov poslužuje tako imenovanega p-hekanja. V tako imenovanem objavi-ali-izgini svetu znanosti si znanstveniki tako krvavo želijo tistih zlatih p-vrednosti pod 0,05, da so vse bolj pogosto pripravljeni prirejati rezultate.

In kaj dobimo, ko za merilo učinka uporabljamo vrednost, ki to ni? In ko za merilo ponovljivosti eksperimentalnih izsledkov uporabljamo vrednost, ki o tem ne govori? In ko vso legitimnost naših zaključkov postavljamo na ramena neke statistike, ki tega niti približno ne zdrži? Dobimo neponovljive, nelegitimne in preprosto lažne raziskave.

Čeprav se p-vrednost sama giblje med ničlo in najmanjšim pozitivnim celim številom, posledice njene zlorabe še zdaleč niso majhne. V resnici so tako zaskrbljujoče, da je po stoletju vročih debat lani zavrelo še morda najbolj hladnemu društvu na svetu, Ameriškemu statističnemu združenju ali na kratko ASA. ASA se je prvič po 177 letih delovanja složno sklenila opredeliti glede nekega občega problema. Z namenom, da bi za vedno končala to norost, je izdala kratek petstranski dokument, ki naj bi razjasnil uporabo p-vrednosti.

Neprimerna uporaba p-vrednosti se je kot bolezen razširila v znanosti. Z nadaljevanjem tega početja pa se bodo znanstvenikom z vse večjo hitrostjo podaljševali nosovi. Že zdavnaj je bil čas, da ta blazni cikel prekinemo.

Z najboljšimi nameni je znanost na zatožno klop postavil Atila.

Prikaži Komentarje

Komentarji

Permalink Anonymous 16. December 2017 - 4:19

ma Atila BRAVO! temu se reče ... glavico na žebljico. al neki tazga. pa imaš na pladnju vse! bravo res!
to kar omenjaš in pišeš zgoraj je pravzaprav lekcija uvod-a v statistiko. vsak normalen človek, ki si to lekcijo zapomne, dokaj hitro pri kvantitativnih in statističnih zadevah hitro ugotovi, da nekaj ne štima. sedaj pri naravoslavnih znanosti to morda še nekaj časa gre, pri humanizmu in družboslovnih raziskavah, pa mora vsakemu normalnemu človeku vsaj po 2-3 letih študija uporabe statistike v družboslovju postati jasna IDEOLOGIJA tega početja. če se to NE zgodi - je pač za vedno zgubljen. ergo.
BRavo atila, bravo!

odgovori

Permalink Anonymous 16. December 2017 - 12:26

Članek je sicer zanimiv, ampak kritika bo postala sčasoma zastarela. V znanstveni skupnosti se o tem problemu veliko govori in nastalo je veliko predlogov za reševanje tega problema, ki se že uresničujejo v praksi. Na tem temelju je nastal OpenScienceFramework (osf.io), ki bi se ga prav tako splačalo predstaviti v Znanstveni redakciji.

Kar se tiče p-vrednosti, te niso problematične same po sebi, ampak je bolj problematičen kontekst v katerem se uporabljajo, torej, da se interpretirajo post hoc (analizo prilagajamo podatkov, ne dejanskemu eksperimentu, več o tem v članku Preregistration revolution, https://osf.io/54n36/). V revijah so tako bolj kritični do tega in uvajajo se načela odprte znanosti (javno dostopni podatki in analize ter preregistracije). Preregistracije učinkovito rešujejo več problemov povezanih s p-vrednostmi (p-hekanje, data dredging, hypothesizing after results are known). Gre za to, da analizo in hipoteze prijavimo na javnem repozitoriju (npr. osf.io, figshare ipd), nato pa izvedemo eksperiment oz. študijo po postopku, ki smo ga pred tem natanko predpisali. Preregistracija je lahko objavljena pod embargom, tako da postane javno dostopna šele, ko objavimo članek, vendar ima time stamp, ki omogoča dokaz, da smo jo res ustvarili pred eksperimentom. Če postopkom iz preregistracije ne sledimo, jih moramo jasno izpostaviti v članku, torej navesti, da gre za eksploratorne analize. Če tega ne navedemo, potem je razlika med preregistracijo in člankom jasno izsledljiva.

Nekatere revije tudi več ne spodbujajo samo objave statistično značilnih rezultatov, ampak objavo rezultatov, ki so bili preregistrirani. Npr. registered reports je vrsta študije, pri kateri v revijo najprej pošljemo v recenzijo predlog naše študije. S tem dobimo predloge za izboljšanje študije in zagotovilo, da bodo rezultati potem lahko objavljeni, ne glede na to, ali bodo statistično značilni. Fokus torej ni več stat. značilnost, ampak kvaliteta eksperimenta. Registered reports že podpira več deset znanstvenih revij, sčasoma pa jih bo gotovo še več. Več na https://cos.io/rr/.

Drugi način reševanja problema je uporaba alternativnih statističnih postopkov, kot je npr. Bayesovska statistika, ki se v zadnjih letih zaradi lažje dostopnosti programske opreme zanjo, vse pogosteje uporablja. Prav tako se poleg mer stat. značilnosti več ali manj že zahteva, da pri rezultatih navedemo mere učinka, intervale zaupanja, bolj podrobne grafične prikaze, da uporabimo ustrezne popravke multiplih primerjav in še kaj.

Aja pa ameriškemu statističnemu združenju ni zavrelo lani, temveč l. 2015.

odgovori

Permalink Popaj 17. December 2017 - 3:25

no ja, jaz res ne vem v katerem idiličnem okolju živi človek, ki je pisal zgoraj - 2. komentar. ampak če res misliš, da so stvari tako odprte in na dlani - well: well done and good luck.
tole je tudi dokaj zanimivo:
**Npr. registered reports je vrsta študije, pri kateri v revijo najprej pošljemo v recenzijo predlog naše študije. S tem dobimo predloge za izboljšanje študije in zagotovilo, da bodo rezultati potem lahko objavljeni, ne glede na to, ali bodo statistično značilni.Fokus torej ni več stat. značilnost, ampak kvaliteta eksperimenta. **

ne vem no, take trditve me še vedno spravljajo v smeh, človek res ne ve, če ne bi morda še jokat začel zraven, ko se smeji.

ve se, da statistika ne zmore podati ne vem kakšnega uvida, oziroma lahko v svoji najboljši moči LE izklešči potrditev hipoteze ali pa nakaže smer optimalne rešitve, kar pa mora biti znotraj znanja in vedenja tistega, ki statične analize opravlja, kot pa tudi MORA biti merljivo torej MORA biti poudarjen prevod v šteilčnost in merljivost. ERGO. res, je to mnogo lažje pri naravoslovnih znanostih - ampak vsak ki spremlja reči in ima malo širši vpogled v oženje perspektiv in kam jih je kalkuliranje pripeljalo. zagotovo ne v smer etičnosti in znanosti za dobrobit ljudi. no, vsaj takšno je moje osebno mnenje. ampak res veliko primerov in argumentov bi lahko potrdilo mojo trditev.
če nekateri hočejo v lajfu računat in ne čitat ob tem filozofije znanosti - ja ... well done. tudi vsak, ki vsaj malo ve o tem, kako se izbira članke, ki se bodo objavljali v revijah, ga skoraj vedno prej vse mine. vsaka znanstvena revija ima točno določena in napisana pravila - kaj mora članek vsebovati, da bo sploh dobil potencial in možnost objave.

no, Atila, zanimivo bi bilo ... če bi te zanimalo malo več filozofije na primer ... podati primerjavo med zgoraj opisano P vrednostjo in ... π vrednostjo. ker kot je na dlani jasno P vrednost ima končno množico - to je 100% mar ne? med tem ko je π neskončen, no čisto tako, da bomo vedeli kje smo.

odgovori

Permalink Anonymous 17. December 2017 - 3:27

pa še to ... v davnih časih so se matematiki klestili iz filozofov ali pa so se filozofi klestili iz matematikov ... kar nam pa bi tudi lahko kaj povedalo a ne?