Vad kan man göra med en nollhypotes?

Diskutera allmänt om vetenskap, pseudovetenskap och folkbildning, t.ex. vetenskapsteori eller forskningspolitik.

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » fre 06 mar 2015, 17:10

Jag håller med Olle Häggström, att bannlysa NHSTP utan att förespråka ett alternativ ter sig mycket underligt. Jag har lite svårt att föreställa mig kvantitativa analyser utan någon statistisk inferens alls.
Deskriptiva studier i all ära, men det känns rätt begräsande. Och hur bestämmer man när en studiepopulation är stor? Men man får se det som ett intressant experiment kanske.
Ska bli intressant att se hur detta tas emot och vad som händer med tidskriften.

Nu bannlyser BASP inte bara p-värden utan allt som har med NHSTP att göra.
Det har gjorts försök att ta bort enbart p-värden tidigare. När biostatistikern/epidemiologen Kenneth Rothman (som suttit som redaktör/redaktionsmedlem ibland annat Nejm, Lancet, Am. J of Public Health m.fl.) startade sin egen tidskrift Epidemiology 1990 så ”tog han bort” p-värdena. Hans huvudargument var att p-värden ärett sammanblandat mått mellan effekstorleken och studiestorleken. Därför skulle p-värdet bort och ersättas av konfidensintervall.

Det funkade så där.
Visserligen är Epidemology en av de mest högrankade och prestigefyllda epidemiologitidskrifterna, och visserligen så ökade användningen av konfidensintervall. Men när Rothman klev av redaktörskapet 10 år senare så infördes p-värdena igen.
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » fre 06 mar 2015, 17:23

Englund skrev:
crepitus skrev:Ett förkastande i en hypotesprövning gör inget anspråk på att säga något om säkerheten i eller sanningshalten i ett enskilt test (vilket du påstår).
Då har du missförstått mig, och av den anledningen svarar jag inte på resterande du skrivit i senaste inläggen. Det jag påstår är att ett lägre p-värde ger starkare evidens mot H0 än ett högre p-värde, givet ceteris paribus!

Notera "givet ceteris paribus" - det är ett väldigt viktigt antagande för att meningen innan ska stämma.


Jaha, det var därför du inte svarade, för att jag missförstått dig?

Så vad hände med tex det här påståendet, tar du avstånd från det nu?
Englund sid 11: 17:52 skrev:Det vi kommer att se är att ju lägre p-värde, desto större chans att slutsatsen förkasta H0 är korrekt.
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Re: Vad kan man göra med en nollhypotes?

Inläggav FudoMyoo » mån 09 mar 2015, 09:15

Crepitus skrev: att bannlysa NHSTP utan att förespråka ett alternativ ter sig mycket underligt.
Det verkar dock som de kan tänka sig någon form av Bayesiansk metod istället.

Editorial i BASP skrev:Bayesian procedures are more interesting. .. Consequently, with respect to Bayesian procedures, we reserve the right to make case-by-case judgments, and thus Bayesian procedures are neither required nor banned from BASP.
Ordnung muss sein.
Användarvisningsbild
FudoMyoo
 
Inlägg: 8948
Blev medlem: ons 29 dec 2004, 15:24

Re: Vad kan man göra med en nollhypotes?

Inläggav Englund » tis 10 mar 2015, 00:28

Crepitus skrev:
Englund skrev:
crepitus skrev:Ett förkastande i en hypotesprövning gör inget anspråk på att säga något om säkerheten i eller sanningshalten i ett enskilt test (vilket du påstår).
Då har du missförstått mig, och av den anledningen svarar jag inte på resterande du skrivit i senaste inläggen. Det jag påstår är att ett lägre p-värde ger starkare evidens mot H0 än ett högre p-värde, givet ceteris paribus!

Notera "givet ceteris paribus" - det är ett väldigt viktigt antagande för att meningen innan ska stämma.
Jaha, det var därför du inte svarade, för att jag missförstått dig?
Nix, det beror enbart på en hektisk vardag.
Crepitus skrev:Så vad hände med tex det här påståendet, tar du avstånd från det nu?
Englund sid 11: 17:52 skrev:Det vi kommer att se är att ju lägre p-värde, desto större chans att slutsatsen förkasta H0 är korrekt.
Nej då, det gör jag inte. Lägg till ett "givet ceteris paribus" i slutet av meningen så klarnar det nog. Utan villkoret "allt annat lika" så tar jag givetvis avstånd från det (det trodde jag framgick tidigare).
Nu är då och framtiden är för alltid!
Englund
 
Inlägg: 871
Blev medlem: sön 06 feb 2011, 12:14
Ort: Borås

Re: Vad kan man göra med en nollhypotes?

Inläggav FudoMyoo » tis 10 mar 2015, 10:37

Englund skrev:Lägg till ett "givet ceteris paribus" i slutet av meningen så klarnar det nog.


Jag är också nyfiken på om Crepitus anser att det är en avgörande skillnad på att påstå:

(1) ett lägre p-värde ger starkare evidens mot H0 än ett högre p-värde, ceteris paribus.

och

(2) ju lägre p-värde, desto större chans att slutsatsen förkasta H0 är korrekt, ceteris paribus.

?

Dvs, kan du acceptera (1) men inte (2)?
Ordnung muss sein.
Användarvisningsbild
FudoMyoo
 
Inlägg: 8948
Blev medlem: ons 29 dec 2004, 15:24

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » tis 10 mar 2015, 21:27

Påståendena skiljer sig åt så tillsvida att det första är Fishers uttolkning av p-värdet som ett objektivt mått mot H0, ju lägre p-värde, desto starkare evidens mot H0.
Detta vilar på teorin om signifikanstestet.

Det andra påståendet handlar om förkastande, dvs. beslutsregeln, vilket vilar på teorin om hypotesprövningen.
Englund kombinerar det med Fishers evidenstolkning.
Men det är inte större chans att korrekt att förkasta en nollhypotes för att p-värdet är lägre.
Om man vill hävda det så måste man argumentera att man hade kunnat sätta en ännu lägre signifikansnivå om man velat bara för att p-värdet visat sig vara lägre, men den tankeleken slutar med att den lägsta signifikansnivån som genererar förkastande sammanfaller p-värdet självt och då skulle man kunna tolka p-värdet precis som signifikansnivån, dvs. som en sannolikhet att felaktigt förkasta nollhypotesen. Och det är ju helt fel.

Så ja, det är en avgörande skillnad.

En annan skillnad är att Fishers påstående tycks vara svårt att motbevisa (i någon mån är ju p-värdet ett mått på hur mycket samplet avviker från H0, av oklar evidensbetydelse för verkligheten dock).
Det andra påståendet går däremot att motbevisa eftersom det gör anspråk på att säga något om vad som korrekt (dvs. sant) eller ej och inte bara ett mått mot nollhypotesen.

P-värden kan genereras när något inte är sant, så här:

Antag att vi ur en befolkningspopulation drar två stora slumpmässiga urval och undersöker om det finns en signifikant skillnad mellan dem i något avseende, tex individers längd.
(De bör de inte finnas eftersom urvalen kommer från samma population, nollhypotesen är sann).

Vi upprepar denna procedur en miljon gånger, vilket ger en miljon p-värden, som fördelar sig likformigt under nollhypotesen.
Det innebär att 1 % av p-värdena kommer vara ≤0.01, 5 % av p-värdena kommer vara ≤0.05, 10 % av p-värdena kommer vara ≤0.10 osv.

Plocka ett lågt p-värde ur en sådan fördelning och plocka sedan ett ännu lägre.
Har vi skäl att påstå att det lägre p-värdet innebär en större chans att förkastandet av H0 är korrekt i det fallet?
Naturligtvis inte. Vi vet ju att nollhypotesen inte är sann i något av fallen, vilket betyder att varje lågt p-värde som genereras under en sann nollhypotes är icke-representativt för verkligheten.

Englunds påstående är riktigt (tror jag) om nollhypotesen är falsk.
Däremot är det inte riktigt om nollhypotesen är sann.
Som allmängiltigt påstående är det fel att påstå att ett lägre p-värde ger en större chans att korrekt förkasta nollhypotesen.


Goodman skrev:....The most serious consequence of this array of P-value misconceptions is the false belief that the probability of a conclusion being in error can be calculated from the data in a single experiment without reference to external evidence or the plausibility of the underlying mechanism
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Re: Vad kan man göra med en nollhypotes?

Inläggav Englund » tis 28 apr 2015, 18:21

Crepitus skrev:Men det är inte större chans att korrekt att förkasta en nollhypotes för att p-värdet är lägre.
Givet en given population så är det du säger korrekt. Men i verkligheten så är populationen inte känd och genom att betrakta populationen som slumpmässig som jag gjort i mina simuleringar så får vi en simulering av hur det ter sig i verkligheten. Om genomsnittet i en population är 14 så är genomsnittet 14 oavsett vad vi observerar i vårt urval, detta med sannolikheten 1.
Crepitus skrev:Antag att vi ur en befolkningspopulation drar två stora slumpmässiga urval och undersöker om det finns en signifikant skillnad mellan dem i något avseende, tex individers längd.
(De bör de inte finnas eftersom urvalen kommer från samma population, nollhypotesen är sann).

Vi upprepar denna procedur en miljon gånger, vilket ger en miljon p-värden, som fördelar sig likformigt under nollhypotesen.
Det innebär att 1 % av p-värdena kommer vara ≤0.01, 5 % av p-värdena kommer vara ≤0.05, 10 % av p-värdena kommer vara ≤0.10 osv.

Plocka ett lågt p-värde ur en sådan fördelning och plocka sedan ett ännu lägre.
Har vi skäl att påstå att det lägre p-värdet innebär en större chans att förkastandet av H0 är korrekt i det fallet?
Givetvis har du rätt i detta. Men detta motsäger inte någonting som jag påstår.
Crepitus skrev:Englunds påstående är riktigt (tror jag) om nollhypotesen är falsk.
Däremot är det inte riktigt om nollhypotesen är sann.
Här tycker jag att det verkar som att du gör ett liknande misstag som du påstår att jag gör. Om nollhypotesen är sann så är ju sannolikheten för en korrekt slutsats alltid lika med noll om man förkastar nollhypotesen. Om nollhypotesen är falsk är sannolikheten för korrekt slutsats alltid lika med 1 om man förkastar nollhypotesen. Kruxet är att man måste behandla nollhypotesen som en stokastisk variabel när man diskuterar detta.
Crepitus skrev:The most serious consequence of this array of P-value misconceptions is the false belief that the probability of a conclusion being in error can be calculated from the data in a single experiment without reference to external evidence or the plausibility of the underlying mechanism
Som tidigare sagt, mina påståenden står inte på tvären med ovanstående.
Nu är då och framtiden är för alltid!
Englund
 
Inlägg: 871
Blev medlem: sön 06 feb 2011, 12:14
Ort: Borås

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » fre 01 maj 2015, 16:01

Englund skrev:Givetvis har du rätt i detta. Men detta motsäger inte någonting som jag påstår.

Hallå där Englund!
Du har påstått många saker, bland annat detta:
Englund sid 9; 07:31 skrev:…ju lägre p-värde, desto säkrare blir slutsatsen att H0 är falsk.

Och detta:
Englund sid 11; 17:43 skrev: Lägre p-värde --> större chans att slutsatsen förkasta H0 stämmer.

Vi tycks vara enliga om att påståendena ovan inte stämmer när nollhypotesen är sann. Det vederlägger dina påståenden som allmängiltiga.
Det du påstår är fel helt enkelt.
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Re: Vad kan man göra med en nollhypotes?

Inläggav Englund » sön 10 maj 2015, 09:11

Crepitus skrev:Vi tycks vara enliga om att påståendena ovan inte stämmer när nollhypotesen är sann. Det vederlägger dina påståenden som allmängiltiga.
...och det är anledningen till att jag skrev "Kruxet är att man måste behandla nollhypotesen som en stokastisk variabel när man diskuterar detta." Självklart stämmer inte påståendena när nollhypotesen är sann. Men det följer ju per modus ponens. Om A är falsk så är A falsk.
Nu är då och framtiden är för alltid!
Englund
 
Inlägg: 871
Blev medlem: sön 06 feb 2011, 12:14
Ort: Borås

Re: Vad kan man göra med en nollhypotes?

Inläggav Englund » sön 10 maj 2015, 14:39

Englund skrev:
Crepitus skrev:Vi tycks vara enliga om att påståendena ovan inte stämmer när nollhypotesen är sann. Det vederlägger dina påståenden som allmängiltiga.
...och det är anledningen till att jag skrev "Kruxet är att man måste behandla nollhypotesen som en stokastisk variabel när man diskuterar detta." Självklart stämmer inte påståendena när nollhypotesen är sann. Men det följer ju per modus ponens. Om A är falsk så är A falsk.
Men vi vet ju såklart inte om nollhypotesen är sann eller falsk, och bör därför betrakta den som stokastisk.
Nu är då och framtiden är för alltid!
Englund
 
Inlägg: 871
Blev medlem: sön 06 feb 2011, 12:14
Ort: Borås

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » tis 02 jun 2015, 19:35

Ursäkta dröjsmålet.

Du påstår att man måste behandla nollhypotesen "som en stokastisk variabel" när man diskuterar det här. Jag vet inte.
Här är en nollhypotes:
Den vuxna befolkningen i Östersund är lika lång som den i Sundsvall.

På vilket sätt är det påståendet stokastiskt?

På vilket sätt är påståendet att betrakta som en variabel?

(…och på vilket sätt är "Om A är falskt så är A falskt", ett exempel på en modus ponens?)

Jag antar att du är ute efter att vi inte vet fördelningen av sanna och falska nollhypoteser. Så är det ju, och det hade onekligen varit trevligt att veta det.
Fördelningen av sanna/falska nollhypoteser beror troligen på massor av faktorer, och den varierar förmodligen mellan typer av vetenskaper och över tid.
Däremot har jag svårt att tänka mig att den i någon högre utsträckning beror på slumpen.

Och om det nu skulle vara så (att nollhypotesen bör betraktas som en stokastisk variabel), så vet jag inte vad det har för relevans för de påståenden du framfört på olika sätt tidigare i tråden, som handlar om p-värdens, också enskilda sådanas, tillämplighet för slutsatser som rör H0 (eller för den delen HA).

"Kruxet" med statistisk hypotesprövning är att resultatet från ett test, dvs. ett p-värde, kan genereras under både en sann och en falsk nollhypotes.
Ett lågt p-värde kan således vara en "sann" eller en "falsk" representation av verkligheten.
Det är anledningen till Neyman/Pearson påstående:
We are inclined to think that as far as a particular hypothesis is concerned, no test based upon a theory of probability can by itself provide any valuable evidence of the truth or falsehood of a hypothesis’

Det är också anledningen - förmodar jag - till Schervish slutsats att p-värden inte uppfyller logiken för att kunna tolkas som mått till stöd för/mot hypoteser.
Ett lågt p-värde kan vara "sant" lågt eller "falskt" lågt.
Testet, eller måttet som sådant, kan inte visa på vilket.

P-värdet är inget logiskt giltigt mått mot nollhypotesens sanningshalt, även om den ofrånkomligt naiva tolkningen av p-värden är att ju lägre de är, desto mer troligt att nollhypotesen är falsk.

”Kruxet” med ett enskilt p-värde är att vi inte vet om det genererats utifrån data som är representativt eller ej för verkligheten.
Ett icke-representativt sample kommer att ge upphov till ett lågt p-värde trots att nollhypotesen är sann.
Forskare har en tendens att älska data som avviker mot vad man kan förvänta sig under nollhypotesen, inte bara för att man då tror sig ha upptäckt något "sant", utan även för att låga p-värden är starkt associerade med publikationsmöjligheter, pengar och karriär.
Det senare ökar förstås risken att falskt låga p-värden selekteras fram via multipla urval, multipla analyser och kreativ bearbetning av data, därefter via ytterligare selektion i publikationsprocessen.

Ibland försvaras låga p-värdens bevisvärde på följande vis: Om vi får ett lågt p-värde i vårt test så måste något av följande gälla:
    Antingen är nollhypotesen falsk.
    Eller så har något väldigt ovanligt skett
Eftersom ovanliga saker inte sker så ofta (per definition) så är det första alternativet troligt. Ergo: nollhypotesen är sannolikt falsk.

Problemet med det resonemanget är att man utgår från att det bara finns två möjliga orsaker till att man sitter med ovanliga data:
    1) nollhypotesen stämmer inte
    2) slumpen har försett oss med väldigt ovanliga data (vilket inte är så sannolikt...)

Det är emellertid en falsk dikotomi eftersom orsakerna till ett "ovanligt" sample kan bero på andra orsaker än slumpen, så kallade systematiska orsaker (åtminstone utanför det matematiska laboratoriet).

Ett exempel på det senare: säg att vi vill undersöka nollhypotesen som presenterades inledningsvis, dvs. om Östersundsbor och Sundsvallsbor är olika långa.
Vi gör ett stort slumpmässigt urval av vuxna på respektive ort och vi beräknar medellängdsskillnaden till 5 cm, p<0,001.
Enligt resultatet är Östersundsbor i genomsnitt längre än Sundsvallsbor, ett resultat som är höggradigt statistiskt signifikant.

Det verkar konstigt. Nollhypotesen förefaller ju rimlig utifrån sunt förnuft.

I det här fallet så stämmer nollhypotesen, Östersundsbor och Sundsvallsbor är i praktiken lika långa.
Vi har också dragit representativa urval i respektive stad, dvs. slumpen är inte orsaken till det missvisande resultatet.

Orsaken till att Östersundsbor är längre enligt vår data är att den serie tumstockar som skeppats till Östersund, och som användes i studien för att mäta Östersundsborna, hade ett produktionsfel där varje centimeter bara råkade mäta 9,7 mm.
Trots att urvalet i respektive stad var representativt för "verkligheten" så uppstod ett systematiskt fel, i det här fallet ett mätfel.

Fånigt exempel kanske, men poängen är att när vi får ett lågt p-värde i ett test så kan de extrema data (vi fått under antagandet att nollhypotesen stämmer) bero på att nollhypotesen faktiskt är falsk.
Eller så har den extrema datan slumpmässiga och/eller systematiska orsaker.
Om vi förkastar nollhypotesen som falsk så har vi explicit (övervägt detta) eller implicit (inte tänkt närmare på saken) avfärdat andra möjliga orsaker som troliga till att vårt urval avviker från vad som förväntas under nollhypotesen.

Den statistiska analysen tar formellt inte hänsyn till risken för systematiska fel. Risken för sådana fel moduleras inte matematiskt över huvud taget när man gör ett statistiskt hypotestest, trots att de flesta nog håller med om att denna risk är >0 (och ibland besvärande hög i metodologiskt tveksamma studier).


I vidare bemärkelse handlar detta om styrkor och svagheter med de två möjliga metoder som finns för statistisk inferens vid betingade sannolikheter: Bayesiansk respektive frekventistisk inferens.

Den första metoden, Bayes, har fördelen att den besvarar frågan vi faktiskt är intresserad av: vad är sannolikheten att hypotesen är riktig?
Bayesiansk metod kritiseras dock - med rätta - för det subjektiva inslaget, hur motiverar man sin prior, dvs. skattningen av hur sannolik man anser att hypotesen är till att börja med?

Frekventistisk statistik är förvisso "objektiv" i bemärkelsen att givet viss data och en specifik analys så får alla som gör analysen samma p-värde. Dessvärre besvarar inte metoden den fråga vi egentligen vill veta (hur sannolikt är det att HA [eller H0] är sann?), utan ger svaret på en fråga som få, om ens någon, begriper svaret på (vad är sannolikheten att få de data vi fått eller mer extrema givet att H0 är sann...).
Vilken betydelse ett lågt p-värde har som bevis för hypotesen som ställdes (eller för den delen mot nollhypotesen) är oklart och upp till var och en att bedöma. Men - nota bene - helt klart beror ett p-värdes bevisvärde för ett påstående om verkligheten på andra saker än bara p-värdet självt, vare sig man reflekterat över detta eller ej.

Som Goodmans skrev:
Goodman skrev:....The most serious consequence of this array of P-value misconceptions is the false belief that the probability of a conclusion being in error can be calculated from the data in a single experiment without reference to external evidence or the plausibility of the underlying mechanism‬.


Den praktiska konsekvensen av detta:
Betänkt att vi genomför två stora separata studier för att undersöka effekten av två olika cancerbehandlingar.
Studierna är likvärdiga i alla avseenden, bortsett från att behandlingarna är olika.
Resultaten från de statistiska analyserna vid studiernas slut är följande, till fördel för de aktiva behandlingarna:

Kemoterapi vs placebo: Hazardkvot 0.77, p<0.01
Healing vs placebo : Hazardkvot 0.77, p<0.001

Själv skulle jag utifrån dessa resultat vara benägen att tro att kemoterapi nog fungerar, men jag skulle - resultaten till trots - vara skeptisk att healing verkligen fungerar som cancerbehandling. Här vill jag se mer forskning för att bli övertygad.
Min skepticism till healing baserar jag på att Goodmans resonemang ovan.
Englund sid 9; 07:31 skrev:…ju lägre p-värde, desto säkrare blir slutsatsen att H0 är falsk.

Jag utgår från att du, utifrån den logik du försvarat i tråden, skulle dra en annan slutsats?
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » ons 30 dec 2015, 10:44

En tråd med en ände tycks det.
Den kom att handla mer om hur resultaten från statistiska test ska tolkas än vad man kan göra med en nollhypotes.
En avrundande kommentar från min sida.

Jag har argumenterat för följande: ett lågt p-värde ger ett indirekt och hypotetiskt stöd till forskarhypotesen.
P-värdet är inte ett mått på om nollhypotesen är sann eller falsk.
Det kan inte vara det av logiska skäl eftersom p-värdet beräknas under antagandet att nollhypotesen är sann.

Slumpmässiga och systematiska fel kan ge upphov till falskt låga (eller höga) p-värden, vilket innebär att p-värden är osäkra även som indirekta mått eller indikatorer på nollhypotesens sanningshalt.
Om nollhypotesen är sann, kan du ändå få ett låg p-värde av rena slumpskäl. Vill du vara säker på att finna ett sånt lågt p-värde: fortsätt bara att göra flera analyser tills det dyker upp.
Systematiska fel kan bero på studiedesign, urval, datainsamling/mätning/bearbetning, analys och tolkning.
Man kvantifierar inte risken att ett eller flera systematiska fel givit upphov till ett sample som är extremt och inte är representativt för verkligheten, vilket i så fall ger upphov till ett falskt lågt p-värde.
En sådan skattning skulle för övrigt vara osäker om man ens försöker, eftersom systematiska fel ibland är omedvetna, också för forskaren själv.
Publikationsbias förstärker tendensen att falskt låga p-värden publiceras framför negativa resultat.

Dessutom: även om ett p-värde är "sant" lågt i bemärkelsen att nollhypotesen faktiskt är falsk, så innebär inte det per automatik att alternativhypotesens (forskarhypotesens) förklaringsmodell är korrekt.
Blott att nollhypotesen är falsk.

Trots att det finns flera skäl till varför p-värden är osäkra i bevishänseende är det just så de används: som "evidens" för påståenden om verkligheten.
Ofta stämmer förstås logiken: lågt p-värde--->sant påstående, men ibland blir forskningsresultat missvisande.

De flesta resultat från statistiska analyser (som involverar signifikanstestning) som publiceras är "statistisk signifikanta", det vill säga resultat som i någon mening talar för forskarhypotesens riktighet, givet en godtycklig gräns för signifikans som forskaren valt.
Hur stor andel av dessa publicerade positiva fynd som är felaktiga (falskt positiva) vet dock ingen.

För ett par år sedan skrev forskaren John Ioannidis en artikel i PLOS Medicine - Why Most Published Research Findings Are False - där han argumenterade att de flesta medicinska forskningsresultat som publiceras troligen är fel.

Hans resonemang byggde på att slumpmässiga och systematiska fel i statistiska analyser, i kombination med ett system som premierar upptäckt och publikation av statistiska signifikanser inom uppmärksammade/välfinansierade forskningsområden, riskerar att producera falskt positiva slutsatser till den grad att det mesta är fel.


Ioannidis artikel var provocerande.
I sak går det inte veta om hans påstående är korrekt.
Det finns nämligen ingen säker metod att fastställa om en empirisk slutsats baserad på upprepade observationer är absolut sann (induktionsproblemet).
Statistiska slutsatser är dessutom behäftade med osäkerhet (bland annat på grund av urvals-, mät- och slumpfel).
Med andra ord finns det inte heller någon bra och säker metod att undersöka i vilken utsträckning låga p-värden är rättvisande indikatorer på om någonting är sant.

Men om man antar att frekventistisk statistisk är en någorlunda lämplig metod för att undersöka sanningshalten av hypoteser.
Och om man dessutom antar att låga p-värden är en någorlunda bra indikator på att något är sant, då borde studier som genererat låga p-värden kunna replikeras.
Om ett p-värde är sant lågt så borde det ofta bli lågt även när man gör om studien!

Replikation av studieresultat är helt centralt för vetenskapen!
Vetenskapliga påståenden är vetenskapliga enbart för att de vilar på evidens. Om evidensen är osäker och inte kan replikeras finns inga skäl att hålla påståendet för sant.

Det har länge pågått en diskussion om det finns en vetenskaplig replikationskris, dvs. i vilken utsträckning som slutsatser från kvantitativa analyser verkligen står upp mot replikationskravet.
Den diskussionen har fått nytt bränsle i och med en relativt ny studie, - Estimating the reproducibility of psychological science- . publicerad i Science.
En mer nyhetsmässig sammanfattning finns här.


I denna mastodontstudie upprepades 100 psykologiska studier (varav 97 hade ett p<0,05).
Studierna var alla publicerade i någon av tre respektabla psykologtidskrifter.
Experimenten gjordes om exakt på det vis som det de var beskrivna i originalpublikationerna.
Syftet var att undersöka i vilken mån studiernas resultat kunde replikeras.

Det finns ingen självklar metod att fastslå när ett studieresultat är replikerat och författarna testade flera olika angreppssätt, inklusive den kanske mest självklara:
att undersöka om ett statistiskt signifikant resultat i den ursprungliga studien också gav upphov till ett statistiskt signifikant resultat i replikationsstudien.

Resultatet är anmärkningsvärt.
Endast 36 % av de statistiskt signifikanta resultaten i originalstudierna uppnådde statistisk signifikans även i replikationsstudierna.
Det är en låg grad av överrensstämmelse för en metod vars huvudsakliga syfte är att testa sanningshalten av hypoteser.

Vad borde man fått för resultat?
Författarna skriver att replikationsstudierna hade en genomsnittlig power på 0,92, vilket är en hög siffra.
Det betyder att om det fanns en effekt i originalstudierna som var sann och korrekt mätt, skulle cirka 92 % (89 av 97 studier) av replikationsstudierna också uppvisa statistisk signifikans för denna effekt.
Den siffran gäller emellertid bara om det fanns en sann effekt i alla de publicerade originalstudierna och det är nog inte sannolikt (dvs. minst några av originalfynden var troligen falskt positiva).
Och det är sannolikt att några av replikationsstudierna kan ha missat en sann effekt som originalstudien fann, (dvs. några av replikationsfynden var falskt negativa).

Men 36 % replikation av statistisk signifikans är besvärande lågt.
En möjlig, för att inte säga trolig, förklaring till den låga replikationsgraden är att många (kanske rent av de flesta?) av originalstudiernas statistiskt signifikanta resultat var fel, precis vad Ioannidis argumenterat för.

Författarna till Science-artikeln fördjupade även analysen.
De tänkte att orsaken till den låga replikationsfrekvensen kunde bero på att replikationsstudierna genererade p-värden strax ovanför den godtyckliga gränsen för statistisk signifikans (p<0,05).
Om originalstudien, till exempel, uppvisade ett p-värde på 0,049, skulle det resultatet kvala in som statistiskt signifikant, medan replikationsstudiens p-värde på 0,051 inte skulle göra det, trots att resultaten är väsentligen desamma.
En sådan strax-över-gränsvärdes-signifikans i replikationsstudierna skulle kunna vara en (del-)förklaring till resultaten.
Författarna plottade därför alla p-värden i både original- och replikationsstudierna för att jämföra dem.

Bild

Som framgår av bilden ovan var alla p-värdena i originalstudierna <0,05 (vilket var kravet för att inkluderas i den aktuella studien [3 gränsfall över 0,05 togs även med] och troligen en starkt bidragande orsak till att studierna publicerades överhuvud taget).
P-värdena i replikationsstudierna hade dock stor spridning mellan 0 och 1, nästan likformigt.
Det finns bara en svag tendens att det är fler p-värden i den lägre regionen i replikationsstudierna.
Resultaten i densitetsplottarna är förenligt med förklaringen att många av de ursprungliga slutsatserna var fel: falskt låga p-värden.

Till p-värdets försvar kan sägas att det fanns ett samband där lägre p-värden i originalstudien innebar större chans att resultaten skulle bli signifikant vid replikation. Och väl är ju det.

Jag vet inte om de här resultaten har hunnit sjunka in ännu i forskarvärlden.
De är enligt min mening djupt problematisk eftersom de talar för att p-värden och statistisk signifikans inte alls är bra mått på om något är sant.
Den diskussionen lär nog fortsätta.

Men en försiktig slutsats borde man ändå kunna dra redan nu:
Det verkar vara oklokt att likställa ett statistiskt signifikant resultat med "korrekt slutsats" (sid 10; 13:55, sid 10; 00:25).
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » tor 10 mar 2016, 21:55

Amerikanska statistiksällskapet har i dagarna gått ut och varnat för missbruk med p-värden, skriver Nature:
Nature skrev:Misuse of the P value — a common test for judging the strength of scientific evidence — is contributing to the number of research findings that cannot be reproduced, the American Statistical Association (ASA) warns in a statement released today.
The group has taken the unusual step of issuing principles to guide use of the P value, which it says cannot determine whether a hypothesis is true or whether results are important


Här finns själva uttalandet som listar sex punkter som bemöter missförstånd och felaktiga tolkningar av p-värden:

American Statistical Association skrev:1. P-values can indicate how incompatible the data are with a specified statistical model.
2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
4. Proper inference requires full reporting and transparency.
5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.



Och här är en fördjupande bakgrundsartikel: The ASA's statement on p-values: context, process, and purpose
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Re: Vad kan man göra med en nollhypotes?

Inläggav Crepitus » ons 17 maj 2017, 14:11

Trådtips:
Anna Dreber är professor i nationalekonomi vid Handelshögskolan i Stockholm. Här håller hon en presentation där hon refererar replikationsstudien på psykologisk forskning + berättar lite annat om p-värden och replikation, inklusive att replikationsfrekvensen av ekonomisk forskning inte heller är så bra, om än något bättre än i psykologistudien.
Hon berättar även om en egen studie, Using prediction markets to estimate the reproducibility of scientific research, som lutar sig mot ett bayesianskt tankesätt för att bedöma sannolikheten att en studie kan replikeras.

Och ett tips till:
John Ioannidis är en flitigt citerade metodforskare som är professor medicin och statistisk vid Standford.
Bakgrunden i den här artikeln, som Ioannidis medförfattat, är relevant för tråden, främst det här stycket (min fetning).

Unfortunately, p-values are associated with a number of problems [3–7]. Firstly, it is impossible to quantify evidence in favor of the null hypothesis. A p-value can be used to reject or to fail-to-reject the null hypothesis, but never to accept it.
Secondly, using p-values leads to over-rejection of the null hypothesis. The a-priori plausibility of the alternative hypothesis is not taken into account, as a result of which the alternative hypothesis gets endorsed if the null hypothesis is sufficiently unlikely. This leads to incorrect inference, in particular if the alternative hypothesis is even less likely.
Thirdly, p-values are notoriously hard to interpret. Researchers generally want to use the data to infer something about their hypotheses, such as: what evidence do the data provide for the null hypothesis versus the alternative hypothesis? The p-value cannot answer these questions, instead giving an abstract number that quantifies the probability of obtaining a data pattern at least as extreme as the one observed if the null hypothesis were true. This definition proves to be very cryptic for most researchers in the field [8,9].
Finally, p-values do not allow for optional stopping, based on examining the preliminary evidence [10]. This means that a p-value can only be properly interpreted when the sample size for testing was determined beforehand and the statistical inference was carried out on the data of that exact sample size. In practice, additional participants are often tested when “the p-value approaches significance”, after which the p-value is calculated again. In clinical trials, this takes the form of interim analyses with the potential of early stopping at different points [11]. Alternatively, sometimes testing is discontinued when “an intermediate analysis fails to show a trend in the right direction.
When the facts change, I change my mind. What do you do, Sir?
Användarvisningsbild
Crepitus
 
Inlägg: 1773
Blev medlem: lör 30 aug 2008, 16:14

Föregående

Återgå till Allmänt

Vilka är online

Användare som besöker denna kategori: Inga registrerade användare och 7 gäster
cron