Nej, nu är det för mycket begreppsoreda.
Det går ju inte att påstå vad som helst utan att bli motsagd.
Vi diskuterar hur man ska tolka ett p-värde. Du har givit ett antal tolkningar Englund, varav de flesta är felaktiga.
Det står klart att du och Kaxiga Z blandar ihop p-värden och signifikansnivåer.
För att förstå skillnaden mellan dessa begrepp så behöver man förstå att statistisk hypotesprövning bygger på två olika skolor: Fishers och Neyman/Pearsons.
Fisher
Fisher var den som utvecklade och populariserade signifikanstestet, dvs. metoden att beräkna ett p-värde.
Definitionen på p-värdet är sannolikheten att få de observationer man fått, eller mer extrema, givet att nollhypotesen är sann.
Fisher såg p-värdet som en form av objektiv evidens mot nollhypotesen.
Ibland benämns Fishers synsätt som "inductive inference" eller att p-värdet är ”evidential”.
Fisher menade att p-värdet utgör en kontinuerlig skala mot nollhypotesen och det är upp till forskaren att bedöma när p-värdet är så lågt att det är rimligt att hålla H0 för osann.
I Fishers värld fanns det bara en hypotes: H0.
Någon signifikansnivå fanns inte och således var p-värdet inte involverat i någon beslutsritual som resulterade i ett ställningstagande om nollhypotesen skulle förkastas eller ej.
Neyman/Pearson
Neyman/Pearson (NP) avfärdade Fishers evidenstolkning av p-värdet. NP introducerade alternativhypotesen och därmed hypotesprövningen.
NP såg hypotesprövningen som en metod där data kunde vara vägledande i beslutet om man skulle förkasta H0 eller ej till fördel för HA.
NP:s synsätt kallas ibland för "inductive behaviour", och är således en aktivitet, en handling.
NP insåg att när man begår sin handling så kan man göra två typer av fel.
Man kan förkasta nollhypotesen trots att den är sann (typ 1-fel, α) eller man kan ”acceptera” (sic!) nollhypotesen trots att den är falsk (typ 2-fel, β).
NP föreslog att man genom att sätta upp en fördefinierad signifikansnivå (α) och beräkna power (1-β, i praktiken storleken på samplet givet en viss effektstorlek) så kan man hålla koll på och minimera risken för nämnda fel
in the long run.
Även om p-värden och signifikansnivån liknar varandra (p=0.05 och p≤0.05 tycks ju inte så olika) så är de konceptuellt helt olika.
P-värdet handlar om
bevis (p=0.05), signifikansnivån om
förkastande (p≤0.05)
P-värdet beräknas med hjälp av observationerna (och som nämnts tidigare i tråden även observationer man inte observerat) och utrycker således i någon form egenskaper för datan.
Fisher menade att p-värdet utgör evidens mot nollhypotesen i det enskilda testet.
Någon tolkning av vad p-värdet betyder vid upprepade tester, det vill säga det frekventistiska perspektivet, finns inte. Does not compute.
NP:s teori handlar inte om evidens, utan om beslut: förkasta eller ej.
NP:s signifikansnivå är ett godtyckligt lågt tal som forskaren bestämmer själv innan analysen genomförs.
Signifikansnivån är oberoende av data och utrycker därför testets egenskaper, bestämt av forskaren.
NPs beslutsregeln är formulerad så att om p-värdet i ett test är lägre än den uppsatta signifikansnivån så förkastas nollhypotesen.
P-värdet i sig är tämligen ointressant i NP:s teori eftersom man inte tolkar det.
Faktum är att det inte ens behövs ett p-värde för att förkasta en nollhypotes – det räcker med att konstatera om teststatistikan faller inom de percentiler som motsvarar fördelningen under α.
(P-värdet är dock praktiskt att använda vid förkastande eftersom det är ett likartat och sammanfattande mått som kan genereras vid flera olika distributioner och utifrån flera olika teststatistikor)
Ett förkastande i en hypotesprövning gör inget anspråk på att säga något om säkerheten i eller sanningshalten i ett enskilt test (vilket du påstår).
Det går inte enligt NP, här i deras egna ord:
NP. On the problem of the most efficient tests of statistical hypotheses. 1933 skrev:We are inclined to think that as far as a particular hypothesis is concerned, no test based upon a theory of probability can by itself provide any valuable evidence of the truth or falsehood of a hypothesis’’
Således: om vi förkastar en nollhypotes eller ej enligt NP:s teori så säger detta ingenting om nollhypotesen är sann eller ej i det enskilda fallet, vi bara agerar som om det vore sant.
Observera att vi aldrig med säkerhet vet om H0 är sann.
I den verkliga världen så kommer vi testa en del nollhypoteser som är sanna och en del nollhypoteser som är falska.
Testar vi bara sanna nollhypoteser (ingen bör förkastas) så kommer vi över tid felaktigt förkasta cirka 5 % av dem om signifikansnivån är 5 %.
Testar vi bara falska nollhypoteser (alla bör förkastas) så kommer vi felaktigt förkasta 0 % av nollhypoteserna med samma signifikansnivå.
I verkliga världen vet vi inte fördelningen av sanna/falska testade hypoteser, men med en signifikansnivå på 5 % kan vi vara säkra på att andelen falskt positiva svar - över tid - kommer ligga någonstans mellan 0-5%.
Vill vi vara mer säkra att inte få falskt positiva resultat kan vi förstås välja en lägre signifikansnivå, dock sker det till priset av flera typ 2-fel.
NPs teori handlar om således om
rules to govern our behaviour som de själva uttryckte saken:
NP skrev: without hoping to know whether each separate hypothesis is true or false, we may search for rules to govern our behavior with regard to them, in following which we insure that, in the long run of experience, we shall not often be wrong.
NP:s teori är matematiskt okontroversiell och den är fullt förenlig med det frekventistiska perspektivet.
Fishers evidenstolkning av p-värdet är däremot ifrågasatt - en del argument mot Fishers tolkning har jag lagt fram här i tråden, det finns fler.
Faktum är att jag aldrig sett något strukturerat eller genomarbetat försvar för Fishers p-värdestolkning, tar tacksamt emot det om någon trådläsare har sådana referenser/argument.
Gigernezer, som har skrivit mycket i frågan, har förövrigt kallat Fisher för quasi-Bayesian (vilket möjligen är snäppet värre än att bara bli beskylld för att vara Bayesian).
Det har skrivits massor av artiklar om att dessa två olika skolor är svåra att förena i en gemensam teori och flera teoretiker hävdar att det inte går.
Klart är i alla fall att många statistik- och metodböcker blandar och ger lite fritt från båda teorierna, vilket ger upphov till en närmast universell förvirring/sammanblandning av p och α av och i kölvattnet missförstånd och felaktigheter av typen som du och Kaxiga Z visar prov på.
Hittar jag på allt det här? Kommer jag med lösryckta argument?
Nej, det gör jag inte. Om ni inte orkat titta i de artiklar jag redan tipsat om och länkat till så kika kanske på på dessa:
Wikipedia sida om kontroversen mellan Fishers och NPs synsätt och den här sammanfattande artikeln
P Value and the Theory of Hypothesis Testing
- An Explanation for New Researcher.
I den senare hittar man nedanstående här tabellen som sammanfattar olikheterna i Fishers och NP:s skolor.
Comparison of Fisher’s p value and Neyman-Pearson’s hypothesis testing
Fisher’s p value-------------------------------------------------------Hypothesis testing
Ronald Fisher
---------------------------------------------------------Jerzy Neyman and Egon Pearson
Significance test
-------------------------------------------------------Hypothesis test
p Value
---------------------------------------------------------------α
The p value is a measure of the evidence against the null hypothesis
------------α and β levels provide rules to limit the proportion of errors
Computed a posteriori from the data observed
------------------------------Determined a priori at some specified level
Applies to any single experiment
------------------------------------------Applies in the long run through the repetition of experiments
Subjective decision
------------------------------------------------------Objective behavior
Evidential, ie, based on the evidence observe
--------------------------------Nonevidential, ie, based on a rule of behavior
Mot bakgrund av ovanstående så påstår du och Kaxiga Z en del saker som antingen är fel eller som saknar belägg,
Tex detta:
Englund, sid 9; 07:31 skrev:ju lägre p-värde, desto säkrare blir slutsatsen att H0 är falsk.
Påståendet ovan är en variant på Fishers p-värde, dvs. innebörden är att p-värdet i sig är ett evidensmått mot nollhypotesen.
Du skriver i din näst senaste post (sid 11, 17:43) att du "otaliga gånger via simulering" visat att detta påstående stämmer.
Ordet otåliga var kanske en något av en överdrift, men visst, 5-6 simuleringar har du kanske gjort.
De visar tyvärr ingenting annat än att du inte förstår begreppen.
Enligt Fisher är p-värdet är evidens mot H0. Jag är tämligen säker på att det inte går att freventistiskt simulera fram ett bevis för detta påstående så som du påstår att du gör.
Om det går, varför har ingen publicerat något sådant bevis under de 70-80 år som kontroversen förelegat?
Du har producerat rätt mycket R-kod här i tråden.
(Man kan verkligen fundera över om det är en bra argumentation, få förstår alls vad du gör och det finns tyvärr ingen anledning att lita på att den slutsats du säger dig uppnå följer av de kodade argumenten)
Du påstår att du otaliga gånger i dina simuleringar visat att din Fisherianska tolkning av p-värdet stämmer, men av din pseudokod (sid 10, 13:55)....
Och här kommer den:
- 5. Loopa 1-4 till dess att p-värdet är lägre än 0.04 | 0.002 | 0.0002 | 0.00002 | 0.000002
6. Varje gång p-värdet är lägre än 0.04 | 0.002 | 0.0002 | 0.00002 | 0.000002 --> Observera om slutsatsen att H0 är falsk är korrekt eller inte
7. Loopa 1-6 1000 gånger.
8. Beräkna andelen gånger slutsatsen att H0 är falsk är korrekt när p-värdet är lägre än 0.04, 0.002, 0.0002 o.s.v.
...framgår att det du håller på med är att förkasta nollhypoteser vid olika nivåer på signifikansvärden!
Du simulerar således NP:s teori, inte Fishers som var det som du påstod!
När jag (sid 10, 23:17) påpekar att du använt p-värden som signifikansnivåer så svarar du (sid 10, 00:25)
"Där har du helt rätt! Men slutsatsen blir densamma om man utför simuleringen på liknande vis som du föreslår."
Det visar att du inte förstår det fel du gjort.
Påståendet "ju lägre p-värde, desto säkrare blir slutsatsen att H0 är falsk" har inget att göra med NPs teori om förkastanden.
Så varför simulerar du enligt NP:s teori?
Det du visar i dina simuleringar är att man genom att sänka signifikansnivån får färre felaktigt förkastade nollhypoteser. Ja, exakt – det är s.a.s poängen med NP:s teori.
Men det kan förstås inte tas som bevis för ditt och Fishers påstående att p-värdet utgör evidens i sig.
Du har också skrivit saker som:
Englund sid 10:00:25 skrev:De fetmarkerade siffrorna anger andelen gånger korrekt slutsats dras när p-värdet är inom de intervall som anges i kursiv stil.
Och:
Englund sid 11: 17:43 skrev:1) Lägre p-värde --> större chans att slutsatsen förkasta H0 stämmer.
Och senast:
Englund sid 11: 17:52 skrev:
Resultat: Det vi kommer att se är att ju lägre p-värde, desto större chans att slutsatsen förkasta H0 är korrekt.
Detta är precis vad jag visat i simuleringar och det Kaxiga Z också påpekat
Det är rent snömos!
Slutsatsen att förkasta H0 korrekt? Vad betyder det? Vi vet aldrig om slutsatsen är korrekt. Att förkasta nollhypotesen är per definition ”korrekt”
handlande om p< α, och detta oavsett vad p är.
Och eftersom det exakta p-värdet inte spelar någon roll (så länge det är lägre än α) så kan det inte vara ett mått på det viset du påstår
Och att påstå att man genom att förkasta en nollhypotes är sanningen på spåret är kort och gott fel, eftersom NP:s teori är non-evidential, ett faktum här återgett i ett annat citat:
Biau et al. P Value and the Theory of Hypothesis Testing, i artikeln länkad ovan skrev:Neyman and Pearson’s theory of hypothesis testing is a more mathematical view with statistical properties derived from the long-run frequency of experiments and does not provide by itself evidence of the truth or falsehood of a particular hypothesis.
Du och Kaxiga Z verkar som sagt inte ha koll på begreppen och de senaste sidorna är fyllda av missförstånd av just den art som varnas för i många artiklar, tex den som Kaxiga Z påstod sig läst och som jag länkade till för några poster sedan.
Här är den igen om ni vill rekapitulera, det är en bra artikel:
P Values are not Error Probabilities
Det finns några stycken i den artikeln som jag tycker ni bör kika på lite närmare, dessa:
4. CONFUSION OVER THE INTERPRETATION OF P’s AND α’s
4.1 Fisher— The Significance Level (p) of a Test is Not a Type I Error Rate (α)
4.2 Confusion over p’s and α’s Among Some Statisticians
Det finns en del citat i den artikeln som känns relevanta också:
Hubbard & Bayarri, P Values are not Error Probabilities skrev: The confusion surrounding researchers over the meaning and interpretation of p’s and α’s is close to total.
Hubbard & Bayarri, P Values are not Error Probabilities skrev: In sum, although p’s and α’s have very different meanings, Bayarri and Berger (2000) nevertheless contend that among statisticians there is a near ubiquitous misinterpretation of p values as frequentist error probabilities.