Studiecirkel: Statistics One

Diskutera sådant som rör föreningen Vetenskap och Folkbildning eller den skeptiska rörelsen i allmänhet.
tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Studiecirkel: Statistics One

Inlägg av tonyf » tis 09 okt 2012, 01:37

Detta är diskussionstråden för s.k. skeptisk studiecirkel på internätet för studiecirkeln Statistics One. Cirkeln bygger på Courseras videokurs Statistics One som är gratis på internet. Det är en mycket grundläggande kurs i statistik. Verkar vara av ganska tillämpad natur, med planering, analys och presentation av statistiska studier mer än en matematisk statistikkurs. Men exakt hur det är med det och annat om kursen vet vi inte förrän efter vi gått den. Vid ett första påseende verkar den dock vara mycket "skeptikerrelevant". Denna studiecirkel är dock inte Courseras kurs, utan vi använder Courseras kurs som studiematerialet för vår studiecirkel. Vår studiecirkel är den som pågår här på VoF-forum (och eventuella andra kompletterande kanaler vi eventuellt kommer att använda).

Alla som vill deltaga: posta en hej-här-kommer-jag-post här i tråden.
"philosophy without science is blind, science without philosophy is lame" (tonyf)

tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Re: Studiecirkel: Statistics One

Inlägg av tonyf » tis 09 okt 2012, 01:43

Här är mina kommentarer till första videoföreläsningen.


Föreläsning 1

Till att börja med betonar Conway skilnaden mellan [kontrollerad][randomiserad] experimentstudie där man har oberoende variabel som sätts av experimentatorn och [ickeexperimentell] ["differentiell"] observationsstudie där man inte har någon riktigt oberoende variabel. Den viktiga skillnaden är att en experimentell studie medger starka slutsatser om kausalitet; om beroende variabler korrelerar (samverierar) med den oberoende så kan man dra stark slutsats att den beroende variablen påverkas ["kausalt"] av den oberoende. I en [ickeexperimentell] observationsstudie så studerar man endast variabler "som redan finns" vilket inte medger några säkrare slutsatser om kausalitet.

Som diskuterats tidigare här på VoF-forum så är det i och för sig ganska säkert att man kan ha någon korrelation endast om man har något kausal påverkan. (Enda någerlunda viktiga osäkerheten i det är att det finns viss osäkerhet i om kausalitet i sig självt är ett riktigt existerande fundamentalt fenomen. Men då kommer vi in på djupare filosofiska frågor än de som hör hemma i denna studiecirkeln. För här låt oss anta att kausalitet existerar som ett meningsfullt begrepp.) Vad man ofta egentligen menar med [den egentligen något oegentligt formulerade catchfrasen] "korrelation implicerar inte kausalitet" är att om det finns korrelation mellan A och B så behöver det inte nödvändigtvis finnas någon kausal påverkan av A på B eller B på A. Det skulle kunna (istället eller också) vara [direkt eller indirekt] kausal påverkan från någon underliggande variable C som påverkar både A och B. I en kontrollerad experimentstudie däremot där A är en oberoende variabel så påverkar endast "experimentatorn själv" (lämpligen via någon slump- eller pseudoslump-generator, men på något sätt, det viktiga [här] är på något sätt som inte rimligtvis kan tänkas påverkas av någon utomstående variabel C (eller B)) variabel A, så om vi då finner en korrelation mellan A och B så kan vi dra slutsatsen att det finns en [kausal] påverkan av A på B. Som Conway formulerar det, det viktiga med kontrollerade randomiserade experiment är att vi genom att dra starka slutsatser om kausalitet lär oss förstå varför saker händer.

Conway introducerar litet statistisk jargong som används. (Jag är litet osäker här på exakt hur allmänglitigt det språkbruket är? Conway är psykolog, och ibland blir det oklart när han talar om psykologmetodik eller psykologijargong, eller statistik allmänt.

Befolkning (population): hela den uppsättning av fall man vill dra slutsatser om.

Stickprov (sample): delmängd av befolkningen som man mäter.

Parameter: ett numerisk mått som beskriver en egenskap hos en befolkning.

Statistik: ditto för sample.

Deskriptiv statistik: metoder för att sammanfatta och beskriva data.

Slutledningsstatistik (inferential statistics): tekniker för att generalisera om parametrar från statistiker.

Oberoende variabel: variabel helt under experimentatorns kontroll.

Förrvirrande faktorer (confounds): avvikelser hos en oberoende variabel från vilken den oberoende variabeln faktiskt är till vilken den oberoende variabeln avsågs vara. (Se dock nedan frågetecken för vad egentligen Conway avser med förvirrande faktorer.)

Beroende variabel: variabel som man vill undersöka om/hur den beror av de oberoende variablerna.

Kvasioberoende variabel: variabel icke under undersökarens kontroll, men där man väljer ut subsamples med olika värden på den, så att den kan användas nästan som om den vore en oberoende variabel (nästan som om det hade varit undersökaren som genom egen manipulation hade satt de olika utvalda värdena).


Experiment

En god kontrollerad randomiserad experimentell studie får vi genom:
1) sant oberoende variabler
2) slumpmässiga och representativa samples
3) inga förvirrande faktorer (no confounds).
Conway ger två exempel. Första är test av poliovaccin. Detta är ett bra test som uppfyller alla tre vilkoren. Den oberoende variabeln är behandlingen. Ett delsampel får poliovaccin och det andra delsamplet placebo. Vilka som placeras i vaccingruppen och i kontrollgruppen (placebogruppen) är slumpmässigt avgjort av experimentatorn. Testet är dubbelblint (vare sig testpersonen eller de som behandlar testpersonen vet om det är vaccin eller placebo), så det är rimligt att anta att det finns inga eller få och små skillnader mellan de två delsamplen, annat än just om de fick aktivt vaccin eller placebo, d.v.s. inga andra skillnader än den avsedda oberoende variabeln (inga förvirrande faktorer). Den beroende variabeln är sannolikhet att få polio (andel som får polio, dels av sådana som fått vaccin, dels av sådana som inte fått vaccin). (Conway diskuterar det inte, förmodligen eftersom det inte egentligen är relevant för en statistikkurs, men detta är ett bra test för hur väl vaccinet skyddar mot polio. Och det var poängen med exemplet, att ge ett exempel på hur man kan göra ett bra statistiskt test av ett beroende. Men naturligtvis inte i sig självt ett bra test av vaccinet. För att ha ett bra test av vaccinet måste man också testa andra beroenden, som eventuella farliga biverkningar av vaccinet. Och jämföra inte bara mot placebo utan också mot andra eventuella behandlingskandidater. T.ex. Detta är dock en statistikkurs, inte en läkemedelstestmetodikkurs, och Conway diskuterar exemplen utefter det.) Det andra exemplet är ett test av eventuell intelligenshöjning från minnesträning. Aktiva gruppen och kontrollgruppen kom först till institutionen och gjorde ett intelligenstest (eller egentligen ett IQ-test). Under en tidsperiod så minnestränade sedan den aktiva gruppen på instutionen en stund varje dag, medan inget gjordes med kontrollgruppen. Efter denna tidsperiod så kom återigen både den aktiva gruppen och kontrollgruppen till institutionen och gjorde IQ-test. Man kunde se en klar ökning av den aktiva gruppens IQ medan det hos kontrollgruppen var oförändrat. Från detta kan man inte dra någon slutsats om huruvida minnesträningen ökar IQ. Ty det finns en förvirrande faktor i form av att den aktiva gruppen men inte kontrollgruppen varit och gjort någon aktivitet på institutionen och fått uppmuntran där och gjort sig hemastadda där, och man kan inte veta om det var den "trivselfaktorn" eller minnesträningen som gjorde att IQ-resultatet ökade för den aktiva gruppen.



[ickeexperimetell] observationsstudie

Här finns ingen oberoende variabel utan här försöker man undersöka inverkan av en (eller flera) kvasioberoende variab-el(-ler) på de beroende variablerna. Värdet på den kvasioberoende variabeln sätts dock inte av undersökaren utan det finns olika värden på den "av sig självt" för olika individer i befolkningen och i samplen. Man kan t.ex. välja ut olika subsamples med olika värden på den kvasioberoende variabeln, t.ex. om den har bara två olika värden skapa två subsamples på nästan samma sätt som i de två tidigare exemplen på subsamples i experimentella studier, så ytligt sätt kan en observationsstudie ibland se nästan likadan ut som en experimentstudie. Men då dessa är utvalda, inte oberoende skapade, så kan ändå inga skarpa slutsatser om kausalitet göras.

Conway ger två exempel. Det första är en förvirrad diskussion av intelligenstester. Så förvirrad att åtminstone jag inte nu finner mycket meningsfullt att säga om det exemplet. Det andra är en studie av hjärnpåverkan från medvetslöshet av spelare av amerikansk fotboll som råkar ut för medvetslöshet i spelet. Den kvasioberoende variabeln är (som i de två experimetstudieexemplen) behandlingen; blir de utsatta för medvetslöshet under spelet eller inte. Den aktiva gruppen (första subsamplet) är de spelare i hela samplet som blivit utsatta för medvetslöshet. Kontrollgruppen (andra subsamplet) är de spelare i hela samplet som inte blivit utsatta för medvetslöshet. De beroende variablerna är olika variabler som mäter hjärnans tillstånd, dels magnetkamerabilder (som man sedan på något sätt som inte nämns får numeriska värden från) dels kognitiva test av minne och uppmärksamhet. Men eftersom den aktiva gruppen inte är avsiktligt randomiserat kontrollerat skapad så kan man inte säga alltför mycket av vad just dessa hjärnskakningar i studien eventuellt betydde för deras eventuellt annorlunda hjärnstatusutveckling. Det skulle kunna vara så att just de som utsätts för hjärnskaning under spelet delvis blir det på grund av någon bakomliggande faktor (som tidigare utsättning för hjärnskaning, eller drag i deras personlighet, eller något) och det är denna bakomliggande faktor som (åtminstone delvis) är det som driver den fortsatta utvecklingen av deras hjärnstatus under studien. (Och dessutom, även om det är åtminstone till icke försumbar del hjärnskakningen under studien som är det som påverkar utvecklingen av deras hjärnstatus under studien, så är det inte säkert att kontrollgruppens hjärnstatus skulle ha påverkats på samma sätt av hjärnskakning om de i den gruppen fått sådan eftersom dessa eventuella bakomliggande faktorer skulle kunna påverka exakt vilken och hur stor effekten av hjärnskaningen blir. Så även om det faktiskt skulle vara så att hjärnskakningen är den direkta kausala orsaken, så kan vi inte från studien sluta oss till vilken kausal effekt som hjärnskakning ger på hela ensabeln (och därmed på befolkningen).) Mycket förvirrande här är att Conway kallar detta för "förvirrande faktorer" -- samma ord som han använde för de tidigare diskuterade förvirrande faktorerna i experimentella studier. Men här är det ju inte förvirrande faktorer på det sättet som i de experimentella studierna (att den oberoende variabeln inte var just den variabel som egentligen avsågs (t.ex. i minnesträningsstudien, att den oberoende variabeln inte var enbart den avsedda minnesträning utan minnesträning plus 'trivseleffekten', vilket inte var den oberoende variabel som undersökningen egentligen avsåg att testa men som fortfarande är en oberoende variabel)), utan en eventuell effekt av bakomliggande faktorer. Det är olika former av störfenomen i undersökningarna, så de borde inte ges samma namn?
"philosophy without science is blind, science without philosophy is lame" (tonyf)

Användarvisningsbild
yrara
Inlägg: 987
Blev medlem: ons 21 jul 2010, 12:35
Ort: Göteborg

Re: Studiecirkel: Statistics One

Inlägg av yrara » tis 09 okt 2012, 08:10

Angående confounds (den svenska termen är tydligen snedvridande faktorer).

Detta är en teknisk term inom statistiken, och ingenting som Conway hittat på själv. Termen avser en okänd (eller åtminstone okontrollerad) faktor som korrelerar med både perdiktorvariabeln och utfallsvariabeln. I minnes-/intelligens-exemplet är det faktum att experimentgruppen var mer vana vid testmiljön en tänkbar snedvridande faktor. Det är en okänd variabel som kovarierar med den oberoende variabeln, och därför ger en till synes starkare korrelation mellan den oberoende och den beroende variabeln, än vad du hade sett ifall du tog hänsyn till den nu okända variabeln i din beräkning.

I hjärnskakningsexemplet har vi ju, som du påpekar, endast en kvasioberoende variabel – huruvida individen får hjärnskakning eller ej. Då indelningen i experiment- och kontrollgrupp inte styrs av försöksledaren, förlorar vi randomiserbarhet, och risken för snedvridande faktorer blir påtagligt större. Så länge vi kan randomisera indelningen i experiment- och kontrollgrupp (och så länge vårt urval är tillräckligt stort, och representativt för populationen) kan vi anta att de flesta tänkbara faktorer som påverkar vår beroende variabel, men som vi inte aktivt mäter, kommer att vara lika förekommande i experiment- som kontrollgrupp, och därför jämna ut sig i våra mätningar. De enda snedvridande faktorer vi behöver tänka på i ett sant experiment är alltså de vi själva introducerar genom själva studiedesignen (som ovan), eller de som av annan anledning är avhängig av den oberoende variabeln. I en observationsstudie är det istället mycket sannolikt att den variabel vi väljer att använda som prediktor ("kvasioberoende") kovarierar med en mängd andra (därmed snedvridande) faktorer.

I exemplet med hjärnskakningsstudierna är tidigare trauma en potentiellt snedvridande faktor, enligt precis samma definition, att det inte är en prediktorvariabel som används i den aktuella studien, och eftersom det potentiellt korrelerar med såväl prediktorvariabeln (tidigare historia av hjärnskakning gör det extra sannolikt att du kommer att tillhöra "experimentgruppen") som utfallsvariabeln (det kan vara den tidigare hjärnskakningen som påverkar det uppmätta resultatet). Jag säger "potentiellt" snedvridande, eftersom snedvridande faktorer per definition inte är uppmätta, men i själva verket vill jag minnas att han säger att vi faktiskt vet att tidigare trauma var en snedvridande faktor här.

Ur en statistisk synvinkel är det alltså samma sak som händer här. Vi mäter X→Y, men inser inte att det finns kovarierande variabler, om förhållandet så är Z→X→Y eller X→Z→Y. Sedan kan vårt Z ta sig helt nya skepnader ifall vi går från en experimentell studie till en observationsstudie, och dessa skillnader är viktiga för en statistiker att känna till, men mekanismen med snedvridande faktorer är densamma.

Som Conway påpekar kan vi aldrig veta att vi inte har några snedvridande faktorer, men vi kan anstränga oss för att ha så få som möjligt. Det viktigaste är att man aktivt tänker på problemet när man bestämmer sig för en studiedesign. Ifall det är ett experiment, kan vi undvika så mycket som möjligt genom att randomisera? Finns det potentiella snedvridande faktorer kvar? Kan vi ändra på dessa genom en förändring i studiedesign genom att göra experiment- och kontrollgrupp mer lika, vad gäller faktorer andra än de uppmätta? (I minnes-experimentet föreslår Conway att man låter kontrollgruppen utsättas lika mycket för aktiv träning i samma miljö, om än träning av något helt annat slag.) Eller kan vi på annat sätt mäta dessa andra variabler så att vi kan korrigera för dem? Ifall det rör sig om en observationsstudie måste vi vara medvetna om att problemet är större, och aktivt problematisera detta. Det kan fortfarande vara möjligt att korrigera för dessa variabler. Ifall vi tror att ålder är en snedvridande faktor, är det trivialt att korrigera för ålder i beräkningarna, men man behöver veta redan från början att det är en datapunkt man måste samla in. I fallet med hjärnskakning hade man kanske kunnat korrigera för tidigare trauma genom att dela in sin experimentgrupp i de som fått hjärnskakning för första gången, och de som haft det tidigare, eller genom att låta en variabel vara antal hjärnskakningar i livet, och låta denna variabel vara prediktor, snarare än den binära variabel som använts här, en eller fler hjärnskakningar i livet, ja/nej.

Ytterst är det studiens validitet – hur väl studien mäter det den avser att mäta – som påverkas av potentiellt snedvridande faktorer. I en studie bör man i sin diskussionsdel ta upp vilka snedvridande faktorer man kan identifiera, och vad man har gjort för att korrigera för dem. Ibland får vi nöja oss med att konstatera att det inte är praktiskt genomförbart att korrigera för alla tänkbara variabler, och det är upp till oss som tar till oss studien att bedöma hur illa det är att en viss variabel inte är kontrollerad. Ibland kan vi nöja oss med det resonemang som förs i diskussionen, "vi inser att Z kan vara en snedvridande faktor, men preliminära beräkningar A och B ger vid handen att detta sannolikt inte signifikant påverkat resultatet. Vidare forskning bör kontrollera för Z". Ifall diskussionsdelen överhuvudtaget inte nämner potentiellt snedvridande faktorer, eller ifall vi kan identifiera uppenbara och allvarliga faktorer som försöksledaren missat, kan det finnas anledning att anse att studien är av låg kvalitet.

Användarvisningsbild
Moridin
Avstängd
Inlägg: 16253
Blev medlem: tor 10 jan 2008, 11:32

Re: Studiecirkel: Statistics One

Inlägg av Moridin » tis 09 okt 2012, 13:40

yrara skrev:Ytterst är det studiens validitet – hur väl studien mäter det den avser att mäta – som påverkas av potentiellt snedvridande faktorer.
Det kan vara användbart att skilja på validiteten hos tester och validiteten hos studier.

Validiteten för ett test handlar om hur väl testet mäter det som den hävdar sig mäta. Intern validitet i en studie handlar om hur väl studiens slutsatser stöds av resultatet, medan studiens externa validitet handlar om i vilken utsträckning studiens slutsatser kan extrapoleras till den del av populationen som inte studerades.
Either you believe evidence that can be tested, verified, and repeated will lead to a better understanding of reality, or you do not. - Michael Specter
|AIDSTruth | Evidens för makroevolution | Skeptical Science|

Användarvisningsbild
yrara
Inlägg: 987
Blev medlem: ons 21 jul 2010, 12:35
Ort: Göteborg

Re: Studiecirkel: Statistics One

Inlägg av yrara » tis 09 okt 2012, 15:14

Moridin skrev:Det kan vara användbart att skilja på validiteten hos tester och validiteten hos studier.
Ah, det har du förstås rätt i. Good catch.

tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Re: Studiecirkel: Statistics One

Inlägg av tonyf » ons 10 okt 2012, 00:38

Tack för kommentarer yrara och Moridin. Jag har nu ytterliggare en kommentar om nomenklatur. Jag skall se om jag kan kolla mera om noemnklatur senare. Kanske är mycket standard och kanske en del varierar mycket mellan olika ämnesområden. Hursomhelst, inom digital signalbehandling så kallas oftast värdet vid en viss tidpunkt (värdet vid en viss av de diskreta tidpunkterna) för sample. Så det är många av signalbehandlingssamplena som utgör ett StatisticsOne-sample. Och ja, signalbehandling är ett stundtals statistiktyngt ämne.
"philosophy without science is blind, science without philosophy is lame" (tonyf)

tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Re: Studiecirkel: Statistics One

Inlägg av tonyf » lör 13 okt 2012, 00:31

Jag återkommer snart med kommentarer till föreläsning 2 och andra statistikfrågor. För nu har jag dock fått ägna litet tid innan jag förstod det där statistikdatoranalysprogrammet R som de använder i kusen. Jag postar därför några kommentarer till föreläsning 3 redan nu, så får vi själva verktyget R avklarat.
"philosophy without science is blind, science without philosophy is lame" (tonyf)

tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Re: Studiecirkel: Statistics One

Inlägg av tonyf » lör 13 okt 2012, 00:33

Statistics One använder statististikanalysdatorprogrammet R. Detta är ett fritt datorprogram ('free both as in "free beer" and as in "free speach"'). Det finns nedladdningsbart från www.r-project.org. Om man (som jag) kör på en MicrosoftWindows-dator så behöver man dock inte ladda ner det därifrån eftersom det redan igår i Cygwin-installationen. Cygwin kan laddas ner gratis från www.cygwin.com. För den som har en MicrosoftWindows-dator men inte Cygwin redan installerat (eller har Cygwin installerat med R (eller X-windows eller andra hjälpmedel som är bra att ha för att bekvämt kunna köra R) bortvalt): Klicka "Install Cygwin" uppe till vänster på Cygwins hemsida, klicka "setup.exe", klicka "kör" och "ja" på de frågor som kommer upp, klicka sedan framåt i installationen på "Nästa" i "Cygwin Setup"-fönstret. Välj "Install from Internet" och svara [installera] "All" högst upp i hierarkin när man får frågerutan vad man vill installera eller ominstallera eller avinstallera. På övriga frågor kan man förhoppningsvis bara använda standardinställningarna. Tyvärr tar installation av "all" mycket lång tid. Men för icke datorkunniga (som t.e.x jag) så är det ändå det bästa. Med "all" får man ett mycket stort antal program som man förmodligen aldrig kommer att använda mer än en mycket liten minoritet av. Men för den icke så datorkunniga är det omöjligt att veta vilka man säkert kan välja bort, så det enda någerlunda säkra är att använda "all".

Starta Cygwin genom att dubbelklicka på Cygwin-Terminal-ikonen i MicrosoftWindows. Normalt är man då i det terminalfönstret i sin Cywin hemkatalog. För att se vilken katalog man är i, ge kommandot "pwd" i terminalen. Det ger vilken katalog man är i, beskrivet i Cygwinsystemet. I de flesta Cygwininstallationer är det "/cygdrive/c/cygwin/home/tonyf" (jag visar med användare "tonyf" som exempel, byt själv "tonyf" mot ditt eget användarnamn), dock visas oftast endast katalogen relativt "/cygdrive/c/cygwin", d.v.s. som "/home/tonyf". För att komma till sin hemkatalog kan man alltid ge kommandot "cd". Det är lämpligt att alltid köra R i en egen underkatalog till sin hemkatalog. Så första gången innan man startar R bör man skapa en sådan underkatalog. Låt oss kalla den "Rtest". Skapa den genom att ge kommandot "mkdir Rtest". Gå sedan till Rtest genom att ge kommandot "cd Rtest". Kontrollera att du är där genom att ge kommandot "pwd" (bör oftast ge resultatet "/home/tonyf/Rtest"). Alternativt kan man skapa katalogen genom att använda MicrosoftWindows-systemet direkt. Starta MicrosoftWindows "Utforskaren". I MicrosoftWindows-systemet ligger Cygwin-hemkatalogen i de flesta installationer i "dator -> C:\cygwin\home\tonyf", gå dit och använd "Ny mapp" och ge den nya mappen (nya katalogen) namnet "Rtest".

Från CygwinTerminalen i katalogen Rtest: starta X-fönstersystemet genom att ge kommandot "startx &". Ett MicrosoftWindows-fönster med ett X-windows-skrivbord kommer då upp (kan ta sin tid i en del system). I det skrivbordet finns i de flesta installationer flera X-terminaler. Välj en av dessa för att köra R i. I de flesta installationer kan man också starta en ny X-terminal genom att hålla nera vänster musknapp då muspekaren ligger ute på tom X-skrivbordyta och släppa den då muspekaren ställts på "Xterm". Placera terminalen på lämplig plats på X-skrivbordet genom att dra musen och sedan vänsterklicka. Tyvärr har terminalerna inte alltid någon "scrollbar", man kan dock i de flesta installationer starta en scrollbar genom "Enable Scrollbar" i X-terminalfönstrets "VT Options"-meny. Kontrollera att terminalen ligger i rätt katalog genom att ge kommandot "pwd". Starta sedan R genom att ge kommandot "R". Promten skall då ändras från skalpromt till R-promt (ofta från "$" till ">"). R-promten visar att R är berett att ta emot kommandon. För att avsluta R, ge kommandot "q()" i R. Svara "n" på frågan om du vill spara. R skall nu avsluta och promten återgå till skalpromt.

R arbetar med flera olika "objekt" ("objects") av data. De enklaste är variabler som lagrar ett enda tal eller ett tecken. Andra typer av objekt kan innehålla flera variabler. Med dessa kan man sedan göra olika uträkningar och tilldelningar.

Kommandona för att göra detta kan antingen skrivas in direkt på tangentbordet ("interaktivt") eller läsas in från en textfil ("skript"). Skriptfilen skall innehålla de kommandon som man vill R skall köra, men kan (och bör) också innehålla kommentarer. En kommentar är allt som står efter ett brädgårdstecken ("#") på en rad i skriptfilen, allt fr.o.m. brädgårdstecknet på en rad ignoreras av R och utgör enbart en kommentar till skriptet. Resultaten blir nästan desamma vid interaktivt som vid skript, men mindre skillnader som hur utskrift görs förekommer. I interaktiv körning skrivs resultatet av uträkningar ut på terminalen om de inte är en del av en tilldelning. En skriptfil "testskript1" (som ligger i katalogen "Rtest" i vårt exempel) kan köras genom att vid R-promten ge kommandot 'source("testskript1",echo=F)' varvid R-kommandona i filen körs på samma sätt som om de skrivits in direkt vid R-promten, med undantag av att ingen utskrift görs annat än vid "print(<namn på objekt>)". Man kan alternativt köra 'source("testskript1",echo=T)' varvid utskrift görs av alla kommandon och alla kommentarer i filen testskript1. Skriptfilen kan editeras med valfri editor, direkt i MicrosoftWindows (t.ex. med "MicrosoftWindows Anteckningar" ("Notepad")) eller i Cygwin med någon av dess editorer (och då direkt i Cygwin-terminalfönster eller i något X-fönster (mest praktiskt inte samma X-fönster som man kör R i)). Om direkt MicrosoftWindows används har filen adressen "C:\cygwin\home\tonyf\Rtest\testskript1" medan den i Cygwin har adressen "/cygdrive/c/cygwin/home/tonyf/Rtest/testskript1". (Om man gör den i Anteckningar verkar den få namnet "testskript1.txt", så kör då 'source("testskript1.txt")' i R.)

Enkla numeriska uträkningar görs med de fem vanliga aritmetiska operatorerna +,-,*,/,^ (addition, subtraktion ("-" används på standard sätt förutom för subtraktion också för att skriva negativa tal), multiplikation, division, potentiering). Tilldelning görs med "<-" eller "=". Exempel för variabler:
> 3+2*4
[1] 11
([1] framför 11 anger att det är första raden i resultatet).
> a <- 3+2*4
> a
[1] 11
> a-5
[1] 6
Ovanstående fungerar interaktivt. För ett skript (med echo=F) måste man skriva uttryckliga print-anrop för att få utskrift (för att skriva ut värdet av a utskrivet räcker det inte att ge "a" som det gör vid interaktiv körning, man måste ge "print(a)")). De vanliga matematiska funktionerna som sqrt, sin, cos, exp, log, etc. fungerar också på normalt sätt. Talet pi (kvoten mellan omkrets och diameter för en cirkel) finns som inbyggt som "pi". Naturliga talet e finns inte inbyggt så man får använda exp(1). ("i" kan användas för imaginära enheten i för att skriva ett komplext tal (ex: "3+4i") men fungerar inte som en inbyggd konstant att användas fristående (skriv "1i" om "i" behövs). Men vi kommer inte att behöva komplexa tal i denna studiecirkel gissar jag.)

Objektet "vektor" i R är en ordnad följd av N st. variabler av samma slag (ex, alla tal, alla tecken), numererade 1, 2, 3, ..., N. Vektorer kan skapas med functionen "c" ("concatenate"). Exempel
Skapa en vektor k av längd tre där första elementet är talet 2, andra 5 och tredje 8:
> k <- c(2,5,8)
skriv ut vektorn k på terminalen (interaktivt):
> k
skriv ut vektor k på terminalen (skript eller interaktivt):
> print(k)
Man kan testa om ett objekt är en vektor med funktionen "is.vector":
> is.vector(k)
[1] TRUE
Skapa en vektor q3 av längd 9 där första elementet är talet -5, andra talet -4, etc. i heltalssteg till och med sista 9'e elementet som är talet 3:
> q3 <- c(-5:3)
skriv ut q3 på terminalen:
> print(q3)
Skapa en vektor r7 av längd 2001 där första elementet är talet -1, andra elementet talet -0,999, tredje elementet -0,998, etc. i steg av 0,001 till och med sista 2001'a elementet som är talet 1:
> r7 <- c(-1000:1000)/1000
Visa information om concatenate-funktionen:
> help("c")
Om vi anger "vektor {antingen + eller - eller * eller / eller ^} variabel" så utförs alltså den aritmetiska operationen med variabeln för varje element i vektorn. Också för de vanliga matematiska funktionerna (sin, cos, etc.) så tas funktionsvärdet för varje element i vektorn om vektorn ges som funktionsargument. Om vi har två vektorer av samma längd så utförs för "vektor1 {antingen + eller - eller * eller / eller ^} vektor2" den aritmetiska operationen elementvis för varje par av element med samma index i vektorerna:
> q3 <- c(12,7,4)
> r7 <- c(3,7,2)
> k <- q3/r7
> k
[1] 4 1 2
Flera vektorer kan slås ihop till en enda vektor med "c":
> c(q3,r7)
[1] 12 7 4 3 7 2
Element i en vektor kan väljas ut med hakparenteser:
> q3[2]
[1] 7
> q3[c(1,3)]
[2] 12 4
Längden av en vektor fås med funktionen "length":
>> length(q3)
[1] 3
Summan av elementen i en vektor fås med funktionen "sum":
> sum(q3)
[1] 24
Medelvärdet av elementen i en vektor kan fås genom "sum"- och "length"-funktionerna, men det finns också en direkt funktion "mean" för detta:
> sum(q3)/length(q3)
[1] 8
> mean(q3)
[1] 8
De succesiva summorna av elementen i en vektor fås med funktionen "cumsum":
> cumsum(q3)
[1] 13 20 24
På motsvarande sätt ger "prod" och "cumprod" produkten respektive de succesiva produkterna av elementen i en vektor.
Största och minsta talen i en vektor fås med funktionerna "max" respektive "min":
> max(q3)
[1] 12
>> min(q3)
[1] 4
De kan också användas för variabler eller vektorer och variabler:
> max(q3,2)
[1] 12
> max(q3,2,20)
[1] 20
Ordningen i storlek på elementen i en vektor ges av funktionen "order":
> order(r7)
[1] 3 1 2
(tredje elementet är minst, första elementet är nästminst, andra elementet är tredjeminst).
En vektor sorterad i storleksordning kan fås från resultatet av sort genom utval med hakparentes, eller av funktionen "sort":
> r7[order(r7)]
[1] 2 3 7
> sort(r7)
[1] 2 3 7
Medianvärdet är det mittersta värdet i den sorterade vektorn:
> r7[order(r7)[(length(r7)+1)/2]]
[1] 3
Ovanstående fungerar endast för vektorer av udda längd. Funktionen "median" fungerar för både vektorer av udda och av jämn längd:
> median(r7)
[1] 3
En vektor med elementen i motsatt ordning kan skapas med funktionen "rev":
> rev(order(r7))
[1] 2 1 3
(det andra elementet i r7 är störst, det första näststörst, det tredje tredjestörst).
Hakparenteser fungerar på motsvarande sätt vid tilldelning:
> k[3] <- 5
> k
[1] 4 1 5


Visa vilka objekt vi har i R:
> ls()
"a" "k" "q3" "r7"
> objects()
(eller i skript "print(ls())").
Tag bort "a":
> rm(a)
> ls()
"k" "q3" "r7"

En matris är ett objekt med flera vektorer av samma längd och av samma typ (tal, tecken). En matris kan skapas från en vektor med funktionen "matrix". Exempel, skapa en matris med tre rader och två kolumner (en s.k. 3 gånger 2 matris) där kolumnerna är vektorerna q3 och r7:
> m1 <- matrix(c(q3,r7),3,2)
> m1
[,1] [,2]
[1,] 13 3
[2,] 7 7
[3,] 4 2
Vi ser att q3 blev första kolumnen och r7 andra kolumnen i matrisen m1.
Det är egentligen onödigt att ange antalet rader, det kan R räkna ut själv som längden på vektorn delat med antalet kolumner:
> matrix(c(q3,r7),ncol=2)
ger samma resultat (skapa en matris med två kolumner genom att läsa in vektorn c(q3,r7) kolumnvis).
Transponera matrisen, d.v.s. låt kolumnerna bli rader och vice versa, med funktionen "t":
> m2 <- t(m1)
> m2
[,1] [,2] [,3]
[1,] 13 7 4
[,2] 3 7 2
Vi kan istället direkt skapa m2 genom att läsa in invektorn radvis istället för kolumnvis i "matrix"-funktionen:
> matrix(c(q3,r7),nrow=2,byrow=T)
(skapa en matris med två rader genom att läsa in vektorn c(q3,r7) radvis).
De aritmetiska operatorerna och de matematiska funktionerna opererar elementvis på matriser på motsvarande sätt som för vektorer. (För den som känner till matrisaritmetik: "*" betyder alltså i R elementvis multiplikation, inte matrismultiplikation som i standard matematisk notation. Matrismultiplikationsoperatorn är i R "%*%".)
Man kan testa om ett objekt är en matris med funktionen "is.matrix":
> is.matrix(m1)
[1] TRUE
Antalet kolumner i en matris fås med funktionen "ncol" och antalet rader med funktionen "nrow":
> nrow(m1)
[1] 3
> ncol(m1)
[1] 2
Element och kolumner och rader ur en matris kan väljas ut med hjälp av hakparenteser (på motsvarande sätt som för vektorer, både vid beräkning och vid tilldelning):
> m1[1,2]
[1] 3
(elementet på första raden andra kolumnen i m1)
> m1[,2]
[1] 3 7 2
(andra kolumnen i m1 (given som en vektor))
> m1[c(1,3),]
[,1] [,2]
[1,] 13 3
[2,] 4 2
(första och tredje raderna i m1 (givna som en 2 gånger 2 matris))


Vanliga grafer ritas med kommandot "plot". Exempel, rita grafen av funktionen x ~> y(x)=x för x mellan -1 och 1:
> xv=c(-100:100)/100
> plot(xv,xv)
Vid första plotten så skapar R ett X-fönster för plotten. Placera den på önskad plats genom att dra musen och sedan klicka med vänster musknapp.
Rita grafen av funktionen x ~> y(x)=x^2 för x mellan -1 och 1:
> xs=xv*xv
> plot(xv,xs)
De beräknade punkterna ritas som punkter i diagrammet. Rita istället med räta linjer mellan de beräknade punkterna:
> plot(xv,xs,type="l")
Det finns fyra olika typer: "p", "l", "b", "n"; för point, line, both, nothing.
Texterna vid abskissa och ordinata är som standard namne på vektorerna. Vill man ha andra texter får man använda "xlab" och "ylab". Man kan också sätta en titel för hela diagrammet med "main":
plot(xv,xs,type="l",xlab="x",ylab="xkvadrat",main="parabel")
Vid andra och senare plottillfällena så raderar som standard först R plotfönstret och ritar sedan den nya grafen där. Den gamla grafen finns alltså inte kvar. Om man vill ha både den gamla och den nya så finns tre olika möjligheter: 1) Rita nya grafer i det existerande diagrammet med funktionerna "points" eller "lines". 2) Rita flera diagram i samma fönster genom att först köra funktionen "layout" för att skapa N st. areor för diagram i plotfönstret och sedan köra funktionen "plot" (och eventuella "lines" och "points" om man dessutom vill ha flera grafer i varje diagram) N gånger. 3) Före varje nytt "plot"-anrop där man vill ha kvar de föregående plotfönstren (som kan innehålla ett eller flera (eller inget i och för sig) diagram), öppna ett nytt plotfönster med funktionen "x11".
Vi skapar också x^3 och x^4 för att ha fler exempel.
> xq <- xs*xv
> xp4 <- xq*xv
1) Rita först graferna av alla fyra funktionerna i samma diagram:
> plot(xv,xv,type="l",col="black")
> lines(xv,xs,col="red")
> lines(xv,xq,col="green")
> lines(xv,xp4,col="blue")
Om man istället för linjer vill ha punkter för någon av graferna så använder man funktionen "points" istället för "lines" (vill man ha punkter för alla är det enklare att köra "plot" direkt för alla vektorerna konkatenerade, med type="p"). (Att plotta med "nothing" är ett enkelt sätt att sätta skalan på diagrammet, om det skulle uppstå problem med den. Använd "c" för att först plotta alla de olika vektorena på en gång med type="n" (plot(c(xv,xv,xv,xv),c(xv,xs,xq,xp4),xlab="?",ylab="?",main="?",type="n")). Rita sedan alla de olika graferna (också den första) med "lines".)
2) Rita sedan dem istället i fyra olika diagram i samma fönster:
> m1 <- matrix(c(1:4),nrow=2,byrow=T)
> m1
[,1] [,2]
[1,] 1 2
[2,] 3 4
> layout(m1,2,2)
> plot(xv,xv)
> plot(xv,xs)
> plot(xv,xq)
> plot(xv,xp4)
Andra argumetet i layout (här 2) anger hur många rader av diagram som skall ritas i fönstret. Tredje argumentet i layout (här 2) anger hur många kolumner av diagram som skall ritas i fönstret. Första argumetet i layout (här m1) är en matris som anger i vilken ordning de olika diagrammen i fönstret skall ritas. Matrisen skall ha samma antal rader som antalet rader av diagram i fönstret, och samma antal kolumner som antalet kolumner av diagram i fönstret. Värdena på de olika elementen i matrisen skall vara alla heltalen fr.o.m. 1 t.o.m. totala antalet diagram i fönstret. Om elementet på rad m och kolumn n i matrisen har värdet p, så kommer diagrammet på rad m och kolumn n i fönstret att ritas vid det p'te plot-anropet. (Om man skulle vilja ha samma skalor på alla (eller några av) diagrammen, så kan man använda samma trick som i 1 och först köra plot med type="n" bara för att sätta skalorna på axlarna, och sedan rita själva grafen med "lines".) För att återställa plotfönstret till standardtillståndet: "layout(1)".
3) Använd funktionen "x11" för att succesivt öppna nya fönster:
> plot(xv,xv)
> x11()
> plot(xv,xs)
> x11()
> plot(xv,xq)
För att göra en ny plot i fönster nummer 2, om det inte är fönster nummer två som är det senast öppnade:
> dev.set(which=2)
> plot(xv,xp4)
För att stänga fönster nummer 2:
> dev.off(which=2)
(Och motsvarande för fönster andra än nummer 2.)

Histogram skapas och ritas med funktionen "hist". Lägg 100 tal dragna [pseudo-]slumpmässigt i intervallet [0,1] i vektorn data (funktionen "runif(n,a,b)" genererar n st. tal psudoslumpmässigt dragna med likformig sannolikhetsfördelning (r=random, unif=uniform) i intervallet [a,b]), titta på de tio första talen, och gör ett histogram med tio intervall för detta sampel av hundra slumptal:
> data <- runif(100,0,1)
> data(c(1:10))
> hist(data,10)
Förväntansvärdet för antalet tal som hamnar i varje intervall är 100/10=10. Eftersom 10 är ett ganska litet tal ser vi tämligen stora statistiska fluktuationer runt detta värdet i våra data.
Man kan också låta R välja intervallen efter sitt eget förnuft:
> hist(data)
Gör om det med 1000 tal:
> data <- runif(1000,0,1)
> hist1000 <- hist(data,10)
> hist1000
Förväntasvärdet är nu 1000/10 tal i varje intervall, 100 är tillräckligt stort för att (de relativa) fluktuationerna runt detta värde skall sannolikt bli "ganska" små (men bara ganska). Rita nu istället histogrammet med ordinata graderad i uppskattad sannolikhetstäthet (antalet träffar i intervallet gånger totala längden /(totala antalet tal gånger längden på intervallet)):
> hist(data,10,freq=F)
Rita histogram, dels med 5 intervall, dels med 20 intervall:
> layout(matrix(c(1,2),2,1),2,1)
> hist(data,5,freq=F)
> hist(data,20,freq=F)
Vi ser hur kompromissen mellan upplösning och brus fungerar. Histogrammet med 20 intervall uppvisar märkbart större statistiska fluktuationer än det med 5 intervall.
> hist(data,5,freq=T)
> hist(data,20,freq=T)
Antalet träffar i varje intervall är ungefär 200 för 5 intervall och 50 för 20 intervall.
(Eftersom vi bara har en enda kolumn av diagram så fungerar det här också med det enklare "layout(c(1,2),2,1)". Återställ plotfönstret till endast ett diagram med "layout(1)".)

En tabell av data med enbart de numeriska värdena kan lagras i en matris. I en matris kan endast innehålla kolumner av samma längd och alla variabler måste vara av samma slag (så t.ex. om den skall innehålla tal så kan den endast innehålla tal). Datram är ett objekt som i vissa avseenden liknar en matris men lagrar tabeller av data där alla variabler inte behöver vara av samma slag. Man har en översta rad med text som beskriver vilka data som finns i varje kolumn, men datat självt i de övriga raderna brukar vara tal. Ofta är alla kolumner av samma längd i en dataram, men detta är inte helt nödvändigt. Så kan man t.ex. ha en kolumn av text som beskriver data i raderna, och denna kolumn kan då ha en rad färre än övriga kolumner. En dataram kan skapas med funktionen "data.frame":
> df1 <- data.frame(kA=q3,kB=r7)
> df1
kA kB
1 12 3
2 7 7
3 4 2
> is.data.frame(df1)
[1] TRUE
En dataram där första kolumnen är radnamn som är numrerad lista 1-3. Första raden innehåller de i anropet av "data.frame" givna kolumnnamnen, och resten av raderna i kolumnerna 2-3 de i anropet av "data.frame" givna datakolumnerna q3 och r7.
Kolumnnamnen i en dataram fås med funktionen "names":
> names(df1)
[1] "kA" "kB"
Åtkomst av en datakolumn i en dataram erhålls med "dollar"-operatorn ("$") följt av kolumnnamnet:
> df1$kA
[1] 12 7 4
> k <- df1$kB
> k
[1] 3 7 2
Man kan göra en matris av datat i en dataram med funktionen "as.matrix":
> is.matrix(df1)
[1] FALSE
> m1N <- as.matrix(df1,ncol=2)
> is.matrix(m1N)
[1] TRUE
> m1N
kA kB
[1,] 12 3
[2,] 7 7
[3,] 4 2
> m1N[1,]
[1] 12 7 3
> m1N[2,]
[1] 3 7 2


En datatabell (matris eller dataram) kan skrivas på fil med funktionen "write.table". Skriv matrisen m1 på filen data_test1:
> write.table(m1,"data_test1",row.names=F,col.names=F)
Ge kommandot "ls" i någon Cygwinterminal (inte den du kör R i) (som står i katalogen home/tonyf/Rtest (kontrollera med "pwd")). En fil "data_test1" skall ha skapats. Titta på innehållet genom att ge kommandot "less" (avsluta med "q").
Skriv dataramen df1 på filen data_test2:
> write.table(df1,"data_test2",row.names=F)
En fil "data_test2" skall ha skapats (kontrollera med "ls"), titta på dess innehåll med "less".
En datatabell kan läsas från fil med funktionen "read.table". Funktionen levererar alltid en dataram.
> test1 <- read.table("data_test1")
> test1
V1 V2
1 12 3
2 7 7
3 4 2
Filen data_test2 innehåller inga kolumnnamn så R hittar själv på några namn som hen själv tycker låter kul (vedergällningsvapen 1 och 2).
> is.data.frame(test1)
[1] TRUE
> names(test1)
[1] "V1" "V2"
Läs nu filen data_test2 som innehåller kolumnnamn:
> test2 <- read.table("data_test2",header=TRUE)
> test2
kA kB
1 12 3
2 7 7
3 4 2
is.data.frame(test2)
[1] TRUE
> names(test2)
[1] "kA" "kB"
Ett diagram (eller alla diagram som annars skulle ritats i ett x11-fönster, d.v.s. kan vara flera diagram om "layout" används) kan skrivas ut på en fil genom att först använda funktioner som "png" eller "pdf" innan "plot", "lines", "hist" etc. körs:
> png("parabel1.png")
> plot(xv,xs)
> dev.off()
En fil "parabel1.png" skall nu ha skapats. Öppna den t.ex. med MicrosoftPaint och studera resultatet.
"philosophy without science is blind, science without philosophy is lame" (tonyf)

Användarvisningsbild
kaxiga Z
Forummoderator
Inlägg: 17568
Blev medlem: tor 21 jun 2007, 07:44

Re: Studiecirkel: Statistics One

Inlägg av kaxiga Z » lör 13 okt 2012, 11:01

Fantastiskt inlägg, tonyf!

tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Re: Studiecirkel: Statistics One

Inlägg av tonyf » sön 14 okt 2012, 02:45

kaxiga Z skrev:Fantastiskt inlägg, tonyf!
tack, hoppas den är till någon nytta för någon

Jag har följande rättelser:

I första stycket skall "igår i Cygwin-installationen" vara: "ingår i Cygwin-installationen".

Då vi tittar på de första tio talen skapade av "runif": Skall vara hakparenteser (rundade parenteser fungerar inte för att välja ut element i en vektor eller matris):
> data[c(1:10)]

Innan vi skriver matrisen m1 på filen data_test1 måste vi återställa den till dess urprungliga värde för att exemplet skall fungera som tänkt (eftersom jag hade skrivit över m1 då vi testade "layout"):
> m1 <- matrix(c(q3,r7),ncol=2)
> write.table(m1,"data_test1",row.names=F,col.names=F)

Då vi ger skalkommandot "less" i Cygwin för att titta på innehållet i filen måste vi ge filnamnet (inte bara kommandonamnet, naturligtvis):
$ less data_test1
I kommentaren efter att vi läst filen data_test1, så säger jag att data_test2 inte innehåller några kolumnnamn: Skall vara att data_test1 inte innehåller några kolumnnamn.
"philosophy without science is blind, science without philosophy is lame" (tonyf)

tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Re: Studiecirkel: Statistics One

Inlägg av tonyf » mån 15 okt 2012, 01:31

här kommer några kommentarer till föreläsning 2

Här går Conway igenom de viktigaste metoderna i deskriptiv statistik, men kommer litet in på också slutledningsstatistik. Från första föreläsningen vet vi att deskriptiv statistik är metoder för att sammanfatta och beskriva data. Till skillnad från slutledningsstatistik som är tekniker för att generalisera om parametrar från statistiker d.v.s. dra slutsatser om befolkningen från stickprovet.

Han börjar med litet propaganda för histogram. Detta för att det är bra att visa hela fördelningen och inte bara några få sammanfattande parametrar (som t.ex. medelvärde och standardavvikelse) för att få ett första kvalitativt begrepp av hur data ser ut. Histogram är endast om vi har endast en variabel. Om vi har ytterliggare en variabel med endast få olika värden så kan vi göra ett histogram för varje värde på den andra variabeln. Vi kan generalisera histogram till två variabler med många värden (t.ex. kontinuerliga värden (icke uppräkneligt oändligt många olika möjliga värden)). Grafisk representation t.ex. färgkoder i ett tvådimensionellt rutmönster (antal "hits" i en ruta kodas i diagrammet av vilken färg man ger rutan). Och vi kan göra "scatterplot" eller dylikt men Conway tar endast upp scatterplot, men senare, inte i detta sammanhang. Han demonstrerar histogram men definierar det inte explicit innan demonstrationen utan verkar förutsätta en del förkunskaper trots allt. Histogrammet definieras av att vi delar upp värdena för variabeln i intervall av viss längd (oftast alla av samma längd, även om det inte nödvändigtvis behöver vara fallet) och sedan räknar vi hur många fall som hamnar i varje intervall. Om variabeln är diskret så är ju denna diskretisering redan gjord, men för kontinuerlig variabel är denna diskretisering ju just skapandet av en sådana sammanfattande parametrar som vi inte egentligen skulle göra från början. Men det blir ändå oftast så många parametrar av att inte göra mer sammanfattning än histogramiseringsdiskretiseringen att vi ändå oftast får en övergripande bild av hur hela datat ser ut. Men man kommer ändå inte ifrån att det är skapandet av sammanfattande paramertrar, och mera så ju färre intervall vi väljer att histogrammisera i (färre histogramintervall visar fördelningen med lägre upplösning). Histogram är det mest traditionella sättet att göra en sådan diskretisering och visualisering, men jag vill betona att det inte är den enda och inte alltid nödvändigtvis det bästa. Ett närbesläktat alternativ till histogram som ibland kan vara bättre är t.ex. att istället för att ha förutbestämda intervall på abskissan, så har man ett förutbestämt antal träffar i intervallen och gör varje intervall så långt som behövs för att detta skall uppnås med just det dataset som man skall presentera. Ordinatan sätts till ett delat med den längd som intervallet fick (eller proportionellt mot det). Många andra alternativ finns också, men förutbestämda längder på intervallen på abskissan eller förutbestämt antal träffar i varje intervall är de två enkla alternativen som inte kräver matematisk analys för att implementeras.

Ibland har man data för hela befolkningen (samplet=befolkningen) och då visar ju histogrammet fördelningen för befolkningen. Det är också ett av de exempel Conway ger, fyra histogram över hur betygen från 30 vinexperter föredelar sig för de fyra vinerna. (Om studien går ut på att undersöka vad just dessa 30 vinexperter tycker om vinerna (vilket jag fick intrycket var fallet), om man däremot från det vill försöka dra någon slutsats om vad även andra tycker om vinerna (d.v.s. om befolkningen skulle större än just dessa 30 vinexperter) är det ju en helt annan sak.) Men om samplet endast är en äkta delmängd av befolkningen så ger ju histogrammen som beskrivande statistik endast fördelningen av samplet, inte av befolkningen som förmodligen i de flesta fall är det vi egentligen är intresseade av. Att dra en slutsats om fördelningen i befolkningen från fördelningen i samplet är alltså inte deskriptiv statistik utan slutledningsstatistik. Conway ger tre sådana exempel: kroppstemperatur i ett sample av 100 personer, kognitiv rumsförmåga hos ett sample av dels kvinnor dels män (c:a 50 av varje), blodtryck hos kvinnor dels som tar p-piller dels inte (100 av varje). Här använder Conway utan att uttryckligen säga det den enklaste slutledningsstatistiska modellen, att fördelningen hos samplen helt enkelt representerar fördelningen hos befolkningen (åtminstone får jag det intrycket). Det är dock uppenbart att vi har så små samples att vi har en hel del statistiskt brus. Observera att här finns också en viktig avvägning (återigen min kommentar, inte diskuterad av Conway) mellan upplösning och brus som man måste göra när man väljer storleken på sina intervall i histogrammen. Större intervall ger lägre upplösning av fördelningen men lägre brus, och vice versa. Detta återkommer vi till senare när vi skall studera inferentiell statistik gissar jag, men jag tror det är bra att vara uppmärksam på det redan från början. (Bl.a. därav också som jag gav ett exempel på detta i mina R-exempel i min kommentar till föreläsning 3.)

De flesta av histogrammen (med undantag för tre av vinerna) ser grovt ut som normalfördelningar. Mycket grovt. Extremt grovt sett skulle jag t.o.m. säga. Conway talar mycket om normalfördelning, men för inget av dem tycker jag det verkar vara annat än mycket grov approximation av normalfördelning. Men både upplösningen är litet för grov och statistiska bruset litet för högt för att säga alltför mycket alltför säkert om exakta fördelningen [för befolkningen]. Men statistiska bruset återkommer vi väll till senare när vi kommer till djupare analys av slutledningsstatistik. Inget av histogrammen annat än möjligen det för kroppstemperatur ligger dock i sig självt till någon hyffsat god approximation nära en normalfördelning. För blodtrycken nämner Conway detta, de har en dubbeltoppstruktur, och det finns en god förklaring till varför. Både subsamplet med och utan p-piller innehåller både rökare och ickerökare och dessa kan tänkas bilda sina egna approximativa normalfördelningar med högre medelblodtryck för rökare. Men för mitt ögonmått så avviker histogrammen för rumsförmåga ungfär lika mycket från normalfördelning.

För rumsförmåga så diskuterar Conway ganska mycket vilka slutsatser man eventuellt kan dra om skillnaden mellan kvinnors och mäns kognitiva rumsförmåga. Histogrammet för männens förmåga är klart förskjutet uppåt mot högre värden jämfört med histogrammet för kvinnornas förmåga. Bredden på de två fördelningarna är betydligt större än denna skillnad, men skillnaden mellan män och kvinnor verkar ändå ("med ögonmått") vara klart signifikativ. Conway drar dock litet för mig svårförstådda resonemeng om att man av olika anledningar skall vara försiktig med att dra för mycket slutsatser från detta om att män skulle överlag ha bättre kognitiv rumsförmåga än kvinnor. Ett är att det verkar finnas vissa studier på att om man tränar denna förmåga så minskar skillnaden. Men det är ju irrelevant för att dra slutsatser om hur det är för hela befolkningen, och det är väll det som denna studie syftar till. Om man istället vore intresserad av förmågorna hos kvinnor och män i en befolkning som genomgått något träningsprogram så är ju detta inte studien för det, så om man vore intresserad av det så får man ju göra en studie om det. Han säger också att variabeln kön (här med värdena {kvinna,man}) inte är en oberoende variabel utan en kvasioberoende och att man därför inte kan dra någon slutsats om kausala samband mellan kön och rumslig kognitiv förmåga. Och det är ju formellt tekniskt korrekt att variabeln kön här inte är en oberoende variabel i denna studie. Men i praktiken ligger den mycket nära att vara det (tror jag). Ty säg att vi inte valt ut kvinnor och män till studien, utan slumpmässigt valt ut par som planerar att snart ha barn och bestämmer att de barnen (eller rättare sagt, de människorna, sedan när de vuxit upp och blivit vuxna) som kommer att avlas av dem är vårt utvalda sample. Vilka av personerna i vårt sample som blir kvinna eller man beror huvudsakligen på om det är sperm med X- eller Y-kromosom som råkar komma först, och det är en, i stort sett, [pseudo-]slumpmässig process. Inte helt och hållet, men ganska nära. Så variabeln kön sätts (i stort sett åtminstone) av en god (eller hyffsad) slumptalsgenerator. Men om vi hade kunnat manipulera den som en riktig oberoende variabel så hade vi ju satt värdena på den just med en slumptalsgenerator, så den kvasioberoende variabeln kön i den hypotetiska studien sätts på nästan samma sätt som om den varit en riktig oberoende variabel, så eventuella snedvridande faktorer från den variabeln bör vara försummbara. Men om vi slumpmässigt väljer ut våra försökspersoner innan de avlats eller efter de vuxit upp borde inte kunna göra någon större skillnad här, så även i den studien som faktiskt utfördes borde inte varibeln kön ge någon betydande snedvridande effekt. Så vi borde faktiskt kunna dra en (någerlunda) stark slutsats om kausal påverkan av kön på rumslig kognitiv förmåga från denna studie. Jag har en hypotes om vart Conway vill komma med sitt resonemang. Han är inte ute efter skillnad p.g.a. kön i sig självt, utan skillnad p.g.a. någon hypotetisk variabel "intrinsisk könsskillnad" som skulle vara något i stil med "faktisk könsskillnad minus effekt av träning och liknande". Men det är ju inte vad den refererade studien handlar om, så om man från denna studie vill dra sådanan hypotetiska slutsatser, då håller jag naturligtvis med Conway att då blir det mycket osäkert (eller egentligen att det kan man inte alls från den studien). Men är det verkligen relevant att på det sättet gå in i en diskussion om att man från studien inte kan dra slutsatser om något som studien inte undersöker eller ens ger sken av att undersöka? En annan anledning kan kanske vara en sammanblandning av Conway mellan "kausal" så som vi i praktiken operationellt definierar kausalitet genom ett kontrollerat statistiskt experiment och "kausalitet" så som när vi diskuterar eventuell kausalitet som ett eventuellt existerande och eventuellt icke existerande fenomen i grundläggande fysik (därav att han blandar in, rent allmänt sett intressant och relevant, men här irrelevant, diskussion om olika kausala orsaker (som t.ex. träning) på mer grundläggande förklaringsnivå än vad denna studie studerar, till den kausalitet som vi i denna statistiska studie ser på den högre förklaringsnivån). Jag vet inte exakt, hela resonemanget verkar skumt.

För blodtrycksstudien så verkar dock Conway luta åt att anse att man någerlunda säkert kan dra slutsatsen att det finns ett kausalt samband så att p-pillerätande höjer blodtrycket trots att behandlingen (p-piller eller inte) var en kvasioberoende variabel i studien. Ett av hans argument är att de två histogrammen har ungefär samma form, det med p-piller är bara förskjutet uppåt. Men dels, varför skulle det vara ett så bra argument? Dels verkar de två histogrammen inte vara så mycket närmare samma form än de för rumsförmåga för mitt ögonmått. Här borde man nog också gjort fyra olika histogram, med både behandling och rökning som kvasioberoende variabler. Stora felet här däremot, ligger naturligtvis inte hos analysen av studien, utan hos studien själv. Självklart skall bör i sådanthär fall göra en välkontrollerad randomiserad dubbelblind experimentstudie, och frågan hade enkelt fått ett klart svar. Inga betydande tekniska eller praktiska svårigheter finns ju med det för en sådan behandling. (Om den inte skulle passera etisk granskningsnämnd (Conway säger något luddigt om etiska problem) i något land så gör man den någonannanstans.)

Han har också en lång diskussion om basebollstatistik. Jag får litet mental blockering av den där basebollen och har inte lyckats ta in något från det exemplet trots att jag lyssnat flera gånger. Min hörselnerv och hjärna bedövas direkt och totalt.

Det är mycket tal om "konstruktioner" ("konstruerade" variabler). Det skall tydligen vara variabler som konstrueras högnivå, mer fenomenologiska, modeller. Utan att kunna konstrueras utifrån eller i någon mer fundamental teori. Intelligens skall enligt Conway vara ett exempel. Men han säger något om att det är att vi inte kan observera "konstruktionerna" mer direkt. Men det verkar inte gå ihop med vad han säger om dem i övrigt. Tvärtom ger han som motexempel att många begrepp inom naturvetenskap inte är konstruktioner. Och begreppen där är ju oftast sådana vi inte kan observera direkt. Så det hela verkar något oklart, men mer fenomenologiska begrepp på något sätt verkar det vara som han avser.

Han kommer sedan in på sammanfattningsstatistik. Det är alltså några få numeriska parametrar som skall ge en sammanfattning av de viktigaste aspekterna av ens data. De fyra huvudsakliga sammanfattande värdena för att beskriva en fördelning är lägesmått, standardavvikelse, "skew" och "kurtosis".

Lägesmåttet ("central tendency") skall ge ett mått av ungefär kring vilket värde som ens data ligger utspridda. Det vanligaste lägesmåttet är medelvärdet, summan av alla värdena delat med antalet värden.
M = ( \sum_{n=1}^N x_n )/N
Medelvärdet ("mean" ¤) har dock nackdelen att det är ganska känsligt för några få extrema värden om vi skulle ha några sådana ("outliers"). Denna nackdel har två aspekter. För det första så kan värdet bli ett annat än det vi intuitivt skulle vilja ha att visa som ett enda sammanfattande värde för fördelningen av värden. T.ex., om vi har inkomstfördelningen i ett land och några få personer med extremt stora inkomster drar upp medelvärdet betydligt över vad nästan samtliga har för inkomst så (kanske?) vi inte ser medelinkomsten som ett intuitivt rimligt värde för att ge någon form av sammanfattning i ett enda tal av vad inkomst i landet är. Den andra nackdelen (inte uttryckligen nämnd av Conway) är att exakt vilket värde medelvärdet får i fall med extrema "outliers" blir också mycket känslig för förändringar i de exakta värdena på dessa outliers (två aspekter av samma sak). Därför använder man istället ibland typvärde eller medianvärde som lägesmått. Dessa är exempel på mer s.k. robusta lägesmått, d.v.s. lägesmått som inte är så känsliga för ytterliggare (inte känsliga för några få datapunkter mycket långt ut från resten av fördelningen). Typvärdet ("mode") är det värde där fördelningen har sitt största värde (i histogram med lika stora intervall: mittvärdet för det intervall som hade det största antalet träffar). Medianvärdet ("median") är det mittersta värdet i fördelningen (lika många högre värden som lägre värden, än medianvärdet (för udda antal värden, annars medelvärdet av de två mittersta värdena)).

Variansen är summan av kvadraterna på avvikelserna av alla värdena från medlevärdet, delat med antalet värden. Eller strikt talat, delat med antalet värden minus ett. Men som man säger, om du någonsin råkar i en situation där du gör statsitik på ett så litet sampel att det är någon avgörande skillnad mellan antalet värden i samplet och antalet värden i samplet minus ett -- då gör du i vilket fall som helst statistik på ett alldeles för litet sample och kommer att komma i problem oavsett exakt hur du gör dina beräkningar på det. Rent teoretiskt är det dock ganska vacker matematik i varför man skall dividera med antalet värden minus ett och inte bara med antalet värden, vi återkommer förmodligen till det i senare föreläsningar.
V = ( \sum_{n=1}^N (x_n - M)^2 )/(N-1)
Detta är ett slags mått på hur mycket fördelningen ""typiskt"" avviker från medelvärdet. Kvadreringen av skillnaden gör att både avvikelser nedåt och uppåt adderar positivt till summan med störe term ju större avvikelsen från medelvärdet är. För att få ett slags mått på bredden av fördelningen så tar vi kvadratroten av standardavvikelsen för att få ett värde av samma dimension som på värdena i fördelningen, den så-kallade standardavvikelsen SD=sqrt(V). (Så variansen är ett slags mått för kvadraten av bredden och standardavvikelsen ett slags mått för bredden.)

Notera att variansen är medelvärdet av de kvadratiska avvikelserna från medelvärdet (nästan, med den lilla skillnaden av att vi dividerar med N-1 istället för N). Men som vi diskuterade ovan så är medelvärdet något känsligt för ytterliggare, och därmed har också variansen denna nackdel. I själva verket är variansen ännu mera känslig för ytterliggare än medelvärdet eftersom vi kvadrerar. ("Kvadraten på ett stort tal är ett mycket stort tal" 10^2=100, 100^2=10000, etc. så några få ytterliggare långt utanför de värden som de allra flesta värdena har ger en ännu större påverkan på variansen och standardavvikelsen än på medelvärdet.) Huvudanledningen att vi kvadrerade avvikelserna från medelvärdet ovan var att få ett positivt värde för avvikelser både uppåt och nedåt från medelvärdet. Att kvadrera är den enklaste metoden för det, men inte den enda. Om vi har problem med ytterliggare skulle vi t.ex. kunna ta absolutbeloppet istället för att kvadrera. D.v.s. om ett värde är högre än vårt angivna lägesmått så adderar vi termen värdet minus lägesmåttet, men om värdet är lägre än det angivna lägesmåttet så adderar vi lägesmåttet minus värdet. Som mått på bredden av fördelningen skulle vi då kunna ta medelvärdet av absolutbeloppet av avvikelsen från lägesmåttet. Då har vi ett mått på bredden som åtminstone inte är mer känsligt för ytterliggare än medelvärdet. Men redan medelvärdet självt ansåg vi ju ibland vara för känsligt för ytterliggare. Så om medelvärdet är för känsligt för ytterliggare så är förmodligen medelvärdet av absolutavvikelserna det också. I det fallet kan man t.ex. välja att som sitt breddmått ta medianvärdet av absolutbelloppen av avvikelserna från lägesmåttet (lägesmåttet bör då tas som medianen). Detta är alltså ett (till skillnad från standardavvikelsen) robust breddmått. Ytterliggare en möjlighet är att ta: dels medianvärdet för avvikelsen från medianvärdet av de data som har värden högre än medianen, dels minus medianvärdet av avvikelsen från medianvärdet av de data som har värden lägre än medianvärdet. Medelvärdet av dessa två avvikelsemedianer för den övre och den nedre delan av fördelningen var för sig kan sedan tas som det sammanfattande robusta breddmåttet.Av flera olika anledningar är standardavvikelsen det oftast använda breddmåttet och ofta fungerar det bra. Men det är viktigt att vara medveten om denna svagheten av standardavvikelsen som breddmått att den är något känsligt för ytterliggare (mer så t.o.m. än medelvärdet) och vara vaksam på detta potentiella problem.

p'te ordnings moment hos fördelningen definieras som
Q_m = \sum_{n=1}^N (x_n)^p ,
eller om vi tar värdet relativt medelvärdet (för p > 1)
Q_m = \sum_{n=1}^N (x_n - M)^p ,
eller om vi också gör normalisering av enhetsskalan mot standardavvikelsen (för p>2)
Q_m = \sum_{n=1}^N ((x_n - M)/SD)^p .
För detta relativa normaliserade variabelmått inför Conway notationen "Z" (som jag fick intrycket var någon slags standradkonvention bland statistiker)
Z_n = (x_n - M) / SD (x_n = n'te variabelvärdet, M = medelvärdet, SD = standardavvikelsen),
så Q_m = \sum{n=1}^N Z_n ^p
och medelvärdet "på Z-skalan" är noll och standardavvikelsen ett.
Vi ser att medelvärdet är proportionellt mot första ordningens moment och variansen mot andra ordningens. Vi kan fortsätta och ta högre och högre ordningens moment som sammanfattningsstatistiker för våra data (ofta dock som i de två tidigare fallen, med några modifieringar som att dividera med (eventuellt ett något modifierat) antal värden i samplet och att som för variansen ta kvadratroten för att få standardavvikelsen som ett dimensionsriktigt breddmått). Problemen är dock dels att ju högre potens vi tar, dessto mer och mer känsliga blir vi för ytterliggare, dels att för de höga momenten är svårt att hitta någon bra intuitiv förståelse av dem (som ju är en viktig sak för en parameter som skall användas i en sammanfattande beskrivning av ens data). Man går därför ganska sällan högre än tredje ordnings moment, den s.k. "skew" (skevheten), och sällan högre än fjärde ordnings moment den s.k. kurtosis. Och ganska ofta inte högre än andra, varians/standardavvikelse. Och som vi såg, inte allför sällan vill vi inte ens använda första ordnings moment (medelvärde) eftersom redan det var för känsligt för ytterliggare.

För "skew" kan vi dock lätt finna en kvalitativ intuitiv tolkning, och om bara det inte finns för stark effekt av ytterliggare så kan den därför vara ett bra inslag i vår sammanfattningsstatistik. (x_n - M)^3 är positiv om värdet är högre än medelvärdet, och negativt om värdet är mindre än medelvärdet. Så om värdena är symmetriskt spridda omkring medelvärdet så kommer bidraget från fördelningshalvan ovaför medelvärdet att kanceleras av bidraget från fördelningshalvan under medelvärdet. Så "skew" kan vi ta som ett slags mått på hur osymmetrisk fördelningen är kring medelvärdet. Om vi har en längre svans uppåt än nedåt så blir skew positivt eftersom med potensen tre så ger de ganska få värdena högt upp i den positiva svansen ettt betydande positivt bidrag. Och på motsvarande sätt negativ skew för en fördelning med svans nedåt.

Ett alternativt, robust, mått på skevheten/asymmetrin i fördelningen kan fås från de två avvikelsemedianerna för data i övre och undre halvorna av fördelningen var för sig, som vi diskuterade ovan i samband med breddmåtten. Om fördelningen är symmetrisk så blir absolutvärdena av dessa två avvikelsemedianer lika stora, och eftersom de har olika tecken så blir medelvärdet av dem noll om fördelningen är symmetrisk. Om vi har en större svans i fördelningen uppåt, så blir medelvärdet av dem positivt. Så detta skevhetsmått har i detta samma kvalitativa egenskaper som "skew". Precis som för det motsvarande breddmåttet baserat på dessa två delavvikelsemedianer, så är detta robusta skevhetsmått i själva verket en ganska vanlig metod i praktiken, även här åtminstone indirekt, formulerad istället som att ange kvartilmåtten.

Ytterliggare en möjligthet att beskriva sina data är att ange en rankinglista för ens data. Vi anger olika punkter där en viss andel av antal datavärden har värden under värdet för denna punkt (och därmed andel 1 minus detta har värden större än värdet för denna punkt). Oftast väljer vi en skala med sådana andelar med lika stora steg mellan andelarna. D.v.s. lika många av data träffar i varje intervall. Så rankinglista är den modifiering vi talade om ovan som ett något modifierat histogram där vi inte har lika stora intervall i variabelvärdet, utan väljer varjet intervall så stort att varje intervall får lika många träffar. Ofta kallar vi dessa olika intervall för K-tiler. De vanligast förekommande värdena i praktiken verkar vara K=2, K=4, K=10 och K=100; s.k. bitiler, kvartiler, deciler respektive percentiler. Bitiler såg vi ovan som ett lägesmått: medianvärdet. Medianen är det värde där hälften av värdena ligger lägre än medianen och hälften högre. Ett datum ligger i undre bitil (övre halvan) om det har ett värde lägre än medianvärdet och i övre bitil (övre halvan) om det har ett värde större än medianvärdet. Om vi delar upp de två bitilerna i sin tur i två delar med lika många träffar i varje så har vi kvartiler. Första kvartilpunkten är det värde där en fjärdedel av det totala antalet datavärden har värde lägre än punkten och tre fjärdedelar värde högre. Et cetera. Så andra kvartilpunkten är medianen etc. Data som har värden högre än första kvartilpunkten och lägre än andra kvartilpunkten sägs ligga i andra kvartil, etc. Vi ser att första kvartilpunkten minus medianan respektive tredje kvartilpunkten minus medianen är just de delavvikelsemedianer för undre respektive övre halvan av fördelningen som vi såg ovan kunde användas som robusta breddmått respektive skevhetsmått på fördelningen (genom att ta medlevärdena av dem, med tecknet på den första omvänt för breddmåttet och inte omvänt för skevhetsmåttet). Så att ange kvartilerna är också likvärdigt med att ge en sammanfattningsstatistik som ger ett (robust) lägesmått, ett (robust) breddmått och ett (robust) skevhetsmått på fördelningen. Generaliseringen av rankinglistor till vilket K som helst är uppenbar. Conway talar speciellt varmt om percentiler (K=100). Dock är de oftast litet för många för att använda alla dem just som en sammanfattningsstatistik (tanken var ju att sammanfatta ens data i några få viktigaste tal). T.o.m. ofta litet för många för att överhuvudtaget ges bra av ett sample, man behöver mycket stora sampel för att ge percentiler utan att bruset skall bli för stort om man gör det direkt från sampledatat (bra att göra om man verkligen har så stora sampel att man kan ge percentilerna utan att det blir för brusigt, men då kanske mer som ett diagram (alternativ till vanligt histogram) än som en sammanfattningsstatistik). Men om vi använder en ranking av lägre upplösning (lägre K) så kan vi använda den för att anpassa parametrarna i någon formulerad fördelning (t.ex. en normalfördelning som är den enda Conway diskuterar och som ges fullständigt av två parametrar t.ex. medelvärdet och standardavvikelsen (de är de vanligaste parametrarna men det är ganska lätt att omvandla till andra parametrar t.ex. de robusta lägesmått och breddmått som ges av kvartilrankingen (för lägesmåttet är ju omräkningen trivial: medelvärdet är lika med medianvärdet för en normalfördelning!)), men motsvarande fungerar också på andra parameteriserade fördelningar med icke alltför stort antal parametrar). Med den användningen av datat har vi dock kommit ännu längre ifrån rent deskriptiv statistik.

Conway ger också i denna föreläsning en första introduktion till sannolikhet. Med dden är egentligen i litet kortaste laget för att faktiskt ge en god introduktion till det begreppet sannolikhet. Det han tar upp är endast s.k. likformig sannolikhetsfördelning. Här är sannolikheten lika stor för alla fall. Sannolikheten för varje möjligt värde på utfallet av en händelse lika med ett delat med antalet olika möjliga utfall. Men det är viktigt att påpeka att detta alltså gäller endast för just likformig sannolikhetsfördelning. (Och det är litet inkonsistent av Conway eftersom den sannolikhetsfördelning han koncentrerar föreläsningen på är normalfördelningen som ju inte är likformig. I en icke likformig sannolikhetsfördelning har vi olika sannolikheter för olika utfall. Dessutom är det exempel han tar upp en diskret sannolikhetsfördelning, de sex olika diskreta utfallen vid kast av en tärning t.ex. Men normalfördelningen är en kontinuerlig sannolikhetsfördelning. Här ger fördelningen sannolikheten inte för ett visst utfall utan för sannolikheten för att få ett utfall i ett litet intervall av värden till det angivna värdet. När man väl valt dessa små (och lika stora) intervall så har man gjort en diskret sannolikhetsfördelning av den kontinuerliga sannolikhetsfördelningen. Men det är ytterliggare ett steg som måste diskuteras.) Det är också viktigt att påpeka att han talar om "rena" okorrelerade sannolikhetsfördelningar. Sannolikheten är här likformig med lika stora sannolikheter för alla möjliga olika utfall i varje händelse, oavsett vilka utfall vi haft tidigare. De tidigare utfallen påverkar inte sannolikheterna för de senare utfallen, de olika händelserna har oberoende sannolikheter, och de olika händelserna är okorrelerade (diskussione av enkla korrelationer kommer i föreläsning 4). Ha detta bara i åtanke för nu, vi måste diskutera sannolikhet mer i detalj senare tror jag. Conways diskussion av sannolikhet här är endast en (för) kort första introduktion.



¤ Detta är ganska skojigt (anser Göteborgare i alla fall #), ty i engelska har ordet "mean" också betydelsen elak, så det går med litet kreativitet att göra riktigt dåliga ordvitsar.

# Om man kan dra slutsatser om individerna från medelvärdet.
"philosophy without science is blind, science without philosophy is lame" (tonyf)

tonyf
Inlägg: 2440
Blev medlem: sön 05 nov 2006, 23:57

Re: Studiecirkel: Statistics One

Inlägg av tonyf » ons 17 okt 2012, 02:43

föreläsning 4, korrelation


Conway börjar med att säga att korrelationer är:
1) En statistisk procedur använd för att mäta och beskriva förhållande mellan två variabler.
2) Korrelationer kan få värden i intervallet [+1,-1], där +1 är en visar en perfekt positiv korrelation och -1 en perfekt negativ korrelation.
Korrelationer kan användas i beskrivningsstatistik för att bara beskriva förhållandet mellan två variabler i ett sample, eller i slutledningsstatistik för att dra slutsatser om förhållandet mellan två variabler i en befolkning.

Det skall dock framhållas att i denna föreläsning så diskuterar Conway inte alla förekommande korrelationer. En korrelation är som framgår av namnet helt enkelt (olika mått på)(den relativa, eller normerade) samvariationen mellan två eller flera variabler (i ett sampel eller i en befolkning). I denna första föreläsning tar dock Conway inte upp alla olika korrelationer som finns. Den korrelation som Conway diskuterar i denna föreläsning är speciellt linjär korrelation mellan exakt två olika variabler, mätt med den s.k. Pearsons korrelationskoefficient, som alltså mäter (och endast mäter) linjär korrelation mellan bara ett par av variabler i taget. Men det är den enklaste och ofta (men inte alltid) också den viktigaste korrelationen, så det är den bästa korrelationskoefficienten att starta med för att börja lära sig om korrelation. Andra mer komplexa korrelationskoefficienter kan mäta olinjära korrelationer eller korrelationer mellan tre eller flera variabler. Om alla korrelationer är noll så varierar variablerna oberoende av varandra. Om Pearssons korrelationskoefficient är skillt från noll för något par av variabler så varierar dessa två variabler beroende av varandra (d.v.s. "delvis beroende" av varandra (såvida inte korrelationskoefficienten är lika med +1 eller -1 i vilket fall de varierar "endast beroende av varandra" (eller om all annan variation än den som beskrivs av en linjär korrelationskoefficient till absolutbeloppet mindre än ett är olinjär samvariation i vilket fall de också "varierar endast beroende av varandra"))). Om Pearsons korrelationskoefficient är noll så varierar dessa två variabler linjärt oberoende av varandra, och det finns då en chans att de varierar oberoende av varandra men det är inte säkert ty det kan finnas en olinjär samvariation mellan dem som inte visas av Pearsons korrelationskoefficient. Och som alltid måste man vara medveten om skillnaden mellan sampel och befolkning, korrelationskoefficienten för samplet visar (som andra statistiker) korrelationen för befolkningen plus statistiskt brus från samplingsprocessen.

Att perfekt korrelation motsvarar ett absolutbelopp på korrelationskoefficienten av just 1 är en konventionssak av hur korrelationskoefficienten är definierad. Man skulle kunna valt någon annan konvention där något annat värde motsvarat perfekt korrelation, men ett är enklast och (förmodligen därför) den konvention som valts. Att en normeringskonvention där (+ eller -) 1 motsvarar perfekt samvariation gör det ju också lätt att intuitivt förstå vad korrelationskoefficienten betyder.

Conway hävdar sedan att styrkan från en korrelation i att kunna användas för att göra förutsägeler beror på hur stark korrelationen är, med starkare korrelation (större absolutbelopp på värdet av korrelationskoefficienten) ger säkrare möjlighet att kunna göra förutsägelser utifrån den. Men det kan vara mer komplicerat än så, här som på många andra ställen så måste man nog ta vad Conway säger på föreläsningarna "med stora skopor salt". Men även om det finns undantag när vi kan göra säkra förutsägelser även om denna korrelationskoefficient är till absolutbeloppet liten, så gäller åtminstone att om den är stor (nära ett) så kan vi göra säkra förutsägelser. Men detta återkommer vi till senare. Däremot gäller definitvit som Conway säger att den beroer på tillförlitligheten och giltigheten hos variablerna och samplingen och många andra antaganden.

Conway ger två introduktionsexempel. Det första är korrelation mellan arbetsminnesförmåga och resultat på USA's högskoleprov SAT för studenter som kommit in på ett visst högprestigeuniversitet i USA. Först visar han en s.k. "scatterplot" av datapunkterna i samplet. Denna visar en prick i diagrammet med arbetsminnesförmåga på abskissan och SAT-resultat på ordinatan, för varje datapar i samplet. Man ser tydligt med ögonmått en inte mycket stark men ändå tydlig positiv korrelation; datapunkter med större arbetsminnesförmåga tenderar att ha högre SAT-resultat. Notera att eftersom detta inte är ett kontrollerat experiment så kan vi inte från denna studie dra några starka slutsatser om vad det är för kausal mekanism som gör att vi har denna korrelation. Det skulle kunna vara att bättre arbetsminne underlättar att få bättre resultat på högskoleprovet eller att skriva bra resultat på högskoleprovet tenderar att förbättra arbetsminnet eller att det finns någon tredje underliggande faktor som tenderar att förbättra både arbetsminnet och förmågan att skriva bra resultat på högskoleprovet. Men från studien kan vi konstatera att minst en av dessa kausala mekanismer måste finnas (såvida inte korrelationen råkade vara en ren slumpeffekt hos just vårt sampel som inte motsvarar en verklig korrelation hos befolkningen). Om man anpassar en rät linje att så bra som möjligt beskriva alla datapunkterna i samplet så har denna positiv lutningskoefficient vilket visar den positiva korrelationen mellan dessa två variabler. (I exemplet är korrelationskoefficienten +0,22, lutningskoefficienten (d.v.s. hur många enheter linjen ökar på SAT-skalan om värdet på arbetsminnesförmågan ökar 1 enhet) är högre vilket beror på att de har olika normeringar via standardavvikelserna. Det enda enkla sambandet mellan lutningskoefficient för rät linje som data ligger spritt kring och korrelationskoefficienten är just att de har samma tecken. Absolutbeloppet på korrelationskoefficienten visar hur väl samlat kring linjen som datapunkterna ligger, där (+ eller -) 1 visar att alla punkter ligger direkt på linjen. Men detta återkommer vi till endast i senare föreläsningar när vi skall studera sådan linjeanpassning av data.) Punkterna sprider dock tämligen vitt kring linjen. Denna korrelation är mindre än vad man brukar få vis sådanana här studier. Det beror förmodligen på att det är en studie av studenter antagna till ett högprestigeuniversitet, en stor andel ligger nära högsta möjliga värdena, och samplet är inte representativt för befolkningen i stort. Men förhoppningsvis representativt för befolkningen av studenter på just detta universitet. Så från denna studie kan det vara rättfärdigat att försöka dra slutsatser om befolkningen av studenter på just detta universitet, men man skall passa sig att från denna studie försöka dra slutsatser om befolkningen i stort. Det andra introduktionsexemplet är intelligenstestet ASVAB som USA's militär använde för att ta ut officersaspiranter när USA gick in i första världskriget. Detta test var tänkt att mäta "native intellectual ability", vad det nu kan tänkas vara, men en aspekt av det skulle vara att testet skulle vara kulturoberoende. Senare forskning visade dock att testet i själva verket var kulturellt biaserat. Detta kan studeras genom att mäta hur bra det gick för de olika officersaspiranterna och se hur deras framgång korrelerar till det resultat de fick på ASVAB och om denna korrelation är lika eller olika för officersaspiranter med olika kulturell bakgrund (var ASVAB lika bra eller olika bra på att prediktera hur bra officerare aspiranter med olika kulturell bakgrund faktiskt blev). (Ett tredje introduktionsexempel är baseboll så det hoppar jag över.)

Korrelationskoefficienten (här som alltid innan vi kommit till andra slags korrelationskoefficienter: Pearsons korrelationskoefficient) kan vi beräkna från summan av korsprodukterna av avvikelserna från respektive medelvärde (kortfattat kallat korsproduktsumman SP ("sum product"))
SP_{xy} = \sum_{n=1}^N (x_n - M_x)*(y_n -M_y)
(summan från och med n=1 till och med n=N (där n är index som numrerar de olika individuella utfallen och N är totala antalet utfall (totala antalet datapar i vårt sampel)) av: (värdet av x-variabeln för utfall nummer n, minus medelvärdet för x) gånger (värdet av y-variabeln för utfall nummer n, minus medelvärdet för y))
Vi kan kvalitativt delvis förstå hur denna summa av korsprodukter mäter samvariation av de två variablerna. Om y tendrar att vara stor då x är stor och y liten då x är liten, så tenderar termerna att bli positiva, och summan blir positiv och visar på en positiv korrelation. Om y tenderar att vara liten då x är stor och y stor då x är liten, så tenderar termerna att vara negativa, och summan blir negativ och visar på en negativ korrelation. Om däremot de två variablerna är okorrelerade och y lika kan gärna vara stor (positivt bidrag till summan) som liten (negativt bidrag) då x är stor, och y lika gärna stor (negativt bidrag) som liten (positivt bidrag) då x är liten, så kancellerar de negativa termerna de positiva i summan, och korsproduktsumman blir noll eller nästan noll. Korsproduktsumman dividerat med N-1 kallas ibland kovariansen ("cov"). Men för att få ett mått som visar endast relativa genomsnittliga spridningen från en rät linje utan att visa på vilken skala någon variabel är mätt eller hur starkt linjen lutar så måste vi normalisera med hur mycket variablerna sprider var för sig.

Pearsons korrelationskoefficient mellan variablerna x och y, r_{xy}, definieras därför som: (korsproduktsumman) delat med ((kvadratroten av kvadratsumman av x's avvikelse från dess medelvärde) gånger (kvadratroten av kvadratsumman av y's avvikelse från dess medelvärde)),
r_{xy} = \sum_{n=1}^N (x_n - M_x)*(y_n -M_y) /
( sqrt( \sum_{n=1}^N (x_n - M_x)^2)* sqrt( \sum_{n=1}^N (y_n - M_y)^2) )
Men standardavvikelsen för x är
s_x = sqrt( \sum_{n=1}^N (x_n - M_x)^2 /(N-1))
(och motsvarande för y), så
r_{xy} = SP_{xy}/(s_x * s_y *(N-1)) = cov_{x,y}/(s_x * s_y)
där cov_{x,y}=SP_{xy}/(N-1) är kovariansen mellan x och y.
Korrelationskoefficienten är alltså kovariansen delat med de båda standardavvikelserna.
Vi kallade de normaliserade utfallen för "Z-värden",
Zx_n = (x_n - Mx)/s_x,
Zy_n = (y_n -My)/s_y,
så om vi beräknar korrelationskoefficienten från dem
r_{xy} = \sum_{n=1}^N ( (x_n -Mx)/s_x * (y_n -My)/s_y )/(N-1) =
= \sum_{n=1}^N (Zx_n * Zy_n)/(N-1) ,
så får vi alltså korrelationskoefficienten direkt som korssumman av de normaliserade utfallen.

Notera att kovariansen ges av en summa kvadratisk i variabelvärden, av i princip samma form som variansen. Kovariansen, och därmed Pearsons korrelationskoefficient, är därmed precis som variansen och standardavvikelsen, icke robusta statistiker, de är känsliga för "ytterliggare" (några få värden långt utanför de allra flesta värdena).

Conway ger följande tre vilkor som han uppger skall vara uppfyllda för att en korrelationsanalys skall vara giltig:
1) De två variablerna (här kallade x och y) skall vara normalfördelade.
2) Vi skall ha en linjär relation mellan x och y.
3) Spridningen skall vara homoskedastisk ("homoskedasticity").
1) Variablerna behöver inte vara normalfördelade för att Pearsons korrelationskoefficient skall vara ett giltigt mått på den linjära parkorrelationen mellan x och y. Dock är många statistiska analysmetoder som används i praktiken baserade på antagande om normalfördelning, så man måste se upp för vilka analysmetoder man använder. Och om man använder någon metod som baseras på normalfördelning så måste man kontrollera att ens data verkligen är ungefärligen normalfördelat. Det första är som sagt att Pearsons korrelationskoefficient är känslig för ytterliggare. Normalfördelningen avtar mycket snabbt i svansarna, så ytterliggare är extremt osannolika om ens data verkligen är normalfördelat. Om den underliggande befolkningen verkligen är normalfördelad och man ändå har ytterliggare i ens sampel så visar det att genom en olycklig slump så har man råkat få ett icke representativt sampel (kan hända genom en olycklig slump även om ens data faktiskt är normalfördelat och ens sampling-metod är representativ (skall "statistiskt sett" ge representativa sampel), även om det är extremt osannolikt), och slutsatser baserade på Pearsons korrelationskoefficient (eller andra ickerobusta statistiker) riskerar bli missvisande. Om det ickenormalfördelat på ett sådant sätt att man har ytterliggare så är det stor risk att slutsatser baserade på Pearsons korrelationskoefficient (eller andra ickerobusta statistiker) blir missvisande. Men alla avvikelsder av ens fördelning från normalfördelat (även andra avvikelser än ytterliggare) riskerar naturligtvis att göra slutsatser som antar normalfördelning missvisande. Pearsons korrelationskoefficient i sig själv är inte egentligen baserat på något antagande om normalfördelning, men många metoder som i sin tur använder den är det. Andra metoder som använder Pearsons korrelationskoefficient är dock giltiga även för icke normalfördelade data, och kan säkert användas åtminstone för icke normalfördelningar som inte innehåller ytterliggare. Men även metoder som är baserade på antagande om normalfördelning fungerar ibland "hyffsat" även för icke normalfördelat data, bara inte avvikelsen är i form av ytterliggare. Men man bör då vara uppmärksam på att man gjort en approximation i sin analys. Man kan (och bör) kontrollera att ens data är ungefärligen normalfördelat genom att rita histogram och se att det åtminstone för ögonmått (rita också en normalkurva i samma diagram för jämförelse) ser approximativt normalfördelat ut. Men för x och y enbart var för sig som Conway verkar mena är nog inte idealt, om man är ute efter linjära korrelationer. Ofta kan det vara bättre att först dra bort det linjär bidraget från (t.ex.) x till y innan kontrollen (ersätt de ursprungliga y-värdena med ett modifierat y-värde där bidraget från den räta linjen för det motsvarande x-värdet har dragits bort). Sedan kan (och bör) man också beräkna "skew" och "curtosis" (för x och för modifierat y) och se att man inte har mycket "skew" eller "curtosis". I en del fall här spelar dock nog inte x-värdena så stor roll, det viktiga är de modifierade y-värdena, men det beror på vad det är för typ av analyser vi är ute efter att göra.
2) Pearsons korrelationskoefficient kan mäta den linjära parkorrelatione mellan de två variablerna i variabelparet. Men om vi har också olinjära korrelationer så mäter naturligtvis inte Pearsons korrelationskoefficient den totala korrelationen mellan variablerna. Detta måste man vara uppmärksam på. Kvalitativt kan man upptäcka olinjära parkorrelationer genom att rita de två variablerna i en "scatterplot" (eller t.ex. tvådimensionella histogram med t.ex. färgkod för frekvensen). Om prickarna i "scatterplotten" är spridda ungefär längsmed någon kurva som inte är en rät linje så har man förmodligen en olinjär parkorrelation mellan dessa två variabler. (På motsvarande sätt kan man i princip upptäcka korrelationer mellan tre variabler genom att rita de tre variablerna i en tredimensionell "scatterplot". Detta är dock svårt i praktiken (eftersom papper och dataskärmar är tvådimensionella (förhoppningsvis kommer snart äkta tredimensionella dataskärmar, t.ex. holografiska, för närvarande får man nöja sig med projektioner av det tredimensionella diagrammet ned till två dimensioner vilka kan vara mycket svårtolkade, eller i bästa fall (för nu) två olika projektioner ned till två dimensioner, ett till vardera ögat som ger en stereografisk "kvasitredimensionell" bild, som fortfarande kan vara svårtolkad även om det är åtminstone bättre än endast en projektion)).)
3) Homoskedastisk betyder ungefär att spridningen av linjärt korrelerade data i "scatterplot" är lika bred längsmed hela den räta linje som prickarna i plotten ungefär är spridda längsmed. Pearsons korrelationskoefficient i sig själv är väldefinierad både för homoskedastiska och heteroskedastiska fördelningar. Men en hel del enkla statistiska metoder bygger på antagande av homoskedaticitet, så detta måste man se upp med. Man kan (och bör) göra en första grov kontroll genom att kontrollera att ens data är ungefärligen homoskedastiskt fördelade med ögonmått i en "scatterplot" (att den statistiska fördelningen av data har ungefär samma bredd längsmed hela den räta linjen för linjärt korrelerade data).

Att en statistisk analys är tillförlitlig innebär att den statistik vi fick från stickprovet (samplet) verkligen säger något om befolkningen och inte bara är en statistisk fluktuation som råkade komma in i just det stickprov som vi råkade få. T.ex. att den korrelationskoefficient vi räknade ut i vårt sampel verkligen motsvarar en samvariation hos variablerna i befolkningen och inte bara råkar vara en slumpmässig korrelation i just det sampel vi råkade få vid detta tillfälle (om den var skilld från noll, annars att den nollkorrelation vi mätte verkligen motsvarar ickesamvarierande variabler i befolkningen). Men motsvarande gäller naturligtvis inte bara för korrelationskoefficieten utan för alla statistiker.

En metod för att bedömma om ett resultat är tillförlitligt är att göra en s.k. nollhypotesstatistiktestning. En nollhypotes är här en förutfattad modell av hur det är. Säg t.ex. att för att testa tillförlitligheten av om en korrelation uppmätt i vårt stickprov verkligen motsvarar en korrelation i befolkningen, vår förutfattade modell är att det inte finns någon korrelation . (Observera alltså att korrelationen i vår nollhypotes här är noll, är just bara ett exempel. Vår förutfattade mening om korrelationen i befolkningen skulle i princip kunnat vara vilket värde som helst (i intervallet [-1,1]), den råkar bara vara just nollkorrelation i just det exempel på nollhypotes som Conway här använder. Men samtidigt får jag av Conways framställning en gnagande oro att [psykologer?] litet slentrianmässigt antar just nollkorrelation som nollhypotes. Oavsett vilket, i detta exempel så bara accepterar vi nollkorrelation som noillhypotes.) Om vår förutfattade modell vore riktig, så skulle då vår uppmätta (nollskillda) korrelation i vårt stickprov vara bara en rent slumpmässig avvikelse. Vi kan beräkna sannolikheten för att ur en sådan befolkning med nollkorrelation, vi med en sådan statistisk metod som vi faktiskt använt skulle få ett sampel med minst ett så nollskillt värde på korrelationen som vi faktiskt fick (om vi mätte positiv korrelation: sannolikheten för att få en korrelation större än eller lika med det värde vi mätte i vårt sampel, om vi mätte negativ korrelation: sannolikheten att få en korrelation mindre än eller lika med det värde vi mätte i vårt sampel). Detta sannolikhetsvärde kallas ibland kortfattat (alltför kortfattat) för "p-värdet".

Om "p-värdet" är ganska högt så är det alltså ganska sannolikt att vi skulle få minst ett så nollskilt värdet på korrelationskoefficienten i vårt sample som vi nu fick, trots att den faktiska korrelationen i befolkningen är noll. Så om vårt beräknade "p-värde" blir högt, så överger vi förmodligen inte vår förutfattade modell (vår nollhypotes) till fördel för att istället tro att korrelationen i vår befolkning vore den vi mätte i vårt sampel. Utan vi fortsätter att även efter vår studie tro att korrelationen i befolkningen förmodligen är noll, trots att vi mätte ett nollskilt värde i vårt stickprov.

Om "p-värdet" är lågt så är det osannolikt att vi skulle fått ett så nollskilt värde som vi nu fick om korrelationen i befolkningen varit noll. Så om vårt beräknade "p-värde" blir lågt, så överger vi förmodligen vår förutfattade mening om att korrelationen i befolkningen skulle vara noll till fördel för att istället tro att den är ungefär det värde vi mätte i vårt sampel.

p-värdet är alltså = P(D|H_0), där "P" betecknar sannolikhet (för det som står i parentesen efter P), "D" betecknar vårt data, "|" betecknar "givet att [det som står efter det vertikala strecket]", "H_0" betecknar nollhypotesen. "P(D|H_0)" betecknar alltså "sannolikheten att vi skulle få det data D vi faktiskt fick, givet att nollhypotesen H_0 vore sann". Men det är alltså egentligen inte det vi egentligen menar, utan "sannolikheten att vi skulle få det data D vi faktiskt fick eller ännu starkare korrelerat (av samma tecken på korrelationen), givet att nollhypotesen H_0 vore sann". (Vi måste välja ett intervall av värde (här mellan [+ eller -] 1 och det r-värde vi faktiskt mätte), ty sannolikheten för att få ett visst exakt värde i en kontinuerlig fördelning är noll.)

Denna form av nollhypotesstatistisktestning för tillförlitlighet är ganska vanlig i praktiken. Men inte den enda varianten man skulle kunna använda, och inte nödvändigtvis den bästa. Denna typ av tillförlitlighetstestning är visserligen ganska mycket använd i praktiken, men också mycket kontroversiell. En annna möjlighet skulle t.ex. kunna vara att istället för att titta på sannolikheten för att få det värde vi fick givet att nollhypotesen vore sann (P(D|H_0)), att se hur sannolik nollhypotesen skulle vara givet att vi fick det data vi fick (P(H_0|D), men observera att på motsvarande sätt som i den "traditionella" p-värdestestningen så måste vi titta på sannolikheten för intervall, sannolikheten för att korrelation i befolkningen skulle vara exakt noll givet att vi mätte exakt den korrelation vi mätte i vårt sampel är exakt noll, eftersom sannolikheten för ett visst exakt värde i en kontinuerlig fördelning är noll). Observera också den stora bristen i dessa metoder att endast testa en didoketemi, vi förutsätter från början endast två olika alternativ. Men även med sina brister, det är viktigt att göra åtminstone något test av statistisk tillförlitlighet (och att som alltid redovisa tydligt vad det är man gjort).

Förutom att vara linjär och för ett par av variabler, så är just denna Pearsons korrelationskoefficient som vi behandlat här för fallet att både "x-variabeln" och "y-variabeln" är kontinuerliga variabler. Men förutom att vi i princip kan generalisera korrelation till olinjära korrelationer och till korrelationer mellan fler än två varibler åt gången, så kan vi i princip också generalisera korrelation till fall där en eller fler av variablerna är diskreta. Men här i en statistisk grundkurs så kommer vi huvudsakligen att koncentrera på den enkla Pearsons korrelationskoefficient.
"philosophy without science is blind, science without philosophy is lame" (tonyf)

Användarvisningsbild
NeuraltNätverk
Avstängd
Inlägg: 6039
Blev medlem: lör 04 jul 2009, 23:30
Ort: in der Bunkeranlage

Re: Studiecirkel: Statistics One

Inlägg av NeuraltNätverk » ons 17 okt 2012, 07:22

Pearsons korrelationskoefficient är en effektstorlek. Lite mer om effektstorlekar och praktisk signifikans vore välkommet. Cohens d, åtminstone.

Englund
Inlägg: 871
Blev medlem: sön 06 feb 2011, 12:14
Ort: Borås

Re: Studiecirkel: Statistics One

Inlägg av Englund » ons 17 okt 2012, 14:33

Svenskans motsvarighet till a statistic är statistika.
Nu är då och framtiden är för alltid!

Användarvisningsbild
Moridin
Avstängd
Inlägg: 16253
Blev medlem: tor 10 jan 2008, 11:32

Re: Studiecirkel: Statistics One

Inlägg av Moridin » ons 17 okt 2012, 17:16

Men samtidigt får jag av Conways framställning en gnagande oro att [psykologer?] litet slentrianmässigt antar just nollkorrelation som nollhypotes.
Det har drabbat i princip alla fält som använder NHST. Att använda nilhypotesen som nollhypotesen är korkat, även om vi antar NHST paradigmet. Så du har, om vi gör antagandena som NHST paradigmet gör, visat att det är falskt att säga att effektstorleken är noll. Men vi vet a priori att den allra största majoriteten av nilhypoteser är falska (det finns alltid någon effektstorlek, eller analogt någon skillnad mellan grupper). Mer korrekt är att använda en korrelation som vi anser är praktiskt signifikant i den biologiska eller psykologiska kontexten.
Om vår förutfattade modell vore riktig, så skulle då vår uppmätta (nollskillda) korrelation i vårt stickprov vara bara en rent slumpmässig avvikelse. Vi kan beräkna sannolikheten för att ur en sådan befolkning med nollkorrelation, vi med en sådan statistisk metod som vi faktiskt använt skulle få ett sampel med minst ett så nollskillt värde på korrelationen som vi faktiskt fick (om vi mätte positiv korrelation: sannolikheten för att få en korrelation större än eller lika med det värde vi mätte i vårt sampel, om vi mätte negativ korrelation: sannolikheten att få en korrelation mindre än eller lika med det värde vi mätte i vårt sampel).
Det stämmer att p värde är P(D|H0) där D är data eller mer extrem data, men detta är inte en skattning på sannolikheten att resultatet är en rent slumpmässig avvikelse. När vi beräknar p värde antar vi att nollhypotesen är korrekt, alltså att 100% av alla avvikelser beror på slump. Detta kan givetvis inte användas för att avgöra hur sannolikt det är att data är ett resultat av samplingfel; vi har redan antagit att den risken är 1.
Så om vårt beräknade "p-värde" blir högt, så överger vi förmodligen inte vår förutfattade modell (vår nollhypotes) till fördel för att istället tro att korrelationen i vår befolkning vore den vi mätte i vårt sampel. Utan vi fortsätter att även efter vår studie tro att korrelationen i befolkningen förmodligen är noll, trots att vi mätte ett nollskilt värde i vårt stickprov.
Nej, misslyckandet att uppnå statistisk signifikans medför inte att nollhypotesen är sann / sannolik (t. ex. kan urvalsstorlek kan vara låg). Det betyder endast att data eller mer extrem data som är sannolik på nollhypotesen, vilket inte är samma sak.
Either you believe evidence that can be tested, verified, and repeated will lead to a better understanding of reality, or you do not. - Michael Specter
|AIDSTruth | Evidens för makroevolution | Skeptical Science|

Skriv svar