Dagens ord


Ansvar väger tyngre än frihet - Responsibility trumps liberty

22 jan. 2014

Slantsingling, signifikansnivåer och hypotesprövning

Denna text baseras på Olle Häggströms artikel Statistisk signifikans och Armageddon, publicerad i tidskriften Nämnaren (nr. 1 2013).


Under momentet Logik på kursen Naturvetenskap+ tar vi bl.a. upp korrelation och kausalitet; samt implikationer och grundläggande satslogik. Innan du, som elev, läser nedanstående text bör du också ha läst min text om kombinatorik, och deltagit vid den föreläsning som här sammanfattas.


Vi ska nu ägna åt oss följande fråga:


Om vi kastar ett mynt 10 gånger, och får 2 klave och 8 krona, vad kan vi då säga om sannolikheten för att myntet är jämnt balanserat?



Sannolikheten för varje tänkbar sekvens av kast är (1/2)^10.

Detta innebär att för varje sekvens som innehåller exakt 1 klave (eller 2, eller 3, o.s.v.) är sannolikheten också (1/2)^10.

Hur många olika sekvenser med exakt 1 klave finns det? Svaret på den frågan är detsamma som på frågan: "På hur många sätt kan man välja ut ett av tio tal?" (Alltså 10.)

Hur många olika sekvenser med exakt 2 klave finns det? Svaret på denna fråga är detsamma som på frågan: "På hur många sätt kan man välja ut två tal av tio, utan hänsyn till ordning".

Svaret på denna fråga kan skrivas C(10, 2) och hur man räknar ut det kan du läsa om här. (*) (Svaret är 45.)


Alltså: Sannolikheten för att få exakt k stycken klave vid 10 kast, utan hänsyn till var i kastsekvensen de förekommer, är:

p = (1/2)^10 * C(10, k)



Om man nu räknar ut denna sannolikhet, för varje värde på k (0-10), och ritar ett stapeldiagram, så får man en illustration av binomialfördelningen med parametrarna 1/2 respektive 10.

Av detta diagram framgår att sannolikheten för de olika utfallen är ungefär:

0: 0,001
1: 0,010
2: 0,044
3: 0,117
4: 0,205
5: 0,246

...och symmetriskt för = 6, k = 7, o.s.v.



För att ta ställning till vår inledande fråga pratar vi om signifikans.

En standardnivå är p < 0,05. Vad innebär det egentligen? För att få en uppfattning om det kan du rita upp en normalfördelningskurva. Ungefär 5% av alla mätvärden kommer att ligga minst två standardavvikelser ifrån medelvärdet. (På motsvarande sätt kan man prata om sannolikheten för att ett stickprov har samma medelvärde som populationen ur vilken det är draget.)

Av tabellen ovan framgår att p = 0,044, alltså p < 0,05, för exakt 2 klave. Sannolikheten för just detta utfall är alltså mindre än den standardgräns man brukar sätta upp för att bedöma resultat som liggande inom förväntade värden.



Men vänta! Ska vi verkligen bara fokusera på utfallet exakt 2 klave? Nej, vi måste också ta hänsyn till de ännu mer extrema utfallen när = 0 eller = 1. Vilken är sannolikheten för att vi får högst 2 klave? Jo, den är 0,044 + 0,010 + 0,001 = 0,055, alltså större än vår standardgräns, p = 0,05.


Och vänta! Det räcker inte. Vi måste också räkna med de utfall då vi får minst 8 klave. De är ju lika extrema. Och eftersom fördelningen är symmetrisk får vi till slut:

p = 0,055 * 2 = 0,110 för en kastserie som är minst lika extrem som den i vilken vi fick just 2 klave. (**)

p är nu alltså större än gränsen 0,05, vilket, enligt gängse normer leder oss att dra slutsatsen att utfallet ligger inom gränserna för det som rimligen kan förväntas.


Men vänta! Betyder detta att vi kan dra slutsatsen att myntet är jämnt balanserat? Nej! Det vi har räknat ut är helt enkelt sannolikheten för att det som hände faktiskt skulle hända, givet att myntet är balanserat. Den är ganska låg, men icke desto mindre: Om myntet är balanserat kommer vi att få 2 (eller färre; eller 8 eller fler) klave i ungefär en av tio kastsekvenser. Och även om myntet är obalanserat (ja, t.o.m. om det är konstruerat för att ofta landa på just klave) kommer en sådan sekvens att inträffa då och då!


Och vänta! Om vi bara hade fått 1 (eller 0; eller 9 eller 10) klave, med en sannolikhet på 0,022, alltså mindre än 0,05, hade vi kunnat säga att myntet inte är balanserat? Nej! Vi kan bara säga att om myntet är balanserat, så har vi bevittnat  en relativt ovanlig händelse. Och ovanliga händelser inträffar  faktiskt också ibland!


Och vänta! (Och här kommer det viktigaste för fortsättningen.) Vad är det egentligen vi har räknat ut? Jo, sannolikheten för händelsen givet nollhypotesen, d.v.s. sannolikheten för att få högst 2 klave (eller något minst lika extremt), givet att myntet är balanserat. Vad kan vi säga om det omvända, sannolikheten för att myntet är balanserat, givet det utfall vi faktiskt fick? Inte så mycket! På sin höjd kan vi säga att resultatet inte ger ett särskilt starkt stöd för antagandet att myntet är balanserat.


Vi måste alltså vara noga med att skilja på p(D | H) och p(H | D).

Med andra ord, vi måste skilja på (a) sannolikheten för att erhålla den data vi faktiskt observerade, givet att hypotesen - i det här fallet att myntet är balanserat - är sann; och (b) sannolikheten för att hypotesen är sann, givet de data vi erhöll.


Traditionell (frekventistisk) statistisk behandling av forskningsresultat ger aldrig svar på hur sannolik forskningshypotesen är!

...men det är det man tror, eller hur?


För att kunna beräkna p(H | D) - som ju ofta är det vi egentligen vill - måste man i stället använda Bayesiansk sannolikhet, vilket vi kommer att titta på härnäst. (Men den har sina egna problem...)



---

(*) I stället för att skriva C(n, k) använder man ofta den här notationen, vilken uttalas "n över k":



(**) Och därmed når vi också den "snällare" signifikansnivån p = 0,1.

Inga kommentarer:

Skicka en kommentar