Dagens ord


Ansvar väger tyngre än frihet - Responsibility trumps liberty

26 juli 2012

Bayesiansk sannolikhet, så enkelt som möjligt


I en stad kör två taxibolag, Grön och Blå. Grön står för 85 % av alla körningar i staden och Blå för 15 %. En natt sker en smitningsolycka i staden, där en oidentifierad taxibil är inblandad. Ett ögonvittne träder fram och säger att bilen var blå. Polisen undersöker vittnets trovärdighet och kommer fram till att vittnet under aktuella omständigheter korrekt anger färgen på en grön eller blå taxibil i 80 % av fallen.

Hur stor är sannolikheten att bilen som var iblandad i olyckan tillhör bolag Blå?

Sannolikheten kan uttryckas som kvoten mellan de fall då vittnet korrekt säger att bilen var blå och alla fall då vittnet säger att bilen var blå.

Låt oss anta att det finns 100 bilar i staden. 85 av dessa är gröna och 15 är blå. Om var och en av dessa bilar passerar förbi vittnet, i slumpmässig ordning, hur många gånger kommer vittnet då att säga sig se en blå bil?

När en blå bil passerar kommer vittnet att korrekt ange att dess färg är blå i 80 % av fallen. Totalt 15 blå bilar passerar vittnet, och 0,8 * 15 = 12 av dessa kommer att förorsaka vittnet att korrekt säga sig ha sett en blå bil.

När en grön bil passerar kommer vittnet att i 20 % av fallen felaktigt säga att bilen är blå. Totalt 85 gröna bilar passerar vittnet, och 0,2 * 85 = 17 av dessa kommer vittnet att felaktigt identifiera som blå.

Hur många gånger, totalt, kommer vittnet att säga att en bil är blå? 12 + 17 = 29 gånger. Av dessa kommer vittnet att ha rätt 12 gånger.

Svaret på frågan är alltså: 12 / (12 + 17) = 12 / 29 ≈ 0,41. Alltså 41 %.

Trots att vittnet med 80 % tillförlitlighet säger att bilen som var inblandad i olyckan är blå, är det alltså troligare att den faktiskt är grön. Anledningen är att andelen gröna taxibilar i staden är mycket större än andelen blå bilar.


Det här är ett exempel på Bayesianskt resonemang.  Det används då man måste justera tidigare  förväntningar utifrån ny information.

I avsaknad av ett ögonvittne skulle ett rimligt svar på frågan ha varit 15 %. Vittnets utsaga ger oss anledning att tro att sannolikheten är större. Men vi kan inte ersätta den information vi har sedan tidigare med den nya informationen. Vi måste jämka samman de två källorna. Vi inser att vittnets utsaga ger oss anledning att ange en högre sannolikhet än tidigare. Men vi har inte anledning att tro att sannolikheten nu är 80 %. Vittnet ger oss ny information, men vi kan inte bortse från den information vi har sedan tidigare.

Bayes regel beskriver hur vi ska gå tillväga för att väga samman gammal och ny information. Den ser ut så här:

P(A | X) = P(X | A) * P(A)  /  ( P(X | A) * P(A)  +  P(X | ~A) * P(~A) )

Vad betyder detta?

P(A | X) står för sannolikheten för händelse A, givet X. I exemplet motsvarar A att bilen är blå, och X att vittnet säger att bilen är blå. P(A | X) utläses alltså som "sannolikheten att bilen faktiskt är blå, när vittnet säger att den är blå". Det är denna sannolikhet vi är ute efter.

P(X | A) utläses som "sannolikheten att vittnet säger att bilen är blå, när den är blå". P(A) står för sannolikheten att bilen är blå. Multiplikationen av P(X | A) och P(A) står då för "sannolikheten för att vittnet säger att bilen är blå och att bilen är blå". I exemplet motsvarar detta antalet gånger vittnet korrekt utpekar en bil som blå.

P(X | ~A) utläses som "sannolikheten att vittnet säger att bilen är blå, när den inte är blå". P(~A) står för sannolikheten att bilen inte är blå. Multiplikationen av P(X | ~A) och P(~A) står då för "sannolikheten för att vittnet säger att bilen är blå och att bilen inte är blå". I exemplet motsvarar detta antalet gånger vittnet felaktigt utpekar en bil som blå.

Summan av dessa två produkter motsvarar alltså "sannolikheten att vittnet säger sig ha sett en blå bil - oavsett om bilen är blå eller grön". I exemplet motsvaras detta av alla gånger vittnet säger sig ha sett en blå bil.

Regeln säger alltså att vi ska dividera det antal gånger som vittnet korrekt säger sig ha sett en blå bil med alla de gånger vittnet säger sig ha sett en blå bil.


I exemplet utgick vi för enkelhets skull ifrån att det fanns exakt 100 taxibilar i staden. Om vi nu i stället räknar med andelar och direkt använder Bayes regel får vi följande:

P(A | X) = 0,8 * 0,15  /  (0,8 * 0,15  +  0,2 * 0,85)  =  0,12 / (0,12 + 0,17)  =  0,12 / 0,29  ≈ 0,41.

---

Exemplet är hämtat från Daniel Kahnemans Thinking: Fast and Slow.

Förklaringen av Bayes regel är främst inspirerad av Eilezier Yudkowski.

---

Komplettering 5/1 2016:

Scientific American: Bayes' theorem - What's the big deal?

4 kommentarer:

  1. "Polisen undersöker vittnets trovärdighet och kommer fram till att vittnet under aktuella omständigheter korrekt anger färgen på en grön eller blå taxibil i 80 % av fallen."

    Hur genomför polisen denna undersökning? De aktuella omständigheterna är ju att det skett en smitningsolycka och man kan ju undra vad vittnet har för preferenser avseende taxibolag som påverkar hens utsaga. Låter sig detta överhuvud taget undersökas?

    Här återfinns en svaghet i Bayesiansk statistik menar jag, att mäta förhandskunskap som ett enkelt sannolikhetsmått är en svår uppgift.

    SvaraRadera
    Svar
    1. Oj, det var snabbt! ;-)

      Tja, i Kahnemans exempel tar polisen med vittnet till den plats där han påstår sig ha stått då olyckan inträffade, vid en tidpunkt då ljus- och väderförhållanden (m.m.) liknar dem som rådde vid olyckstillfället. Polisen kör slumpmässigt fram en blå eller grön bil till den plats där olyckan skedde medan vittnet tittar bort. Vittnet får sedan vända sig mot olycksplatsen (c:a 25 meter bort) och ta ställning till bilens färg. Detta upprepas ett flertal gånger.

      Det finns naturligtvis fler omständigheter att ta hänsyn till än de jag nämnt ovan. Det är också svårt att veta om alla relevanta omständigheter har återskapats - på ett (tillräckligt) exakt sätt. Och man kan förstås ifrågasätta vittnets påståenden - både före och under försöket.

      Jag finner det emellertid troligt att man under gynnsamma omständigheter (t.ex. ett sanningsenligt vittne) på detta sätt kan komma fram till en rimligt mått. Och även om det finns en osäkerhet i måttet är framstår det som det bästa sättet att närma sig sanningen. Kanske finns det skäl att ifrågasätta säkerheten i exakt hur mycket närmare sanningen man kommer, men att man gör det verkar mycket troligt.

      Radera
  2. Jo, visst aär det ett utmärkt sätt att komma så nära sanningen som möjligt, jag menar bara att man måste se upp för approximationerna i indata, de glöms alltför ofta bort i den tjusiga maematikens värlsd.

    SvaraRadera
  3. Bra genomgång, Björn. Exemplet påminner starkt om den klassiska övningsuppgift vi i branschen kallar Sjukdomen S. Se gärna Peter Olofssons anmärkningar.

    SvaraRadera