Krönika: ”Nej, statistik kan inte ljuga”

Annons

Det finns ett uttryck som lyder ”Det finns tre sorters lögner: Lögn, förbannad lögn och statistik”. Uttrycket ska ha myntats av den brittiske premiärministern Benjamin Disraeli på 1800-talet. Eftersom jag i grunden är statistiker kan jag bli väldigt provocerad av detta uttryck.

I min värld är statistik sanningen. Om det är 49 procent som röstar på Alliansen i riksdagsvalet så är det 49 procent som gör det. Om det bor 9 miljoner människor i Sverige så bor det 9 miljoner människor i Sverige. Dessa siffror är liksom inte öppna för tolkning, det är sanningen.

Ofta får jag kastat i ansiktet att statistik är lögn. I och för sig oftast med glimten i ögat från personen som levererar åsikten vid det tillfälle som jag berättar att jag är statistiker.

Jag skrattar oftast lite generat när jag får det i ansiktet men innerst inne tycker jag att det är otroligt tråkigt om allmänheten har den uppfattningen om statistik. Allt detta på grund av att statistiken misshandlas av vissa åsiktsmakare för att den ska passa deras syften.

Visst kan man luras genom att förvanska statistik så att det fyller ens egna syften. Detta innebär dock inte att statistiken i sig ljuger, utan det är ett fall av att man plockar statistiken ur sitt sammanhang och drar slutsatser.

statistik

Det finns en hel del olika exempel på hur detta kan göras. Ett klassiskt exempel är när man låter en axel, oftast y-axeln som går lodrätt i till exempel ett stapeldiagram, börja på ett annat värde än 0 för att på så sätt få små skillnader att se väldigt stora ut.

Tänk dig till exempel ett stapeldiagram som visar två olika gruppers procentandel av någonting. Den ena gruppen har 16 procent och den andra gruppen har 17 procent. Denna skillnad kan tyckas ganska liten, men om man gör så att y-axeln börjar först vid 15-procentsmarkeringen så kommer det i diagrammet att se ut som att skillnaderna är väldigt stora mellan grupperna.

Inom statistiken kallas detta att man bryter axeln och det ska då framgå tydligt i diagrammet att y-axeln är bruten genom att göra ett litet zick zack-mönster längst ned på axeln.

Ett annat exempel, som egentligen är vanligare, och farligare enligt min åsikt, är när man felaktigt ser på orsakssamband – kausaliteten – när man tolkar statistik. Vi tar återigen ett enkelt exempel.

Antag att jag kan få fram statistiska siffror som visar att personer som använder hudkrämer blir kortare än personer som inte använder hudkrämer. Om jag nu hade en egen agenda mot hudkrämsföretagen skulle jag kunna skrika ut till media att hudkrämer får folk att stanna i växten och att de bör förbjudas och det ena med det andra.

Det jag då inte tar hänsyn till i min argumentation är att hudkrämer används mer av kvinnor än av män och att kvinnor av naturen i genomsnitt är kortare än män.

Således har jag dragit felaktiga slutsatser på grund av att jag inte förstår, alternativt inte vill förstå, orsakssambanden i den statistik som tagits fram. Det är inte hudkrämerna som gör att användarna är kortare än icke-användarna, det är den bakomliggande orsaken som får siffrorna att se ut som de gör.

Och således är det inte statistiken som ljuger, det är den person som felaktigt tolkar statistiken som ljuger, eventuellt omedvetet.

Dessa tolkningsfel görs väldigt ofta och det syns i media varje vecka. Vissa mindre nogräknade politiska partier är särskilt ”duktiga” på att missleda människor med sin felaktiga tolkning av orsakssambanden i statistiska siffror.
Jag jobbade tidigare inom forskning om ohälsa och eventuella samband med olika exponeringar. I denna forskning var man intresserad av att få fram statistiska samband mellan en exponering, till exempel asbest, och ett ohälsoutfall, till exempel hjärt- och kärlsjukdom. I forskningen var man tvungen att kontrollera för eventuella bakomliggande orsakssamband. Exempelvis kunde man inte säga att exponeringen hade påverkan på hjärt- och kärlsjukdom utan att ta hänsyn till bakomliggande faktorer som kön, ålder, rökningsvanor och eventuella andra faktorer.

I statistiska regressionsmodeller kan man lägga in samtliga dessa faktorer och resultatet blir att man får ut en siffra för hur mycket exponeringen påverkar hjärt- och kärlsjukdom efter att man har kontrollerat för de andra faktorerna. Detta blir den sanna effekten av exponeringen utan inblandning av andra orsaker. Detta är en av de egenskaper som statistiska regressionsmodeller, även kallade scoringmodeller, har.

Svaret på frågan om huruvida man kan ljuga med statistik är således att man istället bör använda ännu mer avancerade statistiska modeller för att komma fram till den riktiga sanningen.

Jag tror att gemene man skulle behöva en grundläggande utbildning i statistik för att kunna se igenom en del av de lögner som fabriceras genom felaktig tolkning av statistik. Varje gång någon kommer dragandes med sina tvivelaktiga tolkningar av statistik bör man fråga dem om de i sin analys har kontrollerat för till exempel ålder, kön och socioekonomisk status. Det är först efter sådana kontroller som man kan komma fram till det sanna resultaten av analysen.

Den riktiga statistiken är alltid korrekt, objektiv och trovärdig!

Om skribenten: Patrik Schéele är chef för modell- och tjänsteutveckling på UC och skriver regelbundet krönikor i CFOworld.