Medelfel

Medelfel hör till den analytiska statistiken. En del menar att medelfel även kan betraktas som ett spridningsmått.

Samplingfördelning
Standardavvikelse och varians beskriver hur mycket mätvärdena i vårt stickprov är utspridda från medelvärdet i samma stickprov. Om man upprepade vår undersökning många gånger skulle medelvärdet i varje undersökning, varje stickprov, skilja sig lite. Vi skulle kunna göra ett diagram där vi på x-axeln noterar medelvärdet och på y-axeln antal stickprov som visar just det medelvärdet (diagram 1). Detta kallas för en samplingfördelning.

Alla sådana diagram vi kan göra visar att fördelningen av många olika medelvärden alltid blir normalfördelad om varje stickprov är tillräckligt stort. En samplingfördelning blir alltså alltid normalfördelad om de enskilda stickproven är tillräckligt stora. Denna regel kallas centrala gränsvärdessatsen.

Centrala gränsvärdessatsen (central limit theorem)
Fördelningen av de olika stickprovens medelvärden kallas för en samplingfördelning. Den är i regel normalfördelad (eller nästan normalfördelad) oavsett om variabeln är normalfördelad eller ej i den bakomliggande populationen. Detta gäller om varje stickprov inte är för litet. Vad är ett tillräckligt stort stickprov? I de flesta fall >30. Om variabeln är mycket snedfördelad kan det behövas större stickprov.
Vad är vitsen med detta? Jo! när vi skall använda stickprovets medelvärde för att gissa inom vilket intervall den bakomliggande populationens medelvärde återfinns kan vi använda metoder som baserar sig på normalfördelning. Exempelvis vid framtagande av konfidensintervall.

Medelvärdets medelfel = Medelfel
Man skulle kunna räkna ut ett medelvärde för alla medelvärden och sedan en standardavvikelse för medelvärdenas spridning runt det gemensamma medelvärdet. Denna medelvärdenas standardavvikelse, som är ett mått på osäkerheten när vi skattar den bakomliggande populationens medelvärde, kallas medelvärdets medelfel eller bara medelfel. I engelskspråkig litteratur säger man standard error of mean, SEM, standard error, eller SE.

Formler för att räkna fram medelfelet
Man kan räkna ut medelfelet både för kvantitativa variabler och för kvalitativa variabler som är dikotoma. När det gäller dikotoma variabler blir formlerna för medelfel lite olika om medelfelet skall användas för konfidensintervallsberäkning eller för signifikansanalys (Tabell 1). (Normalt lär man sig inte dessa formler utantill utan det räcker att man vet var man kan hitta dem när man behöver.)

Tabell 1 - Beräkning av medelfel Kvalitativa dikotoma variabler* - Andelar/procent -
Stick- prov	Konfidensintervall	Signifikansanalys
Ett**	***
Två omat- chade
Två mat- chade	(Dummyvariabler)	(Mc Nemar's test)
Se	Medelfelet (för det som står inom parentesen)
S_d	Standardavvikelsen i stickprovet för differensen
n	antalet individer i stickprovet
p	Proportionen/andelen som har det ena utfallet
q	Proportionen/andelen som har det andra utfallet, d.v.s. 1-p
P₁₊₂	Medelandel från båda grupperna sammanslagna
*	Förutsatt att materialet är tillräckligt stort för att binomialfördelningen skall kunna normalapproximeras
**	Vid en grupp (=ett stickprov) innebär signifikansanalys att man jämför denna enda grupp med ett fixt värde. För andelar i regel 50%.
***	Om stickprovet överstiger 10% av den totala bakomliggande populationen skall en korrektionsfaktor införas i formeln (det är ovanligt att detta behövs). Om stickprovet skulle överstiga 10% av totala populationen skall formeln istället vara:

När man skall räkna ut medelfelet för kvantitativa variabler använder man samma formel oavsett om medelfelet skall användas för signifikansanalys eller konfidensintervallsberäkning (Tabell 2).

Tabell 2 - Beräkning av medelfel Kvantitativa normalfördelade variabler - Medelvärden -
Stick- prov	Konfidensintervall + Signifikansanalys
Ett*
Två omat- chade
Två mat- chade
Se	Medelfelet (för det som står inom parentesen)
S	Standardavvikelsen i stickprovet, S_x för variabeln x och S_d för differensen
	Medelvärdet för variabeln x
n	antalet individer i stickprovet
	Medelvärdet för differenserna mellan x₁ och x₂.
*	Vid en grupp (=ett stickprov) innebär signifikansanalys att man jämför denna enda grupp med ett fixt värde. För kontinuerliga variabler i regel noll.

Oberoende urval
För att medelfelsformlerna skall gälla måste alla individerna vara slumpmässigt valda och valda oberoende av varandra. Om vi skall jämföra två grupper måste även fördelningen av individer till grupperna ske slumpmässigt och individerna fördelas oberoende av varandra. Detta görs genom randomisering.
Antag som exempel att vi vill utvärdera en kariesförebyggande behandling på 10-åriga skolbarn. Vi bestämmer oss för att använda eleverna i två skolor. Skolorna har fyra klasser vardera i den här åldersgruppen med 25 elever i varje klass. Alltså har vi sammanlagt åtta skolklasser med totalt 200 skolbarn. Om vi för enkelhetens skull antar att varje elev har 30 tänder har vi alltså 6000 tänder ingående i studien. Man kan även tänka sig att jämföra delar av tänder och skulle då kunna få 12000 tandhalvor.
Vi konstaterade nyss att randomiseringen är en viktig grund. På vilken nivå skall vi randomisera? Här finns några alternativ. Vi kan randomisera skolor, skolklasser, skolbarn, tänder eller tandhalvor. Vilket vi väljer påverkar hur stora grupperna blir:

Tanken är sedan att grupp A behandlas med en ny kariesförebyggande behandling utöver den konventionella tandvårdsrådgivning som båda grupperna får. Man jämför efter tre år hur det har gått och jämför då de två grupperna. Hur stort är antalet i denna undersökning? 1+1 (antal skolor), 4+4 (antal skolklasser), 100+100 (antal skolbarn), 3000+3000 (antal tänder) eller 6000+6000 (antal tandhalvor)? Medelfelets storlek (och därmed eventuella framräknade p-värden) påverkas kraftigt av om vi låter gruppstorleken vara 1, 4, 100, 3000 eller 6000. Sett ur strikt statistisk synvinkel är alla dessa varianter teoretiskt möjliga.
Förutom statistiskt oberoende måste man även kunna hålla före att de ingående individerna rimligtvis är sinsemellan oberoende av varandra när det gäller påverkan av andra faktorer (exempelvis konsumtion av sötsaker) utanför de som undersökts i studien. Här gäller det att hålla tungan rätt i mun när man börjar diskutera tänder eller delar av tänder. Är två tänder (eller delar av tänder) som sitter i munnen på samma skolelev sinsemellan oberoende av annan påverkan? För att de skall vara sinsemellan oberoende av annan påverkan (exempelvis konsumtion av godis) måste man lyfta ut dem från deras gemensamma miljö (dra ut alla tänder på varje skolbarn) och sedan ur en hink full med tänder slumpmässigt plocka fram tänder (eller delar av tänder) till behandlingsgrupp A eller B, något som forskningsetikkommittén sannolikt skulle ha synpunkter på.
Randomisering på nivån tänder eller delar av tänder är alltså teoretiskt möjlig men av ovan nämnda skäl olämplig. Nivån skolor är möjlig men antalet i varje grupp blir bara 1 och det är väldigt små grupper. Slutsatsen blir alltså att även om man rent teoretiskt kan randomisera på alla ovan nämnda nivåer är det rimligt att välja nivån skolklasser eller skolbarn. Randomisering av skolbarn har fördelen framför randomisering av skolklasser av att ge betydligt högre antal i de två grupperna.

Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare

Randomiseringsnivå:	Antal i grupp A (n₁)	Antal i grupp B (n₂)
Skolor	1	1
Skolklasser	4	4
Skolbarn	100	100
Tänder	3000	3000
Tandhalvor	6000	6000