Inferens og hypoteser:

Inferens

Sentralgrenseteoremet:

Hva:
- Statistikk → Inferens og hypotese → Inferens → Sentralgrenseteoremet.
- En lov som sier at en fordeling av et uendelig utvalg med uavhengige, stokastiske variabler vil få en normalfordeling.
- Litt som De Store Talls lov, bare at sentralgrenseteoremet i tillegg sier at fordelingen vil være normalfordelt - DSTL sier bare at tendensen vil nærme seg den forhåndsberegnede sannsynligheten\andelen, uten å nevne normalfordeling.
Når:
Hvordan:
- Sentralgrenseteoremet sier at når vi har uavhengige, stokastiske variabler så skal vi forvente at et stort utvalg vil få en normalfordeling.
- Trekker mange utvalg, med n=15 i hvert utvalg
- Regner ut gjennomsnitt i hvert utvalg
- Laget nytt utvalg av gjennomsnittene
- Det nye utvalget vil tendere mot normalfordeling
- Dette kalles sentralgrenseteoremet

Sannsynlighetsfordeling:

Kontinuerlig fordeling: Fordeling basert på kontinuerlig variabeltype, dvs alle tall og desimaler er tillatt.
Uniform fordeling: Samme antall av alle verdier.
Kumulativ fordeling: Samme som kumulativ frekvensfordeling\tabell, bare med prosentandeler.

Konfidensintervall:

Når:
- Ved hypotesetesting.
- Konfidensintervall gir et anslag med sannsynlighet, for hvilken verdi en måling kan antas å resultere i.
- Konfidensintervall kan vise om det er mulig og\eller sannsynlig at en verdi vil gi et visst resultat.
- Med konfidensintervall kan man beregne sannsynlige og mindre sannsynlige utfall, for å vurdere worst case scenario - eller best case.
Hvordan:
- Fremgangsmåte:
  - Finn konfidensnivå.
  - Regn testobservator.
  - Regn punktestimat.
  - Regn ut feilmargin
  - Konfidensintervall = Punktestimat +\- feilmargin.
- Konfidensintervall til Z-test: (er verdien realistisk?)
  - Konfidensintervall=Punktestimat +\- Testobs/2 * standardfeil
  - Andeler:
    - Konfidensintervall:
      - P=punktestimat +\- feilmargin.
      - P= punktestimat +\- testobs/2 * rot((p*q)/n)
    - Utvalgsstørrelse:
      - n=Z^2a/2*((pq)/E^2)
- Konfidensintervall til T-test: (er gruppene ulike?)
  - T=(xsnitt-gjsn)/(S/rot(n))
  - df=n-1
  - Konfidensintervall=Punktestimat +\- Testobs/2 * standardfeil
Konfidensintervall er alltid tosidig, altså alfa/2.
Gjennomsnitt
- u=punktestimat +\- E
- u=xsnitt+\- ta/2*(s/rot(n))
  - (s/rot(n))=standardfeil, feilmargin
- df=n-1
Lengde på konfidensintervall = 2E (2* feilmargin)
- Konfidensintervallengde= 2 * Z * (S/sqrt(n))

Signifikans:

Signifikansnivå:

The significance level α is the probability of making the wrong decision when the null hypothesis is true.
Forteller forkastningsområdet.
I tosidige tester deles alfa på 2, for å deles på begge haler. Se hypotesetest for tosidige tester.
Signifikansnivå=1-konfidensnivå
Se tabell under konfidensnivå.

Forsøksdesign:

Utvalg:

Fordelingen av ulike variabler må være lik i utvalget som i populasjonen.
- Dette sikres gjennom tilfeldige utvalg (ikke bekvemmelighetsutvalg).
Observator er det man observerer i et utvalg, mens parameter er virkeligheten som man ikke ser.

Utvalgsandel:

Se Punktestimat.

Utvalgstyper og -metoder*

Utvalgstyper:
- Tilfeldige:
  - Klyngeutvalg:
    - Feks alle elever fra en skole\klasse\fylke.
    - Hva: Man velger alle individer innen en bestemt undergruppe.
    - Fordeler: Man får med alle individer med ulike demografiske variabler innen de valgte undergruppene.
    - Ulemper: Grupperinger er aldri tilfeldige, de vil alltid ha noe til felles, som kan påvirke forsøksresultater.
  - Tilfeldig utvalg:
  - Systematisk utvalg:
    - Hver x. deltager
  - Stratifisert utvalg:
    - Andel av utvalget som matcher egenskaper skal matche populasjonen det skal representere.
- Ikke-tilfeldige:
  - Frivillig deltagelse
  - Bekvemmelighet
- Relaterte:
  - Observasjoner som hører logisk sammen, feks før- og etter-utvalg.
  - Utvalg som har en naturlig sammenheng, feks før- og etter-målinger.
- Urelaterte:
  - Observasjoner uten noen logisk sammenheng.
  - Utvalg som ikke har noen slik naturlig sammenheng.

Utvalgsstørrelse

Standardfeil:

Standardfeil er en type feilmargin (ikke ekvivalent).
Enten:
- Standardfeil for Z-intervall=standardavvik/rot(n)
- Standardfeil for T-intervall=stokastisk/rot(n)
- ROT( p*(1-p))/n )
  - ROT( (H0 * (1-punktestimat H0))/n )
  - p=h0, påstand.

Standardfeil ved sammenligning av 2 grupper:
- rot((Standardavvik1^2/n1)+(Standardavvik2^2/n2))
- Feks
  - n1=106
  - n2=115
  - S1=1,24
  - S2=1,2
  - Mellomregning (=standardavvik^2/n) for hver gruppe
  - Standardfeil,2 grupper =ROT(mellomregning1+mellomregning2)
  - Feilmargin = rot((1,24^2/106)+(1,2^2/115))=0,16418

Statistiske tester:

Z-test:

Brukes når: Sjekk under testtyper av hypotesetester.
You must know the standard deviation of the population and your sample size should be above 30 in order for you to be able to use the z-score. Otherwise, use the t-score.
Fremgangsmåte:
- State the null hypothesis and alternate hypothesis.
- Choose an alpha level.
- Find the critical value of z in a z table.
- Calculate the z test statistic (see below).
- Compare the test statistic to the critical z value and decide if you should support or reject the null hypothesis.

Testobservator Z:

Hva:
- Forteller hvor i fordelingen en verdi befinner seg, basert på standardavvik fra gjennomsnitt.
  - The z-score is equal to the number of standard deviations from the mean.
    A score of 1.28 indicates that the variable is 1.28 standard deviations from the mean.
- Testobservatoren slås opp i tabell for å finne ut hvor stort område av fordelingen som dekkes. 68-95-99-regelen omhandler dette.
- Hvis tabellverdien for testobservator z befinner seg utenfor alfa, innenfor kritisk verdi z, så forkastes H0.
Når:
- Ved testing av om en gitt verdi er innenfor et datasett.
Hvordan:
1. Regne ut testobservator Z:
  - (Finn ut når Z regnes ut på hvilken måte)
  - Z=(x-μ)/σ
    - Z*σ=x-μ
    - x=μ+σZ
    - x=det man tester mot
    - u=gjennomsnittet
    - σ=standardavviket
  - Z=(xsnitt-μ)/σx
    - x=det man tester mot=15
    - μ=gjennomsnittet=16
    - σ=standardavviket=4
    - n=4
    - σx=σ/rot(n)=4/rot(4)=2
    - z=(15-16)/2=-1/2=-0,5
2. Finne fordelingsandel fra testobservator Z:
  - Z→P på kalkulator:
    - -0.5+
    - blå+
    - 3(z-p)
  - =
  - 0.30854
3. 68-95-99-regelen:
  - 68,26% er innenfor 1 standardavvik (alfa).
  - 95% er innenfor 2 standardavvik.
  - 99,7% er innenfor 3 standardavvik.
Jo lavere standardavvik, desto brattere blir fordelingskurven.
If you look in the z-table for a z of 1.28, you’ll find the area is .3997.
This is the region to the right of the mean, so you’ll double it to get the area of the entire central region: .3997*2 = .7994 or about 80 percent.

	A	B	C
1		Gruppe X	Gruppe Y
2	n	35	40
3	Snitt	19,4	15,1
4	standardavvik	1,4	0,8
5
6	punktestimat a (snitt1-snitt2) =B3-C3	4,30
7	standardfeil b =B4^2/B2 (største standardavvik^2/største n)	0,06	0,02
8	standardfeil gruppesamm =ROT(B7+C7)	0,27
9	Testobservator Z =B6/B8 =(snitt1-snitt2)/standardfeil	16,0251

Kritisk verdi Z:*

Slå opp signifkansnivå i tabell i bunn. Ignorer tosidig\ensidig i dette steget.
Fordel alfa dersom testen er tosidig.
Slå opp alfa i tabell i bunn, venstre oppslag for kritisk verdi Z med alfa.
Tabellen gir alltid venstrearealet.
A critical value of z is sometimes written as z_a, where the alpha level, a, is the area in the tail.
Finn kritisk verdi Z:
- Slå opp signifkansnivå i tabell i bunn. Ignorer tosidig\ensidig i dette steget.
- Fordel alfa dersom testen er tosidig.
- Slå opp alfa i tabell i bunn, venstre oppslag for kritisk verdi Z med alfa.

Confidence Level	Critical Value (Z-score)
0.90	1.645
0.91	1.70
0.92	1.75
0.93	1.81
0.94	1.88
0.95	1.96
0.96	2.05
0.97	2.17
0.98	2.33
0.99	2.575

Z-fordeling:

In short, the Z-distribution is a way of naming the Standard Normal distribution.
The Standard Normal Distribution (z distribution) is a specific instance of the Normal Distribution that has a mean of ‘0’ and a standard deviation of ‘1’

T-test:

Brukes når: Sjekk under testtyper av hypotesetester.

	Metode 2	Uavhengig t-test, Independent Samples t-test	One sample t-test
Hensikt		compares the means for two groups.	tests the mean of a single group against a known mean
Formel:
	T=((xsnitt-u)*rot(n))/s		t = (x̄ – μ₀)/ (s/√n). x̄ = sample mean = 280 μ₀ = population mean = 300 s = sample standard deviation = 50 n = sample size = 15 t = (280 – 300)/ (50/√15) = -20 / 12.909945 = -1.549. (x-my) / (s/rot(n)) ((499,354-495)*rot(5278))85,/0904 3,7174

Testobservator T: *

Om resultatet:
- A large t-score tells you that the groups are different. Dette betyr at man har gruppert dataene på en meningsfull og nyttig måte.
- A small t-score tells you that the groups are similar. Dette betyr at forskjellene mellom gruppene er så små at grupperingskriteriet ikke er meningsfullt eller nyttig.

Kritisk verdi T:

Kalkulatorknapper:
- Tast antall df/frihetsgrader
- Tast blå knapp
- Tast M+(INV)
- Tast blå knapp
- Tast 2 (df,t→P)
- Tast inn venstrehalesannsynlighet
- =
Feks
- 19
- Blå knapp
- M+(INV)
- Blå knapp
- 2 (df,t→P)
- 0.975 (95% konfidensintervall)
- =
- 2.09302

Kvantiltabell i t-fordeling

Chi-kvadrattest:

Brukes når:
- Når man vil se etter korrelasjon mellom kvalitative variabler.
Forutsetninger:
- Tilfeldige utvalg.
- Hver verdi i forventede dataer må være minst 5.
Hvordan:
1. Man må ha en tabell over observerte verdier til å starte med.
2. Beregn forventede verdier i scenario uten korrelasjon.
  - Expected=(kolonnesum*Radsum)/totalsum
    - Expected=den enkelte rute i tabellen.
    - Kolonnesum=Sum for aktuell rutes kolonne.
3. Undersøk forskjell mellom observerte(O) verdier og forventede (E).
  - Forskjell=((Observed-Expected)^2)/Expected
    - Forskjell=Forskjell mellom observed og expected i den aktuelle ruten.
4. Finn testobservator chi (Q-kvantil):
5. Finn kritisk verdi (alfa-kvantil):
6. Vurder hypotese:
  - Testobservator Q-kvantil X^2 < Kritisk verdi alfa-kvantil X^2a=beholde H0
  - Testobservator Q-kvantil x^2 > Kritisk verdi alfa-kvantil X^2a =kast H0

Kritisk verdi chi (Q-kvantil):*

Beregn frihetsgrader
- Frihetsgrader df=(kolonneantall-1)(radantall-1)
Finn alfa fra konfidens.
- Finn signifikansnivå
Slå opp i tabellen litt lenger ned.
Hvordan:
- sum(((Observed-Expected)^2)/Expected)
  - Hvor observed=observert verdi i den enkelte rute.
  - Expected=beregnet forventning i tilsvarende rute

Testobservator chi (alfa-kvantil):*

Hvordan:
- Beregn df.
- Finn signifikansnivå.
- Finn frem alfa i tabell, via df og signifikansnivå.

Observed	Mann	Kvinne
Ja	587	662	1249
Nei	431	321	752
	1018	983	2001

Expected	Mann	Kvinne
Ja	635,4	613,6	1249
Nei	382,6	369,4	752
	1018	983	2001

Forskjell	Mann	Kvinne
Ja	3,7	3,8	7,5117
Nei	6,1	6,3	12,476
	9,819	10,168	19,987

Testobservator Q-kvantil X^2			19,987
n	2001
df=	1
Kritisk verdi alfa-kvantil X^2a			3,84

Kritisk verdi er større enn Testobservator

Offentlig

MET3431 eksamensformler - Inferens og hypoteser

Inferens og hypoteser:

Inferens

Sentralgrenseteoremet:

Sannsynlighetsfordeling:

Konfidensintervall:

Signifikans:

Signifikansnivå:

Forsøksdesign:

Utvalg:

Utvalgsandel:

Utvalgstyper og -metoder*

Utvalgsstørrelse

Standardfeil:

Statistiske tester:

Z-test:

Testobservator Z:

Kritisk verdi Z:*

Z-fordeling:

T-test:

Testobservator T: *

Kritisk verdi T:

Chi-kvadrattest:

Kritisk verdi chi (Q-kvantil):*

Testobservator chi (alfa-kvantil):*

Undertemaer:

Label:

Filter by label

Relatert label A:

Filter by label

Relatert label B:

Filter by label

Related content