MET3431 eksamensformler - Inferens og hypoteser

Inferens og hypoteser:

Inferens

Sentralgrenseteoremet:

  • Hva:
    • Statistikk → Inferens og hypotese → Inferens → Sentralgrenseteoremet.
    • En lov som sier at en fordeling av et uendelig utvalg med uavhengige, stokastiske variabler vil få en normalfordeling.
    • Litt som De Store Talls lov, bare at sentralgrenseteoremet i tillegg sier at fordelingen vil være normalfordelt - DSTL sier bare at tendensen vil nærme seg den forhåndsberegnede sannsynligheten\andelen, uten å nevne normalfordeling.
  • Når:
  • Hvordan
    • Sentralgrenseteoremet sier at når vi har uavhengige, stokastiske variabler så skal vi forvente at et stort utvalg vil få en normalfordeling.
    • Trekker mange utvalg, med n=15 i hvert utvalg
    • Regner ut gjennomsnitt i hvert utvalg
    • Laget nytt utvalg av gjennomsnittene
    • Det nye utvalget vil tendere mot normalfordeling
    • Dette kalles sentralgrenseteoremet

Sannsynlighetsfordeling:

  • Kontinuerlig fordeling: Fordeling basert på kontinuerlig variabeltype, dvs alle tall og desimaler er tillatt.
  • Uniform fordeling: Samme antall av alle verdier.
  • Kumulativ fordeling: Samme som kumulativ frekvensfordeling\tabell, bare med prosentandeler.

Konfidensintervall:

  • Når:
    • Ved hypotesetesting.
    • Konfidensintervall gir et anslag med sannsynlighet, for hvilken verdi en måling kan antas å resultere i.
    • Konfidensintervall kan vise om det er mulig og\eller sannsynlig at en verdi vil gi et visst resultat.
    • Med konfidensintervall kan man beregne sannsynlige og mindre sannsynlige utfall, for å vurdere worst case scenario - eller best case.
  • Hvordan:
    • Fremgangsmåte:

      • Finn konfidensnivå.
      • Regn testobservator.
      • Regn punktestimat.
      • Regn ut feilmargin
      • Konfidensintervall = Punktestimat +\- feilmargin.
    • Konfidensintervall til Z-test: (er verdien realistisk?)
      • Konfidensintervall=Punktestimat +\- Testobs/2 * standardfeil
      • Andeler:
        • Konfidensintervall:
          • P=punktestimat +\- feilmargin.
          • P= punktestimat +\- testobs/2 * rot((p*q)/n)
        • Utvalgsstørrelse:
          • n=Z^2a/2*((pq)/E^2)
    • Konfidensintervall til T-test: (er gruppene ulike?)
      • T=(xsnitt-gjsn)/(S/rot(n))
      • df=n-1
      • Konfidensintervall=Punktestimat +\- Testobs/2 * standardfeil
  • Konfidensintervall er alltid tosidig, altså alfa/2.
  • Gjennomsnitt
    • u=punktestimat +\- E
    • u=xsnitt+\- ta/2*(s/rot(n))
      • (s/rot(n))=standardfeil, feilmargin
    • df=n-1
  • Lengde på konfidensintervall = 2E (2* feilmargin)
    • Konfidensintervallengde= 2 * Z * (S/sqrt(n))

Signifikans:

Signifikansnivå:

  • The significance level α is the probability of making the wrong decision when the null hypothesis is true.
  • Forteller forkastningsområdet.
  • I tosidige tester deles alfa på 2, for å deles på begge haler. Se hypotesetest for tosidige tester.
  • Signifikansnivå=1-konfidensnivå
  • Se tabell under konfidensnivå.

Forsøksdesign:

Utvalg:

  • Fordelingen av ulike variabler må være lik i utvalget som i populasjonen.
    • Dette sikres gjennom tilfeldige utvalg (ikke bekvemmelighetsutvalg).
  • Observator er det man observerer i et utvalg, mens parameter er virkeligheten som man ikke ser.

Utvalgsandel:

  • Se Punktestimat.

Utvalgstyper og -metoder*

  • Utvalgstyper:
    • Tilfeldige:
      • Klyngeutvalg:
        • Feks alle elever fra en skole\klasse\fylke.
        • Hva: Man velger alle individer innen en bestemt undergruppe.
        • Fordeler: Man får med alle individer med ulike demografiske variabler innen de valgte undergruppene.
        • Ulemper: Grupperinger er aldri tilfeldige, de vil alltid ha noe til felles, som kan påvirke forsøksresultater.
      • Tilfeldig utvalg:
      • Systematisk utvalg:
        • Hver x. deltager
      • Stratifisert utvalg:
        • Andel av utvalget som matcher egenskaper skal matche populasjonen det skal representere.
    • Ikke-tilfeldige:
      • Frivillig deltagelse
      • Bekvemmelighet
    • Relaterte:
      • Observasjoner som hører logisk sammen, feks før- og etter-utvalg.
      • Utvalg som har en naturlig sammenheng, feks før- og etter-målinger.
    • Urelaterte:
      • Observasjoner uten noen logisk sammenheng.
      • Utvalg som ikke har noen slik naturlig sammenheng.

Utvalgsstørrelse

Standardfeil:

  • Standardfeil er en type feilmargin (ikke ekvivalent).
  • Enten:
    • Standardfeil for Z-intervall=standardavvik/rot(n)
    • Standardfeil for T-intervall=stokastisk/rot(n)
    • ROT( p*(1-p))/n )
      • ROT( (H0 * (1-punktestimat H0))/n )
      • p=h0, påstand.
  • Standardfeil ved sammenligning av 2 grupper:
    • rot((Standardavvik1^2/n1)+(Standardavvik2^2/n2))
    • Feks
      • n1=106
      • n2=115
      • S1=1,24
      • S2=1,2
      • Mellomregning (=standardavvik^2/n) for hver gruppe
      • Standardfeil,2 grupper =ROT(mellomregning1+mellomregning2)
      • Feilmargin = rot((1,24^2/106)+(1,2^2/115))=0,16418

Statistiske tester:

Z-test:

Testobservator Z:

  • Hva:
    • Forteller hvor i fordelingen en verdi befinner seg, basert på standardavvik fra gjennomsnitt.
    • Testobservatoren slås opp i tabell for å finne ut hvor stort område av fordelingen som dekkes. 68-95-99-regelen omhandler dette.
    • Hvis tabellverdien for testobservator z befinner seg utenfor alfa, innenfor kritisk verdi z, så forkastes H0.
  • Når:
    • Ved testing av om en gitt verdi er innenfor et datasett.
  • Hvordan:
    1. Regne ut testobservator Z:
      • (Finn ut når Z regnes ut på hvilken måte)
      • Z=(x-μ)/σ
        • Z*σ=x-μ
        • x=μ+σZ
        • x=det man tester mot
        • u=gjennomsnittet
        • σ=standardavviket
      • Z=(xsnitt-μ)/σx
        • x=det man tester mot=15
        • μ=gjennomsnittet=16
        • σ=standardavviket=4
        • n=4
        • σx=σ/rot(n)=4/rot(4)=2
        • z=(15-16)/2=-1/2=-0,5
    2. Finne fordelingsandel fra testobservator Z:
      • Z→P på kalkulator:
        • -0.5+
        • blå+
        • 3(z-p)
      • =
      • 0.30854
    3. 68-95-99-regelen:
      • 68,26% er innenfor 1 standardavvik (alfa).
      • 95% er innenfor 2 standardavvik.
      • 99,7% er innenfor 3 standardavvik.
  • Jo lavere standardavvik, desto brattere blir fordelingskurven.
  • If you look in the z-table for a z of 1.28, you’ll find the area is .3997.
    This is the region to the right of the mean, so you’ll double it to get the area of the entire central region: .3997*2 = .7994 or about 80 percent.

ABC
1
Gruppe XGruppe Y
2n3540
3Snitt19,415,1
4standardavvik1,40,8
5


6punktestimat a (snitt1-snitt2) =B3-C3               4,30
7standardfeil b =B4^2/B2 (største standardavvik^2/største n)               0,06               0,02
8standardfeil gruppesamm =ROT(B7+C7)               0,27
9Testobservator Z =B6/B8 =(snitt1-snitt2)/standardfeil16,0251

Kritisk verdi Z:*

  • Slå opp signifkansnivå i tabell i bunn. Ignorer tosidig\ensidig i dette steget.
  • Fordel alfa dersom testen er tosidig.
  • Slå opp alfa i tabell i bunn, venstre oppslag for kritisk verdi Z med alfa.
  • Tabellen gir alltid venstrearealet.
  • A critical value of z is sometimes written as za, where the alpha level, a, is the area in the tail.
  • Finn kritisk verdi Z:
    • Slå opp signifkansnivå i tabell i bunn. Ignorer tosidig\ensidig i dette steget.
    • Fordel alfa dersom testen er tosidig.
    • Slå opp alfa i tabell i bunn, venstre oppslag for kritisk verdi Z med alfa.
Confidence LevelCritical Value (Z-score)
0.901.645
0.911.70
0.921.75
0.931.81
0.941.88
0.951.96
0.962.05
0.972.17
0.982.33
0.992.575

Z-fordeling: 

  • In short, the Z-distribution is a way of naming the Standard Normal distribution.
    The Standard Normal Distribution (z distribution) is a specific instance of the Normal Distribution that has a mean of ‘0’ and a standard deviation of ‘1’

T-test:

  • Brukes når: Sjekk under testtyper av hypotesetester.

Metode 2

Uavhengig t-test, Independent Samples t-test

One sample t-test

Hensikt

compares the means for two groups.

tests the mean of a single group against a known mean
Formel:


  • T=((xsnitt-u)*rot(n))/s

  • t = (x̄ – μ0)/ (s/√n).
    x̄ = sample mean = 280
    μ0 = population mean = 300
    s = sample standard deviation = 50
    n = sample size = 15

    t = (280 – 300)/ (50/√15) = -20 / 12.909945 = -1.549.

  • (x-my) / (s/rot(n))
    • ((499,354-495)*rot(5278))85,/0904
      • 3,7174


Testobservator T: *

  • Om resultatet:
    • A large t-score tells you that the groups are different. Dette betyr at man har gruppert dataene på en meningsfull og nyttig måte.
    • A small t-score tells you that the groups are similar. Dette betyr at forskjellene mellom gruppene er så små at grupperingskriteriet ikke er meningsfullt eller nyttig.

Kritisk verdi T:

  • Kalkulatorknapper:
    • Tast antall df/frihetsgrader
    • Tast blå knapp
    • Tast M+(INV)
    • Tast blå knapp
    • Tast 2 (df,t→P)
    • Tast inn venstrehalesannsynlighet
    • =
  • Feks
    • 19
    • Blå knapp
    • M+(INV)
    • Blå knapp
    • 2 (df,t→P)
    • 0.975 (95% konfidensintervall)
    • =
    • 2.09302

Kvantiltabell i t-fordeling

 

Chi-kvadrattest:

  • Brukes når:
    • Når man vil se etter korrelasjon mellom kvalitative variabler.
  • Forutsetninger: 
    • Tilfeldige utvalg.
    • Hver verdi i forventede dataer må være minst 5.
  • Hvordan:
    1. Man må ha en tabell over observerte verdier til å starte med.
    2. Beregn forventede verdier i scenario uten korrelasjon.
      • Expected=(kolonnesum*Radsum)/totalsum
        • Expected=den enkelte rute i tabellen.
        • Kolonnesum=Sum for aktuell rutes kolonne.
    3. Undersøk forskjell mellom observerte(O) verdier og forventede (E).
      • Forskjell=((Observed-Expected)^2)/Expected
        • Forskjell=Forskjell mellom observed og expected i den aktuelle ruten.
    4. Finn testobservator chi (Q-kvantil):
    5. Finn kritisk verdi (alfa-kvantil):
    6. Vurder hypotese:
      • Testobservator Q-kvantil X^2 < Kritisk verdi alfa-kvantil X^2a=beholde H0
      • Testobservator Q-kvantil x^2 > Kritisk verdi alfa-kvantil X^2a =kast H0

Kritisk verdi chi (Q-kvantil):*

  • Beregn frihetsgrader
    • Frihetsgrader df=(kolonneantall-1)(radantall-1)
  • Finn alfa fra konfidens.
    • Finn signifikansnivå
  • Slå opp i tabellen litt lenger ned.
  • Hvordan
    • sum(((Observed-Expected)^2)/Expected)
      • Hvor observed=observert verdi i den enkelte rute.
      • Expected=beregnet forventning i tilsvarende rute

Testobservator chi (alfa-kvantil):*

  • Hvordan:
    • Beregn df.
    • Finn signifikansnivå.
    • Finn frem alfa i tabell, via df og signifikansnivå.

ObservedMannKvinne
Ja5876621249
Nei431321752

10189832001




ExpectedMannKvinne
Ja635,4613,61249
Nei382,6369,4752

10189832001




ForskjellMannKvinne
Ja3,73,87,5117
Nei6,16,312,476

9,81910,16819,987




Testobservator Q-kvantil X^219,987
n2001

df=1

Kritisk verdi alfa-kvantil X^2a3,84




Kritisk verdi er større enn Testobservator

Undertemaer:

Label:

Filter by label

There are no items with the selected labels at this time.

Relatert label A:

Filter by label

There are no items with the selected labels at this time.

Relatert label B:

Filter by label

There are no items with the selected labels at this time.

test footer