Forrige tråd
Neste tråd
Print tråd

Student t-test

Student t-test #2473380 02/04/2018 13:53
Registrert: Jun 2008
Innlegg: 13,406
Tange Offline OP
Flittig Bie
OP Offline
Flittig Bie
Registrert: Jun 2008
Innlegg: 13,406
Jeg skal ta en t-test på et datasett på 4 tall.
Trur i hvertfall det skal være t-test (trur ikke egentlig for det er oppgaven), poenget skal være å se om ett av tallene er en 'outlier' ('grov feil*). Datasettet er lite og det er kun fremgangsmåten som er relevant, ikke selve resulatet.

Jeg har prøvd med TTEST i OpenOffice som sammenligner to datasett men det ser ut til at begge settene må inneholde i hvert fall to tall (celler).
Det jeg trur jeg må ha er en TTest som sammenligner hvert tall med gjennomsnittet av de resterende 3 tall. En mulighet som jeg har tenkt på at jeg dupliserer talle som skal testes mot de andre i en ny celle og dermed får jeg et datasett som har samme snitt som tallet i utgangspunkt men det vil legge øke datasettet til 5 tall og jeg trur det vil føre til feil t-verdi og potensiell feil konklusjon. Alternativt kan jeg dele opp datasettet i alle mulige kombinasjoner av to og to tall og ta testen men da vil jeg ikke få svar på hvilke av tallene er (kan være) outlier med mindre man pønsker seg frem ved at et tall gir utslag i alle brukte kombinajsoner av dette tallet.
Jeg er langt ifra statistikk-matematiker og kan godt vær på bærtur her men er det noen som vet fremgangsmåten her i OpenOffice eller Excel?

Har også prøvd http://www.sthda.com/english/rsthda/rsthda.php
som gir noen tall men usikker om de er riktige og tolkingen min blir riktig.

Datasettet er : 0,2929 0,2972 0,2973 0,2975

Re: Student t-test [Re: Tange] #2473502 03/04/2018 03:56
Registrert: May 2008
Innlegg: 408
Lemond Offline
Entusiast
Offline
Entusiast
Registrert: May 2008
Innlegg: 408
Statistikk-matematikeren synes dette var en dårlig oppgave... Jeg liker ikke tester for å sjekke ekstremverdier. De har en tendens til å ha for stor eller liten «følsomhet». Men det hjelper vel ikke deg...

Usikker på hva du skal gjøre, men det lukter kanskje litt av standardisering? Og så bruke en et utvalgs t-test? Hvilket tall som er ekstremverdi er egentlig ikke så viktig. Har du en ektremverdi må du tolke resultatene dine med forsiktighet.

Re: Student t-test [Re: Tange] #2473620 03/04/2018 12:35
Registrert: Jul 2011
Innlegg: 491
boltzmann Offline
Entusiast
Offline
Entusiast
Registrert: Jul 2011
Innlegg: 491
I utgangspunktet er det feil bruk av metode å undersøke om noko er ein ekstremverdi etter at du har samla inn data. Du må fyrst samle inn data, så finne fordelinga til datasettet og deretter kan du bruke dette til å seie noko om framtidige observasjonar.

Dersom du likevel må gjere denne øvinga, vil du finne t-fordelinga til dei tre observasjonane utan uteliggaren og deretter finne sannsynet for å få ein observasjon som er like ekstrem eller meir ekstrem enn uteliggaren.

Re: Student t-test [Re: boltzmann] #2473702 03/04/2018 18:12
Registrert: Jun 2008
Innlegg: 13,406
Tange Offline OP
Flittig Bie
OP Offline
Flittig Bie
Registrert: Jun 2008
Innlegg: 13,406
Sitat: Lemond
Statistikk-matematikeren synes dette var en dårlig oppgave... Jeg liker ikke tester for å sjekke ekstremverdier. De har en tendens til å ha for stor eller liten «følsomhet». Men det hjelper vel ikke deg...

Usikker på hva du skal gjøre, men det lukter kanskje litt av standardisering? Og så bruke en et utvalgs t-test? Hvilket tall som er ekstremverdi er egentlig ikke så viktig. Har du en ektremverdi må du tolke resultatene dine med forsiktighet.


Jeg har testet tallene med standardavvik, og Q-test, hvor standardavvik (tre ganger) ikke avviser noen og Q-testen avviser 0,2929.
Men jeg ser ikke hvordan jeg kan bruke t-testen til å 'gjøre det samme' nemlig teste for outliers.

sthda.com har en t-test for 'one sample t-test' men den generere jo bare tall for hele alle stikkprøvene på fire tall.

Sitat: boltzmann
I utgangspunktet er det feil bruk av metode å undersøke om noko er ein ekstremverdi etter at du har samla inn data. Du må fyrst samle inn data, så finne fordelinga til datasettet og deretter kan du bruke dette til å seie noko om framtidige observasjonar.


Det siste er det jeg tenkte om t-testen. Teste observasjoner mot en forventet verdi. Men jeg ser forsatt ikke hvordan den kan brukes til å teste på outliers (som er oppgaven). Altså teste én og én verdi fra observasjonene mot resten . Uansett om jeg har en forventet verdi eller ikke.

Quote:

Dersom du likevel må gjere denne øvinga, vil du finne t-fordelinga til dei tre observasjonane utan uteliggaren og deretter finne sannsynet for å få ein observasjon som er like ekstrem eller meir ekstrem enn uteliggaren.


Altså mistanken går jo ut mot 0,2929 men mistanke er ikke det samme som å få bekreftet med tall.
Hvis vi tar datasettet med fire tall men legger til en forventet verdi på 0,2970 blir det lettere?

Har jeg muligheten skal jeg ta et emne i statistikk neste semester, sikkert verdt hver 'krone'.

Re: Student t-test [Re: Tange] #2473761 03/04/2018 20:19
Registrert: Jul 2011
Innlegg: 491
boltzmann Offline
Entusiast
Offline
Entusiast
Registrert: Jul 2011
Innlegg: 491
Dersom vi i utgangspunktet har observasjonane 0.2972, 0.2973 og 0.2975, har dei gjennomsnitt 0.29727 og empirisk standardavvik 0.00025. Observasjonen 0.2929 er då 17 standardavvik frå gjennomsnittet, (0.2929-0.29727)/0.00025= -17.35.

Sidan det er 3 observasjoner i det opprinnelige datamaterialet, har t-fordelinga 2 friheitsgrader (3-1=2). Dersom vi går inn i tabellen for t-fordelinga med 2 friheitsgrader, kan vi sjå at 99.5 prosent av massen ligg innafor 14 standardavvik og 99.8 prosent av massen ligg innafor 22 standardavvik. Med denne metoden vil vi då seie at 0.2929 truleg er ein uteliggar, då så ekstreme observasjonar berre skjer ein av 300 gonger. https://no.wikipedia.org/wiki/Students_t-fordeling

Eg vil likevel seie at å jobbe på denne måten vil klassifisere mange observasjonar som uteliggarar, sjølv om dei ikkje er det. Sannsynligheita for å vinne i lotte er ein til fem mill, men dersom du alt har vunne er sannsynligheita ein!

Re: Student t-test [Re: Tange] #2473764 03/04/2018 20:31
Registrert: Jul 2011
Innlegg: 491
boltzmann Offline
Entusiast
Offline
Entusiast
Registrert: Jul 2011
Innlegg: 491
Å bruke t-test til å klassifisere uteliggarar på denne måten er ikkje hensiktsmessig. Ta heller ein titt her: https://en.wikipedia.org/wiki/Outlier#Detection

Re: Student t-test [Re: boltzmann] #2473777 03/04/2018 21:00
Registrert: May 2009
Innlegg: 9,144
F
fredriks Offline
Søk hjelp!
Offline
Søk hjelp!
F
Registrert: May 2009
Innlegg: 9,144
Sitat: boltzmann
Å bruke t-test til å klassifisere uteliggarar på denne måten er ikkje hensiktsmessig. Ta heller ein titt her: https://en.wikipedia.org/wiki/Outlier#Detection


Inte spesiellt insatt på just det men i detta fallet med väldigt få data punkter borde det väl fungera?

Det man gör är väl bara att estimera fördelningen för alla punkter förutom den man tror är outliern och se hur troligt det är att outliern kommer från samma fördelning?

Att bruke samma metod om man har en million data punkter skulle ju dock inte fungera så bra då man med många data punkter kommer få många punkter som är "osansynliga".

Re: Student t-test [Re: fredriks] #2473787 03/04/2018 21:38
Registrert: Nov 2006
Innlegg: 875
S
skiraffen Offline
Ringrev
Offline
Ringrev
S
Registrert: Nov 2006
Innlegg: 875
Sitat: fredriks
Att bruke samma metod om man har en million data punkter skulle ju dock inte fungera så bra då man med många data punkter kommer få många punkter som är "osansynliga".


Jo, prinsippet og tankegangen blir jo akkurat det samme uansett om man har tre eller tre trillioner data.

Re: Student t-test [Re: skiraffen] #2473789 03/04/2018 21:58
Registrert: May 2009
Innlegg: 9,144
F
fredriks Offline
Søk hjelp!
Offline
Søk hjelp!
F
Registrert: May 2009
Innlegg: 9,144
Blir det verkligen det? Nu är jag osäker på hur student-t testen fungerar men om du har en fördelning och tar ut oberoende data punkter från den (som väl är det vi gör?) och sätter en gräns som motsvarar säg en sannolikhet på 1e-10, dvs inte väldigt sannolikt. Så kommer det inte vara väldigt sannolikt att 1 av 4 tal kommer ligga över den gränsen men du kommer få en sån ca 300 millioner tal över gränsen om du har 3 trillioner data punkter.

Men outliers är ju vanskligt, Hvis man ser på hur mycket varje person i en familj har vunnit på lotto så är det lätt att tro att hvis man finner en som vunnit en million så är det en outlier (väldigt osansynligt) men trots det är det många som vinner minst en million på lotto per år i Norge.

edit: Kom på att man nog ska ha med sannolikheten av värdet hvis man drar N värden i beräkningen och då ser det ju annorlunda ut.

Redigert av fredriks; 03/04/2018 22:16.
Re: Student t-test [Re: fredriks] #2473791 03/04/2018 22:14
Registrert: Nov 2006
Innlegg: 875
S
skiraffen Offline
Ringrev
Offline
Ringrev
S
Registrert: Nov 2006
Innlegg: 875
Sitat: fredriks
... att 1 av 4 tal kommer ligga över den gränsen men du kommer få en sån ca 300 millioner tal över gränsen om du har 3 trillioner data punkter...


Men en t-test gir deg jo i prinsippet bare sannsynligheten for at en verdi tilhører en t fordeling med gitt forventning, varians og frihetsgrad.

Re: Student t-test [Re: boltzmann] #2474725 07/04/2018 18:45
Registrert: Jun 2008
Innlegg: 13,406
Tange Offline OP
Flittig Bie
OP Offline
Flittig Bie
Registrert: Jun 2008
Innlegg: 13,406
Sitat: boltzmann
Dersom vi i utgangspunktet har observasjonane 0.2972, 0.2973 og 0.2975, har dei gjennomsnitt 0.29727 og empirisk standardavvik 0.00025. Observasjonen 0.2929 er då 17 standardavvik frå gjennomsnittet, (0.2929-0.29727)/0.00025= -17.35.

Sidan det er 3 observasjoner i det opprinnelige datamaterialet, har t-fordelinga 2 friheitsgrader (3-1=2). Dersom vi går inn i tabellen for t-fordelinga med 2 friheitsgrader, kan vi sjå at 99.5 prosent av massen ligg innafor 14 standardavvik og 99.8 prosent av massen ligg innafor 22 standardavvik. Med denne metoden vil vi då seie at 0.2929 truleg er ein uteliggar, då så ekstreme observasjonar berre skjer ein av 300 gonger. https://no.wikipedia.org/wiki/Students_t-fordeling

Usikker på hvorfor du konkluderer med at de opprinnelige datasettet består av 3 observasjoner. 0,2929 hører til også. Datasettet er 4 observasjoner. Men kan man si at det er bare to tall som er relevante til å testes og det er ytterpunktene? (I et større sett kan det vare flere men det må nødvendigvis være ytterpunktene her også. Man fjerner uteliggere og kjører testen på nytt? Men jeg klarer ikke å se om dette er legitimt eller om man da eventuelt jukser seg til bedre tall)

Kom etterhvert frem til omtrent det samme men med at det testes på 95% var 17 langt over 4,3 og 0,2929 en uteligger. Tenket ikke på vinklingen din (99,5 og 99,8 %), lærte igjen noe nytt her.

Med at jeg alt har brukt q-testen og fikk 'påvist' 0,2929 som uteligger er det selvfølgelig kjekt å få til en test som holder 0,2929 innenfor.

Så på Thompson Tau-testen fra linken.

Tenker jeg riktig med at rejection region blir:

4.303 (4-1)
sqrt(4) * sqrt(4-2+4.303 = 2,57

mens ô= |0,02929-0,29621/0,0022| = 1,5

Og 0,2929 er ikke en uteligger.
Hovedforskjellen her med t-testen som du kjørte er vel at 0,2929 er med i beregning av s (som blir ca. 10 ganger større) og dermed holder 0,2929 innenfor.

Ser at This process is continued until no outliers remain in a data set.
på en måte bekrefter tankegangen min over at det er legitimt å fjerne uteliggere til det 'ikke er noen igjen'.



Quote:


Eg vil likevel seie at å jobbe på denne måten vil klassifisere mange observasjonar som uteliggarar, sjølv om dei ikkje er det. Sannsynligheita for å vinne i lotte er ein til fem mill, men dersom du alt har vunne er sannsynligheita ein!


Ser poenget her men som jeg skrev over så er det ikke resulatene av beregningen jeg er interessert i. (Hvis min Thompson tau er riktig har jeg en test som holder 0,2929 innenfor i motsetning til Q-testen) Det er selve beregingene som er interessant.

Fint at du/dere tar dere tid til litt grubling.

Re: Student t-test [Re: Tange] #2474883 08/04/2018 17:25
Registrert: Jun 2008
Innlegg: 13,406
Tange Offline OP
Flittig Bie
OP Offline
Flittig Bie
Registrert: Jun 2008
Innlegg: 13,406
Kommer forøvrig frem til litt annet gjennomsnitt og s (på T.testen) men det endrer ikke mye for resultatet.

Re: Student t-test [Re: Tange] #2474944 08/04/2018 20:31
Registrert: May 2009
Innlegg: 9,144
F
fredriks Offline
Søk hjelp!
Offline
Søk hjelp!
F
Registrert: May 2009
Innlegg: 9,144
Nu har jag inte läst mig upp på vilka metoder det finns för att bestämma ouliers och jag tänkte lite fel tidigare men med så pass litet antal tal så blir det ju en stor skillnad om man tar med alla tal eller bara jämför med de andra talen.

Att bara jämföra med de andra talen borde vara det som är bäst och dina resultat tyder på det.

Det blir ju rätt meninglöst att bestämma om 10 är en uteligare i serien 10,0,0,0 genom att estimera en fördelning för 10, 0,0,0. Om 10 faktiskt är en uteliggare så blir ju fördelnings estimatet man får från 10,0,0,0 väldigt dårligt.


Moderator  support