T-Test / STATA

  • Ersteller Gelöschtes Mitglied 683020
  • Erstellt am

Gelöschtes Mitglied 683020

Guest
Servus und vorab: Likes für jede nützliche Antwort und ich stehe wahrscheinlich total auf dem Schlauch, fühle mich so dum wie seit langem nicht mehr.

Ausführliche Problembeschreibung:


Ich habe diverse Variablen (fast alle binär, richtig gecodet), die mich im Zeitverlauf interessieren. Die Variablen sind einerseits Einstellungsfragen - etwa "Stimmen sie zu" (1) oder "lehnen sie ab" (0). Diese Einstellungsfragen habe ich beispielsweise für 2002 und 2010. Andererseits habe ich Variablen wie "Führungskraft ja/nein (1/0)" in den Jahren 2002, 2004, 2006, 2008, 2010, 2012 (also insgesamt 6 Erhebungen). Der Knackpunkt: Die Erhebungen sind alles Querschnittsdaten und kein Panel - ich habe also höchst wahrscheinlich immer wieder neue Befragte, niemals die selben.

Mich interessieren prinzipiell zwei Dinge:

1) Hat sich die Zusammensetzung der Führungskräfte nach Geschlecht zwischen 2002 und 2012 geändert?
2) Haben sich Einstellungen in der Gesamtbevölkerung (und Subgruppen) geändert?

Mein Plan ist für 1) die Werte von 2002 und 2012 zu vergleichen, für 2) eben in den Jahren, in denen die Fragen auftauchten (meist 2002 und 2010).

Fragen 1) und 2) würde ich gerne für vier verschiedene Länder klären: BRD, DDR, Norwegen und Großbritannien.

Momentan sieht mein Syntax in STATA folgendermaßen aus:

bysort LANDVARIABLE: ttest [FÜHRUNKSKRAFT BINÄR], by(ZEIT_BINÄR) welch



also ein two-group mean-comparison test; Welch, da ich mir bei den Varianzen überhaupts nicht sicher bin. Interpretation wäre dann P-Value von Ha: diff != 0 ?

Nochmals der Hinweis: Fühle mich alles andere als sicher, jedesmal wenn ich nachlese wie dum ich bin, werde ich noch verwirrter. Passt das jetzt, oder völlig falsch?

Bonus-like: Falls wer noch einen guten Befehl hat um Ergebnisse irgendwie direkt zu exportieren, wäre ich sehr dankbar (hab allerdings auch noch gar nicht geschaut). Bevorzugt einfach in eine .txt file, wenn nicht halt LaTeX 8[
 
Mitglied seit
10.05.2003
Beiträge
5.143
Reaktionen
369
vorab: ich habe keine Ahnung von STATA und die formale Rechnung für T-test auch nicht im Kopf, aber hier scheint mir das Problem relativ stark vereinfacht zu sein, weil es nur binäre Auswahlmöglichkeiten gibt (entweder man ist Führrungskraft oder nicht).

So auf die schnelle und nur für 1) ein, das andere ist ja im Endeffekt das gleiche:
Du hast zwei Stichproben aus je einer Gruppe, die Stichproben haben die Größe n_1 und n_2

Jede Stichprobe hat eine gewisse Menge Führungskräfte nk_1 und nk_2.
Das ist eine Poissonverteilung, und da die Stichprobe hoffentlich eine vernünftige Größe hat, berechnet sich der Fehler einfach durch sqrt(nk_1) und sqrt(nk_2).
Die relative Anzahl der Führungskräfte ergibt sich also durch nk_1/n_1 bzw. nk_2/n_2 und die haben die Fehler s_1=sqrt(nk_1)/n_1 und s_2=sqrt(nk_2)/n_2.

Die Differenz der relativen Anzahl ist dann D=nk_1-nk_2. Und hat einen Fehler der sich einfach durch (in diesem Fall triviale) Gausssche Fehlerfortpflanzung ergibt. sD=sqrt(s_1^2+s_2^2).

Für den P-value musst du nur noch nachschauen wie gut sich die Hypothese D=0 mit D und sD verträgt... gibt bestimmt irgendwo ne Tablle dafür

Klingt das sinnvoll?
 

Gelöschtes Mitglied 683020

Guest
Jein. Es bringt mehr Fragen als Antworten, bin statistisch gesehen nicht das Übergenie und Zweifel gerade sowieso, ob ich nicht eher den Voodoo mache :ugly:

Mal vorweg: Ich hab die Einstellungsfragen auch unaufbereitet in 4/5/7 Skalen vorliegen, könnte die also für einen T-Test nutzen, da das Ordinal wäre. Mein Prof. hat im Gespräch aber immer wieder betont ich soll es einfach in binär umformen, damit ich "T-Tests" machen kann. Als ich damals (1-2 Monate her) nachfragte, war wieder das Wort T-Test im Raum. Allerdings war das Thema letzter Schritt in der Auswertung noch so weit weg, dass ich es erstmal hab stehen lassen. Ich könnte den Menschen fragen, müsste aber wohl wieder 1-2 Wochen warten, bis er da ist, und das Gespräch nicht zwischen Tür und Angel durchläuft. Wäre halt uncool.

Nach nochmaligem Googlen fällt mir allerdings auf, dass du wohl mit dem 1/0 Fall recht hast: Meistens finde ich da nur so Psychologie/Medizin Tutorials, die irgendwie total verkürzt im Raum stehen. Teilweise sagen die T-Tests für paired Data falls ich 1/0 1/0 Fälle habe (Gruppe A/B und Erfolg Ja/Nein), teilweise geht's dann um ordinale Variable und binär mit unpaired Data. Ich meine zu verstehen, dass ich unpaired Data habe, aber binäre Variablen. Nach ein bischen nachlesen steht da jetzt Fisher's Exakter Test. Hört sich für mich auch nachvollziehbar an.

Was ich bei dir nicht verstehe (und auch keine Ahnung habe): Warum ist das jetzt Poisson-verteilt? Das begegnete mir nirgends. Zwischen den Zeilen lese ich aus den meisten Dingern raus, dass man bei "großen Stichprobem" auf die Normalverteilungsannahme verzichten könne (warum auch immer). Meine Stichprobengröße ist für die meisten Variablen bei ca. 600 Fällen pro Jahr, sollte daher ja ausreichend groß sein.

Ach, Verwirrung.
 
Mitglied seit
10.05.2003
Beiträge
5.143
Reaktionen
369
Mal so generell:

Ist das ein furchtbar dringendes Problem wo du sofort nur irgendwie eine Lösung brauchst? Wofür ist das?

Ich habe gerade das Gefühl dass dir die Problemstellung nicht 100% klar ist und du vorallem Stichworte (unpaired data, ordinal) suchst um die Zahlen irgendwie in ein Lösungsschema einzusetzen. Falls du irgendwie die Zeit dazu hast würde ich empfehlen zu versuchen zu verstehen WARUM ein bestimmter Ansatz der richtige ist (was ich gerade nicht konkret erklären kann weil ich die Ansätze nicht kenne)

Aber mal ganz generell und von hinten angefangen:
Der P-Wert gibt an wie vertraeglich ein Ergebnis mit einer Nullhypothese ist. Also angenommen die Nullhypothese ist wahr, wie Wahrscheinlich war das Ergebnis bzw. ein Ergebnis das noch weiter von der Nullhypothese abweicht.
Normalerweise sucht man vorher das gewuenschte Signifikanzniveau aus (zb 5%) und entscheidet dann nur noch ob man die Hypothese mit dem p-wert widerlegen konnte oder nicht. Also ob der p-wert kleiner ist oder nicht.

Wenn du zb wissen moechtest ob sich die Zahl der weiblichen Fuehrungskraefte (relativ zur weiblichen Bevoelkerung) zwischen 2002 und 2012 signifkant veraendert hat, ist die Nullhypothese dass die Zahl in beiden Jahren den gleichen Erwartungswert hat.
Du koenntest also die Nullhypothese widerlegen wenn du zeigst dass die Wahrscheinlichkeit bei gleichem Erwartungswert die gemessene oder eine noch groessere Abweichung zwischen den Zahlen von 2002 und 2012 zu kriegen (also der P-wert) kleiner als 5% ist.

Diese Wahrscheinlichkeit auszurechnen, bzw. diese Wahrscheinlichkeit mit einem Signifikanzniveau zu vergleichen ist das was die ganzen Hypothesentests machen. Du musst halt den "richtigen" nehmen, weil in den Formeln gewissen Annahmen über die Zahlen die du reinsteckst sind.

Was ich gerade gerechnet habe ist auch einfach eine Rechnung für den p-Wert, die keinem vorgebenen Weg folgt, und darauf basiert dass das Problem recht simpel zu sein scheint. Darum aber auch keine Garantie ob dein Prof sowas mögen würde, es ist eher eine Veranschaulichung.
Ich fasse einfach die Differenz zwischen 2002 und 2012 als Messgröße auf. Jede Messgröße hat einen Fehler den ich in dem Fall als standardabweichung angebe weils normalverteilt ist. Die Wahrscheinlichkeit dass der wahre Wert um n Standardabweichungen vom Messwert abweicht, hängt einfach mit n zusammen. also n=1: ca. 32%, n=2: ca. 5%, n=3: ca. 0.3% usw. Also wenn zb. D=10 und sd=3.33 rausgkommen wäre, dann hätte man p = ~0.15% (weil die Nullhypothese D=0 war, die Hälfte von 0.3% weil sich die 0.3% auf eine Abweichung in beide Richtungen bezieht).
Poissonverteilung einfach weil deine Testbeschreibung den Voraussetzungen einer Poissonverteilung genügt... das wird nicht in den Rechenmethoden stehen, es hängt halt einfach vom Experiment ab ob man eine Poissonverteilung hat oder nicht. Für große Zahlen (also nicht nur große Stichproben, sondern auch für eine ausreichend große Zahl Treffer), kann man die Poissonerteilung einfach durch eine Normalverteilung mit standardabweichung=wurzel Erwartungswert nähern.

Auf den ersten Blick glaube ich übrigens das bei meiner Rechnung ziemlich genau das gleiche Rauskommt wie beim welchs test http://en.wikipedia.org/wiki/Welch's_t_test ich kürze nur bei der Berechnung von der Varianz und der samplesize ein bisschen ab, eben weil das bei ner Poissonverteilung recht gut geht.

Ich hoffe das hilft irgendwie, eine hieb und stichfeste Antwort im Sinne von "Nimm Ansatz XY" kann ich gerade nicht geben, einfach weil ich die formalen Ansätze nicht gut genug kenne.
 

Gelöschtes Mitglied 683020

Guest
Mal so generell:

Ist das ein furchtbar dringendes Problem wo du sofort nur irgendwie eine Lösung brauchst? Wofür ist das?

Teil meiner Diplomarbeit :ugly:
Dringend ist es prinzipiell nicht, ich hab noch paar Monate Zeit. Es ist einer der letzten Schritte, die mir noch fehlen, damit ich wirklich alles aufs Papier bringe. Leider ist es in letzter Zeit so, dass ich den Prof schwer erreiche, weil seine Termine aus unerfindlichen Gründen meist 2 Wochen im Voraus voll sind. Ich dachte bis Anfang dieser Woche es wäre ez pez, bis ich auf einmal auf dem Schlauch stand. Bringt mich zu:

Ich habe gerade das Gefühl dass dir die Problemstellung nicht 100% klar ist und du vorallem Stichworte (unpaired data, ordinal) suchst um die Zahlen irgendwie in ein Lösungsschema einzusetzen. [...]p-Werte[...]

Hab mich unverständlich ausgedrückt. Ja, das ist mir durchaus alles klar, ich weiß auch warum ich die Tests durchführe, und zwar genau um:

Wenn du zb wissen moechtest ob sich die Zahl der weiblichen Fuehrungskraefte (relativ zur weiblichen Bevoelkerung) zwischen 2002 und 2012 signifkant veraendert hat, ist die Nullhypothese dass die Zahl in beiden Jahren den gleichen Erwartungswert hat.



Das eigentliche Problem ist:

Du musst halt den "richtigen" nehmen, weil in den Formeln gewissen Annahmen über die Zahlen die du reinsteckst sind.[...]
Ich hoffe das hilft irgendwie, eine hieb und stichfeste Antwort im Sinne von "Nimm Ansatz XY" kann ich gerade nicht geben, einfach weil ich die formalen Ansätze nicht gut genug kenne.

Ich blicke nicht so ganz welcher der "korrekte" Test dafür ist, bzw. welche Annahmen ich verletzen würde, würde ich einfach irgendeinen Test ziehen. Mein Hauptproblem ist, dass a) meine Stat-Vorlesungen mit so Krimskrams 3 Jahre her sind, und b) die Unterlagen nur noch als Fragmente hier rumliegen. Alles, was ich so im Netz fand, hat sich da teilweise widersprochen (siehe Posts oben): Einmal geht ein Test, einmal nicht, einmal für Große Stichproben, einmal nicht, einmal soll man zweiseitig anschauen, einmal nicht. Mit jeder Quelle die ich lese, werde ich zunehmend unsicherer.

Hab jetzt einfach mal eine Mail abgesetzt und hoffe, dass der mir das irgendwie in den nächsten Tagen beantwortet, ohne dass ich wieder 14 Tage auf einen Termin warten darf.

Ich hab übrigens auch den ganz dummen Test gemacht und einfach jede Art der T-Tests (und Fisher) für eine Variablenkombination (Führungskräfte x Jahre) durchgehaut. Scheint nicht so viel Unterschiede in meinen Messungen zu bekommen. Entweder ist es in allen Tests signifikant, oder halt nicht. Im Endeffekt war's vorher schon klar, was Veränderungen sind und was nicht. Mal gucken ob ich einfach jetzt schreibe und mir im Nachhinein das raussuche, was mein Prof will. :ugly:

Egal, danke nochmal für den Input.
 
Oben