• Liebe User, bitte beachtet folgendes Thema: Was im Forum passiert, bleibt im Forum! Danke!
  • Hallo Gemeinde! Das Problem leidet zurzeit unter technischen Problemen. Wir sind da dran, aber das Zeitkontingent ist begrenzt. In der Zwischenzeit dürfte den meisten aufgefallen sein, dass das Erstellen von Posts funktioniert, auch wenn das Forum erstmal eine Fehlermeldung wirft. Um unseren Löschaufwand zu minimieren, bitten wir euch darum, nicht mehrmals auf 'Post Reply' zu klicken, da das zur Mehrfachposts führt. Grußworte.

Datensatz modifizieren / Einkommen klassieren

Mitglied seit
04.08.2010
Beiträge
377
Reaktionen
0
Hallo,

für eine Hausarbeit schraube ich gerade etwas an einem Datensatz herum. Ich habe ca. 20 000 Befragte zum Thema "Arbeitsplatz". Ziel ist es mehrere Regression der Variable "Angst vor dem Verlust des Arbeitsplatzes" zu erstellen.

Hintergrund ist es Einstellungen und Filter nach nationalen Institutionen zu erstellen. Fraglich ist inwiefern Bildungssysteme, Einkommen und andere Faktoren die Angst vor einem Jobverlust erhöhen oder vermindern, abhängig davon welches Land gerade analysiert wird.

Momentan betrachte ich 6 verschiedene Länder (grobe Beschreibung, nur einige Eckpunkte):

USA: hire&fire Mentalität, schwacher Schutz des Arbeitnehmers, niedrige Stratifikation und Standardisierung des Bildungssystems

Schweden: hoher Schutz, hohe Beteiligung des öffentlichen Sektors, lebenslanges Lernen

Deutschland: hoher Schutz von Insidern, duales Bildungsystem - hoch standardisiert und hoch stratifiziert

Mexiko: theoretische Bildung im Vordergrund

Spanien: extreme Insider/Outsider Logik, Familie als Fangnetz, vergleichbar hohe Jugendarbeitslosigkeit

GB: niedriger Schutz der Arbeitnehmer, alles recht ähnlich zu den USA

Zu jedem Land wird eine Regression (Filter: Befragter hat Nationalität des Landes X und hat einen Arbeitsplatz) durchgeführt mit der Gleichung:

Angst vor Jobverlust = Einkommen + Bildungsabschluss + andere Faktoren (Stress am Arbeitsplatz, Haushaltsgröße, Geschlecht ...)

Mein momentanes Problem: das Einkommen ist ja immer eine schöne Größe in allen möglichen Sozial/Wirtschaftswissenschaften. In meinem Datensatz wurde das Einkommen auch erhoben, was schon mal supertoll ist. Nur wurde das Einkommen in jedem Land anders kodiert. In Spanien habe ich es direkt klassiert im Sinne von:

0€ - kein eigenes Einkommen
0 - 500€
500€ - 750€ usw.

In den USA/GB wurde das ähnlich erhoben, hier allerdings noch mit unterschiedlichen Währungen wie $ und Pfund - das Einkommen aber jedoch im Jahr und nicht pro Monat wie in Spanien(nehme ich an, steht nichts weiter im Datensatz dazu).
In Deutschland habe ich gar keine Klassierung, dafür eine metrische Variable - hier das Einkommen wieder pro Monat, nicht im Jahr.

Mein Vorgehen war jetzt: einfache Tabellenausgabe der jeweiligen Einkommensvariable des Landes X. Dann habe ich vier Klassen gebildet, in der jeweils ungefähr 25% der Befragten liegen. Nachdem ich sechs Regressionen zum jeweiligen Land habe sollte das doch gehen, oder nicht? Habe ich hier irgendetwas zu beachten?

Bin mir gerade etwas unsicher, vor allem da die Komilitonen mit Plan im Urlaub und deshalb nicht erreichbar sind. Die Dozenten natürlich auch.

Weiter im Text, bei 5 von 6 Ländern ging das mehr oder minder gut. In Mexiko habe ich vier Klassen mit 20 - 25 - 30 - 25 % an relativen Häufigkeiten, was theoretisch jetzt nicht das sonderlich große Problem sein sollte.

In Spanien ist es aber extrem, da die Klassen da schon widerlich genug waren. Da sehen meine Klassen etwa so aus: 25 - 40 - 30 - 5. Ich kann rekodieren wie ich will, da die 40 und 30% jeweils in einer einzigen Kategorie sind. Gibt es da irgendeine Lösung diese Klassen zu "trennen"? Wenn nicht einfach trotzdem in die Regression packen, und bei der Beschreibung und Interpretation besonders erwähnen?
Ich würde ungern nur zwei Klassen bilden, da ich meinen Informationsverlust doch etwas beschränken möchte...
 
Mitglied seit
19.05.2003
Beiträge
19.993
Reaktionen
849
INwiefern findest du es denn sinnig zu sagen, dass die Klassen einfach 25%quantile abdecken. FInd das komisch, das kann ja alles mögliche aussagen vom gehalt was sie jetzt kriegen und wird schon sehr schwammig. Die im ersten 25% quantil in USA liegen können ja im Vergleich wesentlich mehr oder weniger verdienen als in D. Guck doch dass du aus den Einkommen Realeinkommen machst, falls du was mit Preisen hast und dann in eine Wärhung setzen, so dass es vergleichbar ist. Eventuell nimm dann die Klassen wie in Spanien, wenn du Spanien nicht mehr auf metrisch bekommst.
 
Mitglied seit
04.08.2010
Beiträge
377
Reaktionen
0
Ich hab halt leider nur das Code-Handbuch für Deutschland. Da wurde das Einkommen direkt metrisch eingegeben - also mit konstanten Werten von 0 bis irgendwas um die 7500€ pro Person. In den anderen Ländern wurde meistens direkt klassiert eingegeben, da hab ich gar keine metrische Variable. Also kann ich überhaupt nicht nachvollziehen, inwiefern diese Klassen "Sinn" machen.

Genau solche Überlegung (wie du) hatte ich ja auch. Allerdings gehen die Quantile ja über die Häufigkeiten, d.h. dass es theoretisch keine Rolle spielen sollte, wie viel mehr ein Amerikaner im oberen Quantil in den USA verdient als ein Mexikaner im gleichen Quantil in Mexiko. Das ist es ja eben: ich will ja nicht die Einkommen an sich miteinander vergleichen, sondern ob Personen die zu "der oberen Schicht" der Verdiener in ihrem Land mehr/weniger Angst in ihrem Land vor einem Jobverlust haben als Leute im untersten Quantil im selben Land.

Nachdem eine klassierte Variable ja in diesem Fall ordinal skaliert ist, werde ich die auch so wie sie ist nicht in eine Regression packen können, das ginge ja nur, wenn die Variable an sich metrisch ist - was sie ja nur ein einem Fall ist, nicht in allen sechs. Daher brauch ich eh Referenzgruppen, die wahrscheinlich mein untersten Quantil sein werden. Und auf die bezogen werde ich ja dann interpretieren, wenn ich mich nocht komplett irre. Die Frage ist nur inwiefern ich da eventuell einen Fehler gemacht habe.

P.S.: mit Preisen ist leider überhaupt nichts drin. Außerdem ist er von 2005, daher ist das mit dem Umrechnen der Währungen (was mein erster Gedanke wäre, einfach Gewichte zu verwenden) nicht wirklich so einfach. :/
 
Mitglied seit
19.05.2003
Beiträge
19.993
Reaktionen
849
Also klar kannst du dir ordinale Variable verwenden als dummy. Wenn deine Argumentation halt darauf beruht dass du Unterschicht, untere Mittelschicht, ober Mittelschicht, Oberschicht auf die Einkommen bezogen durch Häufigkeiten modelierst, ist das wohl wenn du sonst keine Daten hast mal Ok. Ist halt die Frage wie vergleichbar diese Schichten über die Länder sind und das hängt von der Verteilung der Einkommen ab.
 
Mitglied seit
04.08.2010
Beiträge
377
Reaktionen
0
Also klar kannst du dir ordinale Variable verwenden als dummy. Wenn deine Argumentation halt darauf beruht dass du Unterschicht, untere Mittelschicht, ober Mittelschicht, Oberschicht auf die Einkommen bezogen durch Häufigkeiten modelierst, ist das wohl wenn du sonst keine Daten hast mal Ok. Ist halt die Frage wie vergleichbar diese Schichten über die Länder sind und das hängt von der Verteilung der Einkommen ab.

Wie meinst du das? Ob die Verteilung innerhalb meiner vier Klassen gleichverteilt ist?

Also, nehmen wir an, ich hätte für die unteren 25% die Klassen 0-500 und 500-750 zusammengefasst. Sollten beide Klassen jetzt in etwa die gleichen Häufigkeiten haben?
Glaub das überprüfe ich nochmal, dürfte aber bis auf Spanien hinhauen...
 
Mitglied seit
19.05.2003
Beiträge
19.993
Reaktionen
849
Nein die einkommen werden ja nicht gleichverteil sein, das wird denke ich mal was schiefes sein. Häufig um den Mittelwert und links doch ne realtive dicke flanke dafür rechts ne kleinere aber hohe Ausreisser. Jetzt so mal geraten.

Aber ist doch egal, wenn dus eh nicht anders kannst. Schön wäre natürlich dass deine Verteilung der Länder alle relativ gleich aussehen, weil dann dein Argument zieht.

Dann kannst du die 4 Klassen als Dummies nehmen und dein Problem ist an sich erst mal gelöst.
 
Mitglied seit
21.08.2010
Beiträge
8.008
Reaktionen
1.107
ehm...
was für daten hast du da überhaupt? (EVS, SOEP?)
haushalts- oder personendaten?
panel oder querschnitt?
methodik für alle länder zumindest ansatzweise gleich?
repräsentative stichprobe oder hochrechnungsgewichte?

bei deiner beschreibung kommen mir zweifel ob man das ziel überhaupt so erreichen kann. du brauchst extrem viel info zu den institutionen, nur ein dummy o.ä. pro land und ausprägung kann zwar ein ergebnis bringen, aber nichts belastbares.

was du mit dem einkommen machen könntest, wäre (schneller versuch meinerseits für die beiden extrem-möglichkeiten):
sehr einfach: du dummst alles runter auf die vier klassen die dir im schlechtesten fall gegeben sind. von monatlich auf jährlich normieren und eventuell inflation und wechselkurs (via PPP) rausrechnen ist klar.
vorteil: einfach
nachteil: hoher verlust von information

sehr aufwendig: du erstellst für jedes land bei dem du klassierte daten hast eine lohngleichung, schätzt die, und imputierst dann die einkommen so, dass du am schluss jeweils möglichst nah an eine lognormal-verteilte variable kommst (einkommen ist empirisch immer in richtung lognormal verteilt).
vorteil: präziser
nachteil: wenn das einkommen eine alleinig/stark tragende rolle in deiner argumentation spielt, könnte es sein dass du dir hier einen zirkelschluss einbaust indem du das einkommen via matching über die anderen variablen imputierst.

am besten beides machen und schauen ob das gleiche rauskommt, bzw. wie stark sich die ergebnisse unterscheiden.
rein aus interesse: wofür genau machst du das (also welches prüfungsfach, genaue fragestellung/abstract)? was studierst du?

€: wechselkurse ist ne blöde idee von mir gewesen, imputier perzentile oder dezile.
 
Zuletzt bearbeitet:
Mitglied seit
04.08.2010
Beiträge
377
Reaktionen
0
Datensatz: ISSP
Typ: Querschnitt
Stichprobe, repräsentativ
Methodik sollte in den Ländern gleich sein
Studienrichtung: Soziologie
Fragestellung des Seminars: Sozialer Wandel und internationaler Vergleich: Lebenslauf und Einstellungen im internationalen Vergleich

Hintergrund habe ich ja oben Beschrieben. Es ist auch nicht so, dass ich bei dem empirischen Teil meiner Arbeit extrem tief gehen müsste. Ich möchte nur einige Theorien zum Thema "Warum sinkt die TFR in vielen westlichen Industrienationen?" mehr oder weniger überprüfen. Dazu ist der Datensatz, den ich vom ISSP 2005 habe gar nicht mal schlecht, aber dessen Ziel war es sicherlich nicht, exakt diese Theorien zu überprüfen. Andererseits habe ich in kürzerer Zeit keinen wirklich geeigneteren Datensatz gefunden. Ich möchte eher auf die Einstellungen hinaus, wann sich Leute sicher fühlen, und wann nicht, da das einer der Hauptsätze einer Theorie ist.
Von daher werde ich mich nicht nur auf das Einkommen des Beschäftigten beschränken, was ja auch klar sein sollte. Ich habe mehrere Variablen, die in diese Gleichung (wie im Eingangspost beschrieben) eingehen würden. Dazu gehören natürlich auch Dinge wie eine normierte Bildungsvariable (die ich zum Glück für alle Länder habe), Art des Beschäftigungsverhältnisses, Wochenstunden, gefühlter Stress, Art des Sektors der Anstellung (ad hoc fällt mir grad keine passendere Beschreibung ein, jedenfalls öffentlich vs. privat; primär vs. sekundär vs. tertiär) und noch ein paar mehr wie Anzahl der Kinder, Anzahl der Personen im Haushalt, Firmengröße, Gefühl der Ersetzbarkeit, Möglichkeit eines alternativen Jobs, Frage nach vergangnener Arbeitslosigkeit usw.

Zu den zwei Methoden: die erste (schlechtere Info) ist doch im Prinzip das, was ich bereits gemacht habe + Inflation?

Die zweite Methode: wenn ich eine Lohngleichung aus meinem Datensatz schäte, müsste die ja theoretisch einige Variablen meiner eigentlichen Regression behinhalten. Hier stellt sich mir gerade die Frage wie sinnvoll das ist. Im Prinzip hätte ich doch dann ja meine Variablen doppelt verwendet, was der Regression doch eher schadet? Meintest du das mit Zirkelschluss?
Einen Versuch ist es wert, werd ich die Tage mal angehen!
 
Mitglied seit
19.05.2003
Beiträge
19.993
Reaktionen
849
und die Variable Angst vorm Verlust der Arbeit hast du schon?

mach doch einfach was ich gesagt habe, dummies fürs einkommen und das passt erst mal und guck mal was es bringt. Für den Rest von oben brauchst du halt eher nen Panel.
 
Mitglied seit
21.08.2010
Beiträge
8.008
Reaktionen
1.107
was für eine variable ist denn "angst vor arbeitsplatzverlust"? wenn das ein diskretes ding von 1-10 o.ä. ist, dann ist es ziemlich falsch dort eine standard OLS-regression drüberlaufen zu lassen, weil das ergebnis radikal verzerrt ist und die schätzvoraussetzungen nicht gegeben sind.
 
Mitglied seit
19.05.2003
Beiträge
19.993
Reaktionen
849
naja er wird wohl auch einfach logit oder probit machen können.
 
Mitglied seit
21.08.2010
Beiträge
8.008
Reaktionen
1.107
joar, aber nur wenns 0/1 ist. multinomial logit hat schon wieder so viele andere probleme die man sich nicht unbedingt geben will (es sei denn man muss).
generell würde ich tobit bevorzugen, weil man ohne nachteile noch ein paar spezialfälle abfangen kann.
 
Oben