- Mitglied seit
- 04.08.2010
- Beiträge
- 377
- Reaktionen
- 0
Hallo,
für eine Hausarbeit schraube ich gerade etwas an einem Datensatz herum. Ich habe ca. 20 000 Befragte zum Thema "Arbeitsplatz". Ziel ist es mehrere Regression der Variable "Angst vor dem Verlust des Arbeitsplatzes" zu erstellen.
Hintergrund ist es Einstellungen und Filter nach nationalen Institutionen zu erstellen. Fraglich ist inwiefern Bildungssysteme, Einkommen und andere Faktoren die Angst vor einem Jobverlust erhöhen oder vermindern, abhängig davon welches Land gerade analysiert wird.
Momentan betrachte ich 6 verschiedene Länder (grobe Beschreibung, nur einige Eckpunkte):
USA: hire&fire Mentalität, schwacher Schutz des Arbeitnehmers, niedrige Stratifikation und Standardisierung des Bildungssystems
Schweden: hoher Schutz, hohe Beteiligung des öffentlichen Sektors, lebenslanges Lernen
Deutschland: hoher Schutz von Insidern, duales Bildungsystem - hoch standardisiert und hoch stratifiziert
Mexiko: theoretische Bildung im Vordergrund
Spanien: extreme Insider/Outsider Logik, Familie als Fangnetz, vergleichbar hohe Jugendarbeitslosigkeit
GB: niedriger Schutz der Arbeitnehmer, alles recht ähnlich zu den USA
Zu jedem Land wird eine Regression (Filter: Befragter hat Nationalität des Landes X und hat einen Arbeitsplatz) durchgeführt mit der Gleichung:
Angst vor Jobverlust = Einkommen + Bildungsabschluss + andere Faktoren (Stress am Arbeitsplatz, Haushaltsgröße, Geschlecht ...)
Mein momentanes Problem: das Einkommen ist ja immer eine schöne Größe in allen möglichen Sozial/Wirtschaftswissenschaften. In meinem Datensatz wurde das Einkommen auch erhoben, was schon mal supertoll ist. Nur wurde das Einkommen in jedem Land anders kodiert. In Spanien habe ich es direkt klassiert im Sinne von:
0€ - kein eigenes Einkommen
0 - 500€
500€ - 750€ usw.
In den USA/GB wurde das ähnlich erhoben, hier allerdings noch mit unterschiedlichen Währungen wie $ und Pfund - das Einkommen aber jedoch im Jahr und nicht pro Monat wie in Spanien(nehme ich an, steht nichts weiter im Datensatz dazu).
In Deutschland habe ich gar keine Klassierung, dafür eine metrische Variable - hier das Einkommen wieder pro Monat, nicht im Jahr.
Mein Vorgehen war jetzt: einfache Tabellenausgabe der jeweiligen Einkommensvariable des Landes X. Dann habe ich vier Klassen gebildet, in der jeweils ungefähr 25% der Befragten liegen. Nachdem ich sechs Regressionen zum jeweiligen Land habe sollte das doch gehen, oder nicht? Habe ich hier irgendetwas zu beachten?
Bin mir gerade etwas unsicher, vor allem da die Komilitonen mit Plan im Urlaub und deshalb nicht erreichbar sind. Die Dozenten natürlich auch.
Weiter im Text, bei 5 von 6 Ländern ging das mehr oder minder gut. In Mexiko habe ich vier Klassen mit 20 - 25 - 30 - 25 % an relativen Häufigkeiten, was theoretisch jetzt nicht das sonderlich große Problem sein sollte.
In Spanien ist es aber extrem, da die Klassen da schon widerlich genug waren. Da sehen meine Klassen etwa so aus: 25 - 40 - 30 - 5. Ich kann rekodieren wie ich will, da die 40 und 30% jeweils in einer einzigen Kategorie sind. Gibt es da irgendeine Lösung diese Klassen zu "trennen"? Wenn nicht einfach trotzdem in die Regression packen, und bei der Beschreibung und Interpretation besonders erwähnen?
Ich würde ungern nur zwei Klassen bilden, da ich meinen Informationsverlust doch etwas beschränken möchte...
für eine Hausarbeit schraube ich gerade etwas an einem Datensatz herum. Ich habe ca. 20 000 Befragte zum Thema "Arbeitsplatz". Ziel ist es mehrere Regression der Variable "Angst vor dem Verlust des Arbeitsplatzes" zu erstellen.
Hintergrund ist es Einstellungen und Filter nach nationalen Institutionen zu erstellen. Fraglich ist inwiefern Bildungssysteme, Einkommen und andere Faktoren die Angst vor einem Jobverlust erhöhen oder vermindern, abhängig davon welches Land gerade analysiert wird.
Momentan betrachte ich 6 verschiedene Länder (grobe Beschreibung, nur einige Eckpunkte):
USA: hire&fire Mentalität, schwacher Schutz des Arbeitnehmers, niedrige Stratifikation und Standardisierung des Bildungssystems
Schweden: hoher Schutz, hohe Beteiligung des öffentlichen Sektors, lebenslanges Lernen
Deutschland: hoher Schutz von Insidern, duales Bildungsystem - hoch standardisiert und hoch stratifiziert
Mexiko: theoretische Bildung im Vordergrund
Spanien: extreme Insider/Outsider Logik, Familie als Fangnetz, vergleichbar hohe Jugendarbeitslosigkeit
GB: niedriger Schutz der Arbeitnehmer, alles recht ähnlich zu den USA
Zu jedem Land wird eine Regression (Filter: Befragter hat Nationalität des Landes X und hat einen Arbeitsplatz) durchgeführt mit der Gleichung:
Angst vor Jobverlust = Einkommen + Bildungsabschluss + andere Faktoren (Stress am Arbeitsplatz, Haushaltsgröße, Geschlecht ...)
Mein momentanes Problem: das Einkommen ist ja immer eine schöne Größe in allen möglichen Sozial/Wirtschaftswissenschaften. In meinem Datensatz wurde das Einkommen auch erhoben, was schon mal supertoll ist. Nur wurde das Einkommen in jedem Land anders kodiert. In Spanien habe ich es direkt klassiert im Sinne von:
0€ - kein eigenes Einkommen
0 - 500€
500€ - 750€ usw.
In den USA/GB wurde das ähnlich erhoben, hier allerdings noch mit unterschiedlichen Währungen wie $ und Pfund - das Einkommen aber jedoch im Jahr und nicht pro Monat wie in Spanien(nehme ich an, steht nichts weiter im Datensatz dazu).
In Deutschland habe ich gar keine Klassierung, dafür eine metrische Variable - hier das Einkommen wieder pro Monat, nicht im Jahr.
Mein Vorgehen war jetzt: einfache Tabellenausgabe der jeweiligen Einkommensvariable des Landes X. Dann habe ich vier Klassen gebildet, in der jeweils ungefähr 25% der Befragten liegen. Nachdem ich sechs Regressionen zum jeweiligen Land habe sollte das doch gehen, oder nicht? Habe ich hier irgendetwas zu beachten?
Bin mir gerade etwas unsicher, vor allem da die Komilitonen mit Plan im Urlaub und deshalb nicht erreichbar sind. Die Dozenten natürlich auch.
Weiter im Text, bei 5 von 6 Ländern ging das mehr oder minder gut. In Mexiko habe ich vier Klassen mit 20 - 25 - 30 - 25 % an relativen Häufigkeiten, was theoretisch jetzt nicht das sonderlich große Problem sein sollte.
In Spanien ist es aber extrem, da die Klassen da schon widerlich genug waren. Da sehen meine Klassen etwa so aus: 25 - 40 - 30 - 5. Ich kann rekodieren wie ich will, da die 40 und 30% jeweils in einer einzigen Kategorie sind. Gibt es da irgendeine Lösung diese Klassen zu "trennen"? Wenn nicht einfach trotzdem in die Regression packen, und bei der Beschreibung und Interpretation besonders erwähnen?
Ich würde ungern nur zwei Klassen bilden, da ich meinen Informationsverlust doch etwas beschränken möchte...