Fragebogen Daten reinigen

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.484
Reaktionen
662
ALso ich versuchs einmal hier, auch wenn es wohl dafür keine schönere Lösung als manuelle Korrektur gibt.

Ich hab blöderweise Fragebögen die nach Typen unterscheiden in eine Reihe erhalten, wo einzelne Fragen sich über die Fragebögentypen gleichen.
Beispiel
FirmaVar1_AVar2_AVar2_B
Schmidt45NA
Meier433

Das kann ich in ne Art Long Datensatz mit Typ als Variable umwandeln

FirmaTypVar1Var2
SchmidtA45
SchmidtBNANA
MeierA43
MeierBNA3

Jetzt kann ich mit einer anderen Datenbank abgleichen ob der Typ der Firma wirklich der ist den sie ausgefülllt bzw. angeben haben.

Der einfach Fall ist bei "Meier" die beides ausgefüllt haben obwohl sie nur eins hätten ausgefüllt haben. Ich behalte einfach nur die Reihen für die gilt Typ== True.Typ und gut ist.

Blöder ist der Fall für "Schmidt", die für Typ= A ausgefüllt haben, obwohl sie Typ= B sind. Jetzt könnte ich das identifizieren, aber sehe gerade keine schöne Variante, wie ich die falsche Zeile lösche und die richtige behalte als der neue Typ.

Im Endeffekt ist es dann einfacher, wenn mein Hiwi im Fragebogen die Antworten manuell verschiebt.
Oder hat jemand ne coole Idee? Ist das Problem verständlich erklärt?
 
Zuletzt bearbeitet:
Mitglied seit
24.08.2000
Beiträge
1.707
Reaktionen
432
Wenn ich richtig verstanden habe, wird für Schmidt zunächst per Abgleich heraus gefunden, dass sein wahrer Typ B ist, daraufhin soll der Datensatz entsprechend angepasst werden. Ich würde intuitiv per for/foreach Schleife alle Variablen abklappern und den Wert von A zu B kopieren, falls B einen Fehlwert aufweißt und A nicht. In welchem Dateiformat liegen die Datensätze vor?
 

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.484
Reaktionen
662
Excel, bzw ändere die Daten jetzt in R

Hab mir jetzt was überlegt, wie ich die Anzahl der Fälle eingrenzen kann, weil eigentlich jeder nur einen Fragebogentyp hätte beantworten sollen. jetzt sind es 20+ Fragebögen die man korrigieren muss, die so offensichtliche Fehler haben, dass die identische Frage aus mehreren Typen beantwortet wurde, aber auch so dume Fehler hat, dass man zu einem Teil Fragebogen 1 und zu einem anderen Fragebogen 2 ausgefüllt hat... Idioten..


Ich geh jetzt von wide auf Long um die Fragen die über mehrere Typen identisch sind zu konsolidieren und kann dann wieder auf wide gehen und prüfen, ob die Anzahl Beobachtungen gleich bleibt, daher jeder nur einen Fragebogen ausgefüllt hat. Dann kann ich entweder im Long oder Wide Format den Typ ändern, wenn ich denke, dass er falsch war.
 
Mitglied seit
24.08.2000
Beiträge
1.707
Reaktionen
432
Auch wenn ich den Reiz einer automatisierten Lösung nachvollziehen kann, aber bei 20 Fragebögen sollte eine manuelle Variante doch nicht länger als ne Stunde dauern, oder? ;)

Als jemand der keine genaue Vorstellung vom Aufbau des Datensatzes hat, würde ich immer noch sagen, meine vorgeschlagene Variante sollte funktionieren. Wenn mal A, mal B ausgefüllt wurde, muss man halt nur vorher prüfen, was leer ist und was nicht, und entsprechend kopieren (mein Vorschlag bezieht sich aufs long Format). Ich persönlich arbeite hauptsächlich mit Stata, kann also leider kein anschauliches Syntaxbeispiel für R liefern (für excel weigere ich mich :p)
 
Zuletzt bearbeitet:

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.484
Reaktionen
662
Jo ich verfolge jetzt auch die Manuelle Lösung, die falsch ausgefüllten Fragebögen manuelle zu korrigieren, so dass tatsächlich nur ein Typ pro Firma verbleibt. Dann ist das anpassen des Typs wenn er falsch ausgefüllt wurde leicht.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
4.500
Reaktionen
371
Website
www.frauentag.de
jo bei so wenigen fragebögen würde ich es auch definitiv noch manuell machen, geht schneller als sich einen algorithmus zu überlegen und zu programmieren ;)
 
Oben