Varianzmaß für ordinale Variable

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.535
Reaktionen
688
Vielleicht hat hier von den Soziologen oder Psychologen ne Idee.

Ich hab ein paar ordinale Items und meine Vermutung ist, dass einige davon weniger "kontrovers" bzw weniger Varianz haben. Ok eigentlich darf ich mir den Mean und die Varianz nicht wirklich angucken, aber es recht offensichtlich, dass das so ist.

Jetzt bin ich nur auf der Suche nach was vernüftigerem, was diese These unterstützen würde.

Gibt z.B. Variance Ratio, aber das ist behindert und hat genau das gleiche Ranking wie die Variance und fand ich irgendwie dämlich. Und mach auch mehr/nur Sinn für nominale Items.

Ridits bringens mir glaub ich nur was, wenn ich Aussagen über verschiedene Gruppen machen möchte, aber ich will mir das gesamte Sample angucken.
Oder kann man sowas wie Summe der ridits anschauen? Muss da noch mal lesen, warte gerade auf das Agresti Buch.

Hab noch was von Semi-Interquartile Range gelesen, aber das scheint recht witzlos bei 4 Kategorien zu sein, da ich teilweise den selben wert für manche Items bekommen, wenn die Quartile die selben sind.

Also wie gesagt, ich suche Wege um zu zeigen, dass die für eine Frage gegeben Antworten im Vergleich zu einer anderen Frage weniger variant sind.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
4.647
Reaktionen
400
Website
www.frauentag.de
ordinale daten haben es nunmal so an sich, dass ihre abstände _nicht_ interpretierbar sind.
mit anderen worten: du kannst umcodieren wie du willst, solange die reihenfolge gleich bleibt ändert sich nichts an der aussagekraft - das macht natürlich gerade so sachen wie mittelwert und streuung nicht mehr vernünftig interpretierbar.

interquartilabstand ist das maß der streuung auf der ordinalen skaleneinheit.

andere ansätze gehen halt direkt über die wahrscheinlichkeiten, die den merkmalen zugeordnet werden. auf der ebene kann man natürlich mehr machen. viel spaß mit dem agresti buch.
 

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.535
Reaktionen
688
Äh Danke, das war mir klar. Nachdem ich mir die Items mit histogramme und frequencytables und so angeguckt habe, ist mean und varianz zumindest noch ein Anhaltspuntk der meine These stützt.

Was stellst du dir mit den geschätzten Probabilites vor?

Das mit den Ridits bringst mir leider nicht, hab das Ursrpungspaper mal gelesen und es bringt mir mehr was für Vergleiche zwischen Gruppen bzw im Bezug auf eine Referenzgruppe.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
4.647
Reaktionen
400
Website
www.frauentag.de
nochmal etwas deutlicher: ordinale merkmale sind qualitative merkmale, die du mit irgendwelchen beliebigen rangzahlen codiert hast. dabei ist a) deine codierung willkürlich (ich persönlich halte nichts von dem score ansatz) und b) die abstände zwischen den rängen nicht interpretierbar.
mir ist nicht ganz schlüssig wie du mit einem ordinalen merkmal vernünftigerweise ein histogramm erstellen willst. der trick ist halt, dass psychologen oftmals ihre wertungsskalen nicht als ordinalskaliert auffassen sondern oftmals die items auf einer art zahlenstrahl bewerten lassen, wo halt die kategorien 1-6 hervorstechen (so daß die leute nur da ihr kreuz machen). solche antwortbögen sind dann wieder intervallskaliert und du hast keine probleme.


mit der modellierung über wahrscheinlichkeiten kannst du rausfinden, ob die gruppen sich unterscheiden, tuen sie es nicht, dann müssen sie gleich sein. stochastische order und sowas kann man feststellen.
also standardgedöhns wie unabhängigkeitsest, odds ratios oder fortgeschrittener direkt eine log lineare modellierung der zellhäufigkeiten, also ein glm ansatz.
im buch von agresti zu ordinal categorical data analysis steht einiges darüber drin, in der einführungskapitel auch was über ridits. es lesen musst du schon selbst.
 

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.535
Reaktionen
688
Ich will nix unglaubliches kompliziertes mir gehts um eine einfach Aussage über die Verteilung der Items und nicht über Unterschiede in Gruppen

Ich hab 6 Items und eins davon scheint im Durschnitt wesentlich niedriger bewertet zu sein und die Antworten sind wesentlich gestreuter auf alle 4 Kategorien als bei den anderen Items. Bei ner continuous Variable würde ich sagen, dass sie sehr rechtschief mit höherem Mittelwert ist.

Das zeigt mir in gewisser Hinsicht mein Output der Means und der SD an. Da ich mir das aber eigentlich nicht angucken soll suche ich nach etwas anderem was mir eine ähnliches Aussage liefer, weil letztendlich fast alle Maße die ich anwenden werden mir ein gleiches Ranking liefern werden wie der Output des Means und der SD.

Neu im Rennen sind jetzt Interestingness Measures, wobei das irgendwie nicht so genau das aussage was ich möchte, bzw auf Statlist wurde empfohlen das Gini-Turing-Hirschman-Simpson-Herfindahl-Good Maß zu verwendern. Das ist wohl ne Kunstschöpfung des Statalistusers um anzuzeigen wer so alles auf ähnliche Maß Idee gekommen ist.
Das nimmt die quadrierten Kategoriewahrscheinlichkeiten, p_i und verbindet das mit Shannon Wiener Entropy Maß , Sum(p_i + log(p_i)). Das ist irgendwie bisschen anders als die eigentlich Interestingness Measures, aber mehr so in meine Richtung.

er schlägt entweder 1/sum(p_i^2) oder exp(-sum(p * ln(p))) vor. wo dann z.B. bei 4 Kategorien der Wert 1 rauskäme wenn eine Kategorie voll besetzt ist oder der Wert 4 rauskommt wenns gleichverteilt ist. Das mit dem Wert ist irgendwie komisch wegen ln(1) oder ist das so ne lim->0 sache?

Sonst muss ich noch was besseres zur tetrachorischen variation finden, was wohl Soziologen verwenden.

Die ganzen Modellsachen vom Agresti buch helfen mir bei meiner Frage imho nicht wirklich, weils mir gerade nicht um die Erklärunge der Verteilung der Antworten geht.


Die Meinung zum Ordering der Mean and SD wird geteilt vom Statalist Guru, der es anscheinend nicht ganz so streng mit den Properties der Measurement Scale nimmt wie du, bzw das ambivalenter sieht.
 
Zuletzt bearbeitet:

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.535
Reaktionen
688
Mal so aus SPaß probiert, aber da seh ich ja nix bei nur 4 Kategorien.

Tetra und polychorische Variation bringts mir nur wenn ich korrelationen berechnen würde.

ZUr Zeit bleib ich einfach bei Sum[p_i ^2] , das ist dann 1 wenn alle Werte auf einer Kategorie liegen und 0.25, wenn gleichverteilt als Minimum. und dazwischen sind die anderen je heterogener desto kleiner. oder die anderen Variante die vorgeschlagenen wurde, dafür brauch ich nur noch ne bessere QUelle.


Bei Histogramm meinte ich auch eher die discrete Variante er macht unten auf die Achse einfach 1-4 und auf y Achse die p_i. Da sieht man das danna uch recht gut wie die verteilt sind.
 
Mitglied seit
21.08.2010
Beiträge
7.592
Reaktionen
842
Wie wärs einfach mit der relativen Masse die sich auf Modus, zweithäufigstes, dritthäufigstes usw. verteilt? Oder ist das im Endeffekt auch das, was das von dir angesprochene Herfindahl-Derivat leistet?
Daran sollte man ja schon ganz gut sehen wie sehr sich die Antworten auf einzelne Ausprägungen konzentrieren. Mit Bootstrapping könntest du dann sogar noch eine Verteilung dieser Maßzahl simulieren und somit eine Art synthetische Signifikanz angeben (Auch wenn das wiederum ein bisschen Humbug wäre. Viele Referees schlucken sowas aber überraschend leicht wenn sie keine Statistiker sind und man irgendwen zitiert der das auch schonmal ähnlich gemacht hat :ugly:).
 

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.535
Reaktionen
688
äh ja, nein, trotzdem Danke :) Das wär jetzt ein bisschen mit Kanonen auf Spatzen. Ich belasse es erst mal bei dem Herfindahl Derivat, es geht auch nur um ne eher deskriptive Aussage.
 
Oben