• Liebe User, bitte beachtet folgendes Thema: Was im Forum passiert, bleibt im Forum! Danke!
  • Hallo Gemeinde! Das Problem leidet zurzeit unter technischen Problemen. Wir sind da dran, aber das Zeitkontingent ist begrenzt. In der Zwischenzeit dürfte den meisten aufgefallen sein, dass das Erstellen von Posts funktioniert, auch wenn das Forum erstmal eine Fehlermeldung wirft. Um unseren Löschaufwand zu minimieren, bitten wir euch darum, nicht mehrmals auf 'Post Reply' zu klicken, da das zur Mehrfachposts führt. Grußworte.

Hypothese: p1 > p2 testen?

Mitglied seit
24.07.2008
Beiträge
57
Reaktionen
0
Hallo ihr

habe zwei Statistiken, die jeweils aus 2 disjunkten Mengen zusammengesetzt sind, also 0 oder 1, ja oder nein aussagen.
Dabei handelt es sich um eine Krankheit die bei 2 verschiedenen Personengruppen auftritt (oder nicht auftritt), und zwar bei Männern und Frauen.
Die befragten Männer sind 300, davon sind 100 erkrankt. Die befragte Frauen sind nur 100, davon sind aber 50 erkrankt.
Ganz simpel gedacht würde man jetzt meinen 50%der Frauen erkranken aber nur 33% der Männer.
Meine Hypothese lautet also:

Frauen erkranken an der Krankheit häufiger als Männer.
p1 > p2 gegen p1 <= p2

Wie teste ich das jetzt?

Vielen Dank für die Antwort,
Heimatloser

PS: Meine Lösung: Hilfshypothesen aufstellen: H_hilf1 = "Krankheitshäufigkeit bei Männern ist 33%", Hhilf2 = "Krankheitshäufigkeit bei Frauen ist 50%", diese dann mit einem Binomialtest auf selben Signifikanzniveau testen, dann kann man die Ergebnisse vergleichen. Ist unsauber und unschön und so :(
 
Mitglied seit
04.10.2006
Beiträge
643
Reaktionen
0
Ort
München
Ich denke, Du solltest hier eher testen, ob die Variable GESCHLECHT einen Einfluss auf die Krankheitswahrscheinlichkeit hat, d.h.:

p:=krankheit positiv
n:=" - "negativ
M:=männlich
W:=weiblich

H_0: Krankheit und Geschlecht sind Unabhängig.
Unter H_0 gilt dann theoretisch: P(p und M)=P(p)*P(M), P(n und M)=P(n)*P(M) usw. usf.

Die Abweichungen von der H_0-Verteilung (also P(i und j) - P(i und j theoretisch)) sind dann Chi-Quadratverteilt, oder irgendwie so.

Genaueres einfach hier nachlesen:
http://de.wikipedia.org/wiki/Chi-Quadrat-Unabhängigkeitstest


Ich hoffe, das konnte Dir helfen?
Gruß,X
 
Mitglied seit
24.07.2008
Beiträge
57
Reaktionen
0
gerade dachte ich, es hätte klick gemacht, als mir der grenzwertsatz von moivre und laplace wieder eingefallen ist, der besagt ich kann das alles transformieren und dann mit nem simplen zwei-stichproben-gauß-test die erwartungswerte vergleichen.
jetzt muss ich erst mal deine antwort kapieren^^
danke trotzdem:P
 
Mitglied seit
04.10.2006
Beiträge
643
Reaktionen
0
Ort
München
Das was ich dir rausgesucht habe untersucht, ob die Merkmale "Geschlecht" und "Krankheit" als voneinander unabhängig angesehen werden können. D.h., die dahinterliegende Frage ist ja dieselbe.

Während Du also fragst p1<>p2 (bzw. p1<p2), frage ich ja mit dem X²-Test ob

H0: P(A UND B) = P(A) * P(B)

wird h0 verworfen, kann nicht mehr von unabhängigkeit ausgegangen werden. in deinem fall dann also: frauen erkranken häufiger.

Du kannst ja die tests mal vergleichen.

Ich errechne eine Chi-Quadrat-Teststatistik von ca 8.88, was bei 1 Freiheitsgrad zu einem Wert von 0.002 führt (<1%, also h0 verwerfen, blabla, nicht unabhängig blabla)..

ich hoffe das klärt es ein wenig?

gruß,
x
 

Didier

Guest
Irgendwie scheint der Ansatz von Heimatloser intuitiver. Man will wissen, ob Frauen häufiger erkranken und testet dann auch genau das. Transformieren und dann Gauß hört sich auch vernünftig an.

Natürlich kann man auch auf Unabhängigkeit testen. Aber das ist halt nicht die Fragestellung. Und die Schlussfolgerung: keine Unabhängigkeit -> Frauen erkranken häufiger, mag hier zwar richtig sein, ist im allgemeinen aber schon ein wenig delikat.

Naja, rauskommen tut eh das gleiche... bei den Zahlen wird auch der p2 > p1 Test deutlich signifikant sein.
 
Mitglied seit
24.07.2008
Beiträge
57
Reaktionen
0
Hallo nochmal,

soweit passt alles. Muss jetzt nur noch erklären warum mein erster Ansatz schrott war. Ich sage was ich getan habe:

  1. testen von Hypothese H1 "Frauen erkranken zu 50%"
  2. testen von Hypothese H2 "Männer erkranken zu 33%"
  3. auf den selben signifikanzniveau, dann einfach vergleichen.

PROBLEM:
Der ganze test hängt überhaupt nicht von dem wahrscheinlichkeiten ab, sondern einzig und allein von den grenzen des kritischen bereichs.

Und jetzt die Frage dazu:
Ähh, wie ging das gleich nochmal alles?

Okay das war übertrieben:
normalerweise funktioniert ein statistischer test doch so: Man berechnet ein Konfidenzintervall für den zu testenden Wert, die Grenzen bestimmt das Signifikanzniveau. dann guckt man ob der Wert der zu testen war in diesem Konfidenzintervall, dann auch "kritischer Bereich" genannt liegt oder nicht liegt, und sagt dann davon ausgehend ob die Hypothese angenommen oder abgelehnt werden kann?
Das Konfidenzintervall von dem ich hier spreche, wird doch bei einem Binomialtest quasi "um x_quer" gebildet?

Die echte Frage:
  • Oben genannte vorgehensweise ist also nur praktikabel wenn sich die Konfidenzintervalle nicht überschneiden?
  • Wie berechne ich diese Intervalle gleich wieder (wird mir aber in den nächsten 30 Minuten vermutlich einfallen)?

edit: eine Zusatzfrage.
Da mir die Google-Suche nur Schwanzgrößen ausspuckt:

  • Wie groß ist "genügend groß"
und wenn möglich: wie kommt man drauf das gerade dass der wert ist? ich meine damit, wie groß muss eine Messreihe sein damit ich den Grenzwertsatz anwenden darf
 
Zuletzt bearbeitet:

Amad3us

Guest
Wenn du keine Asymptotik verwenden willst, dann solltest du das mit Hilfe der
sogenannten nichtzentralen hypergeometrischen Verteilung testen.
Deine Nullhypothese ist dann, dass das Odds-Ratio der entsprechenden Kreuztabelle <= 1 ist.
Wie du den Test ausführst siehst du z.B. bei

Agresti: Categorical Data Analysis p. 99

wie groß muss eine Messreihe sein damit ich den Grenzwertsatz anwenden darf

Das ist i.A schwer zu beantorten. Man muss sich je nach Modell anhand von Simulationsstudien überzeugen, wie gut die Approximation ausfällt.
In deinem Fall (Vergleich zweier Anteilswerte) fällt mir als Richtlinie ein (ich glaube das steht irgendwo im "Sachs"), dass beide Gruppengrößen aus mindestens 50 Personen bestehen sollten.
 
Mitglied seit
24.07.2008
Beiträge
57
Reaktionen
0
ja ich hab die Ergebnisse schon... mehr oder weniger.
der Link ist auch der richtige, nur ist meine Fragestellung Einseitig.
dass ich Gauß gesagt habe war mein Fehler, ich dachte alle tests unter Normalverteilungssannahme heißen Gauß-Tests... dabei heißt nur der (einfachste) unter bekannter Varianz so.

unter Normalverteilungssannahme klappt alles, nur habe ich Probleme wenn ich darauf verzichte, und alles nur unter Binomialverteilungsannahme machen will und direkt mit Wahrscheinlichkeiten.
ich kann zwar testen ob p1 <, > oder = p0 ist (irgendein fester wert), aber irgendwie setzt es aus wenn ich einen zweistichproben binomialtest machen will. Deshalb die Fragen

bevor ich abschicke frage ich kurz wiki. nein, wiki hat keine einträge zu einem zweistichproben-binomialtest.
ich weiß das binomialtests schwerer auszuwerten sind, fast unmöglich per Hand, aber das ist wohl nicht der Grund dass es keine Einträge gibt.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
8.558
Reaktionen
994
Website
lifehacker.com
kannst du übers oddsratio testen.
edit: asdf zu spät

du kannst übrigens nicht 2 tests einfach so miteinander vergleichen. stichwort: problem des multiplen testens. bei was weiß ich, 10 tests, ist schon einer dabei, der auf jeden fall falsch sein muß, obwohl er es nicht ist. hier ist der standardweg tatsächlich entweder über chi quadrat unabhängigkeitstest und bei ablehnung die residuen anschauen, oder eben direkt über das oddsratio.
du kannst auch "graphisch" testen in einer 2x2 kontingenztafel über eine sogenannte fourfold plots:
http://www.math.yorku.ca/SCS/Courses/grcat/figs/pie22brk1.gif
die schwarzen außenringe müßen sich überlappen für unabhängigkeit, ansonsten siehst du auch direkt die richtung in die die hypothese abweicht (und wie stark). ist jedoch nur die graphische darstellung des oddsratio tests.
 
Zuletzt bearbeitet:
Mitglied seit
24.07.2008
Beiträge
57
Reaktionen
0
Vielen Dank für die Antworten an dieser Stelle!

Bevor ich mich aber damit beschäftige (keine Sorge nichts war umsonst, ich werd mir sogar das oddsratio zeugs anschauen) brauche ich selbst nochmal info:

d6b7f41dfbd53ef8c4c693dd9292b85e.png


zeigt die Wahrscheinlichkeitsdichte der Studentschen t-Verteilung, der Verteilung, die benötigt wird, um das alpha niveau des T-Tests zu berechnen.
dabei sind n die Freiheitsgrade und x der t-wert.
Jetzt meine Frage: bei meinem test sind die Freiheitsgrade doch 400? meine Teststatistiken haben zusammen 400 Werte, ich habe 0 Werte geraten, also bleibe ich bei 400?
naja aber selbst wenn ich jetzt noch 2 oder 4 abziehen muss bleibe ich bei knapp 400, und die gamme funktion bei so hohen zahlen auszuwerten erfordert eine viel zu hohe genauigkeit... was mache ich da schon wieder falsch?

danke für die hilfe,
heimatloser
 

Didier

Guest
Die t-Verteilung konvergiert gegen die Normalverteilung. Normalerweise nimmt man ab 30 Werten einfach die Normalverteilung.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
8.558
Reaktionen
994
Website
lifehacker.com
edit: blablabla nicht ausgeschlafen.

das sampling einer kontingenztafel wie sie oben gegeben ist entspricht in der regel einer multinomialen/produktmultinomialen fall (kannst also eigentlich selbst einen exakten test konstruieren).

außerdem: teste mal aus was mit dem t-test passiert, wenn du die kategorien (erkankt, nicht erkrankt) statt mit (0,1) mit (0,1000000) kodierst. (was natürlich auch nicht praxisrelevant ist)

odds-ratio test basieren (in der regel) übrigens auch auf einer normalverteilungsapproximation.

(chi quadrat test auf unabhängigkeit macht übrigens sehr wohl sinn, da du hier eigentlich bedingte wahrscheinlichkeiten vergleichst: du willst testen, dass die wahrscheinlichkeit zu erkanken gegeben man ist frau von der wahrscheinlichkeit zu erkranken gegeben man ist mann abweicht und testest auf unabhängigkeit. sobald unabhängigkeit verneint wurde bestimmst du die richtung der abhängigkeit.)
 
Zuletzt bearbeitet:
Mitglied seit
04.10.2006
Beiträge
643
Reaktionen
0
Ort
München
Was wird denn das jetzt hier für ein gebastle?

die t-verteilung ist in jedem x-beliebigen programm enthalten. die musst du nicht (!) selber basteln. und selbst wenn: excel bietet die gammafunktion als gammaln() an..

du kannst doch nicht für so eine "simple" frage soviel trara machen (oder hab ich grad das brett vor dem kopf?)

gruß ,
x
 
Mitglied seit
24.07.2008
Beiträge
57
Reaktionen
0
an xornado: danke für den tipp.

ich mache das ganze während der arbeit nebenbei, um einen freund zu helfen, und habe mich nie wirklich für statistik begeistern können.
ich wollte ein skript in matlab schreiben weil ich mit spss nicht umgehen kann.
funktioniert auch alles prima aber ich will hald paar hintergrundinfos wissen

daher meine neue frage:
wenn ich tests unter normalverteilungsannahme erst ab einem stichprobenumfang von ca 40 machen darf, und die t-verteilung ab ca 40 mit einer normalverteilung approximiere, wofür gibt es dann überhaupt die t-verteilung?
Ist der T-test etwa kein Test unter Normalverteilungsannahme?
 

Amad3us

Guest
wenn ich tests unter normalverteilungsannahme erst ab einem stichprobenumfang von ca 40 machen darf, und die t-verteilung ab ca 40 mit einer normalverteilung approximiere, wofür gibt es dann überhaupt die t-verteilung?

Die t-Verteilung ergibt sich nur dann, wenn dein Merkmal normalverteilt ist.
Ist dies nicht der Fall (was so gut wie immer zutrifft), so kann man asymptotisch mit Hilfe der Normalverteilung testen.

Kurz:

Bei Normalverteilten Daten -> Prüfgröße ist t-verteilt (das gilt auch für n<40 !)

Bei nicht normal verteilten Daten -> Prüfgröße ist asymptotisch normalverteilt
 
Zuletzt bearbeitet:

Didier

Guest
Dieses ganze finite-sample Testzeug ist nur damit die Statistiker auch was zu tun haben. Du hast das genau richtig erkannt und das ganze Zeug interessiert in der Praxis zurecht eh keinen.

Am Ende gehts da um ne p-value. Niemand interessiert es, ob Du jetzt verwirfst, weil die p-value 2,363% ist oder, ob Du finite-sample corrections machst und dann verwirfst, weil die p-value sich auf 2,375% verändert hat.

Ansonsten lol an das selbst programmieren. Für nen Studenten im 7. Semester mag das ja vielleicht noch Sinn machen, damit er es mal gesehen hat, aber ansonsten gibt es doch wahrlich keinen Grund bei solchen Dingen zum 1000sten Mal das Rad neu zu erfinden.
 

Amad3us

Guest
Dieses ganze finite-sample Testzeug ist nur damit die Statistiker auch was zu tun haben. Du hast das genau richtig erkannt und das ganze Zeug interessiert in der Praxis zurecht eh keinen.

Das umgekehrte ist der Fall: Das finite-sample "Zeug" liefert dir einen verlässlichen Test. Die asymptotischen Aussagen sind diejenigen, wo am meisten Zweifel angebracht sind.
Ich könnte dir gerne Beispiele nennen, in denen zwar auf dem Papier asymptotisch ein korrekter Test entsteht, aber bei endlichem Stichprobenumfang miserable Eigenschaften bestehen.

Den Unsinn, den die Praxis propagiert, kann man getrost vergessen.
 
Zuletzt bearbeitet:

Didier

Guest
Was für Beispiele fallen Dir denn ein? Da bin ich mal gespannt.

Ich hab mich wohl auch falsch ausgedrückt. Mir ging es um finite sample corrections in etablierten Tests. Bei allem was mir bisher unterkam, hatten die corrections eh nie einen "ernstzunehmenden" Einfluss auf die p-value oder selbst auf die Schätzer.

Natürlich kann man theoretisch problemlos irgendwelche Tests kreieren, die asymptotisch konsistent sind, aber finite sample extrem biased. Die benutzt dann aber auch zurecht keiner.
 
Zuletzt bearbeitet:
Oben