Permuationen einer String Variable

Benrath · 22.10.2012

K.a. weiß gerade nicht wie ich das thema anders nennen will.

Is mehr so ne Procastinationssache und zum Schummeln bei der Empirie.

Sagen wir ich hab 3 Variablen: var1, var2 und var3 und möchte die in ner Regression verwenden. Dann bekomme ich z.B. ne Kennzahl wie R². Man könnte sich nun ohne Sinn und Verstand alle Permuationen ohne zurücklegen und Reihenfolge egal angucken und dann ne Schleife schreiben in der Mann die Kennzahl abspeichert.

Daher will ich also nen Vektor oder was ähnliches in dem folgende Einträge stehen
(var1, var2, var3, var1 var2, var1 var3, var2 var3, var1 var2 var3)

Weil dann weiß ich zumindest wie ich die Schleife schreiben könnte und meine Kennzahl abspeichere (Stata bei mir).

Weiß jemand wie man das am einfachsten hinbekommt in nem Programm was ich halbwegs ohne Aufwand anwenden kann: Matlab, R, Excel (kein VBA) oder Stata

pApAsChLuMpF4 · 22.10.2012

hi,

mit matlab könnte dir das eventull was bringen?

http://www.mathworks.de/de/help/matlab/ref/perms.html

"Description

P = perms(v), where v is a row vector of length n, creates a matrix whose rows consist of all possible permutations of the n elements of v. Matrix P contains n! rows and n columns."

also alles in vektor packen

danach musste reshape machen um aus der matrix ein vektor zu bekommen.

reshape(P,numel(P),1); oder einfacher: P( : ) :ugly:

Benrath · 23.10.2012

Das hatte ich sogar schon mal gesehen, da hätte ich aber alle die unterschiedlichen Reihenfolgen mit dabei. Im Linkbeispiel hätte ich dann z.B. 4 6 2 und 2 6 4 was für mich das Gleiche ist.

Ich will quasi n aus N ziehen ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge (glaub so sagt man das, oder), zusätzlich hätte ich noch gerne die Varianten <n, wie oben beschrieben für 3 Variablen.

mfb · 23.10.2012

Willst du nicht eigentlich die Potenzmenge (ohne die leere Menge)?
Die lässt sich leicht rekursiv als Liste von Mengen erzeugen. Vorsicht: Bei n Elementen gibt es 2^n Einträge.

Benrath · 23.10.2012

Wenn ich wikipedia verstanden habe, dann ja.

ALso ich würde die Potenzmenge von N=20 haben wollen aber nur bis zu n=10 Elemente.

pApAsChLuMpF4 · 23.10.2012

jetzt verstehe ich.

vielleicht hilft dir das:

"combnk

Enumeration of combinations
Syntax

C = combnk(v,k)
Description

C = combnk(v,k) returns all combinations of the n elements in v taken k at a time."

Also du hast einen Vektor "vector" mit bspw. 20 elementen:

for t = 1 : 10
C = combnk(vector,t);
%mache irgendwas, zb. daten fälschen fürs nächste paper
end

Benrath · 24.10.2012

Danke das klingt machbar. Das Beispiel ist z.B. mit nem Wort bei
http://www.mathworks.ch/ch/help/stats/combnk.html

Das v kann dann aber auch ein Vektor sein wie von mir gewollt.

Thx

mfb · 24.10.2012

616666 verschiedene Kombinationen. Klingt spaßig.
Außerdem bedeutet es, dass dein Effekt schon extrem signifikant sein muss, um irgendeine Relevanz zu besitzen.

Benrath · 24.10.2012

Ich hab Zeit

Ich würde schon ne Vorauswahl treffen, aber war mehr so ne Juxsache, ob am Ende logische Schlussfolgerung oder einfach stumpfes Korrelationensuchen siegt.

mfb · 24.10.2012

Ich habe neulich mal eine Studie dazu gelesen, finde sie aber nicht wieder.
Die Forscher haben sich einen Zusammenhang ausgesucht, den es nicht geben kann:
Es wurden X Personen untersucht, denen per Zufallsprinzip neuere oder ältere Musik verschiedener Richtungen vorgespielt wurde, und dann zwischen einem Zusammenhang zwischen der gehörten Musik und ihrem Alter gesucht. Dann wurde geschaut, ob sie einen Zusammenhang finden, der als statistisch signifikant durchgehen würde (p<0.05). Durch geschickte Wahl der betrachteten Parameter ging das tatsächlich: Die gehörte Musik "beeinflusste" (statistisch signifikant) das Alter der Versuchspersonen.
Eine genauere Analyse ergab, dass man durch solche Maßnahmen sogar in ~60-70% aller Fälle einen Zusammenhang (p<0.05) finden kann, wenn es gar keinen gibt.

Das ist mit ein Grund, wieso in der Teilchenphysik wesentlich mehr statistische Signifikanz gefordert wird

.

Benrath · 24.10.2012

Jo habs jetzt erst mal auch wieder aufgegeben, weils doch etwas viele Möglichkeiten sind und sich der Aufwand irgenwdie nicht lohnt, genau aus dem Grund den du sagst.

Naja bei normalen Regressionen fänd ich 5% auch bisschen wenig.

mfb · 24.10.2012

Erzähl' das mal Medizinern, Psychologen und ähnlichen... öhm... Wissenschaftlern.

In der Teilchenphysik werden alle "Funde" vor p<0.003 ("3 Sigma") quasi ignoriert, und erst ab p<0.0000006 ("5 Sigma") von einer Beobachtung gesprochen.

Benrath · 25.10.2012

Naja aber es gibt doch schon einen Tradeoff. Dadurch dass du so niedriege Signifikanzniveaus verlangst verhinderst du fast sicher, dass Effekte vermutet werden, die eigentlich nicht da sind. Andersrum lehnst du eventuell Effekte ab, die da sind, aber widerlegt werden. (Type I vs Type II Error und so)

Das klappt vielleicht in der Teilchenphyisk, k.a. wie eure Daten aussehen, aber nicht so wirklich in den Sozialwisschenschaften. Ich überseh mal die Mintarroganz.

Bootdiskette · 25.10.2012

six sigma alter!

auch wenn du es aufgegeben zu haben scheinst, stata wäre da schon ne gute wahl. schau mal in die pdf-manuals rein. insb. mit mata dürfte es recht gut programmierbar sein.

mfb · 25.10.2012

Benrath schrieb:
Andersrum lehnst du eventuell Effekte ab, die da sind, aber widerlegt werden. (Type I vs Type II Error und so)

Das klappt vielleicht in der Teilchenphyisk, k.a. wie eure Daten aussehen, aber nicht so wirklich in den Sozialwisschenschaften.

Man muss sie ja nicht ignorieren (und ja, das wird durchaus in Kauf genommen dass etwas nicht gefunden wird). Aber man sollte dann eben nicht von einer Entdeckung sprechen. Bestenfalls "hier könnte es sich lohnen, genauer hinzuschauen". Insbesondere dann, wenn die Chance, per Zufall eine solche Signifikanz zu erhalten, im Bereich 10%-50% ist.

Ich überseh mal die Mintarroganz.

Sämtliche mir bekannten Studien zu fehlender Reproduzierbarkeit, Mängel an der Datenauswertung und Statistik etc. sind aus den genannten Bereichen. Hilf' mir, das zu ändern

.

Benrath · 25.10.2012

Mir ist schon bewusst dass es da viele Probleme gibt. Wenn man allein überlegt wie viele nur corss sectional studies es gibt, wo die gefunden Effekte alle verschwinden oder nicht mehr findbar sind sobald es panels sind, etc.

ABer du musst die Leute auch verstehen, es gibt nicht die so experimentell herstellbare Datensituation und die Effekte sind nicht so eindeutige wie bei dir vielleicht. Auf der anderen Seite, wollen die Leute was publizieren und fertig werden mit Ihren Dissen etc. Das wird man nur mit irgendwelchen signfikanten Ergebnisse. Dann boostrapped man halt , Daten fallen unter den Tisch weil die Observations zu "infulential" sind, etc, bis man was findet

Login · 25.10.2012

mfb schrieb:
Ich habe neulich mal eine Studie dazu gelesen, finde sie aber nicht wieder.
Die Forscher haben sich einen Zusammenhang ausgesucht, den es nicht geben kann:
Es wurden X Personen untersucht, denen per Zufallsprinzip neuere oder ältere Musik verschiedener Richtungen vorgespielt wurde, und dann zwischen einem Zusammenhang zwischen der gehörten Musik und ihrem Alter gesucht. Dann wurde geschaut, ob sie einen Zusammenhang finden, der als statistisch signifikant durchgehen würde (p<0.05). Durch geschickte Wahl der betrachteten Parameter ging das tatsächlich: Die gehörte Musik "beeinflusste" (statistisch signifikant) das Alter der Versuchspersonen.
Eine genauere Analyse ergab, dass man durch solche Maßnahmen sogar in ~60-70% aller Fälle einen Zusammenhang (p<0.05) finden kann, wenn es gar keinen gibt.

Das ist mit ein Grund, wieso in der Teilchenphysik wesentlich mehr statistische Signifikanz gefordert wird .

Ich verstehe nicht warum in der Studie den Leuten Musik vorgespielt wurde.

mfb · 25.10.2012

Damit man irgendeine Variable hat, deren "Einfluss" auf das Alter man untersuchen kann.

Login · 25.10.2012

Das ist schon klar, aber dazu muss man die Leute doch keine Musik hören lassen, es reicht wenn man ihnen Musik oder was auch immer zuweist.

mfb · 26.10.2012

Ja gut...
Ich denke die Leute wurden danach nicht nur nach ihrem Alter, sondern auch nach sonstigem Zeug gefragt, was durchaus von der Musik hätte beeinflusst werden können. Aber da ich die Originalstudie nicht mehr finde, ist das alles nur grobe Erinnerung was genau gemacht wurde.

@Benrath: Habe deinen Post gestern übersehen.
Ich kann die Motivation dahinter, nicht existente Zusammenhänge finden zu wollen, schon verstehen (Entdeckung klingt spannender als 0-Effekt). Aber sollte man nicht versuchen, dies zu erschweren?

FORYOUITERRA · 30.10.2012

r-project permutation in google eingeben bekommst du aber schon noch hin, wenn du auf r zurückgreifen wollen würdest?

das was du suchst ist übrigens nicht eine permutation, sondern die potenzmenge. ich hab gedacht, du hast eine universitätsausbildung hinter dir?

da dies anscheinend nicht der fall ist: speziell für r kann es z.b. das package rje. dort z.b. die funktion powerSetMat.

edit: mal weiter als den ersten post hier gelesen. das wird ja immer besser. :rofl2:

du hast anscheinend lediglich ein variablenselektionsproblem innerhalb der standardregression?

Benrath · 30.10.2012

Hat da jemand seine Medikamente nicht genommen. Tschudlige das in meinem Studium nicht so wirklich der Focus auf Mengenlehre gelegt wurde, ich wusste ja immerhin was ich wollte nur nicht wie es hiess.

Bleibt eh dabei, dass die Idee schwachsinnig ist wegen der zu vielen Möglichkeiten und weils dann auch nix hilft wenn ich am Ende nix begründen kann. Könnte das gleiche ja genauso mit nem Dummy für Unterteilung der Beobachtungen machen und mir wieder die Potenzmenge angucken mit N

FORYOUITERRA · 30.10.2012

deine dummheit hat mit meiner medikamenteneinnahme nun wirklich gar nichts zu tun. potenzmenge sollte dir auch im zusammenhang mit sigma algebraen untergekommen sein. und sigma algebraen im zusammenhang mit wahrscheinlichkeitsräumen in denen du dich in deinem fall notwendig befindest, wenn du an regressionen interessiert bist.

wenn ich es deinem text richtig entnehmen kann, dann hast du insgesamt lediglich 20 variablen? best subset selection ist dann immernoch rechentechnisch durchführbar jedoch womöglich nicht so naiv wie du sie machst.
das leaps and bounds verfahren ist in der praxis anwendbar für 30-40 variablen. (sollte sogar im r base package sein)
http://www.jstor.org/discover/10.23...id=2129&uid=2&uid=70&uid=4&sid=21101324200151

übliche alternativen sind:
forward- backward-stepwise selection.
forward stagewise regression

wenn du im high dimensional setting bist und du davon ausgehen kannst, daß nur einige wirklich null sind und die variablen nicht allzusehr korreliert sind, dann kommst du an einem (adaptive) lasso nicht vorbei. bei variablenselektion im hochdimensionalen fall kommst du allerdings auch nicht drumherum so eine annahme zu treffen.

bei allen verfahren ist achtung geboten, da üblicherweise das selektionskriterium (was üblicherweise nicht R^2 ist), auf die beste vorhersage abzielt und nicht die beste interpretation: tendenziell werden mit den kriterien, die den vorhersagefehler minimieren zuviele variablen aufgenommen als tatsächlich relevant sind.

Benrath · 30.10.2012

Danke dass wusste ich quasi fast alles auch, nur dass ich nicht so fit in den dafür nötigen Proframmen bin.

Du, ich hab tatsächlich mal von sigma algebraen und so gehört, aber das mag man jetzt traurig finden oder nicht, aber imho muss kein mensch was darüber wissen um Regressionen machen zu können. Interessiert keinen angewandten Empiriker bzw keinen Sozialwissenschaftler so wirklich.

Ansonsten hab ich mein Problem schon etwas simpler dargestellt als es ist, aber freut mich dass du dich jetzt klüker fühlst.

seriously frag ich mich, was dir für ne Laus über die Leber gelaufen ist?

FORYOUITERRA · 30.10.2012

na, wenn du es schon quasi fast alles auch wußtest, warum fragst du dann?
das lässt nämlich nur den schluß zu, daß du zu faul zum selbst suchen bist und das lieber andere machen lässt. das ist allerdings ein ziemlich asoziales verhalten. die suche nach

best subset selection <insert programm deiner wahl>

hätte dich nämlich sicher weitergebracht und auch zu effizienten und bereits implementierten algorithmen geführt, die dein problem lösen.
aber andereseits, was kann man von jemanden erwartet der eine geplenkte aussage ala "wenn jeder an sich denkt, ist an alle gedacht !" in seiner signatur hat?
nicht viel, oder?

Benrath · 30.10.2012

k.a. was das jetzt bingen soll und rechtfertigen brauch ich mich hier auch nicht. Danke für den Link guck ich mir an und Danke für den Suchvorschlag, da war ich nicht drauf gekomme weil ich so sehr an der "Permutation" hing. Das diese theoretischen Verfahren gerne in VLs besprochen werden ist natürlich toll, was die in der wirklichen Empirie wo du mit Stories für deine Paper arbeiten musst bringen soll, ist fraglich.

Gute Nacht

Permuationen einer String Variable

Community-Forum

Community-Forum

Community-Forum

Community-Forum

Community-Forum

Community-Forum

Community-Forum

Community-Forum

TROLL

Community-Forum

TROLL

Community-Forum

TROLL

Community-Forum