Datensätze gesucht

BigBadWolf · 20.04.2010

Hey,

ich brauche für ein lustiges Seminar einen Datensatz, den ich sekundäranalytisch mit ner bestimmten Methode auswerten darf. Dafür suche ich Datenbanken mit kostenlosen Datensätzen, die - wenn man sie zitiert - benutzt und ausgewertet werden können. Einfach um ein paar Methoden zu testen etc.

Quasi sowas wie das UC Irvine Machine Learning Repository - denke da gibt es noch hunderte solcher Archive im Netz in Englisch oder Deutsch...
http://archive.ics.uci.edu/ml/

Sonderliche Ansprüche an die Daten habe ich nicht. Wenn es Datenbanken sind, kann man ja eh suchen. Z.B. bringen mir time-series Daten oder hierarchische Daten (wenn nicht genügend Cluster) wenig. Ansonsten sollten die Datensätze zumindest teilweise wenigstens um die 500 Beobachtungen haben. Alles andere suche ich mir schon dann selbst. Thematisch ist irgendwas ökonomisches oder psychologisches, politisches oder sonstwas i.O. Aber auch ausgefallenere Sachen wie Autopreise oder Weinqualität oder sonstwas kann ganz witzig sein.

Ich weiß, dass R z.B. mit vielen Packages Datensätze mitliefert, aber die sind meistens scheiße bzw. scheiße dokumentiert. Selbst generieren ist übrigens leider auch nicht t_t.

Falls jemand paar gute Links hat, würde ich mich da sehr freuen...

Thx schonmal
BBW

aMrio · 20.04.2010

ich habe keine ahnung was genau du brauchst, aber oracle liefert bei seinen datenbanken mehrere sampleschemas mit testtabellen mit; das größte davon ist das SH schema auf dessen wichtigster tabelle glaube ich knapp 1 million zeilen sind.

alternativ gibt es noch das freie mondial schema (google!) das eine art datenbank abbild der welt (quelle unter anderem das cia world factbook) ist; ist ziemlich groß und man kann ziemlich viel mit analysieren / methoden testen etc. sind halt sauviele sehr verschiedene daten die man dadurch miteinander verknüpfen kann, statistiken zu armut, sterblichkeit, wirtschaft usw; welche insel liegt in nem land das selbst ne insel ist die selbst in nem land liegt das ne insel ist etc pp, worauf immer man lust hat es geht eigentlich damit.

aNi · 20.04.2010

Ich meine dass man sich den imdb Datensatz frei ziehen kann.

Entelechy · 20.04.2010

Ich kenne Cansim, ist kanadisch, socio/economic und hat sau viele Datensätze.

Weiß nicht ob du da zugriff über deine Uni hast. Wenn nicht -> PN.

FORYOUITERRA · 20.04.2010

das statistische bundesamt stellt immer eine auflistung zu suiziden in deutschland ins netz.
schön mit männlein, weiblein, alter, todesursache. falls du was qualitatitves machen willst, ist das nen thema, was bei den leuten hängen bleibt.
(sind aber leider zuviele todeswillige in deutschland: ein chi quadrat-test wird gnadenlos abgelehnt)

Eeth · 20.04.2010

knime.org. dort dann z.b. iris datensatz. kannst knime auch gleich zum testen nehmen.

ansonsten was willst du denn testen? ML Verfahren?

parats' · 21.04.2010

Nutz doch die allgemeine öffentliche Datenbank mit den Statistiken der Länder etc.
Weiß nur leider den Link nicht mehr. :/

xornado · 21.04.2010

www.destatis.de reicht dir dann wohl sicherlich nicht?

Gruß,
X

BigBadWolf · 21.04.2010

Naja - ich will ja Rohdaten. Und wenn möglich irgendwas, wo man was vorhersagen kann (ob nun kontinuierlich oder kategorial ist fast egal...wenn kategorial wäre mir aus Einfachheitsgründen ( :ugly:

) dichotom ganz recht). Und viele der Länder-Datensätze (hab noch x andere Seiten gefunden) bieten das irgendwie nicht so recht. Ich mein - was will ich da großartig vorhersagen außer Zeitreihen (wonach ich explizit nicht suche).

Die Sachen, die ich finde, sind entweder ungeeignet (zu wenige Beobachtungen, Iris hat z.B. auch nur 150; oder zu wenige Features, je mehr umso besser - es geht um DataMining) oder vom Thema her stinkend langweilig. Die page von Eeth geht aber schon in die richtige Richtung.

Irgendwas aus dem Bereich Health - Kategorisierung in krank/nicht krank für alle möglichen psychischen oder physischen Krankheiten oder so wäre ganz heiß. Oder Genomklassifizierung oder Vorhersage von Frühgeburt oder irgendwas, was man für ne Versicherung nehmen kann (hab nen Datensatz gefunden, wo vorhergesagt wurde, welche Haushalte Interesse an einer RV-Versicherung haben könnten - das is derzeit mein favorisierter :8[:

) oder oder oder... Geht aber auch aus anderen Bereichen wie die oben angesprochenen.

Es sollte eben nur ne abhängige Variable geben, Bevölkerungsstatistiken bringen mir daher vglsweise wenig (man könnte Gehalt da vorhersagen evtl, das wäre interessant, weil's oft nonresponse auf die Frage hin gibt). Ebenso viele der sozioökonomischen Sachen (was Management-mäßiges wie "lebte die Firma 5 Jahre nach Gründung noch o.ä. mit mehreren Prädiktoren wäre schon witziger). Das von Amrio hab ich null gerafft und imdb ist jetzt auch nicht so wahnsinnig spannend (was soll man da bitte analysieren?). Ich bin bei so nem Scheiß auch immer extrem unkreativ.

@Speed: was genau ist das für ne Statistik? Sind ja dann alle tot, von daher ist da nix mit differentieller Prädiktion oder Klassifizierung in suizidgefährdet oder so, weil man ja keine zweite Gruppe (der Nicht-Toten) hat... Oder gäbe es da irgendne interessante Outcome-Variable, die nicht für alle gleich ist -.-?

aMrio · 21.04.2010

naja, ich sagte doch wirf mal google an wegen mondial ..
http://www.dbis.informatik.uni-goettingen.de/Mondial/

das ER:
http://www.dbis.informatik.uni-goettingen.de/Mondial/mondial-ER.pdf

die zusammenhänge ethnische gruppe, armut, sterblichkeit, religion, bevölkerungswachstum, inflation, bevölkerungsdichte usw usf gehen doch irgendwie in deine richtung?

doveR · 21.04.2010

eine pokerdatenbank? kannst ja dann vorhersagen wie lange es dauert bis alle spieler broke sind oo

Benrath · 21.04.2010

BigBadWolf schrieb:
@Speed: was genau ist das für ne Statistik? Sind ja dann alle tot, von daher ist da nix mit differentieller Prädiktion oder Klassifizierung in suizidgefährdet oder so, weil man ja keine zweite Gruppe (der Nicht-Toten) hat... Oder gäbe es da irgendne interessante Outcome-Variable, die nicht für alle gleich ist -.-?

kannst du nicht ne künstliche matching gruppe erstellen?

Amad3us · 21.04.2010

http://www.gesis.org/dienstleistungen/daten/umfragedaten/allbus/

http://www.norc.org/projects/general+social+survey.htm

Alternativ könntest du auch mal bei diversen Professoren auf deren Homepage guckn. Die haben oft
Datensätze frei verfügbar

Z.B:

http://www.stat.ufl.edu/~aa/

BigBadWolf · 22.04.2010

Hm, thx - aber viele dieser Datensätze haben halt nicht irgendwelche Variablen, wo es spannend wäre, sie vorherzusagen.

Datensätze gesucht

Erweitert

BigBadWolf

aMrio

aNi

Guest

Entelechy

Guest

FORYOUITERRA

TROLL

Eeth

parats'

Tippspielmeister 2012, Tippspielmeister 2019

xornado

BigBadWolf

aMrio

doveR

Benrath

Community-Forum

Amad3us

Guest

BigBadWolf