Datensätze gesucht

Mitglied seit
06.12.2000
Beiträge
5.486
Reaktionen
0
Hey,

ich brauche für ein lustiges Seminar einen Datensatz, den ich sekundäranalytisch mit ner bestimmten Methode auswerten darf. Dafür suche ich Datenbanken mit kostenlosen Datensätzen, die - wenn man sie zitiert - benutzt und ausgewertet werden können. Einfach um ein paar Methoden zu testen etc.

Quasi sowas wie das UC Irvine Machine Learning Repository - denke da gibt es noch hunderte solcher Archive im Netz in Englisch oder Deutsch...
http://archive.ics.uci.edu/ml/

Sonderliche Ansprüche an die Daten habe ich nicht. Wenn es Datenbanken sind, kann man ja eh suchen. Z.B. bringen mir time-series Daten oder hierarchische Daten (wenn nicht genügend Cluster) wenig. Ansonsten sollten die Datensätze zumindest teilweise wenigstens um die 500 Beobachtungen haben. Alles andere suche ich mir schon dann selbst. Thematisch ist irgendwas ökonomisches oder psychologisches, politisches oder sonstwas i.O. Aber auch ausgefallenere Sachen wie Autopreise oder Weinqualität oder sonstwas kann ganz witzig sein.

Ich weiß, dass R z.B. mit vielen Packages Datensätze mitliefert, aber die sind meistens scheiße bzw. scheiße dokumentiert. Selbst generieren ist übrigens leider auch nicht t_t.

Falls jemand paar gute Links hat, würde ich mich da sehr freuen...

Thx schonmal
BBW
 
Mitglied seit
12.08.2002
Beiträge
12.549
Reaktionen
0
ich habe keine ahnung was genau du brauchst, aber oracle liefert bei seinen datenbanken mehrere sampleschemas mit testtabellen mit; das größte davon ist das SH schema auf dessen wichtigster tabelle glaube ich knapp 1 million zeilen sind.

alternativ gibt es noch das freie mondial schema (google!) das eine art datenbank abbild der welt (quelle unter anderem das cia world factbook) ist; ist ziemlich groß und man kann ziemlich viel mit analysieren / methoden testen etc. sind halt sauviele sehr verschiedene daten die man dadurch miteinander verknüpfen kann, statistiken zu armut, sterblichkeit, wirtschaft usw; welche insel liegt in nem land das selbst ne insel ist die selbst in nem land liegt das ne insel ist etc pp, worauf immer man lust hat es geht eigentlich damit.
 

aNi

Guest
Ich meine dass man sich den imdb Datensatz frei ziehen kann.
 

Entelechy

Guest
Ich kenne Cansim, ist kanadisch, socio/economic und hat sau viele Datensätze.

Weiß nicht ob du da zugriff über deine Uni hast. Wenn nicht -> PN.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
5.569
Reaktionen
557
das statistische bundesamt stellt immer eine auflistung zu suiziden in deutschland ins netz.
schön mit männlein, weiblein, alter, todesursache. falls du was qualitatitves machen willst, ist das nen thema, was bei den leuten hängen bleibt.
(sind aber leider zuviele todeswillige in deutschland: ein chi quadrat-test wird gnadenlos abgelehnt)
 
Mitglied seit
03.08.2002
Beiträge
3.193
Reaktionen
0
knime.org. dort dann z.b. iris datensatz. kannst knime auch gleich zum testen nehmen.

ansonsten was willst du denn testen? ML Verfahren?
 

parats'

Tippspielmeister 2012, Tippspielmeister 2019
Mitglied seit
21.05.2003
Beiträge
19.641
Reaktionen
1.483
Ort
Hamburg
Nutz doch die allgemeine öffentliche Datenbank mit den Statistiken der Länder etc.
Weiß nur leider den Link nicht mehr. :/
 
Mitglied seit
06.12.2000
Beiträge
5.486
Reaktionen
0
Naja - ich will ja Rohdaten. Und wenn möglich irgendwas, wo man was vorhersagen kann (ob nun kontinuierlich oder kategorial ist fast egal...wenn kategorial wäre mir aus Einfachheitsgründen ( :ugly: ) dichotom ganz recht). Und viele der Länder-Datensätze (hab noch x andere Seiten gefunden) bieten das irgendwie nicht so recht. Ich mein - was will ich da großartig vorhersagen außer Zeitreihen (wonach ich explizit nicht suche).

Die Sachen, die ich finde, sind entweder ungeeignet (zu wenige Beobachtungen, Iris hat z.B. auch nur 150; oder zu wenige Features, je mehr umso besser - es geht um DataMining) oder vom Thema her stinkend langweilig. Die page von Eeth geht aber schon in die richtige Richtung.

Irgendwas aus dem Bereich Health - Kategorisierung in krank/nicht krank für alle möglichen psychischen oder physischen Krankheiten oder so wäre ganz heiß. Oder Genomklassifizierung oder Vorhersage von Frühgeburt oder irgendwas, was man für ne Versicherung nehmen kann (hab nen Datensatz gefunden, wo vorhergesagt wurde, welche Haushalte Interesse an einer RV-Versicherung haben könnten - das is derzeit mein favorisierter :8[: ) oder oder oder... Geht aber auch aus anderen Bereichen wie die oben angesprochenen.

Es sollte eben nur ne abhängige Variable geben, Bevölkerungsstatistiken bringen mir daher vglsweise wenig (man könnte Gehalt da vorhersagen evtl, das wäre interessant, weil's oft nonresponse auf die Frage hin gibt). Ebenso viele der sozioökonomischen Sachen (was Management-mäßiges wie "lebte die Firma 5 Jahre nach Gründung noch o.ä. mit mehreren Prädiktoren wäre schon witziger). Das von Amrio hab ich null gerafft und imdb ist jetzt auch nicht so wahnsinnig spannend (was soll man da bitte analysieren?). Ich bin bei so nem Scheiß auch immer extrem unkreativ.

@Speed: was genau ist das für ne Statistik? Sind ja dann alle tot, von daher ist da nix mit differentieller Prädiktion oder Klassifizierung in suizidgefährdet oder so, weil man ja keine zweite Gruppe (der Nicht-Toten) hat... Oder gäbe es da irgendne interessante Outcome-Variable, die nicht für alle gleich ist -.-?
 
Zuletzt bearbeitet:
Mitglied seit
20.04.2005
Beiträge
2.888
Reaktionen
0
Ort
Österreich
eine pokerdatenbank? kannst ja dann vorhersagen wie lange es dauert bis alle spieler broke sind oo
 

Benrath

Community-Forum
Mitglied seit
19.05.2003
Beiträge
19.676
Reaktionen
727
@Speed: was genau ist das für ne Statistik? Sind ja dann alle tot, von daher ist da nix mit differentieller Prädiktion oder Klassifizierung in suizidgefährdet oder so, weil man ja keine zweite Gruppe (der Nicht-Toten) hat... Oder gäbe es da irgendne interessante Outcome-Variable, die nicht für alle gleich ist -.-?

kannst du nicht ne künstliche matching gruppe erstellen?
 
Mitglied seit
06.12.2000
Beiträge
5.486
Reaktionen
0
Hm, thx - aber viele dieser Datensätze haben halt nicht irgendwelche Variablen, wo es spannend wäre, sie vorherzusagen.
 
Oben