Gustavo:
Als jemand der für Geld mit einigermaßen großen Datenmengen hantieren darf:
"Big Data" ist ein ziemlich breiter Begriff. Definieren wir ihn in diesem Kontext mal auf systematische Datenauswertung von u.a. Firmen- und anderen Daten die in einer Menge vorliegen, die es notwendig macht, dass man sich um die Handhabbarkeit und Geschwindigkeit der Verarbeitung wie auch die Datenhaltung selbst Gedanken machen muss.
Zum Beispiel können wir nicht alle Daten behalten sondern müssen uns auf Snapshots beschränken, weil wir sonst jede Woche einen neuen JBOD anschaffen dürften … während die Daten größtenteils ungenutzt herumliegen weil sie im Wesentlichen nur einmal genutzt werden. Entsprechend werfen wir sie nach der Nutzung weg. Eine weitere Analyse ergibt da nur Sinn, wenn wir bei der rollierenden Speicherung keinen Flaschenhals bekommen.
Big Data ist relevant weil Datenverarbeitung relevant ist. Letztlich geht es darum aus anfallenden Daten auch Schlüsse zu ziehen und nicht im Dunklen herumzustochern. Das ist für alle Anwendungsbereiche relevant in denen man aus Daten Dinge schließen kann. Häufig bringt einen da schon recht einfache Statistik recht weit, weil alles besser ist als gar nichts wenn es zum Beispiel um Kundenverhalten geht.
Ein weit verbreitetes Ding ist maschinelle Übersetzung. Um sowas sinnvoll zu machen brauchst Du einen Haufen Text um daran deine Modelle lernen zu lassen. Der am häufigsten genutzte Referenzdatensatz ist die englischsprachige Wikipedia. Da kommen schon einige Gigabyte an Daten zusammen. Das verarbeitet man auch nicht mehr auf einer 08/15-Workstation. Ich habe dafür eine VM auf AWS die dann bis zu drölfzig GB RAM nutzen darf. Ich weiß es tatsächlich nicht einmal bis wohin es theoretisch geht.
Du kannst gesichert davon ausgehen, dass viele interessante Anwendungen ohne eine Big Data Anwendung unmöglich sind. Das Problem ist, dass man die Wahl hat ein total nices Modell zu basteln welches auch auf einem handelsüblichen PC läuft, oder eben ein massiv datenbasiertes Ding was ein Mensch mit deutlich weniger akademischer Ausbildung erstellen kann und das vereinfacht gesagt einfach durch viel Daten sein Parameterset brute-forced. Es ist letztlich billiger und schneller mit viel Daten und Rechenleistung zu arbeiten als mit strukturellen Modellen. Selbst wenn ein strukturelles Modell besser ist, sind die Unterschiede in der time to deploy zu groß. Und tatsächlich sind die theoriefreien rein empirischen Modelle meistens sogar besser.
Ja ich finde es auch traurig.
PS: Noch ein paar Beispiele:
Diagnostik bei bildgebenden Verfahren –– Computer analysieren Bilder schneller und zuverlässiger als Menschen.
Meteorologie –– Ohne riesige Datenmengen und riesige Computer gibt es keine Wettervorhersage
Geophysik –– siehe Meteorologie … die ganze Erdbebensache und Forschung dazu funktioniert kaum ohne große Datenmengen und die dazugehörigen Rechner
Epidemiologie –– Ein Verbreitungsmodell für Epidemien und die dazugehörige Datenerhebung … siehe oben
Forensic Analytics –– Automatische Auswertung von Unternehmensakten … das geht nicht indem man ein Heer Steuerfahnder dransetzt. Bevor da der Prozess startet sind die Angeklagten verstorben wenn der Konzern nur groß genug ist. (Oder man nimmt halt in Kauf, dass Menschen Dinge übersehen.)
Naja. Ein Mathematiker der über Statistik redet. Das geht allzu häufig ins Auge. Ähnlich wie bei Informatikern die über Statistik reden. Beiden Gruppen traut es jeder zu, dass sie super in Statistik sind. Beide sind es in der Regel absolut nicht.
Er macht einige richtige Punkte, aber ultimativ merkt man, dass er halt wenig Ahnung hat. Sein wichtigster richtiger Punkt den ich da rauslese ist, dass reines nach Korrelationen suchen sinnlos ist. Natürlich muss man auch mit einer breiten Datenbasis ein gutes Modell haben, keine Frage. Aber so zu tun als ob das Datensammeln dadurch der falsche Ansatz wäre ist verfehlt. Es ist vielmehr (s.o.) deprimierend wie weit man schon mit absolut oder zumindest weitestgehend theoriefreien Ansätzen kommen kann. Dass Google als Suchmaschine so gut funktioniert ist wohl das prominenteste Beispiel.