- Mitglied seit
- 19.05.2003
- Beiträge
- 19.990
- Reaktionen
- 849
Es könnte sein, dass ich ne Menge Daten zu Zugläufen bekommen. Wir reden von ca. 50.000 Zugnummern (ZN) mit im Schnitt je 150 Stoppunkten (BST) also 6 Mio Zeilen pro Tag. Das Format sollte mehr oder weniger so aussehen. BTG ist Datum, ZN die Zugnummer, Index 1 bis N für die Stops, BST ist der Haltepunkt und dann Ankunft und Abfahrt.

Ich frage mich jetzt wie ich das am besten speichere oder ob ich es einfach so speichere und dann sind es schnell recht viele Zeilen. Oder wäre das egal?
Eine Sache macht es vermutlich schwerer.
Die ZN können mit unterschiedlichen Läufen an unterschiedlichen Tagen vorkommen und vermutlich ändern Sie sich von Jahr zu Jahr.
IC123 kann meinetwegen am Anfang des Jahres von Köln nach Kiel fahren und am Ende von München nach Berlin
Ein großer Teil sollte jedoch über die Zeit konstant sein.
z.B. gehe ich davon aus, dass regelmäßige Züge jeden Tag (BTG) mit der selben Zugnummer (ZN) um 8:00 losfahren und irgendwo ankommen.
Also dass IC321 im ganzen Jahr den gleichen Lauf hat.
Daher hatte ich überlegt, ob ich das trenne und in der Tabelle Zuglauf nur die Zugnummer (ZN) mit dem Zuglauf und einer generischen Zuglauf_id speicher und in der anderen Tabelle nur die Zugnummer und den Tag mit der Zuglauf_id

Hätte gedacht, dass ich dann mit dem ersten Tag die Tabelle Zuglauf fülle und die ID pro Zugnummer vergebe und dann die Unique Rows von ZN, BTG und Zuglauf_id in Zugnummer speichere. Was mach ich dann am 2. Tag? Könnte erst mal gucken, ob die ZN schon mal vorkommt und dann irgendwie gucken, ob der Zuglauf identisch ist und dann könnte ich ZN, BTG und Zuglauf_Id in Zugnummer speichern und nichts neues in Zuglauf. Das klingt naiv son bischen wie ein merge von long data auf long date, aber wie mach ich das? Am ehesten in R
oder was ist das stichwort was ich dazu suche?
Oder reduziere ich den Zuglauf so, dass ich die Kombination von Index, BST, Ankunft und Abfahrt pro ZN in einen String zusammenbringe und gucke obs den String schon mal gibt? Also klassisch merge?
Have fun

Ich frage mich jetzt wie ich das am besten speichere oder ob ich es einfach so speichere und dann sind es schnell recht viele Zeilen. Oder wäre das egal?
Eine Sache macht es vermutlich schwerer.
Die ZN können mit unterschiedlichen Läufen an unterschiedlichen Tagen vorkommen und vermutlich ändern Sie sich von Jahr zu Jahr.
IC123 kann meinetwegen am Anfang des Jahres von Köln nach Kiel fahren und am Ende von München nach Berlin
Ein großer Teil sollte jedoch über die Zeit konstant sein.
z.B. gehe ich davon aus, dass regelmäßige Züge jeden Tag (BTG) mit der selben Zugnummer (ZN) um 8:00 losfahren und irgendwo ankommen.
Also dass IC321 im ganzen Jahr den gleichen Lauf hat.
Daher hatte ich überlegt, ob ich das trenne und in der Tabelle Zuglauf nur die Zugnummer (ZN) mit dem Zuglauf und einer generischen Zuglauf_id speicher und in der anderen Tabelle nur die Zugnummer und den Tag mit der Zuglauf_id

Hätte gedacht, dass ich dann mit dem ersten Tag die Tabelle Zuglauf fülle und die ID pro Zugnummer vergebe und dann die Unique Rows von ZN, BTG und Zuglauf_id in Zugnummer speichere. Was mach ich dann am 2. Tag? Könnte erst mal gucken, ob die ZN schon mal vorkommt und dann irgendwie gucken, ob der Zuglauf identisch ist und dann könnte ich ZN, BTG und Zuglauf_Id in Zugnummer speichern und nichts neues in Zuglauf. Das klingt naiv son bischen wie ein merge von long data auf long date, aber wie mach ich das? Am ehesten in R

Oder reduziere ich den Zuglauf so, dass ich die Kombination von Index, BST, Ankunft und Abfahrt pro ZN in einen String zusammenbringe und gucke obs den String schon mal gibt? Also klassisch merge?
Have fun
