• Liebe User, bitte beachtet folgendes Thema: Was im Forum passiert, bleibt im Forum! Danke!
  • Hallo Gemeinde! Das Problem leidet zurzeit unter technischen Problemen. Wir sind da dran, aber das Zeitkontingent ist begrenzt. In der Zwischenzeit dürfte den meisten aufgefallen sein, dass das Erstellen von Posts funktioniert, auch wenn das Forum erstmal eine Fehlermeldung wirft. Um unseren Löschaufwand zu minimieren, bitten wir euch darum, nicht mehrmals auf 'Post Reply' zu klicken, da das zur Mehrfachposts führt. Grußworte.

Statistik: Kennzahlen für eine Verteilung

Mitglied seit
01.09.2002
Beiträge
1.456
Reaktionen
0
Hallo,

folgendes:
Ich hab Kaufvorgänge pro Benutzer zu bestimmten Zeitpunkten in einem 62 Tage Intervall (0-62 - "0" ist der Tag der Anmeldung am System). Jetzt würde ich gerne wissen, welches Aktivitätsmuster der Benutzer aufweist.
Unter Aktitivitätsmuster versteh ich Angaben, ob der Käufer nur 1x viel gekauft hat, kauft er regelmässig wenig etc. - also ist die Summe der Käufe wenig aussagekräftig.

Da ich ca 2k Benutzer habe hätte ich gern eine griffige Kennzahl.

Bspw. sieht ein Datensatz so aus:
käuferID| 0 | 31 | 62
der Benutzer hat also direkt bei der Anmeldung was gekauft, dann 31 Tage später und wieder 62 Tage später.

Ich hab bisher den Mittelwert der Tage ausgerechnet, im Beispiel wäre das 31. Daraus kann man eine gleichverteilung schliessen.

15 | 16 | 62 hat aber auch den Mittelwert 31 aber keine Gleichverteilung.

Gibts nun eine Kennzahl, die die Verteilung angibt bzw. ins Verhältnis zur Gleichverteilung stellt? Varianz würde sich anbieten, aber da bräuchte man ja eine "optimale" Kennziffer, zur welcher man das in Relation setzten kann - und die ist je nach Anzahl der Käufe unterschiedlich. Bei drei Käufen ist die Varianz bei Gleichverteilung höher als beim 2ten Beispiel.
Bei 5 Käufen schon nichtmehr.

Da muss es doch eine allgemeingültige Kennzahl geben die noch die Anzahl miteinbezieht und die allgemein Akzetiert ist, so dass sie implementiert in Access oder Excel oder so ist...

behindi geschrieben (Freitag 16:30, gleich feierabend), hoffe trotzdem halbwegs verständlich das anliegen.

grüsse raus
viedion
 
Zuletzt bearbeitet:
Mitglied seit
21.08.2010
Beiträge
8.008
Reaktionen
1.107
hast du nicht auch noch den umsatz pro einkauf? das würde den daten immens weiterhelfen.
ansonsten durchschnittliche kauffrequenz (mean, median) und durchschnittlicher umsatz (mean, median) plus jeweils varianz oder standardabweichung (variationskoeffizient ist evtl. etwas leichter zu interpretieren) sollte reichen um einen ordentlichen eindruck zu bekommen.
vorher schaust du noch ob du die user gruppieren kannst (clusteranalyse).

flupp und fertig.


ob excel clustern kann weiß ich nicht, aber variationskoeff und mean/median kanns schon.
 
Mitglied seit
12.07.2003
Beiträge
1.771
Reaktionen
66
Such mal nach der Maximum-Entropie-Methode, das könnte genau das sein, was du suchst.

Über diese erreichst du bei gegebenen stochastischen Momenten (Also Erwartungswert, Varianz, etc.) die bestmögliche Wahrscheinlichkeitsverteilung für einen Sachverhalt.
 
Mitglied seit
04.10.2006
Beiträge
643
Reaktionen
0
Ort
München
Da groß mit Data Mining ran zu gehen ist eher öd.
Besser fände ich so etwas wie "Median Zeit bis zum ersten Kauf", bzw. die Angabe durchschnittliche (median) menge an Käufen.

"Irgendeine" gerade passende verteilung ohne zugrundeliegende theorie anzuwenden ist einfach nur falsch.

Best,
X
 
Mitglied seit
01.09.2002
Beiträge
1.456
Reaktionen
0
Hallo,
danke für dei Antworten, ich war ein wenig beschäftigt mit anderen Dingen.

Ich will da auf keinen Fall ne Verteilung drüberlegen!

Mir gings /gehts eigentlich mehr darum, dass ich die Käufer
X---X---X---X---X
und
XX--X-------XXX-
und
--------X----XXXXX

irgendwie unterscheiden kann und eine Aussage treffen kann, über ihr Kaufverhalten; weil einfach Summe der Käufe macht keinen sinnvollen Vergleich. Zeit bis zum ersten Kauf usw. hab ich alles schon.

Aber irgendwie eine Hilfestellung/Kennzahl um poweruser, gelegenheitsuser_kurze_kaufintervalle, gelegenheitsuser_lange_kaufintervalle, oder so zu identifizieren, das ist was ich eigentlich suche.

Jetzt mach ich halt mal Mittelwert/Median der Kauffrequenz, Anzahl der Käufe, zieh dann ne (willkürliche) Linie bei 10% über der durchschnittlichen Anzahl und +-5 Tage vom Durchschnittstageabstand (26-36 Tage), nehm die Leute raus und guck, was sie kaufen, und mit welchem Cient und welches Geschlecht...

Maximum-Entrophie-Methode gibt bei wiki eher was dumme, en.wiki ist mir für Statistik zu stressig (bzw. das Thema momentan zu unwichtig); evtl guck ich da nochmal drauf, wenn der Projektleiter mir mehr stunden dafür gibt.

thx!!
 
Mitglied seit
21.08.2010
Beiträge
8.008
Reaktionen
1.107
na, bei der zielsetzung kannst du 100 verschiedene zielführende sachen machen.
vorschlag: die klassen genau definieren, dann diese eigenschaften abbilden. am besten (d.h. bspw.) in einer diskriminanzfunktion. möglichst gut gegeneinander abgrenzen, cluster bilden, fertsch.
 
Oben