data_mining:aggregationsfunktion

This is an old revision of the document!


Aggregationsfunktionen

Es gibt eine Funktion G, so dass

$$F(\{X_{i,j}\}) = G(\{F(\{X_{i,j} | i=1, \dots, I\}) | j=1, \dots, J\})$$

Beispiel:

  1. min()
  2. max()
  3. count()

Angewandt für count: $${COUNT}(\{X_{i,j}\}) = SUM(\{COUNT(\{X_{i,j} | i=1, \dots, I\}) | j=1, \dots, J\})$$

$X_{0,0} = 1; X_{1,0} = 2; X_{2,0} = 3;$ $X_{0,1} = 4; X_{1,1} = 5; X_{2,1} = 6;$

Es gibt eine Funktion G, die M-Tupel liefert und H, so dass

$$F(\{X_{i,j}\}) = H(\{G(\{X_{i,j} | i=1, \dots, I\}) | j=1, \dots, J\})$$

M ist apriori bekannt, ebenso der Typ der Tupel.

Bsp.:

  1. Durchschnitt
  2. Truncated Average
  3. Standardabweichung
  4. Top-N

Bsp.: Durchschnitt:

G: (Summe, Count) H: (Gesamtsumme, Gesamtcount)

Bsp.: Truncated Average: G: (Summe, Count, Min, Max)

Bsp.: Standardabweichung:

Unkorrigierte Standardabweichung:

G: (Summe, Summe der Quadrate, Count)

Es kann keine Beschränkung des Speicherbedarfs für Sub-Aggregate d.h. für Aggregate über $$\{X_{i,j} | i=1, \dots, I\}$$ angegeben werden / Größe des Zwischenergebnisses ist nicht beschränkt.

Beispiele

  1. Median()
  2. HäufigsterWert()
  3. TruncatedAverage() (dynamisch)
  • data_mining/aggregationsfunktion.1365779806.txt.gz
  • Last modified: 2014/02/11 21:47
  • (external edit)