data_mining:association_rules

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Next revisionBoth sides next revision
data_mining:association_rules [2013/03/30 22:24] – [FP-Trees] phreazerdata_mining:association_rules [2013/03/30 23:24] – [Phase 2] phreazer
Line 19: Line 19:
 ==== Phase 1 ==== ==== Phase 1 ====
 Aufgabe: Sortieren der Frequent Items Aufgabe: Sortieren der Frequent Items
 +
 Ausgangspunkt: Frequent Item List L=<c:4,f:4,a:3,b:3,m:3,p:3> Ausgangspunkt: Frequent Item List L=<c:4,f:4,a:3,b:3,m:3,p:3>
  
Line 27: Line 28:
 | 4 | b,f,k,s,p | f,b,p | | 4 | b,f,k,s,p | f,b,p |
 | 5 | a,f,c,e,l,p,m,n | c,f,a,m,p | | 5 | a,f,c,e,l,p,m,n | c,f,a,m,p |
 +
 +==== Phase 2 ====
 +Aufgabe: Aufbau des FP-Tree
 +
 +Zwei Bestandteile:
 +- Baumstruktur
 +  - Wuzelelement mit "null" als Label
 +  - Geordnete Transaktion als Pfad des Baumes
 +  - Item-Prefix Subtrees bestehen aus Itemname, Häufigkeit, Node-link (Links zu nächstem Knoten, mit gleichem Itemnamen)
 +- Frequent-Item-Header-Tabelle
 +  - Itemname
 +  - Head of node-link: Ein Zeiger auf den ersten Knoten mit dem Itemnamen
 +  - Optional ein Support Count eines Items.
 +
 +=== FP-Tree Erzeugung ===
 +Input: DB und Minimum Support Grenzwert.
 +Output: FP-tree, das Häufigkeitsmuster der DB
 +
 +Phase 1 (siehe oben): Einmaliges Scannen der DB. Sammeln der Menge der frequent Items F und Support jedes frequent Items. Sortieren von F dem Support nach absteigend, als Liste der Frequent Items FList.
 +
 +Phase 2: Wurzelknoten eines FP-Tree T erzeugen und für jede Transaktion in der DB folgendes durchführen:
 +  - Erstelle sortierte Frequent-Item-Liste[p|P] für die Transaktion, rufe insert_tree([p|P],T) auf.
 +  - insert_tree([p|P],T): Wenn T ein Kind N hat, sodass N.itemname=p.itemname, dann inkrementiere den Count um 1, sonst erstelle einen neuen Knoten N, mit Initialcount 1, dessen Parent mit T verbunden ist und dessen Nodelink mit den Knoten mit den gleichen Itemnamen durch die Nodelink-Struktur verbunden sind. Wenn P nichtleer ist, rufe (P, N) rekursiv auf
 +
 +Es werden 2 Scans benötigt: Scan 1 sammelt und sortiert die Menge der Frequent Items, Scan 2 erstellt FP-Tree.
 +
 +==== Phase 3 ====
 +Aufgabe: Extrahieren des Frequent Itemsets aus FP-Tree (FP-Growth Algorithmus)
 +
 +Input: DB in Form eines FP-Trees und Minimumsupport Grenzwert.
 +Output: Vollständige Menge der Fequent Patterns
 +
 +
 +
 +
  
  • data_mining/association_rules.txt
  • Last modified: 2014/02/11 21:49
  • by 127.0.0.1