data_mining:entropie

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
data_mining:entropie [2013/09/15 16:41] phreazerdata_mining:entropie [2014/02/11 21:49] – Externe Bearbeitung 127.0.0.1
Line 10: Line 10:
  
 Werte eines Features, F => ML-Algo => Vorhergesagte Werte eines Verhaltens B Werte eines Features, F => ML-Algo => Vorhergesagte Werte eines Verhaltens B
 +
 +H(F) => ML-Algo => H(B)
  
 Mutual Information zwischen F und B definiert als Mutual Information zwischen F und B definiert als
Line 18: Line 20:
  
 Summieren über Feature und Verhalten Summieren über Feature und Verhalten
 +
 +Erklärung Verhältnis-Teil:
 +Wenn Feature und Verhalten unabhängig, dann $p(f,b) = p(f)p(b)$ und $I(F,B) = 0$
 +
 +D.h. Vorhersage ist unmöglich.
 +
 +H(F) + H(B) - H(F,B)
 +
 +Features selection => Die, die höchste MI haben, allerdings zu rechenintensiv
 +
 +Proxies: IDF; iterativ AdaBoost
 +
 +Mehr features ->
 +NBC verbessert sich, fällt dann.
 +
 +Redundante Features, Annahme von Bayes
 +
 +====== Beispiel ======
 +p(+) = 10.000/15.000 = 2/3\\
 +p(-) = 5.000/15.000 = 1/3\\
 +p(hate) = 3.000/15.000 = 0,2\\
 +p(~hate) = 0,8\\
 +p(hate,+) =1/15.000 \text{(kommt in keinem positiven Kommentar vor, 1 anstelle von Null => Smoothing)}\\
 +p(~hate,+) = 10.000/15.000 = 2/3\\
 +p(hate,-) = 3.000/15.000 = 1/5\\
 +p(~hate,-) = 2.000/15.000 = 2/15
 +
 +$$
 +  I(H,S) = p(hate,+) * log \frac{p(hate,+)}{p(hate)p(+)} + ... =
 +$$
 +
 +
 +====== Kapazität eines Kanals ======
 +
 +Maximale mutual information, die zwischen Sender und Empfängeer pro Sekunde
 +
 +Äquivalent im ML: Wie viele Trainingsdaten notwendig -> Abhängig vom Konzept
 +
 +
 +
 +
 +
  
  • data_mining/entropie.txt
  • Last modified: 2017/09/09 12:53
  • by phreazer