data_mining:entropie

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revisionBoth sides next revision
data_mining:entropie [2013/09/15 17:20] – [Mutual information] phreazerdata_mining:entropie [2013/09/15 18:04] – [Mutual information] phreazer
Line 39: Line 39:
 p(~hate,-)=0,1 p(~hate,-)=0,1
 $$ $$
 +
 +Features selection => Die, die höchste MI haben, allerdings zu rechenintensiv
 +
 +Proxies: IDF; iterativ AdaBoost
 +
 +Mehr features ->
 +NBC verbessert sich, fällt dann.
 +
 +Redundante Features, Annahme von Bayes
 +
 +====== Beispiel ======
 +p(+) = 10.000/15.000 = 2/3\\
 +p(-) = 5.000/15.000 = 1/3\\
 +p(hate) = 3.000/15.000 = 0,2\\
 +p(~hate) = 0,8\\
 +p(hate,+) =1/15.000 \text{(kommt in keinem positiven Kommentar vor, 1 anstelle von Null => Smoothing)}\\
 +p(~hate,+) = 10.000/15.000 = 2/3\\
 +p(hate,-) = 3.000/15.000 = 1/5\\
 +p(~hate,-) = 2.000/15.000 = 2/15
 +
 +$$
 +  I(H,S) = p(hate,+) * log \frac{p(hate,+)}{p(hate)p(+)} + ... =
 +$$
 +
 +
 +====== Kapazität eines Kanals ======
 +
 +Maximale mutual information, die zwischen Sender und Empfängeer pro Sekunde
 +
 +Äquivalent im ML: Wie viele Trainingsdaten notwendig -> Abhängig vom Konzept
 +
 +
 +
 +
 +
  
  • data_mining/entropie.txt
  • Last modified: 2017/09/09 12:53
  • by phreazer