Excel-分类算法-决策树

Source

1--理论

5798142-9cc4e940228209b0.png
5798142-e9f1dca70449131a.png
5798142-2e2a42f921df6f0b.png
5798142-202207a5a50b500c.png
5798142-8cdc434f5ecc8b3a.png
5798142-bcc4c73f64ee4928.png

总结:“信息数据”越集中的地方熵值越小, “信息数据”越分散的地方熵值越大。

2--实操

1.1--信息熵的公式

5798142-c6a45131fe22c333.png

1.2--计算出总的熵值

熵=-是的概率*LOG(是的概率,2)-否的概率*LOG(否的概率,2)

5798142-2b724a94d1a22c52.png

1.3--计算出天气维度的增益

5798142-66c12f48fe5ea236.png

PS:0不能参加log的计算

5798142-4e7ecffac686f8f8.png

1.4--计算出每个维度的信息增益

5798142-8083d053895fc3c3.png

1.5--排列每个信息维度

5798142-415cd4294eed8d32.png
5798142-f7a03ae216299bda.png

1.6--通过信息增益比例来算出每个维度的影响度

5798142-1358b9d1dba76209.png