這裡主要是說明決策樹的分類與迴歸樹最大的不同點。並且用最簡單的例子來說明 gini index 與 minimize square error

gini index¶

假設資料集合 S 包含 n 個類別，Gini(S)的定義為 $P_j$ 為在 S中的值組屬於類別j的機率 $$ Gini(S) = 1 - \sum_{j=1}^n P_j^2 $$

利用屬性A分割資料集合 S 為 S1 與 S2 (二元分割)。則根據此一分割要件的吉尼係數$Gini_A(S)$為 $$ Gini_A(S) = \frac{|S_1|}{|S|}Gini(S_1)+ \frac{|S_2|}{|S|}Gini(S_2) $$

不純度值的降低為:

$$ \Delta Gini(A) =Gini(S) - Gini_A(S) $$

挑選擁有最大不純度的降低值、或吉尼係數$Gini_A(S)$最小的屬性作為分割屬性。

一個節點¶

用紅黑球10顆來舉例，如果紅和黑是9:1

$$ Gini(S_{\{red,black\}})= 1 - \Big(\frac{9}{10}\Big)^2-\Big(\frac{1}{10}\Big)^2 = 0.18 $$

如果紅和黑是4:6

$$ Gini(S_{\{red,black\}})= 1 - \Big(\frac{4}{10}\Big)^2-\Big(\frac{6}{10}\Big)^2 = 0.48 $$

可以發現，對於一個節點來說，Gini Index 代表了內部的不純度，也就是比例越是平均，Gini值越高

分割後的節點¶

現在將 4:6 的紅黑球(Gini = 0.48)分成兩組各5顆$S_1$與$S_2$

$S_1$紅黑的比例為3:2 $\qquad$ $S_2$紅黑的比例為1:4

$$ \begin{aligned} Gini(S_{split}) &= \frac{5}{10}Gini(S_1)+ \frac{5}{10}Gini(S_2) \\ &= \frac{5}{10} \cdot 0.48 + \frac{5}{10} \cdot 0.32 \\ &= 0.4 \end{aligned} $$

然後計算 $\Delta Gini(Split)$的值 $$ \Delta Gini(Split) = 0.48 - 0.4 = 0.08 $$

　在決策樹上的運作方式¶

對於決策樹來說，Gini Index 是選擇分割屬性的方法，因此會比較兩種以上屬性的$\Delta Gini$，選擇降低最多的屬性

$\text{MAX}(\Delta Gini(A),\Delta Gini(B))$

minimize square error¶

定義 $x$ 和 $y$ $$ \begin{aligned} x &= x_1,x_2,x_3,x_4,...x_i \\ y &= y_1,y_2,y_3,y_4,...y_i \end{aligned} $$ 首先利用特徵A分出兩個區域 $R_1$ 與 $R_2$，Loss function 為預測值和真實值的誤差 $$ \begin{aligned} Los{s_{A}} &= \sum\limits_{x_i \in {R_1}} {(y_i - {c_1}} {)^2} + \sum\limits_{x_i \in {R_2}} {(y_i - {c_2}} {)^2} \end{aligned} $$

$Loss_{A}$中，$y$是$x$對應的真實值。我們的目標就是使得$Loss_{A}$最小化時的${c_1}$和${c_2}$，目標函式為：

$$ {\min_{c_1} \sum\limits_{x_i \in {R_1}} {{{(y_i - {c_1})}^2}} + \min_{c_2} \sum\limits_{x_i \in {R_2}} {{{(y_i - {c_2})}^2}} } $$

當式子為最小值時，$c_1$ 和 $c_2$ 分別為

$${c_1} =\frac{1}{N_1} \sum_{x_i \in R_1}^{} y_i$$$${c_2} =\frac{1}{N_2} \sum_{x_i \in R_2}^{} y_i$$

用圖可以簡單理解，下面是 $R_1$ 和 $R_1$。以及個別代表的$c_1$ 和 $c_2$

此時的 loss function 回傳的是 3.36

接下來稍微修正一下特徵，使分割改變，loss function 回傳的值變為 7.38。

只要分割後的誤差越大，這個值就會升高，最後形成誤差最小的迴歸線

參考資料¶

最直覺的分類--決策樹採礦貓

分类与回归树（classification and regression tree，CART）之回归天泽28

自由的實行者

2021年9月23日星期四

使用LibreOffice製作代碼瀑布

Matrix Digital Rain in LibreOffice

1. 準備一個RANDBETWEEN( )函式.

2. 寫入公式

3. 設定條件式格式

4.為何要設定這些條件式格式？

5.使用巨集

6.產生文字

Reference

2020年4月18日星期六

決策樹分割的差異-分類與迴歸

gini index¶

一個節點¶

分割後的節點¶

在決策樹上的運作方式¶

minimize square error¶

參考資料¶

使用LibreOffice製作代碼瀑布

2021年9月23日 星期四

使用LibreOffice製作代碼瀑布

Matrix Digital Rain in LibreOffice

1. 準備一個RANDBETWEEN( )函式.

2. 寫入公式

3. 設定條件式格式

4.為何要設定這些條件式格式？

5.使用巨集

6.產生文字

Reference

2020年4月18日 星期六

決策樹分割的差異-分類與迴歸

gini index¶

一個節點¶

分割後的節點¶

在決策樹上的運作方式¶

minimize square error¶

參考資料¶

使用LibreOffice製作代碼瀑布

2021年9月23日星期四

2020年4月18日星期六

　在決策樹上的運作方式¶