今天要寫兩個可以讓,比用猜的好一點點的分類器可以創造出更好的分類機制。
很簡單就是...多創造幾個這種爛爛的分類器。
讓他們可以每一個分類器都只專心的專注在某一個小解空間的學習就好。
以下講bagging和boosting,這兩種的功夫都下在training data的sampling上面。
所以簡單的講就是跟據參考空間(也就是training data/也就是已知的資料)
去創造出很多不一樣的小分類器。
達到只靠一個分類器所產生不出來的"好/勘用"的分類結果。
(以下我用machine learning的觀點來寫,我寫training data就是指已知的部份)
Bagging aggregating (bootstrap)
bootstrap是bagging的一種,一次丟掉training data裡面的一筆資料。
bagging則是比較大器一點,一次圈選training data裡面的一群資料當成training data
創造一個子分類器。利用多個子分類器的投票。票多者是結果,用來分類一個未知資料。
boosting
這個比較有趣一點,先假設N筆training data每一個的權重都是1/N。然後製造一個分類器。
做內部測試(inner testing)得到錯誤的case。再下一輪則是將這些錯誤的case權重提高。
再做一個新的分類器。依此類推。這樣就可以得到很多分類器。然後再給與這些分類器權重,分類方式則是各分類器的結果乘上權重後一起考慮結果。