Machine Learning-常見演算法優缺點匯總
08-16
Machine Learning-常見演算法優缺點匯總
推薦閱讀:
來自專欄 Python程序員
56 人贊了文章
作者:阿Sam Python愛好者社區專欄作者
個人公眾號:SAMshare
前文傳送門:
Machine Learning-演算法匯總介紹 Machine Learning-模型調優備忘錄 Machine Learning-模型結果的應用之道機器學習演算法我們了解了很多,但是放在一起來比較優缺點是缺少的,本篇文章就一些常見的演算法來進行一次優缺點梳理。

4、決策樹可以很好的擴展到大型資料庫中,同時它的大小獨立於資料庫大小。
二、決策樹缺點1、對缺失數據處理比較困難。2、容易出現過擬合問題。3、忽略數據集中屬性的相互關聯。4、ID3演算法計算信息增益時結果偏向數值比較多的特徵。三、改進措施1、對決策樹進行剪枝。可以採用交叉驗證法和加入正則化的方法。2、使用基於決策樹的combination演算法,如bagging演算法,randomforest演算法,可以解決過擬合的問題
四、常見演算法一)C4.5演算法ID3演算法是以資訊理論為基礎,以信息熵和信息增益度為衡量標準,從而實現對數據的歸納分類。ID3演算法計算每個屬性的信息增益,並選取具有最高增益的屬性作為給定的測試屬性。C4.5演算法核心思想是ID3演算法,是ID3演算法的改進,改進方面有:- 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
- 在樹構造過程中進行剪枝;
- 能處理非離散的數據;
- 能處理不完整的數據。
2)C4.5隻適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時程序無法運行。
二)CART分類與回歸樹是一種決策樹分類方法,採用基於最小距離的基尼指數估計函數,用來決定由該子數據集生成的決策樹的拓展形。如果目標變數是標稱的,稱為分類樹;如果目標變數是連續的,稱為回歸樹。分類樹是使用樹結構演算法將數據分成離散類的方法。優點1)非常靈活,可以允許有部分錯分成本,還可指定先驗概率分布,可使用自動的成本複雜性剪枝來得到歸納性更強的樹。2)在面對諸如存在缺失值、變數數多等問題時CART 顯得非常穩健。分類演算法
一、KNN演算法KNN演算法的優點 1、KNN是一種在線技術,新數據可以直接加入數據集而不必進行重新訓練2、KNN理論簡單,容易實現KNN演算法的缺點1、對於樣本容量大的數據集計算量比較大。2、樣本不平衡時,預測偏差比較大。如:某一類的樣本比較少,而其它類樣本比較多。3、KNN每一次分類都會重新進行一次全局運算。
4、k值大小的選擇。KNN演算法應用領域文本分類、模式識別、聚類分析,多分類領域二、支持向量機(SVM)支持向量機是一種基於分類邊界的方法。其基本原理是(以二維數據為例):如果訓練數據分布在二維平面上的點,它們按照其分類聚集在不同的區域。基於分類邊界的分類演算法的目標是,通過訓練,找到這些分類之間的邊界(直線的――稱為線性劃分,曲線的――稱為非線性劃分)。對於多維數據(如N維),可以將它們視為N維空間中的點,而分類邊界就是N維空間中的面,稱為超面(超面比N維空間少一維)。線性分類器使用超平面類型的邊界,非線性分類器使用超曲面。支持向量機的原理是將低維空間的點映射到高維空間,使它們成為線性可分,再使用線性劃分的原理來判斷分類邊界。在高維空間中是一種線性劃分,而在原有的數據空間中,是一種非線性劃分。SVM優點1、解決小樣本下機器學習問題。2、解決非線性問題。
3、無局部極小值問題。(相對於神經網路等演算法)4、可以很好的處理高維數據集。5、泛化能力比較強。SVM缺點1、對於核函數的高維映射解釋力不強,尤其是徑向基函數。2、對缺失數據敏感。SVM應用領域文本分類、圖像識別、主要二分類領域三、樸素貝葉斯演算法
樸素貝葉斯演算法優點1、對大數量訓練和查詢時具有較高的速度。即使使用超大規模的訓練集,針對每個項目通常也只會有相對較少的特徵數,並且對項目的訓練和分類也僅僅是特徵概率的數學運算而已。2、支持增量式運算。即可以實時的對新增的樣本進行訓練。3、樸素貝葉斯對結果解釋容易理解。樸素貝葉斯缺點1、由於使用了樣本屬性獨立性的假設,所以如果樣本屬性有關聯時其效果不好。樸素貝葉斯應用領域文本分類、欺詐檢測中使用較多四、Logistic回歸演算法
logistic回歸優點1、計算代價不高,易於理解和實現logistic回歸缺點1、容易產生欠擬合。2、分類精度不高。logistic回歸應用領域用於二分類領域,可以得出概率值,適用於根據分類概率排名的領域,如搜索排名等。Logistic回歸的擴展softmax可以應用於多分類領域,如手寫字識別等。
推薦閱讀:
TAG:深度學習DeepLearning | 機器學習 | 數據挖掘 |


