機器學習注釋剪切分支點

01-27

基因的剪切，需要5『和3』剪切信號以及分支點的共同參與。今天讀的這篇文章12月14號在線發表於bioRxiv，使用已知的剪切分支點注釋訓練機器學習模型，最終可以準確定位現有基因組注釋中85%的分支點。另外它的注釋結果不受基因類型和基因表達量影響，適用於人和其他模式動物（理論上可以預測更多物種，但是需要基因組注釋和已有的分支點信息進行模型訓練），其全部的缺失突變與ClinVar資料庫的注釋結果一致，此外還發現多分支點的現象普遍存在。

傳統方法檢測分支點面臨的問題有：

剪切分支結構不穩定，容易解分支或降解
RNA-seq技術得到的是包含了分支點的更長序列，不準確，因而不利於之後進行motif分析

訓練數據是在Mercer等人做的已知數據的基礎上，根據真實的BP（branchpoint，分支點），模擬出陰性訓練數據。參數（feature）選擇主要考慮兩個方面：

剪切分支點左右（-5 ~ +5bp）鹼基組成
分支點與5『 exon、3』 exon等的距離

PPT是poly-pyrimidine tract的縮寫，位於3『剪切信號AG的上游。

在開始訓練模型前，還有重要的一步，就是數據scale，也是數據預處理。作者把數據分成SVM data、GBM data和testing data，這個和下面要做的模型訓練有關。數據預處理和後面的模型訓練、參數優化以及模型表現評價，都是用R語言實現。模型訓練使用了一個ensemble（綜合兩種或以上模型）的策略：

先用SVM data訓練SVM模型；

再用GBM data和testing data訓練1.中的SVM模型，得打BP class概率（此概率位於0-1之間，越大表示為分支點的可能越高）；

用GBM data訓練GBM 模型，2.中的BP class概率作為一個feature

最初的SVM和疊合的模型都用testing data評估表現

最後還有一個問題值得注意：陽性和陰性數據比例，作者根據已知數據的情況，設為1：20，訓練模型所有數據也是按照這個比例進行設計的，但是模型的參數優化使用的測試數據的比例就與這個不同了。

參考：Machine-learning annotation of human splicing branchpoints

betsig/branchpointer