機器學習注釋剪切分支點

基因的剪切,需要5『和3』剪切信號以及分支點的共同參與。今天讀的這篇文章12月14號在線發表於bioRxiv,使用已知的剪切分支點注釋訓練機器學習模型,最終可以準確定位現有基因組注釋中85%的分支點。另外它的注釋結果不受基因類型和基因表達量影響,適用於人和其他模式動物(理論上可以預測更多物種,但是需要基因組注釋和已有的分支點信息進行模型訓練),其全部的缺失突變與ClinVar資料庫的注釋結果一致,此外還發現多分支點的現象普遍存在。

傳統方法檢測分支點面臨的問題有:

  • 剪切分支結構不穩定,容易解分支或降解

  • RNA-seq技術得到的是包含了分支點的更長序列,不準確,因而不利於之後進行motif分析

訓練數據是在Mercer等人做的已知數據的基礎上,根據真實的BP(branchpoint,分支點),模擬出陰性訓練數據。 參數(feature)選擇主要考慮兩個方面:

  • 剪切分支點左右(-5 ~ +5bp)鹼基組成

  • 分支點與5『 exon、3』 exon等的距離

PPT是poly-pyrimidine tract的縮寫,位於3『剪切信號AG的上游。

在開始訓練模型前,還有重要的一步,就是數據scale,也是數據預處理。作者把數據分成SVM data、GBM data和testing data,這個和下面要做的模型訓練有關。數據預處理和後面的模型訓練、參數優化以及模型表現評價,都是用R語言實現。模型訓練使用了一個ensemble(綜合兩種或以上模型)的策略:

  1. 先用SVM data訓練SVM模型;

  2. 再用GBM data和testing data訓練1.中的SVM模型,得打BP class概率(此概率位於0-1之間,越大表示為分支點的可能越高);

  3. 用GBM data訓練GBM 模型,2.中的BP class概率作為一個feature

  4. 最初的SVM和疊合的模型都用testing data評估表現

最後還有一個問題值得注意:陽性和陰性數據比例,作者根據已知數據的情況,設為1:20,訓練模型所有數據也是按照這個比例進行設計的,但是模型的參數優化使用的測試數據的比例就與這個不同了。

參考:Machine-learning annotation of human splicing branchpoints

betsig/branchpointer


推薦閱讀:

使用API訪問ClinVar數據
碼農轉臨床,未來想做癌症數據分析,解決癌症問題,可行嗎?
生信進階第2課-你應該知道的人類基因組信息
P值與基因組學(1):從fastq文件的分析的分析談起
合成引物要批量操作 DNA 序列? 你需要 Tailorbird!

TAG:生物信息学 | 计算生物学 |