干貨 | 代謝組數據預處理(一):缺失值填充,你真的會嗎?
導 讀
代謝組原始數據包含質控樣本(quality control, QC)和檢測樣本,為了更好地分析數據,需要對原始數據進行一系列的預處理,主要包括對原始數據缺失值的處理,離群值的處理,離群樣本的處理以及數據規范化。經過數據的預處理,可以減小數據中與研究目的不相關的變異對數據分析的影響,有利于潛在目標差異代謝物的篩選和分析。
01
缺失值過濾
樣本可能會由于某些原因(a. 信號很低檢測不到;b. 檢測錯誤,如離子抑制或者儀器性能不穩定;c. 提峰的算法限制,不能從背景中將低的信號提取出來;d. 解卷積時不能將重疊的峰全部解析出來),造成一個或多個值的缺失。在表格中缺失值通常是以空值的形式或者是NA(Not A Number)存在的。
根據樣本或分組內缺失值的比例,進行數據過濾是代謝組學分析中常用的方法。例如:將QC樣本中缺失超過50%的峰去除;或將樣本中缺失值超過80%的峰去除。
02
缺失值如何填充
對于未被過濾的缺失值,如果直接忽視,這樣的數據矩陣可能會影響后續算法的計算,將會觸發異常,因此需要進行模擬填充。比較簡單的方法是用固定值值、平均值、中位數、最小值或1/2最小值進行填充;復雜一點的則是使用機器學習的算法如臨近算法(KNN)、隨機森林(RF)、奇異值分解(SVD)等方法。在代謝組學數據處理中較為常用的有以下幾種:
1
固定值填充
對于特征值缺失的一種常見的方法就是可以用固定值來填充,例如0,9999, -9999等。
2
均值、眾數、中位數填充
根據樣本之間的相似性填補缺失值是指用這些缺失值最可能的值來填補它們,通常使用能代表變量中心趨勢的值進行填補,代表變量中心趨勢的指標包括平均值、中位數、眾數等,那么我們采用哪些指標來填補缺失值呢?
3
Mix填充
使用最小值進行填充,適用于由于代謝物信號響應低于儀器檢測限而造成的缺失值;
4
插值法填充
插值是離散函數逼近的重要方法,利用它可通過函數在有限個點處的取值狀況,估算出函數在其他點處的近似值。與擬合不同的是,要求曲線通過所有的已知數據。
5
回歸法填充
任何回歸都是從特征矩陣中學習,然后求解連續型標簽y的過程,之所以能夠實現這個過程,是因為回歸算法認為,特征矩陣和標簽之前存在著某種聯系。對于一個有n個特征的數據來說,其中特征T有缺失值,就把特征T當作標簽,其他的n-1個特征組成新的特征矩陣。用T標簽沒有缺失值的部分和新特征矩陣相對應部分來預測T標簽中缺失的部分。常見的回歸模型-線性回歸,基于完整的數據集,建立回歸方程。對于包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。
6
隨機森林法填充
隨機森林也可以應用到回歸問題上面,取決于隨機森林的每顆cart樹是分類樹還是回歸樹。它對原始數據集做很多次放回抽樣,會得到很多不同的數據集,然后對于每個數據集建立一個決策樹。隨機森林的最終結果是所有樹的結果的平均,一個新的觀測值,通過許多棵樹(比如n 棵)得到n 個預測值,最終用這n 個預測值的平均作為最終結果進行填充。當然還是跟上面的回歸數據預處理一樣,先構建訓練集和預測集再進行模型預測。
7
KNN填充
屬于算法填充,KNN方法的原理是在數據集中識別空間相似或相近的k個樣本。然后我們使用這些“k”樣本來估計缺失數據點的值。每個樣本的缺失值使用數據集中找到的“k”鄰域的平均值進行插補。
■?■■■■
KNN原理圖
據調研,KNN算法是目前缺失值填充方法中處理效果最穩健的算法,近年來使用較為普遍。但也有研究者認為需要根據缺失類型來進行選擇,對于完全非隨機缺失的可使用最小值的一半進行填補,完全隨機缺失或隨機缺失的使用隨機森林方法(Wei et al.,2018),所以目前并沒有完全統一的標準,具體填充方法還要根據本身數據類型和生物學意義進行選擇。
下期預告
下周將為大家介紹離群值及離群樣本如何篩選,敬請期待!
99%的代謝組學研究者都在閱讀下文:
●超干軟文 | 腫瘤空間代謝組學方案(上)
●項目文章 | 動物領域連續兩篇!貝類代謝組、昆蟲多組學研究成果
●項目文章 | IF=13!TM廣靶助力強化結腸癌放療仿生納米載體研究
●大爆發!平均IF=15 | 項目文章(武漢地區)遍地開花
客服微信:18062045271
咨詢電話:027-62433042
郵箱:support@metware.cn
網址:www.metware.cn
我就知道你“在看”