蛋白質(zhì)組學(xué)的前世今生
PART
01
研究蛋白質(zhì)組學(xué)的重要性
20世紀(jì)90年代,“人類基因組計(jì)劃”吸引了全世界的目光,基因測(cè)序技術(shù)使人類探索生命奧秘、破譯生命天書(shū)成為可能。當(dāng)時(shí)的人們誤以為“人類基因組計(jì)劃”完成以后,人類生老病死的奧秘就會(huì)隨之揭開(kāi),醫(yī)學(xué)也將迎來(lái)極大的發(fā)展和進(jìn)步。然而,隨著人類基因組等大量生物體全基因組序列的破譯和功能基因組研究的深入,科學(xué)家們發(fā)現(xiàn),事情遠(yuǎn)沒(méi)有想的那么簡(jiǎn)單:基因組學(xué)雖然在基因活性和疾病相關(guān)性方面提供了依據(jù),但大部分疾病并不是基因改變引起的;并且,基因的表達(dá)方式錯(cuò)綜復(fù)雜,同樣的基因在不同條件下、不同時(shí)期內(nèi)可能會(huì)起到完全不同的作用。關(guān)于這些問(wèn)題,基因組學(xué)無(wú)法予以解答。
隨著人類基因組測(cè)序的完成,眾多“組學(xué)”如雨后春筍般蓬勃興起。蛋白質(zhì)組學(xué)、轉(zhuǎn)錄組學(xué)、代謝組學(xué)等應(yīng)用而生,蛋白質(zhì)組學(xué)作為其中最重要的研究領(lǐng)域之一,受到廣泛關(guān)注。Nature、Science在2001年2月公布人類基因組草圖的同時(shí),發(fā)表了“And now for the proteome”和“Proteomics in genomeland”的評(píng)述與展望,將蛋白質(zhì)組學(xué)的地位提到前所未有的高度,認(rèn)為蛋白質(zhì)組學(xué)將成為新世紀(jì)最大的戰(zhàn)略資源——人類基因爭(zhēng)奪戰(zhàn)的戰(zhàn)略制高點(diǎn)之一。當(dāng)月,人類蛋白質(zhì)組組織(Human Proteome Organization, HUPO)即宣告成立。次年,人類蛋白質(zhì)組計(jì)劃(Human Proteome Project,HPP)宣布啟動(dòng)。2002年首批啟動(dòng)了肝臟、血漿蛋白質(zhì)組計(jì)劃,之后又陸續(xù)啟動(dòng)腦、腎臟和尿液、心血管等器官/組織蛋白質(zhì)組計(jì)劃,以及數(shù)據(jù)分析標(biāo)準(zhǔn)化、抗體、生物標(biāo)志物等支撐分計(jì)劃。短短十幾年間,蛋白質(zhì)組學(xué)已經(jīng)在細(xì)胞增殖、分化、腫瘤形成等方面進(jìn)行了有力探索,涉及白血病、乳腺癌、結(jié)直腸癌、卵巢癌、前列腺癌、肺癌、腎癌和神經(jīng)母細(xì)胞瘤等十余種重大疾病,發(fā)現(xiàn)了一篇新型診斷標(biāo)志物、治療性創(chuàng)新藥物,為全面提高疾病預(yù)防診治水平提供了重要基礎(chǔ),大力推動(dòng)了“精準(zhǔn)醫(yī)學(xué)”這一新型醫(yī)療模式的發(fā)展。
蛋白質(zhì)不僅是構(gòu)成生物系統(tǒng)最重要的基本元件,而且是所有生命過(guò)程分工、整合、協(xié)同的最終執(zhí)行分子。一個(gè)生物系統(tǒng)所表達(dá)或產(chǎn)生的全部蛋白質(zhì)即為蛋白質(zhì)組。蛋白質(zhì)組學(xué)是指應(yīng)用各種技術(shù)手段研究蛋白質(zhì)組的一門新型學(xué)科,其目的是從整體的角度分析細(xì)胞或生物內(nèi)蛋白質(zhì)的組成成分、表達(dá)水平、修飾狀態(tài)、相互作用及動(dòng)態(tài)變化,并在此基礎(chǔ)上揭示蛋白質(zhì)功能與細(xì)胞生命活動(dòng)規(guī)律的關(guān)系,進(jìn)而獲得在蛋白質(zhì)水平上關(guān)于疾病發(fā)生、細(xì)胞代謝等過(guò)程的整體而全面的認(rèn)識(shí)。蛋白質(zhì)組學(xué)是生命科學(xué)進(jìn)入后基因組時(shí)代的必然產(chǎn)物和未來(lái)的重點(diǎn)研究方向。
PART
02
蛋白質(zhì)組學(xué)的基本概念
蛋白質(zhì)組(proteome)一詞是澳大利亞科學(xué)家Williams和Wilkins于1995年首先提出的,它是指一個(gè)細(xì)胞或一個(gè)組織基因組所表達(dá)的全部蛋白質(zhì)總和,是對(duì)應(yīng)于一個(gè)基因組的所有蛋白質(zhì)構(gòu)成的整體,而不僅局限于一個(gè)或幾個(gè)。由于同一基因組在不同細(xì)胞、不同組織中的表達(dá)情況各不相同,因此,蛋白質(zhì)組是一個(gè)動(dòng)態(tài)的、變化著的整體[1,2]。而蛋白質(zhì)組學(xué)是指利用各種技術(shù)手段來(lái)研究蛋白質(zhì)組的一門新學(xué)科。其主要目的是研究生物體內(nèi)所有蛋白質(zhì)的種類、表達(dá)水平、修飾狀態(tài),了解蛋白質(zhì)之間的相互作用與聯(lián)系,揭示蛋白質(zhì)功能與細(xì)胞生命活動(dòng)規(guī)律。人類蛋白質(zhì)組織(HUPO)于2003年12月15日宣布國(guó)際人類蛋白質(zhì)組計(jì)劃(簡(jiǎn)稱HPP)正式成立。HPP的目標(biāo)是整合全世界盡可能多的實(shí)驗(yàn)室資源,使用現(xiàn)有的技術(shù)手段,窮盡人類所有蛋白質(zhì)的種類,揭示蛋白質(zhì)組在不同組織、不同器官、不同細(xì)胞等發(fā)揮的生理、病理功能。HPP主要分為biology/disease-HPP(B/D-HPP)和chromosome-HPP(C-HPP),前者主要擴(kuò)大我們對(duì)蛋白質(zhì)組的生理功能、疾病發(fā)生相關(guān)的研究,后者主要目的是研究每條染色體上每個(gè)編碼蛋白的基因所對(duì)應(yīng)的蛋白質(zhì)。可以這樣認(rèn)為,蛋白質(zhì)組在生命科學(xué)中發(fā)揮著越來(lái)越重要的作用。科學(xué)家們預(yù)測(cè),21世紀(jì)生命科學(xué)的重心將從基因組學(xué)轉(zhuǎn)移到蛋白質(zhì)組學(xué),生命科學(xué)領(lǐng)域內(nèi)一個(gè)全新的時(shí)代——蛋白質(zhì)組時(shí)代即將到來(lái)。
蛋白質(zhì)組學(xué)(英語(yǔ):proteomics)是在90年代初期,由馬克·威爾金斯(MarcWikins)和學(xué)者們首先提出的新名詞,是從整體水平上研究細(xì)胞、組織、器官或生物體的蛋白質(zhì)組成及其變化規(guī)律的科學(xué),蛋白質(zhì)組學(xué)研究將揭示細(xì)胞和生物體蛋白質(zhì)的表達(dá)、修飾、相互作用及其動(dòng)態(tài)變化,進(jìn)而探索蛋白質(zhì)功能與細(xì)胞生命活動(dòng)規(guī)律的關(guān)系,獲得單啊比值水平上關(guān)于細(xì)胞活動(dòng)、疾病發(fā)生發(fā)展等活成的整體且全面的認(rèn)識(shí)。蛋白質(zhì)組學(xué)研究不僅能更加系統(tǒng)地揭示生命活動(dòng)規(guī)律,而且能有效闡明疾病發(fā)生發(fā)展的內(nèi)在分子機(jī)制和網(wǎng)絡(luò),并未最終攻克這些疾病提供理論依據(jù)和解決途徑。例如,通過(guò)分析比較正常和疾病狀態(tài)下的蛋白質(zhì)組差異,可以找到某些“疾病特異性”的蛋白質(zhì),它們既可能成為新藥設(shè)計(jì)的分子靶點(diǎn),也會(huì)為疾病的早期診斷提供潛在的生物標(biāo)志物。因此,蛋白質(zhì)組學(xué)研究不僅將幫助人們從“系統(tǒng)論”的視角探索生命奧秘,而且能為人類健康尤其是“精準(zhǔn)醫(yī)療”的發(fā)展提供直接的線索和重要手段。
PART
03
蛋白質(zhì)組學(xué)誕生的歷史背景
20世紀(jì)中期以來(lái),以DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)為標(biāo)志,生命科學(xué)的研究進(jìn)入了分子時(shí)代。人們?cè)J(rèn)為,物種或個(gè)體的全部遺傳信息均蘊(yùn)藏于基因組之中,完成對(duì)基因組的全面解讀可以完整地闡釋生命活動(dòng)的分子基礎(chǔ)。為此,20世紀(jì)90年代初,美國(guó)科學(xué)家率先提出并組織包括中國(guó)在內(nèi)的多國(guó)科學(xué)家共同實(shí)施了人類基因組計(jì)劃(HumanGenome Project,HCP)。該計(jì)劃的目標(biāo)是測(cè)定人類染色體(單倍體)所包含的30億個(gè)堿基對(duì)組成的核苷酸序列,從而繪制人類基因組圖譜,并且辨識(shí)其載有的基因及序列,達(dá)到破譯人類遺傳信息的最終目的。人類基因組計(jì)劃是人類為了探索自身的奧秘所邁出的重要一步,是繼曼哈頓計(jì)劃和阿波羅登月計(jì)劃之后,人類科學(xué)史上又一個(gè)偉大工程。2001年,人類基因組草圖發(fā)表,被認(rèn)為是人類基因組計(jì)劃成功的里程碑[3]。然而,通過(guò)與酵母、果蠅、等基因組組圖譜進(jìn)行比較分析,人們發(fā)現(xiàn),人類基因組的編碼蛋白質(zhì)數(shù)量竟然只是單細(xì)胞生物酵母的4倍,與果蠅等低等生物近似。
那么,究竟是什么因素決定了人類的物種特征和人體的復(fù)雜性呢?就在人類基因組計(jì)劃完成的同時(shí),科學(xué)家們就意識(shí)到單憑基因組很難回答這個(gè)問(wèn)題。在這樣的形勢(shì)下,生物學(xué)研究的重點(diǎn)從揭示生物的遺傳信息轉(zhuǎn)移到整體水平上對(duì)生物功能的研究,生命科學(xué)進(jìn)入后基因組時(shí)代,即功能基因組時(shí)代。人們嘗試采用功能基因組學(xué)的技術(shù)策略如基因表達(dá)系列分析、RNA測(cè)序等對(duì)生物樣本中的基因表達(dá)進(jìn)行研究。然而,近年來(lái)許多針對(duì)多個(gè)物種的大規(guī)模蛋白質(zhì)組分析均表明,mRNA與蛋白質(zhì)豐度并未呈現(xiàn)過(guò)去人們所認(rèn)知的較高相關(guān)性[4-6]。2016年發(fā)表在Cell雜志上的一篇綜述文章對(duì)這些研究進(jìn)行了系統(tǒng)總結(jié),結(jié)果發(fā)現(xiàn)mRNA與蛋白質(zhì)豐度之間的相關(guān)系數(shù)僅有不到0.4,即轉(zhuǎn)錄水平上的分析并不能完全反映蛋白質(zhì)水平的表達(dá)[7]。另外,由于蛋白質(zhì)存在大量及為復(fù)雜的翻譯后加工修飾、轉(zhuǎn)移定位、構(gòu)象變化、蛋白質(zhì)與蛋白質(zhì)及蛋白質(zhì)與其他生物大分子的相互作用,這些復(fù)雜的信息難以從DNA和mRNA水平獲得,從而迫使人們轉(zhuǎn)向直接研究基因功能的執(zhí)行體——蛋白質(zhì)的組成、表達(dá)和功能模式,進(jìn)而揭示生命活動(dòng)的基本規(guī)律。為此,國(guó)際著名學(xué)術(shù)期刊Nature和Science在發(fā)表人類基因組測(cè)序結(jié)果的同時(shí),分別發(fā)表了Andnow for the proteome 和Proteomicsin genomeland兩篇文章,標(biāo)志著蛋白質(zhì)組學(xué)時(shí)代的到來(lái)[8,9]。
PART
04
蛋白質(zhì)組學(xué)的發(fā)展歷程
4.1 蛋白質(zhì)組學(xué)的技術(shù)起源
科學(xué)的發(fā)展依賴于技術(shù)的創(chuàng)新和突破,蛋白質(zhì)組學(xué)也不例外。起源于20世紀(jì)50年代的Edman降解蛋白質(zhì)測(cè)序技術(shù)(proteinsequencing)[10],使得人們能夠?qū)兓牡鞍踪|(zhì)序列進(jìn)行分析。采用該技術(shù),科學(xué)家成功鑒定了許多重要蛋白質(zhì)的序列,如血紅蛋白、胰島素等。然而,該技術(shù)分析通量低且耗時(shí),人們繼續(xù)尋求取代Edman降解的蛋白質(zhì)/多肽鑒定技術(shù)。有趣的是,許多研究者的目光都集中在了質(zhì)譜(massspectrometry,MS)技術(shù)上。然而,在20世紀(jì)80年代之前,蛋白質(zhì)/多肽質(zhì)譜分析面臨的主要問(wèn)題是如何將他們離子化,原因在于當(dāng)時(shí)大多數(shù)質(zhì)譜儀所配置的離子源均采用電子轟擊離子化(electronionization,EI)模式。由于蛋白酶切多肽的極性通常很強(qiáng),不具有揮發(fā)性,難以在EI條件下形成汽化的離子,故人們往往需要借助化學(xué)衍生的方式實(shí)現(xiàn)他們的氨基酸序列測(cè)定。盡管如此,基于EI-MS的衍生化多肽質(zhì)譜分析仍存在許多缺陷,故許多的研究者們講研究方向?qū)?zhǔn)了離子化模式本身,期望通過(guò)直接李志華多肽或蛋白的方式實(shí)現(xiàn)他們的質(zhì)譜檢測(cè)。
20世紀(jì)80年代末,質(zhì)譜分析領(lǐng)域中相繼出現(xiàn)了兩項(xiàng)里程碑式的重大突破,分別是機(jī)制輔助激光解析離子化(matrix-assistedlaser desorption/ionization., MALDI)和電噴霧離子化(electrospray,ESI)兩種新型離子化模式。其中,MALDI技術(shù)最初被用來(lái)分析非揮發(fā)性的有機(jī)小分子,但在日本島津公司田中耕一博士的努力下,首次實(shí)現(xiàn)了對(duì)生物大分子如蛋白質(zhì)的直接檢測(cè)[11]。ESI則是有耶魯大學(xué)的約翰*芬恩(JohnFenn)教授首次提出的另外一種質(zhì)譜離子化模式[11],他可以將溶液中的分子直接轉(zhuǎn)換為氣態(tài)的離子,從而為之后液質(zhì)聯(lián)用技術(shù)的快速發(fā)展奠定基礎(chǔ)。ESI的一項(xiàng)特殊之處是他能講生物大分子轉(zhuǎn)化為多電荷的離子,獲取相對(duì)較低的質(zhì)荷比,從而極大地提高了對(duì)大分子量蛋白的檢測(cè)能力。鑒于田中耕一和博士和約翰·芬恩教授對(duì)生物大分子結(jié)構(gòu)鑒定所做的杰出貢獻(xiàn),他們和發(fā)明了利用核磁共振技術(shù)測(cè)定溶液中生物大分子三維結(jié)構(gòu)方法的瑞士科學(xué)家?guī)鞝柼亍ぞS特里希(KurtWuthrich)共同分享了2002年的諾貝爾化學(xué)獎(jiǎng)。MALDI和ESI技術(shù)的出現(xiàn)板大地提高了蛋白質(zhì)/多肽的檢測(cè)能力,伴隨而來(lái)的問(wèn)題則是如何通過(guò)對(duì)這些質(zhì)譜數(shù)據(jù)的解讀得到它們的氨基酸序列,由于20種天然氨基酸可以通過(guò)無(wú)數(shù)的排列組合拼接成一個(gè)蛋白質(zhì),因此僅僅依賴質(zhì)譜數(shù)據(jù)本身仍難以實(shí)現(xiàn)對(duì)一個(gè)蛋白質(zhì)或肽段的從頭測(cè)序。
當(dāng)時(shí),人們往往只能將質(zhì)譜技術(shù)用于一些已知蛋白質(zhì)的驗(yàn)證分析。幸運(yùn)的是,同樣是在20世紀(jì)末,基因組學(xué)在創(chuàng)新測(cè)序技術(shù)的推動(dòng)下也得到了快速的發(fā)展,許多簡(jiǎn)單物種的基因組被解析出來(lái),這就使得人們能夠更加有效地預(yù)測(cè)基因產(chǎn)物即蛋白質(zhì)的序列,從面根據(jù)所預(yù)測(cè)的序列對(duì)已知或者未知蛋白質(zhì)的質(zhì)譜分析數(shù)據(jù)進(jìn)行解讀。在這個(gè)背景下,國(guó)際上許多課題組分別獨(dú)立地提出了基于肽質(zhì)量指紋圖(peptidemassfingerprinting,PMF)的蛋白質(zhì)整定策略,即首先將分離所得的蛋白質(zhì)酶切為肽段混合物并進(jìn)行質(zhì)譜分析,通過(guò)尋找與基因編碼的蛋白質(zhì)數(shù)據(jù)庫(kù)中某個(gè)序列的理論質(zhì)荷比相符的離子實(shí)現(xiàn)蛋白質(zhì)的鑒定[12,13]。結(jié)合高分辨的雙向聚丙烯酰胺凝膠電泳分離技術(shù)(two-dimensionalpolyacrylamide gel electrophoresis, 2-D PAGE)或者高效液相色譜分析技(highperformance liquid chromatography.HPLC)[14,15],PMF曾廣泛應(yīng)用于生物樣品中的蛋白質(zhì)鑒定分析。借助該技術(shù),來(lái)自澳大利亞悉尼大學(xué)的Wilkins和Humphery-Smith教授等于1995年首次完成了對(duì)支原體中50個(gè)蛋白質(zhì)的鑒定并提出了蛋白質(zhì)組的概念[1](見(jiàn)圖1.1)
4.2 蛋白質(zhì)組學(xué)技術(shù)的快速發(fā)展:從定性到定量
由于僅僅依賴于單一的多肽測(cè)定相對(duì)分子質(zhì)量信息,PMF技術(shù)在多肽序列的數(shù)據(jù)庫(kù)匹配中銀陽(yáng)性率往往較高,尤其是在使用低分辨質(zhì)譜如離子阱或四級(jí)桿質(zhì)量分析器的條件下。為了解決這些問(wèn)題,1994年末,Yates和Mann課題組分別發(fā)展了兩種類似的基于多肽二級(jí)質(zhì)譜信息的蛋白質(zhì)數(shù)據(jù)庫(kù)鑒定搜索算法,極大地提升了蛋白質(zhì)鑒定的效率和準(zhǔn)確性。前者選擇將二級(jí)質(zhì)譜中所有的碎片離子信息代人基于蛋白質(zhì)序列數(shù)據(jù)庫(kù)的虛擬二級(jí)譜庫(kù)中進(jìn)行搜索[16];后者則選擇對(duì)二級(jí)質(zhì)譜信息進(jìn)行快速的從頭測(cè)序,建立若干序列標(biāo)簽之后再代人類似的虛擬譜庫(kù)中進(jìn)行搜索[17]。
盡管這兩種算法各有優(yōu)缺點(diǎn),但無(wú)疑前者的發(fā)展和應(yīng)用更為廣泛,并最終形成了后來(lái)廣為人知的SEQUEST算法體系。盡管如此,當(dāng)時(shí)所謂的蛋自質(zhì)組學(xué)研究仍主要集中在對(duì)蛋白質(zhì)復(fù)合物進(jìn)行組成解析,鮮有關(guān)于細(xì)胞或組織完整蛋白質(zhì)組的分析。究其原因,離線電泳或色譜分離在很大程度上限制了蛋白質(zhì)組分析的通量。因此,人們發(fā)展了許多基于液質(zhì)聯(lián)用技術(shù)的蛋白質(zhì)組分析方法,以期提高復(fù)雜體系中蛋白質(zhì)鑒定的靈敏度和通量。例如,2001年。Yates課題組應(yīng)用名為多維蛋白質(zhì)鑒定技術(shù)(multidimensionalprotein identification technology,MudPIT)的在線二維色譜與質(zhì)譜聯(lián)用技術(shù),首次在酵母細(xì)胞中鑒定到僅1500個(gè)蛋白質(zhì),實(shí)現(xiàn)了單個(gè)生物體蛋白質(zhì)鑒定數(shù)目的飛躍[18]。
從此,蛋白質(zhì)組學(xué)研究進(jìn)入一個(gè)快速發(fā)展的階段,各種新技術(shù)、新方法層出不窮。尤其是質(zhì)譜技術(shù)的快速發(fā)展,如新型軌道阱質(zhì)譜儀及數(shù)據(jù)依賴型采集模式的出現(xiàn)極大地提高了蛋白質(zhì)組分析的靈敏度[19],使得單次蛋白質(zhì)組分析中鑒定獲得的蛋白質(zhì)組數(shù)目與日俱增。顯而易見(jiàn),采用傳統(tǒng)手動(dòng)解析的方法驗(yàn)證蛋白質(zhì)鑒定結(jié)果準(zhǔn)確性的方法變得不再可行。如何才能有效地保證大規(guī)模蛋白質(zhì)組鑒定的準(zhǔn)確性?針對(duì)該問(wèn)題,Gygi課題組發(fā)展了一種基于反相蛋白質(zhì)序列誘餌數(shù)據(jù)庫(kù)錯(cuò)誤發(fā)現(xiàn)率(falsediscovery rat,FDR)的評(píng)估方法,目前已經(jīng)成為檢驗(yàn)蛋白質(zhì)組分析準(zhǔn)確性的公認(rèn)標(biāo)準(zhǔn)[20]。進(jìn)入21世紀(jì),蛋白質(zhì)組學(xué)的研究逐步實(shí)現(xiàn)了從定性鑒定到定量分析的跨越(見(jiàn)圖1.1)。其中代表性的技術(shù)包括Yates課題組開(kāi)發(fā)的二級(jí)譜圖計(jì)數(shù)法(spectracounting)[21],Aebersold課題組開(kāi)發(fā)的同位素編碼親和標(biāo)簽技術(shù)(isotope-codedaffinityag, ICAT)[22],Mann課題組開(kāi)發(fā)的細(xì)胞培養(yǎng)穩(wěn)定同位素標(biāo)記技術(shù)(stableisotope labeling by amino acids in cell culture,SILAC)[23]以及由AppliedBiosystems公司開(kāi)發(fā)的同位素標(biāo)記相對(duì)和絕對(duì)定量技術(shù)(isobarictags for relative and absolute quantitation, iTRAQ)[24]等。此外,一些在小分子化合物定量分析中廣泛應(yīng)用的技術(shù)如下圖:
■?■?■?■?■
圖1?國(guó)際蛋白質(zhì)組學(xué)發(fā)展歷程大事記
基于一級(jí)譜信號(hào)強(qiáng)度的定量技術(shù)(MS1filtering)[25]以及多重反應(yīng)監(jiān)測(cè)(multiplereactionmonitoring,MRM)[26]也被成功移植到蛋白質(zhì)組的定量分析匯總。在十多年的發(fā)展過(guò)程中,定量蛋白質(zhì)組技術(shù)一直呈現(xiàn)出一種“百花齊放”的局面。近年來(lái),新的技術(shù)和方法仍在不斷涌現(xiàn)。例如,2012年底,Coon課題組和Domon課題組先后提出了平行反應(yīng)監(jiān)測(cè)模式(parallelreaction monitoring,PRM)[27]的概念,即利用高分辨串聯(lián)質(zhì)譜MS/MS譜中所有離子信號(hào)定量多肽及蛋白質(zhì);又如,Aebersold課題組于同年發(fā)展了一種基于數(shù)據(jù)非依賴型采集模式的定量蛋白質(zhì)組技術(shù)SWATH技術(shù)[28],該技術(shù)能夠有效保留幾乎所有肽段的質(zhì)譜定性定量信息,特別適用于對(duì)一些痕量稀有生物樣本蛋白質(zhì)組進(jìn)行數(shù)字化存儲(chǔ)。
4.3 蛋白質(zhì)組學(xué)逐步走向成熟
隨著技術(shù)的進(jìn)步,蛋白質(zhì)組學(xué)的研究范疇也日益廣泛,從最初的蛋白質(zhì)定性與相對(duì)表達(dá)量分析逐步拓展到了蛋白質(zhì)絕對(duì)豐度定量、蛋白質(zhì)-蛋白質(zhì)相互作用、翻譯后修飾蛋白質(zhì)的組織器官空間定位乃至亞細(xì)胞定位以及在特定生理病理?xiàng)l件下的蛋白質(zhì)或修飾動(dòng)態(tài)變化等方面。以蛋白質(zhì)組(proteome)為關(guān)鍵詞的PubMed檢索結(jié)果顯示,蛋白質(zhì)組的研究論文在20年內(nèi)增加了3個(gè)數(shù)量級(jí)(見(jiàn)圖1.2)。蛋白質(zhì)組學(xué)定性和定量技術(shù)方法也日趨成熟。如2011年,Mann和Aebersold團(tuán)隊(duì)分別同時(shí)報(bào)道了在Hea細(xì)胞中鑒定到9207個(gè)基因編碼的10255個(gè)蛋白質(zhì)和在U2OS細(xì)胞中鑒定到7716個(gè)基因編碼的11548個(gè)蛋白質(zhì),成為人細(xì)胞蛋白質(zhì)深度覆蓋的標(biāo)志[29,30]。
除了覆蓋深度方面的進(jìn)步,在分析速度方面也實(shí)現(xiàn)了較大的提升。由Qin和Qian的課題組合作開(kāi)發(fā)的蛋白質(zhì)組快速定性定量技術(shù),首次將蛋白質(zhì)組的深度覆蓋速度由過(guò)去的3天時(shí)間縮短至12小時(shí)[31]。Coon課題組2014年報(bào)道了一項(xiàng)在1.3小時(shí)內(nèi)鑒定近4000個(gè)母蛋白質(zhì)的工作,基本上能夠覆蓋90%的酵母基因表達(dá)產(chǎn)物[32]。借助不斷更新的質(zhì)譜儀器和超高效色譜分離系統(tǒng),目前許多專門從事蛋白質(zhì)組學(xué)的實(shí)均能實(shí)現(xiàn)在8~12小時(shí)之內(nèi)完成細(xì)胞或組織樣品6000-800個(gè)蛋白質(zhì)的鑒定[33]。此外,定量蛋白質(zhì)組技術(shù)的精準(zhǔn)度和可重復(fù)性也得到了較大的提升。例如,2014年P(guān)aulovich課題組聯(lián)合來(lái)自美國(guó)西雅圖、波士頓和韓國(guó)不同研究小組的研究人員,共同對(duì)乳腺癌細(xì)胞中319種蛋白質(zhì)進(jìn)行了基于MRM的定量蛋白質(zhì)組分析[34],結(jié)果顯示不同實(shí)驗(yàn)室的測(cè)定結(jié)果具有很好的相關(guān)性,證明該方法可實(shí)現(xiàn)跨越實(shí)驗(yàn)室和國(guó)界的標(biāo)準(zhǔn)化,將有利于利用全球資源對(duì)所有人類蛋白質(zhì)進(jìn)行標(biāo)準(zhǔn)化定量設(shè)立一些新標(biāo)準(zhǔn)。
在上述技術(shù)背景下,蛋白質(zhì)組學(xué)研究進(jìn)入了全新的發(fā)展時(shí)期,一些突破性的研究結(jié)果相繼公布。例如,2015年兩個(gè)獨(dú)立的研究小組在Nature雜志上同時(shí)發(fā)表了第一張人類蛋白質(zhì)組草圖[35,36],他們通過(guò)基于質(zhì)譜的蛋白質(zhì)組技術(shù)對(duì)人體幾十種不同類型組織或體液進(jìn)行了分析,共獲得非患病人體中近20000個(gè)基因編碼的蛋白質(zhì)產(chǎn)物,為更好地理解疾病狀態(tài)下發(fā)生的機(jī)體變化奠定了基礎(chǔ)。美國(guó)于2006年成立了名為臨床蛋白質(zhì)組腫瘤分析計(jì)劃(ClinicalProteomic Tumor AnalysisConsortium,CPTAC)的腫瘤蛋白質(zhì)組研究協(xié)作組,主要從事若干主要癌癥的蛋白質(zhì)組研究并于近年來(lái)取得了一系列重大進(jìn)展。該協(xié)助組中主要成員Liebler課題組與Car課題組分別于2014年2016年在Nature雜志上報(bào)道了針對(duì)乳腺癌的大規(guī)模蛋白質(zhì)基因組proteogenomics)研究結(jié)果,他們分別對(duì)癌癥基因組計(jì)劃(TheCancer Genome Atlas,TCGA)采集的近百個(gè)相應(yīng)腫瘤組織進(jìn)行蛋白質(zhì)組分析,并與已有的基因組數(shù)據(jù)及臨床信息進(jìn)行比對(duì)和整合,為這些腫瘤的精準(zhǔn)分型及腫瘤生物學(xué)研究提供了重要理論依據(jù)[37,38]。該協(xié)作組的另一篇對(duì)卵巢癌蛋白質(zhì)基因組的研究結(jié)果也于2016年在Cell雜志上發(fā)表[39]。
值得注意的是,隨著規(guī)模化蛋白質(zhì)組學(xué)研究的迅速發(fā)展,質(zhì)譜數(shù)據(jù)的產(chǎn)出速度也出現(xiàn)倍增的趨勢(shì),對(duì)蛋白質(zhì)組數(shù)據(jù)的存儲(chǔ)、共享及質(zhì)量控制提出了更高的要求。為此,人們已經(jīng)開(kāi)發(fā)了多個(gè)蛋白質(zhì)組學(xué)公共資源庫(kù),如PRIDE和肽計(jì)劃(PeptideAtlas)等。以歐洲生物信息學(xué)研究所開(kāi)發(fā)的PRIDE數(shù)據(jù)庫(kù)(htp://www.ebi.ac.uk/pride/)為例,其提供了一個(gè)關(guān)于蛋白質(zhì)識(shí)別的開(kāi)源數(shù)據(jù)庫(kù),允許研究者們存儲(chǔ)、分享并比較他們的結(jié)果。這個(gè)免費(fèi)使用的數(shù)據(jù)庫(kù)旨在通過(guò)集合不同來(lái)源的蛋白質(zhì)組數(shù)據(jù),讓研究者們能方便地檢索已經(jīng)發(fā)表的同行評(píng)議標(biāo)準(zhǔn)數(shù)據(jù)并且允許使用者運(yùn)用這套標(biāo)準(zhǔn)來(lái)傳遞數(shù)據(jù)。
■?■?■?■?■
圖2?蛋白質(zhì)組學(xué)文章發(fā)表年增長(zhǎng)圖
參考文獻(xiàn)
1. Wasinger, V.C., et al.,Progress with gene-product mapping of the Mollicutes: Mycoplasmagenitalium. Electrophoresis, 1995. 16(7): p. 1090-4.
2. The promise ofproteomics. Nature, 1999. 402(6763): p. 703.
3. Venter, J.C., et al., Thesequence of the human genome. Science, 2001. 291(5507): p.1304-51.
4. Gholami, A.M., et al.,Global proteome analysis of the NCI-60 cell line panel. CellRep, 2013. 4(3): p. 609-20.
5. Selevsek, N., et al.,Reproducible and consistent quantification of the Saccharomycescerevisiae proteome by SWATH-mass spectrometry. Mol CellProteomics, 2015. 14(3): p. 739-49.
6. Jovanovic, M., et al.,Immunogenetics. Dynamic profiling of the protein life cycle inresponse to pathogens. Science, 2015. 347(6226): p.1259038.
7. Liu, Y., A. Beyer, and R.Aebersold, On the Dependency of Cellular Protein Levels on mRNAAbundance. Cell, 2016. 165(3): p. 535-50.
8. Abbott, A., And now forthe proteome. Nature, 2001. 409(6822): p. 747.
9. Fields, S., Proteomics.Proteomics in genomeland. Science, 2001. 291(5507): p.1221-4.
10. Edman, P., A method forthe determination of amino acid sequence in peptides. ArchBiochem, 1949. 22(3): p. 475.
11. Fenn, J.B., et al.,Electrospray ionization for mass spectrometry of largebiomolecules. Science, 1989. 246(4926): p. 64-71.
12. Rosenfeld, J., et al.,In-gel digestion of proteins for internal sequence analysis afterone- or two-dimensional gel electrophoresis. Anal Biochem, 1992.203(1): p. 173-9.
13. Mortz, E., et al.,Identification of proteins in polyacrylamide gels by massspectrometric peptide mapping combined with database search. BiolMass Spectrom, 1994. 23(5): p. 249-61.
14. Monch, W. and W. Dehnen,High-performance liquid chromatography of peptides. JChromatogr, 1977. 140(3): p. 260-2.
15. O''Farrell, P.H., Highresolution two-dimensional electrophoresis of proteins. J BiolChem, 1975. 250(10): p. 4007-21.
16. Eng, J.K., A.L. McCormack,and J.R. Yates, An approach to correlate tandem mass spectral dataof peptides with amino acid sequences in a protein database. J AmSoc Mass Spectrom, 1994. 5(11): p. 976-89.
17. Mann, M. and M. Wilm,Error-tolerant identification of peptides in sequence databases bypeptide sequence tags. Anal Chem, 1994. 66(24): p. 4390-9.
18. Washburn, M.P., D.Wolters, and J.R. Yates, 3rd, Large-scale analysis of the yeastproteome by multidimensional protein identification technology.Nat Biotechnol, 2001. 19(3): p. 242-7.
19. Makarov, A., Electrostaticaxially harmonic orbital trapping: a high-performance technique ofmass analysis. Anal Chem, 2000. 72(6): p. 1156-62.
20. Elias, J.E., et al.,Comparative evaluation of mass spectrometry platforms used inlarge-scale proteomics investigations. Nat Methods, 2005. 2(9):p. 667-75.
21. Liu, H., R.G. Sadygov, andJ.R. Yates, 3rd, A model for random sampling and estimation ofrelative protein abundance in shotgun proteomics. Anal Chem,2004. 76(14): p. 4193-201.
22. Gygi, S.P., et al.,Quantitative analysis of complex protein mixtures usingisotope-coded affinity tags. Nat Biotechnol, 1999. 17(10):p. 994-9.
23. Ong, S.E., et al., Stableisotope labeling by amino acids in cell culture, SILAC, as a simpleand accurate approach to expression proteomics. Mol CellProteomics, 2002. 1(5): p. 376-86.
24. Ross, P.L., et al.,Multiplexed protein quantitation in Saccharomyces cerevisiae usingamine-reactive isobaric tagging reagents. Mol Cell Proteomics,2004. 3(12): p. 1154-69.
25. Cox, J. and M. Mann,MaxQuant enables high peptide identification rates, individualizedp.p.b.-range mass accuracies and proteome-wide proteinquantification. Nat Biotechnol, 2008. 26(12): p. 1367-72.
26. Anderson, L. and C.L.Hunter, Quantitative mass spectrometric multiple reactionmonitoring assays for major plasma proteins. Mol Cell Proteomics,2006. 5(4): p. 573-88.
27. Peterson, A.C., et al.,Parallel reaction monitoring for high resolution and high massaccuracy quantitative, targeted proteomics. Mol Cell Proteomics,2012. 11(11): p. 1475-88.
28. Gillet, L.C., et al.,Targeted data extraction of the MS/MS spectra generated bydata-independent acquisition: a new concept for consistent andaccurate proteome analysis. Mol Cell Proteomics, 2012. 11(6):p. O111 016717.
29. Nagaraj, N., et al., Deepproteome and transcriptome mapping of a human cancer cell line.Mol Syst Biol, 2011. 7: p. 548.
30. Beck, M., et al., Thequantitative proteome of a human cell line. Mol Syst Biol, 2011.7: p. 549.
31. Ding, C., et al., Afast workflow for identification and quantification of proteomes.Mol Cell Proteomics, 2013. 12(8): p. 2370-80.
32. Hebert, A.S., et al., Theone hour yeast proteome. Mol Cell Proteomics, 2014. 13(1):p. 339-47.
33. Riley, N.M., A.S. Hebert,and J.J. Coon, Proteomics Moves into the Fast Lane. Cell Syst,2016. 2(3): p. 142-3.
34. Kennedy, J.J., et al.,Demonstrating the feasibility of large-scale development ofstandardized assays to quantify human proteins. Nat Methods,2014. 11(2): p. 149-55.
35. Wilhelm, M., et al.,Mass-spectrometry-based draft of the human proteome. Nature,2014. 509(7502): p. 582-7.
36. Kim, M.S., et al., Adraft map of the human proteome. Nature, 2014. 509(7502):p. 575-81.
37. Zhang, B., et al.,Proteogenomic characterization of human colon and rectal cancer.Nature, 2014. 513(7518): p. 382-7.
38. Mertins, P., et al.,Proteogenomics connects somatic mutations to signalling in breastcancer. Nature, 2016. 534(7605): p. 55-62.
39. Zhang, H., et al.,Integrated Proteogenomic Characterization of Human High-GradeSerous Ovarian Cancer. Cell, 2016. 166(3): p. 755-765.
精彩合集,歡迎收藏
●蛋白專題合集
●Biomarker專題合集
●空間代謝組合集
●項(xiàng)目文章合集
●腸道菌群&微生物專題
●大咖云集!突破邊界—高通量高深度蛋白質(zhì)組學(xué)新技術(shù)研討會(huì)
●邁維云平臺(tái)系列課操作教程,公號(hào)回復(fù)“邁維云”即可
客服微信:metware888
咨詢電話:027-62433042
郵箱:support@metware.cn
網(wǎng)址:www.metware.cn
我就知道你“在看”