常用相分離蛋白質數據庫介紹
——背景——
細胞內的無膜細胞器(MO)是細胞有效組織胞內空間的途徑之一,普遍認為液-液相分離(LLPS)是其形成的分子基礎。大量的實驗研究報告了眾多的相分離蛋白及其形成的凝聚物體系,為了更好地整合、利用文獻中的信息,許多研究組開發了相分離相關蛋白的數據庫,這些數據庫各有不同的側重點,本文對常用的五個數據庫(CD-CODE, PhaSePro, PhaSepDB, LLPSDB, DrLLPS)進行簡要介紹。
// CD-CODE //https://cd-code.org/圖1. CD-CODE網站界面
1.????開發人員
CD-CODE由德國馬克斯·普朗克分子細胞生物學與遺傳學研究所的Agnes Toth-Petroczy課題組于2022年建立。
2.????簡要介紹
CD-CODE是一個以凝聚物為中心的數據庫,綜合了來自文獻和其它相分離數據庫的信息,主要由三部分組成:
(1)參與相分離的蛋白質信息;
(2)生物分子凝聚物、體外合成的凝聚物及其蛋白質組成;
(3)相分離相關的科學術語百科。
CD-CODE通過分析蛋白質與凝聚物之間的關系,可以方便地將凝聚物中的蛋白分為Member、Driver和Marker,為每個凝聚物-蛋白質關系提供實驗證據、評分和參考文獻。此外,CD-CODE可以和UniProt,Ensembl和Human Protein Atlas交互使用;CD-CODE還可以展示相分離蛋白的序列屬性,如無序程度打分和氨基酸組成,可以給出影響相分離能力的PTMs列表。截至目前,CD-CODE收錄了來自49種不同生物的244種生物分子凝聚物以及375種體外合成的凝聚物及其關聯的9861個蛋白質。
3.????特點
(1)只收錄有實驗驗證的相分離蛋白;
(2)可以簡便地識別凝聚物中的Driver和Marker蛋白;
(3)具有其他數據庫沒有的百科內容。
// PhaSePro //https://phasepro.elte.hu/圖2. PhaSePro網站界面
1.????開發人員
PhaSePro由匈牙利科學院自然科學研究中心酶學研究所的Rita Pancsa課題組于2019年建立。
2.????簡要介紹
PhaSePro只收錄經過實驗驗證的相分離驅動蛋白,每個蛋白質作為一個條目,截至目前,PhaSePro收錄了文獻報道的121種能夠驅動相分離的蛋白質和22種候選蛋白質的信息。對于所有收錄的蛋白質,PhaSePro可以提供以下信息:
(1)蛋白質的具體信息;
(2)該蛋白質所參與形成的無膜細胞器(MO)或LLPS系統的功能描述及分類;
(3)經過實驗驗證的,對相分離有貢獻的蛋白質區域;
(4)LLPS中涉及的分子相互作用的類型;
(5)LLPS的調控機制:已知會影響LLPS的翻譯后修飾和剪接,發生于LLPS相關蛋白質序列中的突變,其它影響LLPS的分子,以及經過實驗證實影響LLPS的疾病突變;
此外,PhaSePro還給出了22種候選蛋白的信息,這些蛋白可能驅動LLPS,但通過現有的實驗數據無法完全確定。
3.????特點
(1)只收錄能夠驅動相分離的蛋白質,數據量較小;
(2)可以給出參與相分離的蛋白質區域,分子間相互作用類型及相分離調控機制;
// PhaSepDB//http://db.phasep.pro/圖3. PhaSepDB網站界面
1.????開發人員
PhaSepDB由北京大學基礎醫學院李婷婷課題組于2019年建立,目前已更新至2.1版本。
2.????簡要介紹
PhaSepDB 2.1包含1419個相分離條目(868個相分離蛋白),770個低通量數據MLO(無膜細胞器)相關條目(590個蛋白)和7303個高通量數據MLO相關條目(5292種蛋白質)。
PhaSepDB將相分離蛋白區分為①可以單獨在體外條件發生相分離的蛋白(PS-self)②僅有體內實驗數據或需要相互作用的伴侶分子才可在體外發生相分離的蛋白(PS-other),在每一個條目下,PhaSepDB提供以下四種信息:
(1)蛋白質詳細信息,包括與其它數據庫的交叉引用;
(2)蛋白質相分離實驗的詳細信息,包括實驗描述、凝聚物狀態、相圖、發生相分離的序列、生物體和細胞系等;
(3)參與相分離的伴侶蛋白,包括蛋白質、RNA和其它分子;
(4)調控蛋白質相分離的事件,包括PTM,氨基酸突變,寡聚,重復和選擇性剪接等。
此外,該網站還整合了同樣由李婷婷課題組開發的相分離蛋白預測工具PhaSePred,可以篩選潛在的相分離蛋白。
3.????特點
(1)數據量大,信息全面;
(2)整合了PhaSePred,可以對蛋白質的相分離能力進行預測。
// LLPSDB?v2.0//http://bio-comp.org.cn/llpsdbv2/home.html圖4. LLPSDB v2.0網站界面
1.????開發人員
LLPSDB由中國科學院大學生命科學學院張竹青課題組于2019年建立,2022年更新至2.0版本。
2.????簡要介紹
LLPSDB是專門為經過體外實驗驗證的相分離蛋白質建立的數據庫,包含天然蛋白和人工設計的蛋白,LLPSDB提供了蛋白質的詳細信息以及它們在體外進行相分離的具體實驗條件。LLPSDB v2.0增加的新分類“Ambiguous system”收錄了一些組分不明,但仍然可以發生相分離的系統。LLPSDB v2.0包含2917個實驗驗證條目,包括586個獨立的蛋白質。
3.????特點
LLPSDB僅收錄了體外試驗數據,包含了蛋白質體外相分離的溫度、pH、壓力、離子強度和擁擠劑等環境條件。
// DrLLPS//http://llps.biocuckoo.cn/圖5. DrLLPS網站界面
3.????開發人員
DrLLPS由華中科技大學生命科學與技術學院薛宇課題組聯合華中科技大學同濟醫學院附屬同濟醫院褚亮課題組于2019年建立。
4.????簡要介紹
DrLLPS是一個綜合數據庫,包含437887種相分離相關蛋白質,其中包括7993個支架蛋白,72300個調控蛋白和357594個客體蛋白,覆蓋了164個真核生物物種。DrLLPS整合了常用的116個數據庫,對相分離相關蛋白質的16種性質進行了詳細的注釋,包括蛋白無序區域,翻譯后修飾,基因突變位點,癌癥突變,分子相互作用,疾病相關信息,藥物-蛋白關系,物理化學性質,蛋白質功能,蛋白質表達/蛋白質組學,三維結構,亞細胞定位,mRNA表達和DNA甲基化等。
5.????特點
數據全面,支持按照凝聚物類型、參與相分離的功能、物種種類進行檢索。
——小結——
本文介紹了物種常用的相分離相關蛋白質的數據庫,從相分離的分子機制,到生成的生物分子凝聚物的具體功能,再到與相分離相關的疾病,這些數據庫為我們提供了豐富而全面的信息,可以根據需求選擇或結合使用。圖6. 五種數據庫收錄的蛋白質條目數據量對比(截止2022年6月)[1]
參考文獻:
[1]???????? Rostam, N. et al. CD-CODE: crowdsourcing condensate database and encyclopedia. Nat Methods, doi:10.1038/s41592-023-01831-0 (2023).[2]???????? Meszaros, B. et al. PhaSePro: the database of proteins driving liquid-liquid phase separation. Nucleic Acids Res 48, D360-D367, doi:10.1093/nar/gkz848 (2020).[3]???????? Hou, C. et al. PhaSepDB in 2022: annotating phase separation-related proteins with droplet states, co-phase separation partners and other experimental information. Nucleic Acids Res 51, D460-D465, doi:10.1093/nar/gkac783 (2023).[4]???????? Wang, X. et al. LLPSDB v2.0: an updated database of proteins undergoing liquid-liquid phase separation in vitro. Bioinformatics38, 2010-2014, doi:10.1093/bioinformatics/btac026 (2022).[5]???????? Ning, W. et al. DrLLPS: a data resource of liquid-liquid phase separation in eukaryotes. Nucleic Acids Res 48, D288-D295, doi:10.1093/nar/gkz1027 (2020).