熟妇人妻一区二区三区四区,久久ER99热精品一区二区,真实的国产乱XXXX在线,性XXXX18精品A片一区二区

關(guān)注公眾號

關(guān)注公眾號

手機(jī)掃碼查看

手機(jī)查看

蛋白研究常用數(shù)據(jù)庫 | UniProt數(shù)據(jù)庫介紹及使用說明

鹿明生物
2022.5.10

1

UniProt簡介

目前較常用的蛋白組數(shù)據(jù)庫是UniProt和NCBI這2個公共庫,其中UniProt整合了Swiss-Prot、 TrEMBL 和 PIR-PSD 三個數(shù)據(jù)庫,主要優(yōu)勢在于添加了蛋白功能注釋信息。具有更新速度快、與其他數(shù)據(jù)庫聯(lián)系密切、分析工具齊全、使用便捷的特點(diǎn),成為了目前信息最豐富、資源最廣的蛋白質(zhì)數(shù)據(jù)庫。

一般情況下,如果蛋白質(zhì)組所研究的物種已經(jīng)被測序,推薦使用Uniprot數(shù)據(jù)庫作為蛋白搜庫匹配的數(shù)據(jù)庫,如果所研究的物種在UniProt數(shù)據(jù)庫中蛋白數(shù)據(jù)較少,推薦使用NCBI數(shù)據(jù)庫進(jìn)行搜庫。

數(shù)據(jù)庫鏈接:https://www.uniprot.org/

2

UniProt的6個主要組成的介紹

UniProt主要分為6個主要部分,該6個部分的主要介紹如下:

1. UniProtKB(Universal?Protein Knowledge Base)

該部分為蛋白知識庫,分為兩部分,第一部分Swiss-Prot數(shù)據(jù)庫,此數(shù)據(jù)庫是高質(zhì)量的、人工注釋的、非冗余的數(shù)據(jù)庫,主要來自文獻(xiàn)報道以及E-value校驗(yàn)的數(shù)據(jù)。第二部分為TrEMBL數(shù)據(jù)庫,該部分是計(jì)算機(jī)對大量基因組數(shù)據(jù)進(jìn)行分析注釋、未經(jīng)人工校驗(yàn)的條目,其數(shù)據(jù)質(zhì)量低于Swiss-Prot。

2. Supporting Data

支撐數(shù)據(jù),主要為相關(guān)模塊的說明,其包含Literature citations、Taxonomy、Keywords、Subcellular locations、Cross-referenced databases、Human diseases等。

3. UniRef(UniProt Reference Clusters)

蛋白序列參考集,分為三個數(shù)據(jù)集,分別為UniRef100、UniRef90和UniRef50,主要來自UniProtKB知識庫,同時也包括UniParc歸檔庫中部分條目。UniRef100序列將相同的序列和序列片段(來自任何生物)合并到一個UniRef條目中,用于顯示代表性蛋白質(zhì)的序列。

4. UNIParc (UniProt Sequence Archive)

蛋白質(zhì)序列歸檔庫,是目前數(shù)據(jù)最為齊全的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。蛋白質(zhì)可能存在于幾個不同的來源數(shù)據(jù)庫中,并且在同一數(shù)據(jù)庫中存在多個副本。為了避免冗余,相同序列歸并到同一個記錄中,并賦予特定標(biāo)識符(Unique Identifier,UPI)。記錄包含特定標(biāo)識符UPI、序列、循環(huán)冗余校驗(yàn)碼和源數(shù)據(jù)庫名稱等信息。

5. Proteomes

蛋白組數(shù)據(jù),主要是指已經(jīng)完成全基因組測序物種的核酸序列翻譯所得的蛋白質(zhì)序列。其由測序質(zhì)量較好、數(shù)據(jù)比較完整、注釋比較詳盡的蛋白組數(shù)據(jù)組成,但是其序列條目并非都是經(jīng)過人工審閱的。

6.搜索區(qū)

搜索區(qū)可以快速找到自己感興趣的蛋白質(zhì),檢索方法可以按照蛋白質(zhì)的名稱、ID號、基因名、物種等。

3

UniProt搜索區(qū)域的應(yīng)用

下面主要介紹3種常用檢索方式的操作方法:

1.直接通過蛋白ID號搜索

(1)用瀏覽器登錄Uniprot數(shù)據(jù)庫官網(wǎng):https://www.uniprot.org/;

(2)搜索框輸入蛋白ID號(以P22223為例),

(3)查看P22223蛋白的生物學(xué)信息;

(4)下載序列數(shù)據(jù),

2.直接通過蛋白名搜索(我們只知道蛋白名,不清楚蛋白的ID號的時候使用該搜索功能)

(1)在搜索框輸入蛋白名(以Cystatin-C為例)之后search,進(jìn)入下圖界面;

①區(qū)域即為人物種的Cystatin-C蛋白結(jié)果。

(2)

③區(qū)域主要是蛋白名、基因名、物種信息、蛋白研究水平等

(3)紅框?yàn)榈鞍淄暾被嵝蛄校?/p>

(4)下載蛋白序列。

sp:Swiss-Prot數(shù)據(jù)庫的蛋白,說明該蛋白是經(jīng)過人工檢查、校驗(yàn)的條目,是高質(zhì)量的、人工注釋的、非冗余的蛋白質(zhì)。

P01034:蛋白在uniprot上的ID號,即蛋白的識別號(Accession號)。

CYTC_HUMAN:蛋白在uniprot上的登錄名。

Cystatin-C:蛋白名稱。

OS:Organism,表示物種來源,一般是物種的拉丁名,這里Homo sapiens為人的拉丁文。

GN:gene name,即基因名稱。

PE:Protein Existence,即蛋白的可靠性。

SV:SequenceVersion,即序列版本號。

PE:分別有1、2、3、4、5這5個等級,數(shù)字越小可靠性越高,具體可靠性說明如下:

1. Experimental evidence at protein level 蛋白質(zhì)水平驗(yàn)證的蛋白

2. Experimental evidence at transcript level 轉(zhuǎn)錄水平驗(yàn)證的蛋白

3. Protein inferred from homology 同源推斷的蛋白

4. Protein predicted 預(yù)測的蛋白

5. Protein uncertain 未知蛋白

3.通過物種拉丁文(或者物種的編號)檢索整個物種數(shù)據(jù)庫。

(注:很多時候我們需要了解整個物種庫的情況,此時就需要用到物種拉丁文搜索)

(1)在Uniprot數(shù)據(jù)庫官網(wǎng)選擇Proteomes子庫,然后在搜索框輸入物種拉丁名(以mus musculus為例,選擇Organism ID為10090的小鼠為例);

(2)輸入mus musculus,

(3)

如下所示:

(4)

(5)如果是序列文件,我們選擇下載FASTA格式的文件(FASTA格式的文件可以直接用于數(shù)據(jù)庫匹配,表格格式方便查看)。

4

Uniprot交叉引用數(shù)據(jù)庫

UniProtKB條目的交叉引用部分顯示了與核苷酸序列數(shù)據(jù)庫、模型生物數(shù)據(jù)庫、基因組和蛋白質(zhì)組學(xué)資源等數(shù)據(jù)庫的顯式和隱式鏈接。一個條目可以交叉引用幾十個不同的數(shù)據(jù)庫,并有幾百個單獨(dú)的鏈接。如果感興趣,直接

5總結(jié)

以上為UniProt數(shù)據(jù)庫介紹及常用功能使用指南,該數(shù)據(jù)庫與其他數(shù)據(jù)庫資源相互聯(lián)系,實(shí)現(xiàn)最廣覆蓋度、最全注釋,終極目標(biāo)是為科研工作者提供高質(zhì)量的蛋白開源數(shù)據(jù)庫,也希望本說明書能夠幫助到大家。

隨著上期鹿明生物推出代謝組學(xué)干貨 | METLIN:一個強(qiáng)大的代謝物鑒定及查詢的數(shù)據(jù)庫后,本期的蛋白組學(xué)UniProt數(shù)據(jù)庫希望能助力各位老師蛋白搜庫、檢索感興趣的蛋白有所幫助。鹿明生物多年來,一直專注于生命科學(xué)和生命技術(shù)領(lǐng)域,是國內(nèi)早期開展以蛋白組學(xué)和代謝組學(xué)為基礎(chǔ)的多層組學(xué)整合實(shí)驗(yàn)與分析的團(tuán)隊(duì)。小鹿后期會持續(xù)推出蛋白組學(xué)及代謝組學(xué)的"庫"系類文章,請各位老師持續(xù)關(guān)注... ...

重大活動關(guān)注

空代千萬醫(yī)學(xué)支持計(jì)劃

活動超長周期:

2022.5.09~2022.8.09

深度交流:1v1技術(shù)交流探討課題組,空間代謝組學(xué)講座預(yù)約;

針對方向:鹿明生物空間代謝組學(xué)

申請方法:只需在線提交800字研究目的、思路及意義;即可參與活動~~

猜你還想看

·鹿明“庫”系列

1、干貨 | METLIN:一個強(qiáng)大的代謝物鑒定及查詢的數(shù)據(jù)庫

2、干貨 | 臨床樣本數(shù)字化管理應(yīng)該如何做?看完秒懂~

3、如何入局多組學(xué)實(shí)驗(yàn)?4D-蛋白組+代謝組雙平臺知識干貨帶您入門!

4、百萬立項(xiàng)計(jì)劃 | 突破代謝組學(xué)化合物鑒定技術(shù)瓶頸:標(biāo)品庫管理背后的故事

文章作者
推薦
關(guān)閉