Pfamデータベース
Pfamは、タンパク質ファミリーのデータベースであり、アノテーションと隠れマルコフモデルを用いて生成された多重配列アライメントを含んでいる[1][2][3]。最新版のPfam 33.1は、2020年5月にリリースされ、18,259件のファミリーを収録している[4]。
内容 | |
---|---|
説明 | Pfamデータベースは、タンパク質ドメインの整列と隠れマルコフモデルを提供する。 |
キャプチャデータ | タンパク質ファミリー |
生物 | 全て |
コンタクト | |
研究拠点 | EBI |
主要引用 | PMID 19920124 |
アクセス | |
データフォーマット | ストックホルムフォーマット |
ウェブサイト |
pfam |
ダウンロードURL | FTP 1 FTP 2 |
ツール | |
その他 | |
ライセンス | GNU Lesser General Public License |
バージョン | 34.0 |
ブックマーク エンティティ | yes |
用途
Pfamデータベースの一般的な目的は、タンパク質のファミリーとドメインの完全で正確な分類を提供することである[5]。もともと、このデータベース作成の背景にある理論的解釈は、ゲノムに注釈を付ける作業を効率化するために、既知のタンパク質ファミリーに関する情報を半自動で収集することであった[6]。タンパク質ファミリーのPfam分類は、タンパク質を幅広く網羅し、命名規則も分かりやすいことから、生物学者に広く採用されている[7]。
本データベースは、特定のタンパク質を研究する実験生物学者、構造決定の新しいターゲットを特定する構造生物学者、配列を組織化する計算生物学者、タンパク質の起源を追跡する進化生物学者によって利用されている[8]。ヒトやハエなどの初期のゲノムプロジェクトでは、ゲノムデータの機能アノテーションにPfamが広く利用されていた[9][10][11]。
Pfamウェブサイトでは、ユーザーがタンパク質やDNAの配列を送信して、データベース内のファミリーと一致するものを検索できる。DNAが提出された場合、6フレーム翻訳を行って、各フレームを検索する[12]。Pfamでは、一般的なBLAST検索を行うのではなく、プロファイル隠れマルコフモデルを使用している。このモデルでは保存されたサイトでの一致をより重視するため、遠隔の相同性をよりよく検出でき、注釈付きの近縁がいない生物のゲノム注釈を付けるのに適している[13]。
Pfamはまた、構造データベース内の情報とこれらの構造へのPfamドメインのマッピングに基づいて、タンパク質内およびタンパク質間のドメイン-ドメイン相互作用をカタログ化するiPfamなどの他のリソースの作成にも使用されている[14]。
特徴
Pfam内の各ファミリーについて、次のことができる。
- ファミリーの説明を表示する
- マルチプルアラインメントを表示する
- タンパク質ドメインの構造を表示する
- 種の分布を調べる
- 他のデータベースへのリンクをたどる
- 既知のタンパク質の構造を表示する
エントリーには、ファミリー、ドメイン、リピート、モチーフなどの種類がある。ファミリーはデフォルトのクラスであり、単にメンバーが関連していることを示す。ドメインとは、複数のタンパク質のコンテキストに存在する自律構造単位または再利用可能な配列単位と定義されている。リピートは通常、単独では安定しておらず、ドメインまたは拡張構造を形成するために、通常、縦列反復を形成する必要がある。モチーフは通常、球状ドメインの外側にある短い配列単位である[9]。
Pfamファミリーの説明は、ウィキペディアを使用して一般の人々が管理している(「歴史」を参照)。
リリース29.0の時点で、UniprotKBのタンパク質配列の76.1%が、少なくとも1つのPfamドメインと一致していた[15]。
新規エントリーの作成
新しいファミリーは、さまざまな情報源から得られているが、主にPDBと、Pfamにヒットしない遺伝子をプロテオーム全体の解析から見つけ出される[16]。
ファミリーごとに、代表的な配列のサブセットが高品質なシードアライメントに整列される。シードアライメントの配列は、主にpfamseq(リファレンスプロテオームの非冗長データベース)から取得し、一部はUniprotKBから補足される[15]。このシードアライメントは、次に、HMMERを使用したプロファイル隠れマルコフモデルの構築に使用される。そして、このHMMを配列データベースで検索し、精査された収集閾値に達したすべてのヒットをタンパク質ファミリーのメンバーとして分類する。このようにして得られたメンバーのコレクションをプロファイルHMMに位置合わせし、完全アライメントを生成する。
ファミリーごとに、手動で精査された収集閾値が割り当てられる。この閾値は、そのファミリーに対する真の適合数を最大化しつつ、偽陽性を除外するものである。偽陽性は、同じクランのものではないPfamファミリーのヒット間での重畳を観察することによって推定される。この閾値は、ファミリーHMMにマッチしたものを、タンパク質ファミリーに含める必要があるかどうかを評価するために使用される。Pfamの更新のたびに、新規ファミリーと既存ファミリーが重複しないように、収集閾値が再評価される[16]。
機能未知ドメイン
機能未知ドメイン(DUF)は、Pfamデータベースの中で増大する部分を占めている。このファミリーは種を超えて保存されていることがわかっているが、果たしている役割が未知のためにこのような名前が付けられた。新しく追加された各DUFには、追加された順に名前が付けられる。これらのエントリの名前は、機能が特定されるたびに更新される。通常、DUFに属する少なくとも1つのタンパク質の機能が決定されると、DUF全体の機能が更新され、ファミリーの名前が変更される。名付けられたファミリーの中には、まだ機能未知ドメインで、代表的なタンパク質にちなんで名前を持つものもある(例:YbbR)。機能不明の保存された配列が配列データ上で発見されるにつれて、DUFの数は増加し続けると予想される。DUFの数は、最終的には機能がわかっているファミリーの数を上回ると予想されている[16]。
クラン
時間の経過とともに配列と残基の網羅率が増加し、ファミリーが増えるにつれ、より多くの進化的関係が発見され、ファミリーをクラン(clan、一族の意味)に分類することができるようになった[8]。クランは、2005年にPfamデータベースに最初に導入された。これらは、構造的、機能的、配列およびHMMの比較によって確認された、単一の進化的起源を共有する関連ファミリーのグループである[5]。リリース29.0の時点で、タンパク質ファミリーの約1/3がクランに所属していた[15]。この部分は、2019年(バージョン32.0)までに約3/4まで増加した[17]。
クラン関係の可能性を特定するために、Pfamキュレーターは、ECODデータベースからの情報に加えて、出力の単純比較プログラム(Simple Comparison Of Outputs Program、SCOOP)を使用している[17]。ECODは、構造が知られているタンパク質ファミリーの半自動階層型データベースであり、Pfamエントリーに容易にマッピングされるファミリーと、通常Pfamクランにマッピングされるホモロジーレベルを備えている[18]。
歴史
Pfamは、多細胞動物のタンパク質コード遺伝子の注釈付けに使用できる、一般的に存在するタンパク質ドメインのコレクションとして、Erik Sonhammer、Sean Eddy、Richard Durbinによって1995年に設立された[6]。設立当初の主な目的の一つは、線虫のゲノムのアノテーション付けを支援することであった[6]。このプロジェクトは、Cyrus Chothiaによる「One thousand families for the molecular biologist」(分子生物学者のための1000のファミリー)で部分的に推進され、タンパク質には約1,500の異なるファミリーがあり、大多数のタンパク質はそのうちのわずか1,000のファミリーに分類されると主張された[5][19]。この主張に反して、Pfamデータベースには現在、固有のタンパク質ドメインとファミリーに対応する16,306件のエントリーが含まれている。ただし、これらのファミリーの多くは、構造的および機能的な類似性を含んでおり、進化上の起源を共有していることを示している(クランの項を参照)[5]。
Pfamが設立された当時、他のデータベースと大きく異なっていた点は、エントリーに2種類のアライメントを使用していたことである。1つは、手動でチェックされた小規模なシードアライメントと、もう1つは、シードアラインメントから構築されたプロファイル隠れマルコフモデルに配列を整列させて構築された完全アライメントである。この小さなシードアライメントは、配列データベースの新しいリリースに合わせて更新することが容易である。そのため、ゲノム配列がより効率的になり、時間の経過とともにより多くのデータを処理する必要が生じたときに、どのようにしてデータベースを最新の状態に保つかというジレンマに対する有望な解決策となった。データベースの更新速度はバージョン24.0でさらに向上し、HMMER2の~100倍の速度でより高い感度を持つHMMER3が導入された[8]。
Pfam-Aのエントリーはすべての既知のタンパク質を網羅していないため、Pfam-Bと呼ばれる自動生成された補足が提供された。Pfam-Bには、ADDAというアルゴリズムによって作成されたクラスターから派生した多数の小さなファミリーが含まれていた[20]。Pfam-Bファミリーは品質は劣るもののPfam-Aファミリーが見つからない場合に役立つ。Pfam-Bはリリース28.0で廃止されたが[21]、新しいクラスタリングアルゴリズムMMSeqs2を使用してリリース33.1で再導入された[22]。
Pfamは当初、冗長性を維持するために世界中の3つのミラーサイトでホストされていた。しかし、2012年から2014年にかけて、PfamリソースはEMBL-EBIに移動された。これにより、重複する2つの独立したデータセンターを使用して、1つのドメイン(xfam.org)からウェブサイトをホスティングできるようになった。これにより、複数のセンターからのホスティングによる重要な障害許容力を維持する一方で、更新情報の一元化や、Rfam、TreeFam、iPfamなどの他のXfamプロジェクトとのグループ化が可能になった[23]。
Pfamは、キュレーションにかかる手作業をさらに削減し、より頻繁な更新を可能とするために、過去2年間で大幅な再編成を行った[15]。
コミュニティキュレーション
このような大規模なデータベースをキュレーションするには、新規のファミリーや更新情報を追加する量を維持する点で問題を提示した。データベースのリリースを迅速に行うために、開発者はデータベースの管理にコミュニティが深く関与できるように、さまざまな取り組みを開始した。
エントリーの更新と改善のペースを上げるための重要なステップは、リリース26.0でPfamドメインの機能アノテーションをウィキペディアコミュニティに公開することであった[16]。すでにウィキペディアがエントリを持っているエントリはfamページにリンクし、持っていないエントリについては、コミュニティがエントリを作成してキュレーターに通知してリンクするようにした。コミュニティの参加により、これらのファミリーのアノテーションレベルが大幅に向上することが予想される一方で、中にはウィキペディアに掲載するには不十分なものもあり、その場合は元のPfamの記述が保持される。ウィキペディアの記事の中には、ジンクフィンガーの記事のように、複数のファミリーを扱っているものもある。また、InterProおよびPfamのデータに基づいて記事を生成する自動化された手順も実装されており、これは情報やデータベースへのリンク、利用可能な画像をページに事前設定し、キュレーターによるレビューを受けた記事はサンドボックスからウィキペディアに適切に移動される。記事の破壊行為を防ぐために、ウィキペディアの各改訂版は、Pfamのウェブサイトに表示される前に、キュレーターによってレビューされる。ただし、ほとんどすべての破壊行為は、キュレーターに届く前にコミュニティによって修正されている[16]。
Pfamは、3つのグループからなる国際コンソーシアムによって運営されている。Pfamの初期のリリースでは、ファミリーエントリーの修正は英国のケンブリッジのサイトでしかできず、コンソーシアムメンバーがサイトのキュレーションに貢献する能力は制限されていた。リリース26.0では、開発者は新しいシステムに移行し、世界中の登録ユーザーがPfamファミリーを追加または修正できるようになった[16]。
参照項目
脚注
- “The Pfam protein families database”. Nucleic Acids Res 36 (Database issue): D281–8. (2008). doi:10.1093/nar/gkm960. PMC 2238907. PMID 18039703 .
- Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M. et al. (Jan 2006). “Pfam: clans, web tools and services” (Free full text). Nucleic Acids Research 34 (Database issue): D247–D251. doi:10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511. PMID 16381856 .
- Bateman, A.; Coin, L.; Durbin, R.; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M. et al. (2004). “The Pfam protein families database”. Nucleic Acids Research 32 (Database issue): 138D–1141. doi:10.1093/nar/gkh121. ISSN 0305-1048. PMC 308855. PMID 14681378 .
- “Pfam 31.0 is released”. Xfam Blog (2017年3月8日). 2017年3月13日閲覧。
- Sammut, Stephen; Finn, Robert D.; Bateman, Alex (2008). “Pfam 10 years on: 10 000 families and still growing”. Briefings in Bioinformatics 9 (3): 210–219. doi:10.1093/bib/bbn010. PMID 18344544.
- Sonnhammer, Erik L.L.; Eddy, Sean R.; Durbin, Richard (1997). “Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments”. Proteins 28 (3): 405–420. doi:10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186.
- Xu, Qifang; Dunbrack, Roland L. (2012). “Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB”. Bioinformatics 28 (21): 2763–2772. doi:10.1093/bioinformatics/bts533. PMC 3476341. PMID 22942020 .
- Finn, R. D.; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, J. E.; Gavin, O. L.; Gunasekaran, P. et al. (2009). “The Pfam protein families database”. Nucleic Acids Research 38 (Database): D211–D222. doi:10.1093/nar/gkp985. ISSN 0305-1048. PMC 2808889. PMID 19920124 .
- “The Pfam protein families database”. Nucleic Acids Res. 30 (1): 276–80. (2002). doi:10.1093/nar/30.1.276. PMC 99071. PMID 11752314 .
- “The genome sequence of Drosophila melanogaster”. Science 287 (5461): 2185–95. (2000). Bibcode: 2000Sci...287.2185.. doi:10.1126/science.287.5461.2185. PMID 10731132.
- Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C. et al. (2001). “Initial sequencing and analysis of the human genome”. Nature 409 (6822): 860–921. doi:10.1038/35057062. ISSN 0028-0836. PMID 11237011.
- Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie et al. (2014). “Pfam: the protein families database”. Nucleic Acids Research 42 (D1): D222–D230. doi:10.1093/nar/gkt1223. ISSN 0305-1048. PMC 3965110. PMID 24288371 .
- “Pfam: multiple sequence alignments and HMM-profiles of protein domains”. Nucleic Acids Res. 26 (1): 320–2. (1998). doi:10.1093/nar/26.1.320. PMC 147209. PMID 9399864 .
- Finn, R. D.; Marshall, M.; Bateman, A. (2004). “iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions”. Bioinformatics 21 (3): 410–412. doi:10.1093/bioinformatics/bti011. ISSN 1367-4803. PMID 15353450.
- Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco et al. (2016). “The Pfam protein families database: towards a more sustainable future”. Nucleic Acids Research 44 (D1): D279–D285. doi:10.1093/nar/gkv1344. ISSN 0305-1048. PMC 4702930. PMID 26673716 .
- Punta, M.; Coggill, P. C.; Eberhardt, R. Y.; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K. et al. (2011). “The Pfam protein families database”. Nucleic Acids Research 40 (D1): D290–D301. doi:10.1093/nar/gkr1065. ISSN 0305-1048. PMC 3245129. PMID 22127870 .
- El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simon C; Qureshi, Matloob; Richardson, Lorna J et al. (8 January 2019). “The Pfam protein families database in 2019”. Nucleic Acids Research 47 (D1): D427–D432. doi:10.1093/nar/gky995. PMC 6324024. PMID 30357350 .
- “Evolutionary Classification of Protein Domains”. prodata.swmed.edu. 2019年5月18日閲覧。
- Chothia, Cyrus (1992). “One thousand families for the molecular biologist”. Nature 357 (6379): 543–544. Bibcode: 1992Natur.357..543C. doi:10.1038/357543a0. ISSN 0028-0836. PMID 1608464.
- Heger, A.; Wilton, C. A.; Sivakumar, A.; Holm, L. (Jan 2005). “ADDA: a domain database with global coverage of the protein universe” (Free full text). Nucleic Acids Research 33 (Database issue): D188–D191. doi:10.1093/nar/gki096. ISSN 0305-1048. PMC 540050. PMID 15608174 .
- “Pfam 28.0 release notes”. 2015年6月30日閲覧。
- “A new Pfam-B is released” (英語). Xfam Blog (2020年6月30日). 2021年5月6日閲覧。
- “Moving to xfam.org”. 2016年11月25日閲覧。
- Dunbrack, Roland. “PDBfam”. Fox Chase Cancer Center. 2013年3月9日閲覧。
- Xu, Qifang; Dunbrack, Roland (2012). “Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB”. Bioinformatics 28 (21): 2763–72. doi:10.1093/bioinformatics/bts533. PMC 3476341. PMID 22942020 .