DeepMindのタンパク質構造予測AI「AlphaFold」は進化を続けている

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

注目が高まるタンパク質の構造

ヒトゲノムプロジェクトの成功により、タンパク質を構成する遺伝子の新たな世界が明らかになり、多くの研究者がタンパク質の構造をマッピングする研究に着手しました。現在、5万件以上のヒトのタンパク質構造がタンパク質データバンク(PDB)に登録されており、ホモ・サピエンスは最もよく登録されている種となっています。
しかし、登録されているヒトタンパク質はわずか35%にすぎず、多くの場合、構造は配列の一部しかカバーしていません。実験的に構造を決定するためには、時間のかかる多くのハードルを克服する必要があります。

タンパク質の構造予測は、実用的な構造仮説を迅速かつ大規模に提供します。これまでの大規模な構造予測研究では、タンパク質ファミリー、特定の機能クラス、プロテオーム全体で同定されたドメイン、場合によっては完全な鎖や複合体を対象としてきました。
精度の高いモデルは、相同性検索や推定機能の割り当てだけでなく、分子置換やドラッグ可能なポケットの検出など、より幅広い応用が可能になるため、予測モデル改善は非常に重要です。

タンパク質の構造推定という課題において、実際にどんな研究が行われているのでしょうか。DeepMindのKathryn Tunyasuvunakoolら研究者の発表を紹介します。

研究者らは、構造推定システムAlphaFoldに改善を加えることで、さらに高度なタンパク質の構造推定を試みました。

▼今回紹介する論文情報

著者:Kathryn Tunyasuvunakool, Jonas Adler, Demis Hassabis 
タイトル:”Highly accurate protein structure prediction for the human proteome”
Naturevolume 596, 590–596 (2021)
URL:DOI

▼DeepMind社の他論文に関する記事

ヒトを構成するタンパク質を深く理解する

まずはKathrynらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
さらに高度なタンパク質の構造推定を行う。

✔️解決手法
既存の推定システムであるAlphaFoldを改善させる。

✔️結果
ヒトを構成するタンパク質の58%を高い信頼性で予測することに成功した。

ミッションから説明していきます。

(目的)様々な領域で有用なタンパク質構造を予測

タンパク質の構造は、生物の進化過程を推論したり、医薬品開発や標的変異誘発を可能にしたりするためにも、非常に貴重な情報を提供します。
隔年で開催される「Critical Assessment of protein Structure Prediction (CASP)」の結果からもわかるように、近年、構造予測は大きな進歩を遂げています。特にCASP14では、AlphaFoldの最新版が「AlphaFold2」というチーム名でエントリーされています。このシステムは、CASP13にエントリーしたものとは全く異なるモデルを使用しており、常に高い精度を提供するという点で、従来の方法よりもかなり改善されていることが示されました。現在では、二乗平均平方根偏差以下のバックボーン予測が一般的になっており、側鎖の精度も向上しています。また、PDBにテンプレート構造がない場合や、MSA(Multiple Sequence Alignment)を構築するための関連配列が比較的少ない場合など、難易度の高いタンパク質であっても、良好な結果が得られることが多いです。

これまでの大規模な構造予測では、独立して折り畳まれる配列の領域であるドメインに焦点を当てていました。しかし、あらかじめ特定されたドメインに限定して構造予測を行うと、まだアノテーションされていない構造領域を見逃してしまう危険性があります。また、2つ以上のドメインが大きく相互作用している場合に有用な、配列の残りの部分からの文脈情報も見逃してしまいます。そこで、タンパク質の全長鎖を対象とした構造予測システムが必要です。

(手法)タンパク質の鎖全体に注目した予測システム

Kathrynらは、既存のAlphaFoldシステムを改善し、鎖構造全体に注目したシステムの構築を行いました。

構造予測(ヒトプロテオーム)
UniProt release 2021_02からヒトのリファレンスプロテオームの配列を入手しました。残基コードがB、J、O、U、Z、Xの配列は除外し、16〜2,700アミノ酸のすべての配列について構造予測を試みました。構造予測プロセスは、AlphaFold論文に記載されているとおり、

・MSAの構築
・テンプレートの検索
・5つのモデルによる推論
・平均予測局所距離差テスト(pLDDT)に基づくモデルのランキング
・予測された構造の制約緩和

という5つのステップで構成されています。プロテオームスケールのパイプラインでは、以下のような違いが導入されました。
まず、メタゲノミクスデータベースであるBig Fantastic Database (BFD)に対する検索を、HMMER3のJackhmmerを用いた「Reduced BFD」に対する検索に変更しました。Reduced BFDは、各BFD a3mアライメントから最初の非コンセンサス配列を含むマルチラインのFASTAファイルで構成されています。次に、アンサンブルの量を8分の1に減らしました。20,614個のFASTAエントリーのうち、20,296個の配列について、少なくとも4つのリラックスした完全鎖モデルを作成することに成功し、タンパク質の98.5%をカバーしました。2,700残基以上の配列が、除外された配列の大部分を占めています。これは10,537,122残基(残基数の92.5%)に相当します。

構造予測 (最近のPDBデータセット)
最近のPDB配列の構造予測には、2021年2月15日にダウンロードしたPDBのコピーを使用しました。構造は、リリース日が2018年4月30日(トレーニングセットに含めるための日付制限)以降のものにフィルターされました。その後、鎖をさらにフィルタリングして、単一のアミノ酸からなる配列、任意の残基位置に曖昧な化学成分を持つ配列、PDB 40%の配列クラスタリングを持たない配列を除去した。また、Cα原子の分解能が最も高いものを代表的な配列として選択することで、完全に重複したものを除去しました。次に、分解された残基数が16個未満の構造、未知の残基を持つ構造、NMR法で解かれた構造を除外しました。その後、構造予測は、2018年4月30日以降にリリースされたテンプレートを不許可とした以外は、長さと残基の制限を設けたヒトプロテオームの場合と同じ手順で行いました。最後に、PDB 40%配列クラスタリングの各クラスタから、最も解像度がゼロでない鎖を取り出してデータセットの冗長性を減らし、12,494鎖のデータセットを作成しました。これを「最近のPDBデータセット」と呼んでいます。

テンプレートカバレッジ
テンプレートカバレッジは、以下のようにして残基単位で推定しました。
Hmmsearchは、PDB SEQRES(2021年2月15日にダウンロード)のコピーに対して、デフォルトのフラグを使用して実行されました。残基iでの事前のテンプレートカバレッジは、ヒットした残基が実験的に解決されているかどうかに関わらず、残基iをカバーするすべてのヒットの最大の配列同一性の割合です。最近のPDB解析では、2018年4月30日以前にリリースされた構造に対応するテンプレートヒットのみを受け入れました。
完全鎖予測のセクションでは、テンプレートのフィルタリングは、50%以上のカバレッジを持つ単一のHmmsearchヒットの中で最も高い配列同一性に基づいています。これは、予測されたドメインパッキングが新規であるかどうかを検討する際に、カバー率の高いテンプレートが特に重要であるためです。

(結果)未解明だった多くのタンパク質構造を解明

17%であったヒトのタンパク質配列に含まれる残基の決定率を、58%まで上昇させることに成功しました。

いくつかのケーススタディの予測と、それによって得られる可能性のある洞察について説明します。ここで紹介する予測はすべて、25%以上の配列同一性を持つテンプレートを持たない新規の予測です。

図1 ハイライトされた構造の予測
a 左:2つのG6Pase(G6Pase-αおよびG6Pase-β)とクロロペルオキシダーゼの活性部位の比較 (PDB 1IDQ)。 G6Paseはグルコースを生成する酵素で、共通の活性部位残基(中央)の反対側に保存された、溶媒にアクセス可能なグルタミン酸(赤;右)を含んでいます。
b 左:ポケット予測(P2Rank65)により、体脂肪合成に関与するDGAT2の推定結合ポケットを特定したもの。中央:DGAT151が、DGAT2のポケットに類似した残基を持つGlu416とHis415で基質を活性化するメカニズムの提案。右:ドッキングされた阻害剤は、His163とThr194との極性相互作用に適した位置にある。
c ウォルフラミンの予想される構造。ウォルフラミンは、その変異によりWolfram症候群を引き起こす。ウォルフラミンにはpLDDTが低い領域がありますが(左)、プロトタイプのOBフォールド(灰色;中)と同等のコアを持つOBフォールド領域(緑/黄色)を同定することができた。しかし、最も類似したPDB鎖(マゼンタ色;右)には、我々の予測の保存されたシステインリッチ領域(黄色)が欠けていることがわかりました。

グルコース-6-ホスファターゼ
G6Pase-α(UniProt P35575)は膜結合型の酵素で、グルコース合成の最終段階を触媒し、血糖値の維持に極めて重要です。知られている限り、実験的な構造は存在しないが、これまでの研究では、膜貫通型のトポロジーと活性部位の特徴を明らかにしようとしています。Kathrynらの予測は非常に信頼性が高く(pLDDTの中央値は95.5)、小胞体の表面とほぼ一致する入口トンネルを介して、推定活性部位にアクセスできる9ヘリックスのトポロジーを示しています(図3a)。予測された陽電荷をもつ残基(pLDDTの中央値96.6)は、以前に同定された真菌のバナジウムクロロペルオキシダーゼの活性部位のホモログ(PDB 1IDQ、r.m.s.d. 0.56Å、配列した51個の原子のうち49個)とよく一致します。
G6Pase-αの結合ポケット面には、保存されたグルタミン酸(Glu110)が存在すると予測しました。このグルタミン酸は、結合ポケットを閉じた構造に安定化させ、そこにある正電荷を帯びた残基と塩橋を形成する可能性があります。また、このグルタミン酸は、推定上の活性部位の中で最も溶媒にさらされている残基であり、ゲーティング機能の可能性を示唆しています。この残基はこれまでに議論されたことがなく、高品質な構造予測から得られる新しいメカニズムの仮説を示すものです。

ジアシルグリセロールO-アシル基転移酵素2
トリアシルグリセロールの合成は、余分な代謝エネルギーを脂肪として脂肪組織に蓄える役割を担っています。DGAT2(UniProt Q96PD7)は、この経路において最終的なアシル付加を触媒する2つの必須アシルトランスフェラーゼのうちの1つであり、DGAT2を阻害することで、肝疾患モデルマウスの肝機能が改善することが示されています。確信度の高い予測構造(pLDDTの中央値95.9)を用いて、既知の阻害剤であるPF-06424439の結合ポケットの同定を行いました。その結果、阻害剤をドッキングできるポケット(pLDDT中央値93.7)を発見し、否定的な例では再現されなかった特定の相互作用(図3b)を観察することができました。DGAT2には、進化的には分岐しているものの、生化学的には類似した類似体であるジアシルグリセロールO-アシルトランスフェラーゼ1(DGAT1)があります。
これまでのDGAT2の実験では、His163を変異させると、2残基離れたヒスチジンを変異させるよりも、より強い作用があることがわかっています。さらに、Glu243 と His163 は種を超えて保存されており、この仮説された触媒構造を支持しています。

ウォルフラミン
ウォルフラミン (UniProt O76024) は、小胞体に局在する膜貫通型のタンパク質です。WFS1 遺伝子の変異は、早期に発症する糖尿病、徐々に進行する視力や聴力の低下、早期死亡を特徴とする神経変性疾患、Wolfram syndrome 1 と関連しています。完全予測の信頼度が低い(pLDDTの中央値81.7)ことから(図3c)、この構造に特有の領域を特定することを提案しました。最近の進化論的解析により、ウォルフラミンのドメインが示唆されたが、これは我々の予測をほぼ裏付けるものです。興味深い点は、オリゴヌクレオチド結合(OB)フォールド(図3c、緑と黄色)に、システインに富むドメイン(図3c、黄色)が特徴的なβ1ストランドとして組み込まれていることです。その後、システインリッチ領域は、予測される2つのジスルフィド結合を伴うL12ループを形成し、ループを経て、原型となるβ2鎖に戻ります。この領域の予測値(pLDDTの中央値86.0)を、TM-alignを用いて既存のPDB鎖と比較したところ、3F1Zが最も類似した既知の鎖であることがわかりました(TM-score 0.472)(図3c、マゼンタ)。最も類似した鎖であるにもかかわらず、3F1Zは、小胞体でジスルフィド架橋を形成する可能性のあるウォルフラミンに存在するシステインを欠いています。この領域は他のタンパク質をリクルートしていると考えられているため、このような構造的な洞察はパートナーを理解する上で重要です。

本研究では、ヒトのプロテオームを対象に、包括的かつ最先端の構造予測を行いました。このデータセットは、プロテオームの構造カバレッジに大きく貢献しています。特に、分子置換や結合部位の特性評価など、高精度が求められるタスクに適しています。また、AlphaFoldアーキテクチャに基づいて作成されたいくつかの測定基準を適用し、予測の解釈にどのように使用できるかを示しました。
AlphaFoldは、非常に高い精度でスケーラブルな構造予測を提供することで、構造バイオインフォマティクスへのエキサイティングなシフトを可能にし、タンパク質の空間をさらに照らし出すことができるでしょう。

研究紹介は以上です。

ここまで明らかになっていない無数のタンパク質の構造を明らかにし、医療などの様々な分野が発展していって欲しいですね。

業界/カテゴリー

PAGE TOP