バイオテクノロジー

ノーベル化学賞2024!AIによる生命科学最大のブレークスルーとは

松原 太一

今回は、先日発表された2024年のノーベル化学賞について解説します。今年の受賞は、AIによって生命科学の大問題を解決した、画期的な研究に対して贈られました。何に対して賞が授与されたのか、またどのような問題をどう解いたのかについて、実際のノーベル賞解説と元の論文を見ながら解説していきます。

生命科学とAIが作る未来に関しては、いくつかの記事があるのでそちらもご覧ください。

受賞者と受賞理由

今回のノーベル化学賞は、以下の3名の研究者に贈られることになりました:

  • デイビッド・ベーカー氏:タンパク質の計算機設計の功績(賞金の半額)
  • デミス・ハサビス氏、ジョン・ジャンパー氏:タンパク質構造予測の功績(賞金の半額を分配)

20種類のアミノ酸が連なって、たんぱく質を作る

対象とする現象はシンプルです。タンパク質は、筋肉や角、羽根を作り出す化学物質の構成要素となるものもあれば、ホルモンや抗体となるものもあり、生命を司る物質です。

タンパク質は20種類のアミノ酸鎖から構成されていて、ねじれて折りたたまれ、独特のユニークな三次元構造を形成します。この配列から具体的にどんな構造ができるのか、ということを知りたいというのが問題設定です。

数十個のアミノ酸から数千個のアミノ酸から構成されるタンパク質の3次元構造
数十個のアミノ酸から数千個のアミノ酸から構成されるタンパク質の3次元構造
引用:Press release: The Nobel Prize in Chemistry 2024 – NobelPrize.org
https://www.nobelprize.org/prizes/chemistry/2024/press-release/

タンパク質構造予測の歴史 – 50年来の大チャレンジ

実は、タンパク質の構造予測は1972年からの約50年間、生命科学における最大の課題の一つでした。この年にクリスチャン・アンフィンセンがノーベル化学賞を受賞し、「タンパク質の3次元構造はアミノ酸配列によって決定される」という重要な発見をしたのです。

でも、タンパク質の構造を予測するのは、とてつもなく難しい問題でした。なぜでしょうか?

タンパク質構造予測はなぜ難しかったのか?

その理由は以下の3つです:

  1. 途方もない可能性の数:たった100個のアミノ酸からなるタンパク質でも、理論的には10^47通りもの異なる折りたたみ方が可能です。宇宙の年齢よりも長い時間を掛けても、すべての可能性を試すことはできません。
  2. 複雑な相互作用:タンパク質の折りたたみには、水との相互作用、アミノ酸同士の引力や斥力など、さまざまな物理的・化学的な力が関係します。
  3. 実験の困難さ:X線結晶構造解析やNMR法といった実験的な構造決定には、多大な時間と労力が必要でした。

従来の方法では、そもそもX線結晶構造解析といった実験的なアプローチがとられてきました。しかし実験にはコストと時間がかかるため、より簡易に、単純に配列から構造を推定できるようになることが重要だったのです。

従来のアプローチとその限界

これまでの研究者たちは、主に以下のような方法でこの問題に挑戦してきました。

二次構造予測(1974年):Chou-Fasmanらが、アミノ酸の性質からα-ヘリックスやβ-シートといった部分構造を予測しました。でも精度は低く、全体構造の予測には至りませんでした。

分子動力学シミュレーション(1998年):スーパーコンピューターを使って、原子レベルでタンパク質の動きをシミュレーションする手法でした。しかし、小さなタンパク質でも膨大な計算時間が必要で、現実的ではありませんでした

CASP(Critical Assessment of protein Structure Prediction)の開始(1994年):構造予測の精度を競うコンペティションが開催されました。しかし、2016年までは、予測精度は40%程度で頭打ちでした。

AlphaFold2による革新 – パラダイムシフトの瞬間

そんな中、ハサビス氏とジャンパー氏らが開発したAlphaFold2が、この問題を劇的に解決しました。開発の根幹的なアイデアを持っていたジャンパー氏は、まさに天才とも言うべき様相でした。2017年、生命科学と物理学の領域において博士号を取得したばかりの彼は、Google DeepMindに入社すると、元々あったAlphaFoldモデルを改善したのです。

AlphaFold2の革新的なアプローチ

AlphaFold2は、以下の3つの革新的なアイデアを組み合わせました。その設計にはジャンパー氏のたんぱく質に関する知識が色濃く反映されていました。

進化情報の活用

  • さまざまな生物種のタンパク質配列を比較
  • 進化の過程で保存されている配列から、重要な構造情報を抽出

トランスフォーマー型AI

  • 言語モデルで使われる最新のAI技術を応用
  • タンパク質の「文法」を学習し、構造を予測

エンドツーエンドの学習

  • 中間的な予測を必要とせず、直接3次元構造を出力
  • 予測構造の信頼性も同時に評価

このように、現在LLMでも活躍している大規模なGPUを使って計算される最先端のAI技術と、既知のタンパク質の構造とアミノ酸配列のデータベースに含まれる膨大な情報、さらにはたんぱく質に関する事前仮定・事前知識のすべてが組み合わせられています。

AlphaFold2による構造予測のアルゴリズムフローの徹底解説

AlphaFold2は、以下の4つのステップで構造を予測します。

1.データ入力とデータベース検索

  • 構造未知のアミノ酸配列をAlphaFold2に入力
  • システムが類似のアミノ酸配列とタンパク質構造をデータベースから検索
  • マルチプルシーケンスアライメント(MSA)を構築
  • これにより、異なる生物種から得られた類似配列が整列され、進化の過程で保存されている部分を特定

2.距離情報の構築

  • アミノ酸間の相互作用情報を解析
    • 荷電性アミノ酸が存在する場合、対となる位置に反対の電荷を持つアミノ酸が存在
    • 疎水性アミノ酸が置換された場合、対応する位置も疎水性アミノ酸に
  • この情報から「距離マップ」を生成し、アミノ酸間の空間的な近接度を予測

3.AIによる構造解析の反復処理

  • Evoformerブロック(48回の反復)
    • MSA情報と距離情報を統合処理
    • トランスフォーマー型ニューラルネットワークで重要な構造要素を特定
    • 配列と構造の関係を継続的に洗練化

    ⇒Evoformerを使うことで、空間的・進化的な制約を同時に考慮しながら、構造的な仮説を反復的に改善できる。この処理により、Evoformerは配列の進化情報と構造的な制約を統合し、より正確な構造予測のための表現を学習する。

  • 構造モジュール(8ブロック)
    • タンパク質のバックボーン構造を予測
    • 側鎖の配置を最適化
    • 立体構造の整合性をチェック

4.最終構造の予測

  • 3回のリサイクル(全体プロセスの再実行)を経て構造を確定
  • 各残基の信頼度スコア(pLDDT)を計算
  • 予測された3次元構造の出力

AlphaFoldからの飛躍ポイント

AlphaFold2は、初代AlphaFoldから以下の重要な改良を加えることで、劇的な性能向上を実現しました。

アーキテクチャの完全な再設計

  • AlphaFold:距離予測に特化した2段階のアプローチ
    • まず残基間の距離を予測
    • その後、予測された距離から構造を構築
  • AlphaFold2:end-to-endの1段階アプローチ
    • 直接3次元座標を予測
    • 構造の整合性をリアルタイムで考慮

新しい注意機構の導入

  • 「Evoformer」と呼ばれる革新的なブロックを開発
  • MSA情報と構造情報を同時に処理
  • 進化的な情報と空間的な情報を統合的に理解

反復的な構造改善プロセス

  • 「リサイクリング」と呼ばれる新機能を追加
  • 予測された構造を入力として再度予測を実行
  • 各反復で構造の精度を向上

性能改善の具体例

  • CASP14での評価結果:
    • AlphaFold:GDTスコア約60%
    • AlphaFold2:GDTスコア約90%(実験構造と同等の精度)
  • 予測時間の大幅な短縮:
    • 数日かかっていた予測が数分から数時間に
  • より長いタンパク質配列への対応:
    • 2,000残基以上のタンパク質も予測可能に

これらの改良により、AlphaFold2は「タンパク質構造予測問題」を事実上解決したと評価されています。まさにAlphaFold2の登場により、タンパク質構造予測の世界は一変しました。

ベーカー氏の貢献 – 人工タンパク質という新領域の開拓

一方、ベーカー氏は「Rosetta」というソフトウェアを開発し、自然界に存在しない新しいタンパク質を設計することに成功しました。ポイントは、ベーカー側の手法は、自然界に存在しないような新しいパターンをデザインするということです。

Rosettaの革新性

  • 短い構造フラグメントを組み合わせて新しい構造を設計
  • エネルギー計算による最適化
  • モンテカルロ法による効率的な構造探索

驚くべき応用例

ベーカー氏のグループは、次々と画期的なタンパク質を設計してきました。

  • ウイルスのような自己組織化するナノ粒子(2016年)
  • 薬物センサーとして機能するタンパク質(2017年)
  • インフルエンザワクチンの開発(2021年)
  • 分子モーターとして働くタンパク質(2022年)
  • 形状を変化させられるナノセンサー(2024年)

生命科学のためのAI設計が重要な時代に

2024年のノーベル化学賞は、人工知能と生命科学の融合という新しい時代の幕開けを告げる、とてもエキサイティングな発見を評価したものです。私たちは今、生命の神秘を解き明かし、さらには新しい生体分子をデザインできる時代に生きています。この技術革新が、私たちの未来をどのように変えていくのか、とても楽しみですね!

また参考になるポイントは、生命科学のためのAIの設計には、単純な高性能なモデルとGPU計算機群だけではだめだということです。対象とする生命現象に特異的な生物学的な仮説に基づいた膨大な事前情報、データとアルゴリズム設計が必要です。むしろそれが先立つべきですなんですね。とても勉強になりました。

今後も生命科学やAIに関する記事を書いていく予定なので、アカウントをフォローしてチェックよろしくお願いいたします。

参考文献

▼The Royal Swedish Academy of Sciences, Scientific Background: Computational Protein Design and Protein Structure Prediction, 2024
https://www.nobelprize.org/uploads/2024/10/advanced-chemistryprize2024.pdf

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUT ME
松原 太一
松原 太一
研究員(専門分野:バイオインフォマティクス・深層学習・量子コンピューティング)
2021年から株式会社BlueMemeで量子コンピューティングやゲノム情報解析の研究開発を担当。専門分野は、量子AIの生命医科学への応用。BlueMemeに在籍する傍ら、2023年度より社会人学生として、九州大学大学院システム生命科学府へ進学し博士号取得を目指す。
松原 太一の記事一覧

記事URLをコピーしました