講演概要

サイエンスコミュニケーションセミナー①

アンテナを広げて~インターネット世代の研究とSNS

大上 雅史 (東京工業大学 情報理工学院 准教授)
#オープンサイエンス#SNS#炎上#プレプリント

AlphaFold(特にversion 2、以降AlphaFold2)の登場は、タンパク質立体構造予測に関係する研究者のみならず、生物学や情報学の研究者が広く注目する、一種の「祭り」を引き起こした。Twitter(現X)で話題となり、瞬く間に多くの研究者が知ることとなって、今日ではAlphaFold2の存在が当たり前となった前提のもとでの生命科学研究が進められるようになっている。

AlphaFold2の発表当時を思い出そう。2020年11月30日にNatureでCASP立体構造予測コンテストの結果のニュースが発表され、なにやらAlphaFold2という手法がヤバいということが知れ渡った。だが、明らかになった情報は、どうやら配列アラインメント情報を入力としてEnd-to-Endの畳込みニューラルネットワークを使っているということだけ。実装も含めて、しばらくは多くが謎のままであった(ただし、裏ではDavid Bakerらがこの断片的情報をもとにRoseTTAFoldを開発していた)。 2021年7月16日にAlphaFold2のNature論文とともに実装がgithubで公開された。翌朝には森脇由隆先生(現 東京医科歯科大)が、おそらく日本で最初にインストールに成功し、Qiitaでインストールマニュアルを公開した。簡易的な利用環境としてGoogle Colaboratoryで公開されたAlphaFold2も存在していたが、7月20日には配列検索が高度化されたColabFoldが公開された(ColabFoldの最初の論文preprintは8月15日にbioRxivにアップされた)。7月23日にはAlphaFold DatabaseがEMBL-EBIとDeepMindの共同で発表され、「まぁそりゃやってるよなぁ」と多くの研究者がつぶやいていた。

そうこうしているうちに、AlphaFold2で複合体構造が予測できるという情報がSNSで飛び交った。当時は入力が1本の配列(文字列)のみであったため、「SEQUENCEAGGGGGG…(G40個程度)…GGGGGSEQUENCEB」という形でGlyを挟んで仮想的に2つのタンパク質鎖を入力してみたらどうなるかと試したのである。結果はGlyがうまいことリンカーのようになり、2つのタンパク質鎖の複合体構造が正しく予測されたのだ。これを最初にやったのも森脇由隆先生であるが、やはり初出はTwitterでのツイートであった。その後、DeepMindがこの話を逆輸入し、正式にAlphaFold-Multimerとして複数鎖の複合体構造予測に対応することになるが、AlphaFold-MultimerやAlphaFold3論文の参考文献には森脇先生のツイートURLが参照されている。 インターネットの時代になって、このように瞬く間に研究アイデアが共有されるようになった。注目論文の情報はXで得る時代である。ChatGPTの活用法や、英文校正ツール、NotionやScrapbox(Cosense)などの情報共有ツールなど、便利ツールの情報もXで流れてくる。自分が考えていたアイデアと似たようなものが飛んでくると「うわぁ…」と思うこともあるが、むしろ自身のアイデアを(差し支えのない範囲で)出しながら議論できる場にもなっているように思う。AlphaFold2の複合体予測では、Glyリンカーでの方法の他にも、Unknown残基を表す‘U’リンカー法や、残基番号を無理やり200ずらすchain break法など、いろんなアイデアが議論された。それぞれが単独でも論文化できそうな技術だが、オープンに議論されたことで正式にAlphaFoldのオプションに取り込まれることとなったことは、研究領域にはとても大きな貢献だったと思う。(個々人が自分のアイデアをもとに論文を書くことも当然重要だが、)このような気軽に広く議論できる場も失われないで欲しいと思う。

最後にAlphaFold3の話に触れよう。2024年5月8日にAlphaFold3論文が発表され、やはりXで話題になったことは記憶に新しい。低分子リガンドやDNA/RNAとの複合体も予測できるようになり、予告的なホワイトペーパーで示されていたことが具体的に明らかになった(中身の話は我々による解説記事 https://zenn.dev/tonets/articles/dd8c3855eadb2b も参照されたい)。ただし、凄いツールが出たと話題になったものの、まだあまり世間での活用は進んでいないように思われる。それもそのはずで、「機能制限のあるサーバアプリでの提供」「商用利用禁止」「予測構造をリガンドドッキングや訓練データに使うことを禁止」といった大きな利用制限がAlphaFold3に課せられているのである。AlphaFold2のときには公開されていた実行用コードも公開されなかった(査読者が「コードを共有しなさいと言ったのにEditorから無視された」との暴露もあった)。この非公開・クローズドな対応はNatureのデータ公開ポリシーに反することもあり、Xで炎上騒ぎになった。抗議声明を記したオープンレターには650名以上の研究者(大上含む)が署名し、NatureのNewsでも取り上げられた。DeepMind側は6ヶ月以内に非商用利用のためのコードを公開すると宣言しているものの、商用利用は難しそうである。朗報もあり、AlphaFold2の完全クローンであるOpenFoldを開発したMohammed AlQuraishiらが、AlphaFold3のクローンであるOpenFold3を目下開発しているようである。

以上の一連の話も当然Xで流れてきた。1日寝てるとあっという間に知らないことが増えてしまう。大変な時代になったものである。楽しくて仕方がない(???)。若手の皆さんにはインターネットネイティブ世代として、この濁流のような情報に溺れることなく、アンテナを広げて、楽しんで研究を進めてほしい。

← プログラムに戻る
Tweets by bpwakate