[2Win5-26] タンパク質立体構造について語れるAIを将来的に実現するためのデータセット作成の試み
キーワード:マルチモダリティ、言語資源、分子構造、構造生物学、タンパク質デザイン
構造生物学者はタンパク質の立体構造データを入力するとそれについて語り始める。内容は、素朴な幾何から非自明な化学・生物学的な解釈まで多岐にわたる。同様にタンパク質デザイナーは実現したい要件を満たす立体構造を構築することを目指す。つまり、これらの研究分野では原子座標と何らかの「意味」の関係が取り扱われている。一方、すでによく知られているように、膨大な画像とキャプションのペアを用いると、入力画像に対する解釈のようなテキストを出力する関数、あるいは逆にテキストで指定された要件を満たす画像を生成する関数が学習できる。似たことを分子の立体構造でも実現できれば面白いだろうが、残念ながら基礎となるペアデータが欠けている。そこで我々はProtein Data Bankに登録されている立体構造とそれに対応する構造生物学の文献を「画像とキャプション」の関係に似たものと捉え、立体構造に紐づいたコーパス作成に取り組んでいる。今回は作業効率化の試みとして、マルチモーダルLLMを用いて擬似的な配列アライメント画像から領域定義を抽出する試みを報告する。結論として、領域定義の正確な抽出は困難であることが示唆された。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。