[3-G-1-06] 化合物の類似性を用いた医薬品のグループ予測
KEGG Databese, Drug Group, Machine Learning
医薬品の開発は、化合物の性質を決定する化学構造を修飾することにより行われている。そこで作成された医薬品がどのような薬効や有害事象をもつのか予測することができれば、医薬品の開発プロセス全体が極めて効率的になることが期待できる。我々の研究チームでは、これらの考えから既存の医薬品の薬効および各医薬品の化学構造に類似した化合物のリストを用いることで、未知の医薬品(化合物)の薬効を類推できないか検討してきた。具体的には医薬品データベースを用いて市販されている全ての医薬品および薬効を抽出した上で、各医薬品の類似化合物データを用いて、教師あり機械学習を用いて予測を行った。結果は、同一薬効の医薬品が多い場合は十分な学習データが得られ、かつある程度予測可能な薬効があることが認められた。一方で、十分に学習できない医薬品しか存在しない薬効や、そもそもの薬効分類が薬の構造に依存するというよりは、リアルワールドでの用法(抗がん剤など)で体系化されている場合もあり、予測精度の低い薬効も多く見られた。 そこで今回は、化合物の構造情報と直接関係することが期待できる「機能的に類似した医薬品グループ」を対象として、各医薬品とその医薬品に類似する化合物のデータから、教師あり学習による医薬品グループの予測を試みた。データは、KEGG MEDICUSにおけるDrug(薬剤)、Compound(化合物)、Dgroup(医薬品グループ)のクラス(抗ウイルス薬や消化器系用薬など22クラス)を対象とし、類似する化合物の抽出には、GenomeNetにおけるSIMCOMPを利用した。教師あり機械学習にはサポートベクターマシンを利用した。結果として、十分に教師データが存在する医薬品グループについては、類似性のある化合物から、医薬品グループが予測できる可能性が示唆された。