[4-G-5-02] 大規模言語モデルを用いた診療データ二次利用のための自動抽出システムの構築
Hospital Information System, Secondary Use of Data, Automatic SQL Generation
【目的】病院情報システム(HIS)内のデータを蓄積できる環境が構築されつつあるが、分析するための二次利用環境の整備が遅れていることが問題となっている。また、仮に二次利用環境が構築されたとしても、データ利用者はデータベーススキーマについて理解する必要があり、これらを習得するのは大きな負担となる。一方、あらゆる言語処理タスクに応用できる大規模言語モデルを使用することで、データベーススキーマの内容を踏まえた任意のSQL文を得られる可能性がある。したがって、本研究では、生成AIにデータベーススキーマの知識をプロンプトとして与えた上で、データ利用者が目的のデータを得るためのSQL文を自動的に提示させるシステムを構築することを目的とする。
【方法】Cohere社が開発したCommand R+を使用し、利用者の要望に沿ったデータ抽出を行うためのSQL文を得られるか検証した。具体的には、電子カルテデータを参考にして作成したデータベーススキーマと、実際のデータ抽出依頼を想定した要望をプロンプトに与えることで、利用者の要望に合うデータを抽出するためのSQL文を生成できるか検証を行った。
【結果】要望が特定のカラム名やデータ項目名を指定するようなシンプルな条件の場合や、複数テーブルを結合して条件を指定した場合でも要望に合うSQL文が生成され、それを入力することでデータを抽出することができた。一方、データの定義自体が曖昧な場合は正確ではないSQL文が生成されることもあった。
【考察・結論】より正確なSQL文を出力するためには、データそのものの定義の正確性や実際の抽出依頼とそれに対応するSQL文を含むデータセット、プロンプトの最適化が必要だと示唆された。今後は、利用者からの評価、電子カルテ本体やDWHなどといった院内で実際に実装されているデータ利用環境で本システムを実装することを試みる。
【倫理的配慮】本研究は、大阪警察病院倫理委員会の承認を得て実施した(承認番号1817号)。
【方法】Cohere社が開発したCommand R+を使用し、利用者の要望に沿ったデータ抽出を行うためのSQL文を得られるか検証した。具体的には、電子カルテデータを参考にして作成したデータベーススキーマと、実際のデータ抽出依頼を想定した要望をプロンプトに与えることで、利用者の要望に合うデータを抽出するためのSQL文を生成できるか検証を行った。
【結果】要望が特定のカラム名やデータ項目名を指定するようなシンプルな条件の場合や、複数テーブルを結合して条件を指定した場合でも要望に合うSQL文が生成され、それを入力することでデータを抽出することができた。一方、データの定義自体が曖昧な場合は正確ではないSQL文が生成されることもあった。
【考察・結論】より正確なSQL文を出力するためには、データそのものの定義の正確性や実際の抽出依頼とそれに対応するSQL文を含むデータセット、プロンプトの最適化が必要だと示唆された。今後は、利用者からの評価、電子カルテ本体やDWHなどといった院内で実際に実装されているデータ利用環境で本システムを実装することを試みる。
【倫理的配慮】本研究は、大阪警察病院倫理委員会の承認を得て実施した(承認番号1817号)。
