[3-F-2-05] 医療テキストの分類問題におけるエンコーダモデルと生成系モデルの比較
Natural Language Processing, Generative AI, Classification
【目的】BERTの登場から大規模言語モデル(LLM)が始まり、近年ではGPTを始めとした生成系LLMの発展が目覚ましく、LLMのパラメータ数は指数関数的に増加しつつ性能が向上している。テキストの分類タスクにおいてはBERTを始めとするエンコーダモデルだけでなく、より多くのパラメータで学習した生成系モデルでも解くことは可能であるが、どちらのモデルが医療テキストの分類タスクに適しているのか明らかではない。本研究では、放射線検査オーダの分類タスクにおけるモデルの比較をおこなう。【方法】京都大学医学部附属病院の放射線検査オーダを対象に、自由文の依頼コメントを説明変数、目的変数は放射線診断医がラベリングした読影難易度とした。分類器はBERT系と生成系の事前学習モデルからファインチューニングを行い、生成系モデルには4bit量子化手法であるQLoRAを適用した。【結果】一般コーパスと医療コーパスのモデル、生成系モデルのパラメータサイズは30億から700億を用いた。もっともF1スコアが高値であったのは一般コーパスのT5であり、次点は医療コーパスのRoBERTaであったが、学習損失がもっと低く感度はもっとも高値だった。【考察・結論】分類タスクは翻訳や要約に比べて難易度が低いとされていることと、依頼コメントのトークン数が512個を超えなかったことからエンコーダモデルと生成系モデルに大きな差が出なかったと考えられる。【倫理的配慮】本研究は京都大学医の倫理委員会(倫理審査番号: R4333)の許可を得て実施した。
