[3-B-4-01] LLMにおけるインストラクションデータの重要性と自動評価の限界について
Large Language Model, Instruction, Evaluation
GPTを始めとする対話型生成AIは主に、事前学習、Supervised Fine Tuning(SFT)、強化学習を用いて構築された言語モデルで構成されている。特にSFTで利用されるインストラクションは非常に重要な役割を担っている。我々は2024年5月までに、1万2千件の高品質な日本語インストラクションデータを作成構築した。このインストラクションによってLLMの性能が劇的に向上したという報告があり、高品質なインストラクションデータの重要性が確認されている。
また、LLMモデルにおけるインストラクションの影響を分析した。シンプルな日本語のLLMモデルに対し、上記のインストラクションでSFT学習したモデル(houou)とGPT-3.5の出力に対して、Rakudaという評価データを利用し、人手評価とGPT4での自動評価の比較実験を行った。人手評価は関連性、正確性、流暢性、情報量を5スケールで評価した上で、2つの出力の優劣を判定した。この結果、人間による評価結果とGPT-4による評価結果は大きく食い違っていることがわかった。特に、正確性に関する評価がGPT4には難しく、人手評価と自動評価の結果が逆転するという現象が見られた。実際、hououの出力は情報量が多いが正確性に欠け、GPT-3.5は一般的な回答である傾向があった。その結果、hououは人手評価では情報が不正確とされ低い評価を受けたが、GPT-4は正確性が判断できず「具体性があり情報量が多い」というコメントと共に高い評価を得た。hououの学習に使った上記のインストラクションは、証拠となる情報をなるべく取り込むように指示しており、SFTを通して学習されたhououはそれを忠実に再現していた。インストラクションが回答の質をコントロールしているという結論を得ている。
また、LLMモデルにおけるインストラクションの影響を分析した。シンプルな日本語のLLMモデルに対し、上記のインストラクションでSFT学習したモデル(houou)とGPT-3.5の出力に対して、Rakudaという評価データを利用し、人手評価とGPT4での自動評価の比較実験を行った。人手評価は関連性、正確性、流暢性、情報量を5スケールで評価した上で、2つの出力の優劣を判定した。この結果、人間による評価結果とGPT-4による評価結果は大きく食い違っていることがわかった。特に、正確性に関する評価がGPT4には難しく、人手評価と自動評価の結果が逆転するという現象が見られた。実際、hououの出力は情報量が多いが正確性に欠け、GPT-3.5は一般的な回答である傾向があった。その結果、hououは人手評価では情報が不正確とされ低い評価を受けたが、GPT-4は正確性が判断できず「具体性があり情報量が多い」というコメントと共に高い評価を得た。hououの学習に使った上記のインストラクションは、証拠となる情報をなるべく取り込むように指示しており、SFTを通して学習されたhououはそれを忠実に再現していた。インストラクションが回答の質をコントロールしているという結論を得ている。
