大規模言語モデルを用いたバイナリコードの機能推定手法

染谷 実奈美

10:20 〜 10:40

[4M1-GS-10-05] 大規模言語モデルを用いたバイナリコードの機能推定手法

〇染谷実奈美¹、大塚玲¹ (1. 情報セキュリティ大学院大学)

キーワード：大規模言語モデル、ファインチューニング、蒸留、関数名予測

バイナリコードの機能推定は，マルウェア解析や脆弱性検出においてソースコードが入手できないプログラムを解析する際に有用である．バイナリコードは関数名や変数名などのシンボル情報が欠けているため，ソースコードと比べて理解が難しく，解析には高度な技術と多くの時間を要する．近年の大規模言語モデル（LLM）は，自然言語やソースコードの理解において顕著な能力を示しているものの，バイナリコードへの応用可能性についてはまだ明らかになっていない．そこで，本研究ではLLMをバイナリコードの機能推定に応用することを目指し，関数名推定タスクに取り組む．提案手法では，Gemini Proを使用して関数名推定の根拠を抽出し，その根拠と関数名を用いてCode Llamaをファインチューニングする．評価実験の結果，根拠と関数名を学習させることで，関数名のみでファインチューニングした場合と比較して性能が向上した．さらに，Chain-of-Thought Promptingを適用したGemini Proの性能をも上回る結果が得られた．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4M1-GS-10] AI応用：知識・研究

[4M1-GS-10-05] 大規模言語モデルを用いたバイナリコードの機能推定手法

パスワード