10:20 〜 10:40
[4M1-GS-10-05] 大規模言語モデルを用いたバイナリコードの機能推定手法
キーワード:大規模言語モデル、ファインチューニング、蒸留、関数名予測
バイナリコードの機能推定は,マルウェア解析や脆弱性検出においてソースコードが入手できないプログラムを解析する際に有用である.バイナリコードは関数名や変数名などのシンボル情報が欠けているため,ソースコードと比べて理解が難しく,解析には高度な技術と多くの時間を要する.近年の大規模言語モデル(LLM)は,自然言語やソースコードの理解において顕著な能力を示しているものの,バイナリコードへの応用可能性についてはまだ明らかになっていない.そこで,本研究ではLLMをバイナリコードの機能推定に応用することを目指し,関数名推定タスクに取り組む.提案手法では,Gemini Proを使用して関数名推定の根拠を抽出し,その根拠と関数名を用いてCode Llamaをファインチューニングする.評価実験の結果,根拠と関数名を学習させることで,関数名のみでファインチューニングした場合と比較して性能が向上した.さらに,Chain-of-Thought Promptingを適用したGemini Proの性能をも上回る結果が得られた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。