2:40 PM - 3:00 PM
[1L3-OS-34-04] Designing Alignment Filters for Large Language Models with Existing Evaluation Models
Keywords:Alignment, Large Language Model
本研究ではアライメントのための新しい手法を提案する.本手法では,既存の評価モデルを用いてアライメントフィルタを設計し,LLMのテキスト生成過程に組み込むことで,所望の目的に沿ったテキスト生成を可能にする. アライメントに関する先行研究では,強化学習などのLLMを再学習するアプローチが主流である.それに対し,本手法ではアライメントに関わる機構が外付けになっており,LLM自体を再学習することはない.本手法の強みは,任意の評価モデルをアライメントフィルタの設計に使用できること,同じアライメントフィルタを任意のLLMに適用できることである.その他,アライメントに関わる機構とLLMが分離されていることから,説明可能性の向上にも寄与している. 実験では、テキスト感情を分析するBERTモデルからアライメントフィルタを設計する.これをLlama 3に組み込み,常に肯定的なテキストが生成されることを可能とした.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.