2024年度 人工知能学会全国大会(第38回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-10 大規模言語モデルとデータサイエンス

[1J5-OS-10c] 大規模言語モデルとデータサイエンス

2024年5月28日(火) 17:00 〜 18:40 J会場 (43会議室)

オーガナイザ:砂山 渡(滋賀県立大学)、森 辰則(横浜国立大学)、高間 康史(東京都立大学)、笹嶋 宗彦(兵庫県立大学)、西原 陽子(立命館大学)

18:00 〜 18:20

[1J5-OS-10c-04] Zero-shotラベルセットの自動生成および聴解テスト対話の属性分類

〇NI YANGDI1、SHAN Junjie1、西原 陽子1 (1. 立命館大学)

キーワード:zero-shot分類、JLPT聴解テスト

Zero-shot分類は,同じテキストに対しても,ラベルセットの選択により異なる分類結果が得られる可能性がある.
本論文では,対義語置換やWordNetを用いた同義語への変換によって,同じ分類目標に対して大量のラベルセット候補を生成し,適切なラベルセットを抽出する手法を提案する.
分類手法として,1.BERTによるテキストのcos類似度を用いる手法,2. OpenAIのEmbeddingモデルを用いる手法,3. MoritzLauerモデルを用いる手法の合計3種類を用意した.
評価実験では,日本語能力試験の過去問から,N1からN5の各レベル50件ずつの聴解テスト対話文を収集し,合計250件に対して分類を行った.
分類された対話文の属性は,対話場所(6分類),話者の人間関係(2分類,4分類),対話形式(2分類)の3つであった.
212個のラベルセット候補を作成し,精度をRMSE(二条平均誤差)で算出したところ,提案手法によりZero-shot分類の精度が高いラベルセットが得られることを確認した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード