2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-10 AI応用

[4Q1-GS-10] AI応用:分析・解析

2025年5月30日(金) 09:00 〜 10:40 Q会場 (会議室804)

座長:徳久 良子(愛知工業大学/理研)

09:20 〜 09:40

[4Q1-GS-10-02] 文字単位の埋め込み表現と編集距離の統合による商品ブランド名の表記ゆれ修正手法

〇鈴木 柾孝1、奥田 悠斗2、山極 綾子1、後藤 正幸1 (1. 早稲田大学、2. 東京大学)

キーワード:表記揺れ、名寄せ、char2vec、レーベンシュタイン距離、編集距離

消費者に入力を依頼する形で収集した購買履歴データは多様な小売店舗での購買行動を分析するために有用な情報源の一つである.しかし,顧客により入力されたデータの場合,メーカー名や商品名などの文字データにおいて略称や長音符の有無など表記ゆれが発生し,分析上のノイズになることが多い. その修正手法として編集距離や埋め込み表現を用いた名寄せ手法がある.しかし従来の編集距離を用いた手法では表意文字である日本語の特徴を考慮することができず,また文字数が少ない商品ブランド名に対して従来の埋め込み表現の活用が難しいという課題がある.大規模自然言語モデルの活用も考えられるが,秘密保持や精度,費用等の問題が発生するため,適用が困難であることが考えられる. そこで本研究では1文字単位の埋め込み表現を得るchar2vecを提案し,さらにその埋め込み表現を活用した編集距離を新たに定義することで,文字数が少ない名称データに対しても適用可能な名寄せ手法を提案する. 本研究では,実データに提案手法を適用することで提案手法の有効性を示し,さらに名寄せ後のデータを用いることで多様な分析が可能になることを示す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード