2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[3N4-GS-7] 画像音声メディア処理:

2025年5月29日(木) 13:40 〜 15:20 N会場 (会議室1009)

座長:砂川 英一(東芝)

14:20 〜 14:40

[3N4-GS-7-03] 拡散モデルを用いた感情に関連する音楽属性に着目した音楽生成への取り組み

〇川邉 もゆ1、小林 一郎1 (1. お茶の水女子大学)

キーワード:音楽生成、拡散モデル、感情

拡散過程を用いたモデル技術は、近年、生成AIの分野において生成品質・拡張性が高く、学習を安定に行うことができるなどの点で注目されている。しかし拡散モデルにおいて、テキスト以外で表現される感情を用いて音楽を生成したり、MIDI 形式の音楽を扱ったりする手法はあまり発展しておらず、音楽属性値のような複雑な属性に対する制御も難しい。
本研究では、 離散系列データを生成可能とするDiffusion Language Modelを用いることで多様な音楽生成に制御性を加える、入力となる感情をラッセル円環グラフ上の座標値とすることで微小な感情の変化の表現を可能にする、感情と相関の高い音楽属性に対して制御を行う分類器を作成する、という3つのアプローチを用いることで、多様な感情を制御対象としたMIDI形式の音楽生成手法の開発を目指す。
今回提案手法を用いて、複数の入力に対してそれぞれの感情が音楽に反映しているかどうかを評価を行った。実験の結果、入力した感情に応じて音楽が生成されたことは確認されなかったが、分類器の処理や学習設定の改善によって、生成音楽がより多様になるということがわかった。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード