2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-10 AI応用

[3E1-GS-10] AI応用:エンタテインメント

2024年5月30日(木) 09:00 〜 10:40 E会場 (イベントホール仮設3)

座長:柴田 健一(玉川大学)

10:20 〜 10:40

[3E1-GS-10-05] 局所的に傾いた楽譜スマホ写真からMusicXMLを作成する小節ベースの複数深層学習モデルを使用した音符組み立て方法

楽譜スマホ写真から音楽を再生するアプリimg2Mxml

〇宍戸 知行1,5、ファティ フェヒミユ2、徳重 大輔3、小野 靖弘4、熊澤 逸夫1 (1. 東京工業大学、2. ミュージシャン、3. SK弁理士法人、4. Enspirea LLC、5. 宍戸&アソシエーツ)

キーワード:楽譜、スマートフォン、ディープラーニング、小節、写真

ディープラーニングは光学楽譜認識(OMR)に応用されている。しかし、様々な楽譜画像からのOMR処理は、広く適用するにはまだ精度が不足している。本研究では、傾斜した写真画像を含む様々な画像からOMR処理を可能にする小節ベース複数深層学習駆動組立(MMdA)手法を提案する。本手法では、深層学習モデルを用いて小節を抽出し、整列させ、複数の深層学習モデルを直列または並列に用いて、音楽記号成分の再構成を実行する。標準化された各小節の使用は、深層学習モデルの効率的な学習と、各小節に含まれる5本の五線譜の正確な調整を可能とし、局所的に傾いた楽譜画像からの音符再構成を可能とする。したがって、既存のOMRアプリでは不可能な局所的に傾いた楽譜を再現することができる。少数の特徴タイプを持つ複数の音楽記号成分特徴により、音符や和音を含む多様な音楽記号を表現することができる。MMdA法は、エンドツーエンドのOMR処理を可能とし、スマホ楽譜写真画像のOMRの実用性を高める。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード