[PC64] ニューラルネットワークによる筆跡の分類
Keywords:筆跡、ニューラルネットワーク
目 的
筆跡は,文字を書くという行動の一部が紙の上に残されたものであるため,行動の個人差が筆跡にも反映されている。筆跡から筆者を識別できるのは,このゆえである。法科学の筆跡鑑定は,目視により筆跡の個人差を抽出しているが,鑑定人は,形状だけではなく,形状から行動的な側面も推測して筆者識別に利用している。運動的な側面には形状と相関がある要素もあり,形状のみに注目した計測に基づいた筆者識別でも精度よく筆者が識別できるのは,このためでもあると考えられる。しかしながら,計測では,欠画や増画など,筆跡個性がよく表れていると考えられるイレギュラーな書字に対応できないという欠点もある。近年注目されている機械学習は,パターン認識で大きな成果をあげている。パターン認識では,計測と異なり,イレギュラーな字画構成にも対応できる長所もある。そこで,ニューラルネットワークを用いて,筆跡の分類を試みた。
方 法
筆者10人が5回ずつ記載した「エ(カタカナ)」「力(漢字)」「違」の画像を用い,筆者一人あたり4回分を学習用データ,残りの1回分をテスト用データとし,それぞれの文字について学習用データで10人の筆者の筆跡を学習させた後,テスト用データを10人の筆者に分類した。
画像は,32pixel×32pixel,モノクロ画像,ソフトウェアはNeural Network Console(SONY),ニューラルネットワークはLeNetを使用した。
原データによる分類に加え,以下の方法により学習用データを増やし,効果を比較した。
・data augmentation:サイズ,縦横比,回転,ひずみ,輝度,コントラストを一定範囲内でランダムに変化させた。
・字種は異なるが,字体が同じ(もしくは酷似している)文字を同じ字種とみなしてサンプルを増やす:「エ(カタカナ)」と「工(漢字)」,「カ(カタカナ)」と「力(漢字)」を用いた。筆者一人あたり学習用8個,テスト用2個に振り分けた。
・共通の部分を持つが字種の異なる漢字を使用して分類を行う:しんにゅうを共通に持つ漢字18字種(=筆者一人あたり90サンプル)を使用し,2通りの方法で分類した。分類1:全サンプルを筆者一人あたり学習用72個,テスト用18個に振り分け,分類した。分類2:15字種を学習用(=一人あたり75サンプル),残り3字種をテスト用(=一人あたり15サンプル)に使用した。つまり,分類2では,学習用とテスト用のサンプルでは、字種が異なるということになる。
結 果
「エ」「力」「違」でdata augmentationの効果を比較した。「エ」と「力」では,data augmentation無しで正答率がそれぞれ50%,60%,ありでは正答率40%,50%であったが,「違」では無しの正答率が50%,ありの正答率が60%であった。
2字種を1字種として使用した場合は,「エ」,「工」の正答率が各50%,「エ+工」では55%,「カ」20%,「力」60%,「カ+力」80%であった。
しんにゅうの分類では,分類1の正答率が100%,分類2の正答率は93%であった。
考 察
「エ」「力」のdata augmentationを除いて,学習用データを増やすことにより,分類の正答率が向上した。特に,しんにゅうの分類では,正答率が90%を超えていた。
Data augmentationの効果が予想より小さかったが,変数の種類や変化量を調整することで、より効果が得られる可能性がある。一方,筆跡では,人為的に変形操作を行っても,実際の個人内変動による変化とは異なっていて,同一人の筆跡と認識されにくかったのかもしれない。
一方,しんにゅうの分類では,法科学の筆跡鑑定では行わない,異なる文字どうしで分類を行ったにもかかわらず,分類結果が良好であった。このことは,文字全体として,その人らしい書き方が共通に見られたということを示唆していると考えられた。
筆跡は,文字を書くという行動の一部が紙の上に残されたものであるため,行動の個人差が筆跡にも反映されている。筆跡から筆者を識別できるのは,このゆえである。法科学の筆跡鑑定は,目視により筆跡の個人差を抽出しているが,鑑定人は,形状だけではなく,形状から行動的な側面も推測して筆者識別に利用している。運動的な側面には形状と相関がある要素もあり,形状のみに注目した計測に基づいた筆者識別でも精度よく筆者が識別できるのは,このためでもあると考えられる。しかしながら,計測では,欠画や増画など,筆跡個性がよく表れていると考えられるイレギュラーな書字に対応できないという欠点もある。近年注目されている機械学習は,パターン認識で大きな成果をあげている。パターン認識では,計測と異なり,イレギュラーな字画構成にも対応できる長所もある。そこで,ニューラルネットワークを用いて,筆跡の分類を試みた。
方 法
筆者10人が5回ずつ記載した「エ(カタカナ)」「力(漢字)」「違」の画像を用い,筆者一人あたり4回分を学習用データ,残りの1回分をテスト用データとし,それぞれの文字について学習用データで10人の筆者の筆跡を学習させた後,テスト用データを10人の筆者に分類した。
画像は,32pixel×32pixel,モノクロ画像,ソフトウェアはNeural Network Console(SONY),ニューラルネットワークはLeNetを使用した。
原データによる分類に加え,以下の方法により学習用データを増やし,効果を比較した。
・data augmentation:サイズ,縦横比,回転,ひずみ,輝度,コントラストを一定範囲内でランダムに変化させた。
・字種は異なるが,字体が同じ(もしくは酷似している)文字を同じ字種とみなしてサンプルを増やす:「エ(カタカナ)」と「工(漢字)」,「カ(カタカナ)」と「力(漢字)」を用いた。筆者一人あたり学習用8個,テスト用2個に振り分けた。
・共通の部分を持つが字種の異なる漢字を使用して分類を行う:しんにゅうを共通に持つ漢字18字種(=筆者一人あたり90サンプル)を使用し,2通りの方法で分類した。分類1:全サンプルを筆者一人あたり学習用72個,テスト用18個に振り分け,分類した。分類2:15字種を学習用(=一人あたり75サンプル),残り3字種をテスト用(=一人あたり15サンプル)に使用した。つまり,分類2では,学習用とテスト用のサンプルでは、字種が異なるということになる。
結 果
「エ」「力」「違」でdata augmentationの効果を比較した。「エ」と「力」では,data augmentation無しで正答率がそれぞれ50%,60%,ありでは正答率40%,50%であったが,「違」では無しの正答率が50%,ありの正答率が60%であった。
2字種を1字種として使用した場合は,「エ」,「工」の正答率が各50%,「エ+工」では55%,「カ」20%,「力」60%,「カ+力」80%であった。
しんにゅうの分類では,分類1の正答率が100%,分類2の正答率は93%であった。
考 察
「エ」「力」のdata augmentationを除いて,学習用データを増やすことにより,分類の正答率が向上した。特に,しんにゅうの分類では,正答率が90%を超えていた。
Data augmentationの効果が予想より小さかったが,変数の種類や変化量を調整することで、より効果が得られる可能性がある。一方,筆跡では,人為的に変形操作を行っても,実際の個人内変動による変化とは異なっていて,同一人の筆跡と認識されにくかったのかもしれない。
一方,しんにゅうの分類では,法科学の筆跡鑑定では行わない,異なる文字どうしで分類を行ったにもかかわらず,分類結果が良好であった。このことは,文字全体として,その人らしい書き方が共通に見られたということを示唆していると考えられた。