[3Rin4-08] OSSプロジェクトのIssue議論内容に対するBERTおよびAutoMLを用いた文章分類の提案
キーワード:BERT、AutoML、OSS、自然言語処理
(1) 目的:製品の欠陥レポートやコールセンターのチャット履歴,会議の議事録といった長い文書から関連情報を取得することは困難な作業である.したがって,文書内の各文の情報タイプを識別する技術は重要である.本研究では,どのような特徴が各文の情報タイプを識別するタスクに置いて有効であるか明らかにすること,本タスクにおいて深層学習のBERTモデルが有効であるかについて取り組んだ.文書コーパスにはTensorFlowやscikit-learnなどのオープンソースソフトウェアプロジェクトにおけるIssue上での議論を用いた.
(2) 結果:AutoMLを利用して構築したモデルにSHAPを利用してGlobal Importanceを計算した結果,文の長さ,ドキュメント内の位置,コメント間の時間といった特徴量が重要だとわかった.最終層のみをファインチューニングした限定的なBERTモデルでは,性能において通常のロジスティック回帰と大きな違いはなかった.
(2) 結果:AutoMLを利用して構築したモデルにSHAPを利用してGlobal Importanceを計算した結果,文の長さ,ドキュメント内の位置,コメント間の時間といった特徴量が重要だとわかった.最終層のみをファインチューニングした限定的なBERTモデルでは,性能において通常のロジスティック回帰と大きな違いはなかった.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。