11:00 〜 11:20
[4J2-GS-6e-01] 日英対訳コーパス中の単語の対応関係を用いたデータラベリングに基づく時間表現分類
キーワード:自然言語処理、時間表現、機械翻訳
テキスト中の時間表現の認識は自然言語処理の分野において長年取り組まれてきた課題である。このタスク中の重要な処理の1つとして、時間表現を日付や期間など様々な意味クラスに分類する必要がある。多くの場合これは単純なルールで分類可能だが、日本語の「1日」という表現が文脈によって「ついたち」(日付)なのか「いちにち」(期間)なのか意味が変わるように、語義曖昧性を含む一部の表現は容易には分類できない。さらに、このような分類問題を教師有り学習のアプローチで解くためには、学習、評価いずれのためにも多くの正解ラベル付きデータが必要となる。こうした日本語の特定の時間表現を分類するモデルを構築するため、我々は時間表現を豊富に含むNHKニュースの日英対訳コーパスに対して、日本語-英語間の語義曖昧性の違いを利用して、日本語の日付表現に自動でラベル付けしてデータセットを作成した。人手評価によってこのラベリング手法の精度を確認すると共に、実験としていくつかのベースラインモデルで分類精度を評価した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。