18:30 〜 18:50
[2G6-GS-6-04] プログラミングコードとコメント解析による分析者意図の抽出
キーワード:自然言語処理、コードマイニング
近年ビッグデータの普及によりデータサイエンスが発展している一方、データサイエンス人材不足が課題となっている。その原因の一つに、データ分析手法の複雑化などが考えられる。本研究では、データ分析における専門知識の習得と理解を促進するため、Kaggleプラットフォームに提出されたPythonノートブック形式データから分析者とコードの関係性を探索した。具体的には、コードをタイトルで分類し、Tier(熟練度)別にコード行数、マークダウンセル行数、ユーザ定義関数の数を集計、更にCovid-19に関する分析のマークダウンセルコメントに関して単語の共起ネットワークを作成し、異なるTier間での共起パターンを把握した。結果として、分析トピックやコード行数、マークダウンコメント行数はTierごとに異なることが確認された。また、コメント内で共起する単語は、Tier間でも共通性が見られたが、Covid-19というトピックにおいては異なる手法が混在しており、またコメントに多国語が使用されるなど、新たな分析手法の確立が必要であることが課題として挙げられた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。