[OR-1-5] 作業療法士国家試験のトピックモデルによる分析
~言語コーパス構築に向けて~
【緒言】作業療法士国家試験は50年以上続く試験であり.そのほとんどが言語で構成される.このような多量に蓄積された言語データを分析することで,試験の変遷を知り,教育内容の改善することや専門用語を抽出することなどに貢献することができるであろう.国家試験を対象にしたテキストマイニングでは作業療法士国家試験の頻出語の分析(石井,2018)や公認心理師国家試験の共起ネットワーク分析(三浦,2022)が見られる.近年.自然言語処理の分野において言語コーパスが注目されている.言語コーパスとは,言語のデータベースを構築することであり,理学療法領域では英語文献読解のため英語コーパスの作成を行っている(宮本,2007).そこで,作業療法士国家試験をテキストマイニングの手法で分析し,言語コーパス構築の知見を得ることとする.
【目的】作業療法士国家試験をテキストマイニングの手法で分析し,言語コーパス構築の知見を得ることである.
【方法】対象:第54回~58回作業療法士国家試験の問題をテキスト化した.分析:トピックモデルとは,文書に出現する単語とその出現回数の情報から,それぞれの文書に潜在的に存在するトピックを,精度よく推定する手法である(田村,2015).テキスト化した作業療法士国家試験をトピック分析によって分析を行った.外部変数には,回数(第54回~58回),分野(実地,専門分野,専門基礎分野)を設定した.統計処理には,テキストマイニングの解析ソフトであるKH Coder 3を用いた.COI:本研究に関する利益相反関係にある企業などはない.倫理的配慮:作業療法士協会の倫理指針に沿って研究を実施した.
【結果】第54回~58回作業療法士国家試験の問題をテキスト化し,「正しい」,「選ぶ」など試験問題に関する語は対象外とした.総抽出語数(内,使用)80,869(28,758)語,異なり語数(内,使用)5,847(5,170)語であった.出現頻度の高い語は,上位から,「障害(346語)」,「神経(223語)」,「作業療法(216語)」であった.トピックの探索で5トピックを設定した.各トピックの上位の語は,トピック1(歳0.154,運動0.109,筋0.079),トピック2(障害0.244,生活0.079,精神0.078),トピック3(関節0.152,骨0.082,指0.079)トピック4(作業療法0.173,患者0.169,評価0.07)トピック5(神経0.120,麻痺0.067,低下0.062)であった.外部変数の回数では第58回でトピック4が,第57回トピック3が,第54回ではトピック5が特徴的であった.分野では実地ではトピック1・2が,専門分野ではトピック2・4が,専門基礎分野ではトピック3・5が特徴的であった.
【考察】 第54回~58回作業療法士国家試験をテキスト化し,言語コーパスの構築を試みた.トピックモデルで分析した結果,5つのトピックが抽出され,回数,分野でトピックの違いが見られた.作業療法士国家試験はそのほとんどがテキストデータで構築されるため,言語コーパスとしてデータを構築し,テキストマイニングの手法で分析することで様々な知見が得られる可能性が示唆された.トピック分析は,文書に潜在的なモデルを構築することができる.今回は外部変数として,回数や分野を用いたが,大項目・中項目・小項目の分野分けを用いることでより詳細な分析が可能となるであろう.
【目的】作業療法士国家試験をテキストマイニングの手法で分析し,言語コーパス構築の知見を得ることである.
【方法】対象:第54回~58回作業療法士国家試験の問題をテキスト化した.分析:トピックモデルとは,文書に出現する単語とその出現回数の情報から,それぞれの文書に潜在的に存在するトピックを,精度よく推定する手法である(田村,2015).テキスト化した作業療法士国家試験をトピック分析によって分析を行った.外部変数には,回数(第54回~58回),分野(実地,専門分野,専門基礎分野)を設定した.統計処理には,テキストマイニングの解析ソフトであるKH Coder 3を用いた.COI:本研究に関する利益相反関係にある企業などはない.倫理的配慮:作業療法士協会の倫理指針に沿って研究を実施した.
【結果】第54回~58回作業療法士国家試験の問題をテキスト化し,「正しい」,「選ぶ」など試験問題に関する語は対象外とした.総抽出語数(内,使用)80,869(28,758)語,異なり語数(内,使用)5,847(5,170)語であった.出現頻度の高い語は,上位から,「障害(346語)」,「神経(223語)」,「作業療法(216語)」であった.トピックの探索で5トピックを設定した.各トピックの上位の語は,トピック1(歳0.154,運動0.109,筋0.079),トピック2(障害0.244,生活0.079,精神0.078),トピック3(関節0.152,骨0.082,指0.079)トピック4(作業療法0.173,患者0.169,評価0.07)トピック5(神経0.120,麻痺0.067,低下0.062)であった.外部変数の回数では第58回でトピック4が,第57回トピック3が,第54回ではトピック5が特徴的であった.分野では実地ではトピック1・2が,専門分野ではトピック2・4が,専門基礎分野ではトピック3・5が特徴的であった.
【考察】 第54回~58回作業療法士国家試験をテキスト化し,言語コーパスの構築を試みた.トピックモデルで分析した結果,5つのトピックが抽出され,回数,分野でトピックの違いが見られた.作業療法士国家試験はそのほとんどがテキストデータで構築されるため,言語コーパスとしてデータを構築し,テキストマイニングの手法で分析することで様々な知見が得られる可能性が示唆された.トピック分析は,文書に潜在的なモデルを構築することができる.今回は外部変数として,回数や分野を用いたが,大項目・中項目・小項目の分野分けを用いることでより詳細な分析が可能となるであろう.