[4-D-3-02] 標準化DWHの品質の問題が二次利用に及ぼす影響
DWHは、目的別にデータマートを構築することで、データの集計や分析に役立てることができる。データマートの対象となるデータから、データ抽出・変換・加工(ETL)処理において最適化を行う場合に、いくつかの問題点が発覚することがあるが、多くの場合は、DWH構築者が個々の判断のもとで作業を行うため、データの精度、頻度、粒度にバラつきが生じることになる。
よって、データマートの精度、頻度、粒度にバラつきが起きた場合に、データ利活用にどのような影響が生じるか、これまでの構築や研究の成果から体系的にまとめることで、データ利活用を促進させるための方策を検討する必要があると考えた。
今回は、一般社団法人SDMコンソーシアムで開発したSDM(Semantic Data Model)を基盤にした実際の構築状況から明らかとなった問題点をSDMのモデリング定義に合わせて、系統別にまとめる。さらに、それぞれの問題点に対しての方策を検討し、提言する。
SDMは、各データマートにおいて、「いつ」、「だれが」、「何を」、「どこで」、「誰のために」、「どうした」ということの追跡が可能であり、履歴管理が明確であることが求められるが、多くの場合はデータ元となるInputの問題でその定義から逸脱することがある。また、データは存在していたとしても、ETL処理段階でデータの意味を把握せずに、みなしでデータを扱うため、データの意味が損なわれることもある。出力の標準化が進まない現状においては、①2次利用のためのInputへの具体的な提言、②ETL処理での品質管理ルールの策定が必要となる。
データの利活用への問題は、InputとETL処理において、それぞれの持つ独自性の深い背景から問題点が生じる。しかしながら、それらの意味を考えずにデータを扱うことは、データ集計の連続性や分析の比較検討などにおいて、間違った解釈につながる危険があり、品質低下に対する施策を段階的に進める必要がある。
よって、データマートの精度、頻度、粒度にバラつきが起きた場合に、データ利活用にどのような影響が生じるか、これまでの構築や研究の成果から体系的にまとめることで、データ利活用を促進させるための方策を検討する必要があると考えた。
今回は、一般社団法人SDMコンソーシアムで開発したSDM(Semantic Data Model)を基盤にした実際の構築状況から明らかとなった問題点をSDMのモデリング定義に合わせて、系統別にまとめる。さらに、それぞれの問題点に対しての方策を検討し、提言する。
SDMは、各データマートにおいて、「いつ」、「だれが」、「何を」、「どこで」、「誰のために」、「どうした」ということの追跡が可能であり、履歴管理が明確であることが求められるが、多くの場合はデータ元となるInputの問題でその定義から逸脱することがある。また、データは存在していたとしても、ETL処理段階でデータの意味を把握せずに、みなしでデータを扱うため、データの意味が損なわれることもある。出力の標準化が進まない現状においては、①2次利用のためのInputへの具体的な提言、②ETL処理での品質管理ルールの策定が必要となる。
データの利活用への問題は、InputとETL処理において、それぞれの持つ独自性の深い背景から問題点が生じる。しかしながら、それらの意味を考えずにデータを扱うことは、データ集計の連続性や分析の比較検討などにおいて、間違った解釈につながる危険があり、品質低下に対する施策を段階的に進める必要がある。