いつもITユニプラをご愛読いただきありがとうございます。
今回より全10回で、データカタログの作り方について記事を投稿していきたいと思います。データカタログを使うには、まず何から取り掛かれば良いのか?
作成時の注意点、作成後はどのように運用していけば良いのか?についてまとめていければと思います。
第一回は、データの種類と属性についてです。
データカタログは、企業や組織で生成されたデータやメタデータ※を収集し、企業が保有するデータの一覧や詳細を簡単に確認できるようにするシステムです。これにより、必要なデータを素早く見つけ出し、ビジネス戦略や経営の意思決定などに活用することができます。
※メタデータ・・・データを説明するためのデータ。
例:売上金額といったデータがあった場合、その売上月や地域(どのエリアの売り上げか?)、
商品のことを言います
データカタログを作成する際は、基となるデータの種類を明確にし、それぞれのデータの属性を定義するところから始めます。
データの種類
データには様々な種類があります。主なものを紹介します。
種類 | 説明 |
構造化データ | テーブルやスプレッドシートなどの形式で整理されたデータ。 例えば、データベース内のテーブルやCSVファイルなど。 |
非構造化データ | テキスト、画像、音声、動画などの形式で整理されていないデータ。 例えば、ドキュメントファイル、画像ファイル、音声ファイルなど。 |
半構造化データ | XMLやJSONなど、一部の構造があるが完全には構造化されていないデータ。 例えば、APIレスポンスやログファイルなど。 |
データの属性
・データの識別子 (ID):
データを一意に識別するためのキー。例えば、顧客ID、製品コードなど。
・データの型 (Type):
データが整数、文字列、浮動小数点数などの型を持つかどうか。
データの型によって適切な処理が可能か確認するために型を確認することは
重要です。
・データの長さ (Length):
文字列などのデータが持つ長さ。例えば、電話番号や住所の文字列の最大長
など。どのデータがどれくらいの長さを持つのかを確認することにより、
データの視認性やデータを利用する際の処理速度の向上などが図れます。
・データの制約条件 (Constraints):
データが満たす必要がある条件。
例えば、特定の範囲内であることや一意であることなど。
・データのデフォルト値 (Default Value):
データが指定されていない場合に使用されるデフォルトの値。
・データの単位 (Unit):
数値データが表す量の単位。例えば、重さの単位、時間の単位など。
・データの精度 (Precision):
数値データが持つ小数点以下の桁数。例えば、金額や温度など。
データの関連性:
・データの関連性 (Relationships):
データ同士の関係を定義。例えば、顧客と注文のような関連性。
・外部キー (Foreign Key):
他のテーブルの主キーを参照するキー。
関連性を維持するために使用されます。
利用したいデータ同士がどの項目で紐づいているか、紐づけられるかを確認することが重要です。
データのメタデータ:
データの説明 (Description): データが何を表すかを簡潔に説明。他の利用者が理解しやすいように記述します。
データの作成者 (Creator):
データを生成した個人またはシステムの情報。
データの作成日時 (Creation Timestamp):
データが最初に作成された日時。
最終更新日時 (Last Updated Timestamp):
データが最後に更新された日時。
これらの要素を含め、データの種類と属性を正確に定義することで、データの理解と利用が容易になります。
次回は、「データの取得と生成」について記載していきます。