いつもITユニプラをご愛読いただきありがとうございます。
第三回「データの保存場所と管理」について記事を投稿していきたいと思います。
データが大量になると管理が煩雑になりますが、保存のルールを作成することで集まったデータを効率的に活用できるようになります。
データカタログに活用できるようデータの保存場所と管理で抑えておいた方がよいポイントについてまとめてみました。
目次
目次
- データカタログとは?
- 前回の内容②データの取得と生成
- データカタログ作成10ヵ条其の③データの保存場所と管理
データカタログとは?
データカタログは、企業や組織で生成されたデータやメタデータ※を収集し、企業が保有するデータの一覧や詳細を簡単に確認できるようにするシステムです。これにより、必要なデータを素早く見つけ出し、ビジネス戦略や経営の意思決定などに活用することができます。
※メタデータ・・・データを説明するためのデータ。
例:売上金額といったデータがあった場合、その売上月や地域(どのエリアの売り上げか?)、
商品のことを言います
以下の記事でデータカタログの主な機能についてまとめています。
【データ活用】データカタログのポイント
前回の内容②データの取得と生成
今回の内容にも関わるデータの種類と属性については前回記事にてまとめております。
②データの取得と生成
データカタログ作成10ヵ条其の③データの保存場所と管理
前回は、データカタログを作成するために、データの取得先や生成方法について確認しました。
今回は、そのデータをどこに保存するのか?どのように管理するのかについ確認していきます。
データ保存場所の明確化
データが保存される場所を明確にし、それに関連する情報を提供します。データの物理的な配置や分散状態なども含めて文書化します。
主な保存場所
- データベース
階層型・NoSQL型・リレーショナル型・ネットワーク型などがあります。
- ファイルシステム
FAT・NTFS・exFAなどがあります。
文書や画像などのデータファイルが保存されます。
- クラウドストレージなど
クラウド上のファイルシステムです。
どこからでも利用が可能だったり、バックアップや版管理を自動でやってくれたり、利用規模に応じた拡張が容易です。
その反面、利用規模に応じた課金が
データストレージの階層構造
データがどのような階層構造で保存されているかを示します。
例えば、データベース内のテーブルやスキーマ、ファイルシステム内のディレクトリ構造などを把握します。
ソース(データの所在)が異なる場合でも、保存する際は、基本的には同じ意味合いになるように階層を作成すのがおすすめです。
理由として、階層が統一されることで視覚的にもわかりやすくなり利便性が向上します。
また、 データの統合などが発生した場合の操作も容易になり、データの品質と一貫性を持たせることでデータの活用を促します。
とはいえ、ソースごとにデータの形式、例えば同じ意味合いの項目でも項目の順番が異なるなどはあります。
その場合は、プログラム開発やバッチ等でもテキストの編集が行えますが、上記でも記載した通りデータの品質を保ちながら大量のデータの複雑なデータを扱う場合はETL等のツールを利用することを推奨します。
データのセキュリティ
データへのアクセス権やセキュリティ対策について定義します。誰がデータにアクセスできるか、どのような権限が与えられているか、データが暗号化されているかなどを考慮します。
データの保存形式
データがどのような形式で保存されているかを定義します。例えば、テーブル形式、ファイル形式(CSV、JSON、Parquetなど)、画像や動画の圧縮形式などがこれに該当します。
データのバージョン管理
データがどのバージョンで保存されているかを追跡します。
データの変更履歴やバージョニングが必要な場合、それに関する情報を提供します。
変更履歴やバージョニングの情報は、メタデータに記録するようにします。
記録する際は
- 変更履歴
変更内容に加え、変更日時や変更したユーザ・システムを管理します。
- バージョニング情報
データのバージョン情報を管理します。
マイナーバージョンアップかメジャーバージョンアップかのステータスも管理します。
- 変更履歴のレベル
項目の変更なのか、レコードの変更なのか?テーブルの変更なのか?どの規模で更新したのかをわかるようにします。
- その他
変更の理由やコメントも入れておくことをお勧めします。
トラブルがあったときや管理する項目を追加・変更する際に過去の状況を把握しやすくします。
データのインデックスと検索
データが効率的に検索できるように、インデックスや検索キーなどの情報を文書化します。これにより、データの取得や分析が迅速に行えるようになります。
データの圧縮とアーカイブ
データの圧縮やアーカイブのポリシーを定義します。
圧縮方式には、元のデータに復元できる可逆圧縮や容量を効率的に圧縮する非可逆圧縮などがあります。アーカイブするデータの利用目的に合わせて圧縮方式やアーカイブのタイミングを決めます。
古いデータを圧縮・アーカイブすることで、ストレージスペースを節約できます。
データの削除ポリシー
データがいつまで保管され、不要なデータが削除されるかを定義します。
データのライフサイクルを考慮して、適切な削除ポリシーを文書化します。
データのバックアップと復旧
データのバックアップ頻度やバックアップからのデータの復旧手順を明確にします。データ損失のリスクを最小限に抑えるためにバックアップ戦略を策定します。
データ管理の責任者
データの保存場所や管理に関する責任者を設定し、その担当者がデータの管理と監査を行うプロセスを確立します。
これらのポイントを考慮することで、データの保存場所と管理に関する情報が明確になり、データの信頼性やセキュリティが確保されたデータ管理が可能になります。
データの種類や属性は様々な情報を管理することが可能ですが、"データカタログをなぜ作るのか" 目的に合わせた設計をすることが重要です。
ただ、後から項目の追加等の変更作業を考えるとあらかじめ取得可能な情報については、取り込み・管理が可能か?容量がどれくらい増えそうかなど考慮した上で、設計することが良いのかなと思っていたりします。
次回は、「 データの変更と更新」について記載したいと思います。