【データ活用】データレイクと非構造化データの活用術

Mar 14, 2024 3:00:00 PM

いつもITユニプラをご愛読いただきありがとうございます。

今回は、データレイクについて深堀していきます。ユニリタプラスが提供するETLツール（Waha! Transformer(Waha!))とCDATA社のCData ODBC Driverを使用してのデータレイクでの活用方法についても記載しました。

データレイクとは何か？

データレイクとは、構造化データと非構造化データの両方を保存できる場所です。

大きな特長のひとつは、一元化されたデータリポジトリとしての役割を果たすことです。

大量のデータを収集し、必要に応じてさまざまな形式で分析・活用することが可能になります。

データをグラフやチャートで可視化したり、ダッシュボードを使用してデータをわかりやすく表示したり、マシンラーニング（機械学習）のデータソースとして活用したりできます。

ビジネスの意思決定や戦略立案に欠かせない、深い洞察を提供するための基盤として注目されています。

構造化データとは
ExcelやCSVファイルに代表される、「列」と「行」の概念をもつデータのことです。
文字通り「構造化」されているため検索、集計や比較などが行いやすく、データの解析や分析に最も適したデータ構造です。ERP、CRMなどの業務システムでデータを効率よく管理するRDB（リレーショナル・データベース）でも用いられます。
　例）CSV、固定長、Excel（リレーショナルデータベース形式）
非構造化データとは
その名の通り構造定義されていないデータのことを指します。
データベース化ができないため、検索や集計、解析に不向きなデータです。
　例）eメール、提案書・企画書、見積書・発注書、
　　　契約書などのOffice文章、デザインデータ、CADデータ、
　　　画像、動画、音声、センサーログなど、
　　　日常の業務で生成されるさまざまなデータが含まれます。
＊データ内に規則性に関する区切りはあるものの、データの一部を見ただけでは二次元の表形式（Excel形式）への変換可能性、変換方法が分からないXML、jsonなどの「半構造化データ」も含まれます。