【データ活用】データレイクと非構造化データの活用術

Wahaロゴ

 

いつもITユニプラをご愛読いただきありがとうございます。

今回は、データレイクについて深堀していきます。ユニリタプラスが提供するETLツール(Waha! Transformer(Waha!))とCDATA社のCData ODBC Driverを使用してのデータレイクでの活用方法についても記載しました。

目次

  • データレイクとは何か?
  • 構造化データと非構造化データの違い
  • データレイクでWaha!は使うことができるの?
  • 最後に

データレイクとは何か?

データレイクとは、構造化データと非構造化データの両方を保存できる場所です。

大きな特長のひとつは、一元化されたデータリポジトリとしての役割を果たすことです。

大量のデータを収集し、必要に応じてさまざまな形式で分析・活用することが可能になります。

データをグラフやチャートで可視化したり、ダッシュボードを使用してデータをわかりやすく表示したり、マシンラーニング(機械学習)のデータソースとして活用したりできます。

ビジネスの意思決定や戦略立案に欠かせない、深い洞察を提供するための基盤として注目されています。

構造化データと非構造化データの違い

  • 構造化データとは
    Excel
    CSVファイルに代表される、「列」と「行」の概念をもつデータのことです。
    文字通り「構造化」されているため検索、集計や比較などが行いやすく、データの解析や分析に最も適したデータ構造です。ERPCRMなどの業務システムでデータを効率よく管理するRDB(リレーショナル・データベース)でも用いられます。
     例)CSV、固定長、Excel(リレーショナルデータベース形式)

  • 非構造化データとは
    その名の通り構造定義されていないデータのことを指します。
    データベース化ができないため、検索や集計、解析に不向きなデータです。
     例)eメール、提案書・企画書、見積書・発注書、
       契約書などのOffice文章、デザインデータ、CADデータ、
       画像、動画、音声、センサーログなど、
       日常の業務で生成されるさまざまなデータが含まれます。
    *データ内に規則性に関する区切りはあるものの、データの一部を見ただけでは二次元の表形式(Excel形式)への変換可能性、変換方法が分からないXML、jsonなどの「半構造化データ」も含まれます。

データレイクでWaha!は使うことができるの?

データレイクとは、構造化データと非構造化データの両方を保存できる場所です。Waha!は、データの抽出や加工、読み書きができるETLツールです。

Waha!は、データベースやCSVファイルなどの構造化データのシステム間の連携で多くのお客様にご利用いただいています。

加えて、CDATA社の提供するCData ODBC Driverを使用することにより半構造化データのjsonにも、リレーショナルデータベースにアクセスるのと同感覚でアクセスすることが可能です。

最後に

センサーデータや画像・動画のような非構造化データが増えてきたことにより、今後データレイクの活用は、さらに増加していくと予想されます。

Waha! Transformerは、この課題を解決するための強力なツールであり、データ駆動型の意思決定を支援しています。

データの真の価値を引き出し、競争優位を確立するために、ぜひWaha! Transformerを活用してみてください。

ContactUS