いつもITユニプラをご愛読いただきありがとうございます。
今回は、データレイクについて深堀していきます。ユニリタプラスが提供するETLツール(Waha! Transformer(Waha!))とCDATA社のCData ODBC Driverを使用してのデータレイクでの活用方法についても記載しました。
目次
- データレイクとは何か?
- 構造化データと非構造化データの違い
- データレイクでWaha!は使うことができるの?
- 最後に
データレイクとは何か?
データレイクとは、構造化データと非構造化データの両方を保存できる場所です。
大きな特長のひとつは、一元化されたデータリポジトリとしての役割を果たすことです。
大量のデータを収集し、必要に応じてさまざまな形式で分析・活用することが可能になります。
データをグラフやチャートで可視化したり、ダッシュボードを使用してデータをわかりやすく表示したり、マシンラーニング(機械学習)のデータソースとして活用したりできます。
ビジネスの意思決定や戦略立案に欠かせない、深い洞察を提供するための基盤として注目されています。
構造化データと非構造化データの違い
- 構造化データとは
ExcelやCSVファイルに代表される、「列」と「行」の概念をもつデータのことです。
文字通り「構造化」されているため検索、集計や比較などが行いやすく、データの解析や分析に最も適したデータ構造です。ERP、CRMなどの業務システムでデータを効率よく管理するRDB(リレーショナル・データベース)でも用いられます。
例)CSV、固定長、Excel(リレーショナルデータベース形式)
- 非構造化データとは
その名の通り構造定義されていないデータのことを指します。
データベース化ができないため、検索や集計、解析に不向きなデータです。
例)eメール、提案書・企画書、見積書・発注書、
契約書などのOffice文章、デザインデータ、CADデータ、
画像、動画、音声、センサーログなど、
日常の業務で生成されるさまざまなデータが含まれます。
*データ内に規則性に関する区切りはあるものの、データの一部を見ただけでは二次元の表形式(Excel形式)への変換可能性、変換方法が分からないXML、jsonなどの「半構造化データ」も含まれます。
データレイクでWaha!は使うことができるの?
データレイクとは、構造化データと非構造化データの両方を保存できる場所です。Waha!は、データの抽出や加工、読み書きができるETLツールです。
Waha!は、データベースやCSVファイルなどの構造化データのシステム間の連携で多くのお客様にご利用いただいています。
加えて、CDATA社の提供するCData ODBC Driverを使用することにより半構造化データのjsonにも、リレーショナルデータベースにアクセスるのと同感覚でアクセスすることが可能です。
最後に
センサーデータや画像・動画のような非構造化データが増えてきたことにより、今後データレイクの活用は、さらに増加していくと予想されます。
Waha! Transformerは、この課題を解決するための強力なツールであり、データ駆動型の意思決定を支援しています。
データの真の価値を引き出し、競争優位を確立するために、ぜひWaha! Transformerを活用してみてください。