データレイクとデータウェアハウスの違いとは?わかりやすく解説

システム開発の基礎知識
近年、データレイク(Data Lake)を導入したデータ分析、データ活用が注目されています。
こうした取り組みは、データベースの普及とともに昔から行われており、その1つとして、多くの企業がデータウェアハウス(DWH)を導入してきました。
では、データレイクとデータウェアハウスの違いとはどんなものでしょうか。
本記事では、データレイクとデータウェアハウスの違いやメリットとデメリットをわかりやすく解説します。
1.データウェアハウス(DWH)からデータレイク(Data Lake)への活用の変遷
まず、データウェアハウスの発祥・普及からデータレイクへの活用の変遷と、その背景について解説します。
データウェアハウスの発祥と定義
データウェアハウスの概念は、1990年アメリカの計算機科学者のビル・インモンが提唱しました。
データウェアハウスは、「意志決定のため、目的別に編成され、時系列で統合された、削除や更新しないデータの集合体」と定義されています。
このようにデータウェアハウスは、データの”倉庫”として普及しました。
データウェアハウスでは、ビジネス上の意志決定のために時系列に蓄積されている点がポイントとなります。
データウェアハウスが普及した背景
データウェアハウスが普及した背景には、コンピュータのハードウェアとソフトウェアの2つの環境変化が大きく関わっています。
ハードウェア面での環境変化
1つ目は、記憶媒体(ハードディスク、メモリーディスクなど)の価格です。
これにより大量データの蓄積が容易になりました。
1993年頃までは非常に高価だったコンピュータは、1996年頃にそれまでの1/2以下の市場価格となり安価なものとなりました。
記憶媒体が高価だった時代は、効率よくデータを蓄積するためにデータは正規化して保存されていました。
正規化されたデータは、コンピュータで業務処理を効率的に処理できるデータの構造体となっています。
これはデータを自由に活用したい現場担当者には難しいデータ構造体でした。
記憶媒体が安価で入手しやすい時代になったことで、正規化されたデータ以外にもデータが保存できるようになり、データを活用(分析、レポート作成など)したい現場担当者向けの非正規化のデータ提供が可能になりました。
2つ目は、パソコンやサーバで安価な中央演算処理装置(Central Processing Unit)で並列処理ができる技術が確立されたことです。
データウェアハウスには企業内に蓄積された大量のデータを現場担当者が活用しやすいデータ(非正規化データ)に再加工する処理が必要になります。
そのため、高速にデータ加工ができる環境が必要不可欠です。
並列処理ができるコンピュータ技術が確立されたことにより、大量のデータ加工処理が容易になり、現場担当者が自由に活用できるデータの提供が可能になりました。
ソフトウェア面での環境変化
本記事で表現するソフトウェアは、コンピュータのソフトウェアとIT環境におけるソフト面に絞って解説します。
データウェアハウスが普及したコンピュータのソフトウェアで代表的なものは、データウェアハウスに適したデータベース(Data Base)と、大量データを加工できるETL(E:Extract/抽出、T:Transform/変換、L:Load/取込み)です。
データウェアハウスに適したデータベースでは、大量に蓄積されたデータを高速で検索、読込むことが可能になり、現場担当者が自由に活用できるデータ分析、レポート提供ができるようになりました。
ETLツールは、蓄積されたさまざまな正規化データを現場担当者が活用しやすい(分かりやすい)データに加工することができます。
ノンプログラミングで再加工できるツールとして、とても重要なソフトウェアです。
ETLツールの開発によって、データウェアハウスの普及が大きく進んだといっても過言ではありません。
IT環境におけるソフト面では、基幹システムの事務処理中心型システムからデータを活用した情報戦略改革の推進が挙げられます。
一人一台のパソコン時代となりExcelなどの表計算ソフトを活用したレポート作成環境が整い、現場担当者自らがデータを活用するようになりました。
データウェアハウスが普及した背景には、このように現場担当者のITリテラシーとITスキルが向上したこともあるでしょう。
データウェアハウスからデータレイクへの変遷
ではデータウェアハウスからデータレイクへは、どのように変遷してきたのでしょうか。
2000年頃からインターネット、スマートフォンを活用したWeb2.0技術などが急速に普及してきました。
また、オープンデータ(気象情報やGPSなど)をはじめ、センサーデータ、画像、動画、音声データ、SNSログデータなど、さまざまなデータが世の中に普及し、“ビッグデータ”という言葉にも象徴されるように、流通するデータの量も種類も飛躍的に増大しました。
そうした流れの中、2010年にPentaho社CTOのジェームズ・ディクソン氏が日々増え続けるビッグデータを、生データ(何も加工しないデータ)のまま蓄積できる“データレイク”の概念を提唱しました。
データを自然な状態のまま貯めておくという意味でレイク(貯水湖)という単語が使われています。
データウェアハウスは散在する企業内データを統合化し、現場担当者向けに活用するデータ活用の仕組みです。
しかし、企業外にある生データをデータウェアハウス上にそのまま取り込むことは、“膨大な大量データが扱えない”、“分析データとしてそのまま扱えない”などのさまざまな問題が起こります。
そこで、まずはデータレイクにそのまま生データを取り込み、将来的に活用する仕組みへと変遷していきました。
2.データレイクとデータウェアハウスの違いとは?
データレイクとデータウェアハウスは、データを活用するという意味ではどちらも同じです。
また“データレイク”と“データウェアハウス”という言葉のニュアンスでも似ています。
では、データレイクとデータウェアハウスの違いと特徴はどのようなものでしょうか。
4つの観点から解説します。
蓄積対象データ
データウェアハウスは企業内で蓄積されたデータを対象としています。
一般的には、人事、給与、勤怠、会計、販売、生産管理、在庫管理などを指します。
またこれら業務に付随したマスターデータ、実績データなどが対象となります。
データレイクは、企業外で流通しているデータを対象としています。
一般的には、テキストデータ(Office文書、メール、SNS投稿など)、画像、動画、音声、IoT機器などセンサーデータ、気象情報、交通情報、GPS、半構造データ(XML形式、JASON形式)などのデータなどが対象となります。
蓄積するデータ構造
データウェアハウスで蓄積するデータ構造は「構造化データ」です。
構造化データとは、現場担当者が分析、レポート作成、出力など活用しやすいようにデータを加工・整形して“列”、“行”のデータ形式でリレーショナルデータベース管理システム(RDBMS)に蓄積されたデータ構造です。
Excelで表示されているイメージが、データベース上に蓄積されていると思えばわかりやすいでしょう。
データレイクで蓄積するデータ構造は「非構造化データ」です。
非構造化データとは、明確なデータフォーマットがないデータです。
例えば、音声ファイルや気象データのようなものがあります。
データウェアハウスのデータのように簡単にExcelの表形式に表せないデータ形式がイメージしやすいでしょう。
仮に中身のデータが表示できたとしても、どんな意味があるのかわかない解釈不明なデータが多いです。
蓄積するデータ加工処理
データウェアハウスで活用するデータは、基幹系システムで蓄積されているデータから現場担当者の要求に合わせたデータに加工、整形してデータウェアハウスに取り込みます。
一般的にはデータ加工にはETLツールを用いてデータウェアハウスに取り込んでいきます。
データレイクで活用するデータは、“生”データ(ローデータ)まま蓄積します。
データウェアハウスのようにデータ加工、整形処理は行いません。
まずは、そのままデータを収集して蓄積します。
活用の目的
データウェアハウスでは、企業内で蓄積されたデータを見える化し、そこから業務分析、実績分析、計画策定などを行います。
そして、企業の課題解決や将来的な価値創出を目的に活用されます。
データレイクの活用目的は、企業外に散在しているさまざまなデータをまずは収集して取り込み、顧客ニーズや市場の変化に合わせ活用できる柔軟なデータを蓄えます。
そして、大規模データからAI、機械学習などを活用し予想分析などに活用されます。
3.データレイク、データウェアハウスのポイントはデータ連携の仕組み
ウォルマート情報担当役員ランディ・モット氏による提言で「企業が失敗を犯す原因となる悪魔は、粗悪な詳細データの中に潜んでいる。正確な詳細データを分析することによって限りない可能性を追求できる」という提言があります。
データレイクとデータウェアハウスは、データがあってこそ有効活用できます。
しかし、ランディ・モット氏の提言にあるように、“粗悪なデータは企業が失敗を犯す”というリスクもあります。
質の良いデータを作るために欠かせないのが、データ連携の仕組みです。
本章ではデータレイクとデータウェアハウスの連携について、解説します。
データレイクとデータウェアハウスとのデータ連携のメリット
データレイクとデータウェアハウスのデータ構造、データ蓄積方法には異なる点は多々あります。
しかし、データレイクとデータウェアハウスを連携することにより今までは発見できなかった価値創出を創り出す可能性があります。
データレイクとデータウェアハウスとのデータ連携の落とし穴
データレイクとデータウェアハウスとのデータ連携には、3つの落とし穴がります。
1つ目は、データレイクとデータウェアハウスに蓄積されているデータの関係性(データとデータとの紐づけ)をどのようにするかという点です。
データレイクでは、生データがそのまま蓄積されています。
そのため、データウェアハウスに蓄積されているデータとの関係性をカテゴリ別に分けて、活用しやすいようにデータのカタログ化(ファイル名、型、保存場所など)を行う必要があります。
2つ目は、データの精度向上とデータの管理です。
データの精度向上は特にデータウェアハウスで重要なポイントです。
データの精度向上は、現場担当者とのデータ監査、検証を随時実施し、必要であればETLツールを活用して、日々ルーティンとして実施する必要があります。
3つめとして、膨大な生データが日々蓄積されていくデータレイクの管理がポイントとなります。
データレイクの関連語にデータスワンプ(データの沼)という言葉があります。
データスワンプとは、蓄積された膨大な生データについて、”どんなデータが入っているのか?”、”どれを信頼してよいのか?”、”自分の欲しいデータをどうやって探せばよいのか?”、”どう扱っていいのか?”という質問に、誰も答えられない状況に陥った状況をいいます。
このような状況を防ぐためもデータの管理とともに不要データの削除が重要となります。
4.まとめ
データを活用する上で、データレイク(Data Lake)とデータウェアハウス(DWH)の違いを知り、効果的な導入と検討ポイントについて解説しました。
データレイクとデータウェアハウスにはそれぞれに特徴の違いがありました。
今後のデータレイク、データウェアハウスの活用について、次のポイントを抑えて検討してみてはいかがでしょうか。
データレイクとデータウェアハウス活用のためのポイント
- データレイクはデータウェアハウスに置き換わるものではなく、世の中に実在するデータを効果的に取り込み、多種多様なデータと企業データとを連携させ価値創出を行うものである。
- データウェアハウスは、企業内で蓄積されたデータをまずは見える化し、そこから業務分析、実績分析、計画策定などを行い、企業の課題解決や将来的な価値創出を目的に活用されるものである。
- データレイクは、企業外に散在しているさまざまなデータをまずは収集して取り込み、顧客ニーズや市場の変化に合わせて柔軟に活用できるようにデータを蓄え、大規模データからAI、機械学習などで活用されるものである。
- データレイクとデータウェアハウスの連携は、今までは発見できなかった新たな価値創出を創り出す可能性がある。
- データレイクとデータウェアハウスとのデータ連携には、データ精度の向上やデータの管理の仕組みが重要である。
システムエグゼでは、データの連携基盤構築からデータ活用までワンストップでサポートが可能です。
データ活用をお考えの際には、ぜひお問い合わせください。