データ ウェアハウスはエンタープライズ データ ウェアハウス(EDW)とも呼ばれ、複数のデータソース(POS トランザクション、マーケティングの自動化、顧客管理など)からの構造化データと半構造化データの分析、およびレポートに使用されるエンタープライズ データ プラットフォームです。
データ ウェアハウスには、分析データベースと重要な分析コンポーネントと手順が含まれます。データ パイプライン、クエリ、ビジネス アプリケーションなどのアドホック分析とカスタム レポートをサポートします。膨大な量の現在のデータと履歴データを 1 か所に集約して統合でき、長期間にわたる経時的なデータを確認できるように設計されています。このようなデータ ウェアハウス機能は、情報に基づいたビジネス上の意思決定をサポートするエンタープライズ分析において、データ ウェアハウジングの主要な要素となっています。
Google Cloud の費用対効果に優れたサーバーレスのマルチクラウド エンタープライズ データ ウェアハウスである BigQuery について学びます。
データ ウェアハウスとは、POS トランザクション、マーケティング オートメーション、顧客管理などの複数のソースからの構造化データおよび半構造化データの分析とレポート作成に使用される企業システムです。データ ウェアハウスはアドホック分析やカスタム レポート作成に適しています。 また、データ ウェアハウスは現在と過去のデータの両方を 1 か所に保存でき、長期間のデータを表示できるよう設計されていることから、ビジネス インテリジェンスにおける主要なコンポーネントとなっています。
従来のデータ ウェアハウスはオンプレミスでホストされており、リレーショナル データベース、トランザクション システム、ビジネス アプリケーション、その他のソースシステムからデータが流れ込みます。しかし、通常はデータのサブセットをバッチでキャプチャし、厳格なスキーマに基づいて保存するように設計されているため、自発的なクエリやリアルタイム分析には不向きです。また、企業はオンプレミスのデータ ウェアハウスで独自のハードウェアとソフトウェアを購入する必要があるため、スケーリングとメンテナンスにコストがかかります。従来のウェアハウスでは、一般的にストレージはコンピューティングと比べて制限されているため、データは迅速に変換されてから破棄され、空き容量を確保します。
今日のデータ分析活動は、収益の創出、コストの抑制、運用の改善、カスタマー エクスペリエンスの向上など、すべてのコアビジネス活動の中心へと変貌を遂げています。データの進化と多様化に伴い、組織は組織全体で大量のデータを保存、管理、分析するための、より堅牢なデータ ウェアハウス ソリューションと高度な分析ツールを必要としています。
これらのシステムは、スケーラブルで信頼性が高く、規制対象の業界に十分対応できる安全性を備えている必要があります。また、さまざまなデータの種類やビッグデータのユースケースに対応できる柔軟性も備えている必要があります。また、柔軟な料金設定とコンピューティングもサポートする必要があるため、容量を推測するのではなく、必要なものに対してのみ支払います。これらの要件は、従来のほとんどのデータ ウェアハウスの機能を超えるものです。その結果、多くの企業がクラウドベースのデータ ウェアハウス ソリューションに注目しています。
クラウド データ ウェアハウスは、従来のデータ ウェアハウスとのトレードオフはありませんが、機能を拡張して、クラウド内のフルマネージド サービス上で動作します。クラウド データ ウェアハウジングは、変化するビジネス要件に対応する迅速なスケーラビリティと、複雑な分析クエリをサポートする高度なデータ処理を提供します。
クラウド データ ウェアハウスでは、クラウド環境に固有の柔軟性というメリットと、費用を予測しやすくなります。オンプレミスのデータ ウェアハウス ソリューションでは、物理インフラストラクチャの管理とメンテナンスをクラウド サービス プロバイダが行うため、通常、先行投資は大幅に削減され、リードタイムが短縮されます。
従来のデータ ウェアハウスと同様に、クラウド データ ウェアハウスは内部および外部のデータソースからデータを収集、統合、保存します。データは通常、データ パイプラインを使用してソースシステムから転送されます。データはソースシステムから抽出され、変換されてデータ ウェアハウスに読み込まれます。このプロセスは ETL(抽出、変換、読み込み)と呼ばれます。データを中央リポジトリに直接送信してから、ELT(抽出、読み込み、変換)プロセスを使用して変換することもできます。そこから、ユーザーはさまざまなビジネス インテリジェンス(BI)ツールを使用して、データへのアクセス、マイニング、レポート作成を行うことができます。クラウド データ ウェアハウスは、リアルタイムまたはほぼリアルタイムでデータを活用するために、ストリーミング ユースケースもサポートする必要があります。
クラウド データ ウェアハウスは、パブリック クラウド環境内で構造化データと半構造化データの保存、処理、統合、クレンジング、読み込みなどを提供します。また、クラウド データレイクとともに使用して、非構造化データを収集、保存することもできます。プロバイダによっては、データ ウェアハウスとデータレイクを統合して、企業データの単一コピーを維持し、一元管理することもできます。
クラウド データ ウェアハウス サービスに関して採用するアプローチは、クラウド プロバイダによって異なります。たとえば、一部のクラウド データ ウェアハウスでは、従来のデータ ウェアハウスに似たクラスタベースのアーキテクチャを採用している場合があります。一方、データ マネジメントの責任をさらに最小限に抑える最新のサーバーレス アーキテクチャを採用している組織もあります。ただし、ほとんどのクラウド データ ウェアハウスには、データ ストレージと容量管理機能が組み込まれており、自動アップグレードも行っています。
クラウド データ ウェアハウスには、他にも次のような主要な機能があります。
マネージド サービスが実現するコスト削減とスケーラビリティによって、企業はますます従来のデータ ウェアハウスからクラウドへ移行しています。
クラウド データ ウェアハウジングの主なメリットは次のとおりです。
スケーリングを考慮した設計
クラウド データ ウェアハウスは弾力性が高く、ほぼ無制限のストレージと容量を提供します。ビジネスニーズの変化に応じて簡単にスケールアップ / スケールダウンでき、お支払いはご利用いただいた分だけの従量制です。
ML と AI のイニシアチブ
お客様は、データ マイニング、ビジネス成果の予測、そしてさらにデータ ライフサイクル管理からビジネス プロセス、運用コストに至るその他の領域を最適化するために、クラウド データ ウェアハウスに対する ML モデルと AI テクノロジーを迅速に活用して運用化できます。
稼働時間が向上
クラウド プロバイダは、シームレスにスケールする、信頼性の高いクラウド インフラストラクチャを使用して、SLA を守り稼働時間を改善する義務があります。オンプレミスのデータ ウェアハウスは、スケールとリソースの制限があり、パフォーマンスに影響を与える可能性があります。
費用の予測可能性
クラウドでは、より柔軟で予測可能な料金設定になっています。一部のプロバイダでは、1 時間あたりのスループットまたはノード数で課金されます。 一定量のリソースに対して固定料金を請求するプロバイダもあります。いずれの場合にも、リソースが使用中であるかどうかにかかわらず日々休むことなく 24 時間オンプレミスのデータ ウェアハウスを稼働することで発生する莫大なコストを避けることができます。
運用コストの削減
クラウド データ ウェアハウスはフルマネージドであるため、サービスレベル契約(SLA)を満たす必要があるクラウド プロバイダに管理の手間を外注することができます。これによって、運用コストを削減でき、社内チームが成長イニシアチブに集中できます。
リアルタイム分析
クラウド データ ウェアハウスは、ストリーミング データをサポートするより強力なコンピューティングを提供し、リアルタイムでデータをクエリできます。その結果、オンプレミスのデータ ウェアハウスよりもはるかに速くデータにアクセスして使用できるようになり、より正確な分析情報をより迅速に取得し、より多くの情報に基づいたビジネス上の意思決定を行うことができます。
クラウド データ ウェアハウジングは、組織にメリットをもたらす多様なソリューションを提供します。データ ウェアハウスの一般的なユースケースは次のとおりです。
リアルタイムの意思決定: リアルタイムでデータを分析して、課題への積極的な対処、機会の特定、効率性の向上、費用の削減、ビジネス イベントへの積極的な対応に役立てることができます。
サイロ化されたデータの統合: POS システム、ウェブサイト、メーリング リストなど、組織全体の複数の構造化ソースからデータをすばやく取得して 1 か所にまとめることで、分析を行い、分析情報を得られるようにします。
ビジネス レポートやアドホック分析の実現: 過去のデータを運用データとは別のサーバーに保持することで、オペレーティング システムのパフォーマンスに影響を与えたり、IT 部門から支援を待ったりすることなく、エンドユーザーがオペレーション データにアクセスして独自のクエリやレポートを実行できるようにします。
ML と AI の実装: 履歴データとリアルタイム データを収集して、トラフィックの急増を予測したり、ウェブサイトを閲覧している顧客に関連商品を提案したりするなど、予測的な分析情報を提供できるアルゴリズムを開発します。
一部の企業や業種では、規模が大きいだけでなく、継続的かつリアルタイムなデータ分析が必要です。たとえば、リアルタイムのデータを使用して、一日をとおして動的に価格を調整するサービス プロバイダもあります。保険会社では、ポリシーや売り上げ、保険金請求、給与などを追跡しています。詐欺の予測にも ML を使用しています。ゲーム制作会社は、プレーヤーのエクスペリエンスを向上させるために、ユーザーの行動をリアルタイムに追跡して対応する必要があります。データ ウェアハウスは、これらすべての作業を可能にします。
すでに以下のいずれかが存在する、または行っている企業の場合、データ ウェアハウスが適していると考えられます。
クラウドベースのデータ ウェアハウスを選択する際は、ソリューションの仕組みを評価し、クラウド データ ウェアハウスがサポートする必要がある既存のユースケースを深く理解することが重要です。
プロバイダを選ぶ際は、ウェアハウジング機能だけでなく、アーキテクチャ、スケーラビリティ、セキュリティ、価格、パフォーマンスなどの違いも考慮する必要があります。たとえば、実装が簡単なソリューションでもスケーリングが容易でなかったり、現在のシステムをアップグレードするために、すべてのデータ アナリストの再トレーニングと追加ライセンスの購入が必要になったりすることがあるかもしれません。
ベンダー間の違いを確認するだけでなく、クラウド データ ウェアハウスへの移行によって具体的に何が行われ、それが既存の IT 投資や特定のビジネスニーズとどのように関連しているのかを検討することも重要です。
エンタープライズ データ ウェアハウスは、組織の意思決定において中心的な役割を果たします。そのため、ビジネス要件、現在のユースケース、既存のソリューションとのギャップを十分に理解する必要があります。プロセスの早い段階で主要な関係者を関与させて、従来のデータ ウェアハウス ソリューションを置き換えることによる影響、課題を解決するための機能要件、データソース、ツール、フレームワークなどに関する詳細な技術情報を把握するのに役立つことがあります。