Autonomous Data Warehouse と Analytics Cloudで行うデータ分析について~分析環境の構築・基本的な分析編~

技術者が語るOracle Cloud

はじめに

皆様、こんにちは。データソリューション部の山本です。

近年のデータサイエンス・ビッグデータ需要の高まりを受け、 データの分析が盛んになっています。
本記事では、新たな事業への発掘に向け蓄積されたデータ分析の検証を、Oracle Autonomous Data Warehouse Cloud と Oracle Analytics Cloudを用いて行いました。

本件は2019年11月に検証を行った内容ですが、 利用した各サービスのアップデートにより実際の画面や操作と異なる可能性があります。 ご容赦の程よろしくお願いいたします。

目次

1.前提環境

本記事ではOracle Cloudの以下のサービスが利用できることを前提として、データ分析について解説します。

  • Oracle Autonomous Data Warehouse Cloud(以下、ADW)
  • Oracle Analytics Cloud(以下、OAC)
  • Oracle Cloud Compute(以下、Compute)

2.分析環境の全体像

oraclecloud04_01.png_01.jpg

そもそも分析は、ビジネスにおける経営判断の材料として使用する事が多いかと思います。
今回の検証も、そういったシーンを想定したものです。

何故オープンデータが必要なのか?

企業内部にある影響要因と外部にある影響要因を切り分けるため

オープンデータとは

著作権等で制限されていない、商用利用可能なデータ


オープンデータに関する詳細は以下の総務省のページを参照してください。
http://www.soumu.go.jp/menu_seisaku/ictseisaku/ictriyou/opendata/

以下にオープンデータを公開している公共のサイトを幾つか紹介します。

  • E-stat 統計LOD

   http://data.e-stat.go.jp/lodw/

  • 公共交通オープンデータセンター

   https://www.odpt.org/

  • 東京都 オープンデータカタログサイト

   http://opendata-portal.metro.tokyo.jp/www/index.html

3. 分析環境の準備

3.1. 顧客データの準備

顧客が持つデータに関して、その管理の方法には様々な形があります。
そのため、本記事ではcsv形式でデータを取得できる事を前提に検証を行いました。

oraclecloud04_02.jpg

3.2. オープンデータの準備

本記事ではオープンデータとして公開されている公共サイトのデータを利用します。
オープンデータによっては取得するためのAPIが付属してる場合がありますが、各APIは使用方法が異なり、全てを紹介する事は難しいため本記事ではAPIの使用方法については言及せず、csvでデータを取得できる事を前提として検証を進めました。

oraclecloud04_03.jpg

3.3. ComputeとADWとの連携について

3.1及び3.2で取得したcsvデータをADWに連携したい時、別途ウォレットファイルの取得と設定が必要になります。該当作業については、別記事にて紹介していますので、そちらをご参照ください。

はじめてのOracle Autonomous Data Warehouse Cloud「第1回:基本セットアップ編」

3.4. ADWとOACの連携について

ADW上に蓄積されたデータをOAC上にロードするにはADWのインスタンスとOACのインスタンスを紐付ける以下の手順が必要です。

(1) OACのホーム画面上において、「データの準備」をクリックする。

oraclecloud04_04.jpg

(2) データ・セットの作成画面で、右上の「接続の作成」をクリックする。

oraclecloud04_05.jpg

(3) 接続タイプの選択画面で、「Oracle Autonomous Data Warehouse Cloud」をクリックする。

oraclecloud04_06.jpg

(4) 接続の作成画面で、以下の内容を設定して、「保存」をクリックする。

設定項目 設定内容
接続名 任意の接続名
クライアント資格証明

ADWのクレデンシャルファイル
(3.3で使用したzipファイル)

ユーザー名 接続するユーザー名
パスワード 接続するユーザーのパスワード
サービス名 ADWのサービス名

oraclecloud04_07.jpg

(5) 正常に接続された後に、データ・セットの作成画面に選択したADWが表示される。

oraclecloud04_08.jpg

3.5. 蓄積されたデータの「データマート化」

あらゆるデータソースから収集され蓄積したデータは、そのままでは殆ど分析できる状態ではありません。データを利用するため、蓄積されたデータを整理してデータマート化させます。

【データマート化概要】

oraclecloud04_09.jpg

「データウェアハウス」と「データマート」何が違う?

データウェアハウスはデータをただ蓄積していくのみ

データマートは、分析に使える形で整形されたデータを保持する

Oracleのマテリアライズド・ビューは、既存のテーブルから条件を選択し適宜更新可能なビューテーブルです。その特性を利用し、ADWにデータマートとして定義しました。

oraclecloud04_10.jpg

マテリアライズド・ビューの使用方法については、以下のOracle公式ドキュメントで公開されています。

パーティション、索引、マテリアライズド・ビューの管理に関する項(英語ドキュメント)

4. 分析とレポート化

企業データとオープンデータのレポートは、以下の3つの手順で作成することが可能です。

4.1. データ・セットの定義

(1) 「Oracle Analytics」のホームで「作成」⇒「データ・セット」の順にクリックする。

oraclecloud04_11.jpg

(2) 3.5で定義したデータ・マート化したオブジェクト情報をデータ・セットとして定義する。

oraclecloud04_12.jpg

(3) データ・セットに登録するオブジェクトのスキーマをクリックする。

oraclecloud04_13.jpg

(4) 対象オブジェクトの列(本手順では、「すべて追加」で反映)を追加して、追加をクリックする。

oraclecloud04_14.jpg

4.2. プロジェクトの定義

(1) 「Oracle Analytics」のホームで「作成」⇒「プロジェクト」の順にクリックする。

oraclecloud04_15.jpg

(2) 4.1で作成したデータ・セット ⇒ 「プロジェクトの追加」の順にクリックする。

oraclecloud04_16.jpg

4.3. レポート化

4.2で定義したプロジェクトの左側の列名を画面中央にドラッグ&ドロップする。

oraclecloud04_17.jpg

【参考】

列の選択とレポートの表示形式を変更しただけですが、上記手順で作成したサンプルのレポートです。各製品の売上げ情報(サンプルデータで準備)と天候のオープンデータを合わせて、天候による売上げはどのような変化があるかをレポートしたサンプルです。

oraclecloud04_18.jpg

データ分析サービスのご紹介

弊社では、オープンデータを利用した分析をサービス化することになりました。データ分析の基盤準備や業務知識を活かしたレポート化の支援、レポート作成手順の教育などを検討しています。以下の内容がサービスのイメージ概要です。

oraclecloud04_19.jpg

社内にあるデータやビッグデータなど、蓄積するのではなく活かす時代です。蓄積されたデータとオープンデータで分析して、一歩進んだビジネス戦略を検討しませんか。これで、あなたもデータサイエンティスト!

最後に

最後になりますが、弊社は「データベースのオールマイティ企業」を謳っており、データベースに関する経験や知識、技術力を自負しています。
データベース関連での課題解決等、必ずやお客様のお役に立てると信じていますので、何かございましたら弊社へご連絡下さい。

それでは、次回をお楽しみに!