COLUMN

第2回:データインポート測定編

第2回:データインポート測定編

はじめに

皆様、こんにちは。データソリューション部の山本です。

昨年はマルチDBソリューション部に所属しておりましたが、今年から新設されたデータソリューション部に異動いたしました。所属部署は変わりましたが引き続きOracle Autonomous Data Warehouse Cloud(以下、ADW Cloud)に取り組んでいます。前回は、セットアップ手順の解説が中心でしたが、今回はデータインポートの時間を検証してみました。

本記事では、Oracle社やコミュニティサイトなどのWeb情報を元に検証環境を準備し、検証した内容となります。クラウド全般的に言える内容ではありますが、クラウド環境は日々改善や機器増強され、性能面の強化などが頻繁に発生しています。その為、本記事の検証結果は同様に実施した検証と異なる可能性がございますが、ご容赦の程宜しくお願いします。

※本内容は2018年11月~12月に検証した内容となります。

前提

  • 一部のテストを除き、弊社のネットワーク環境からOracle Cloudに接続して各項目の検証を実施しました。
  • Oracle Cloud上からインポートする際にデータを配置するObject StorageはADW Cloudのインスタンスと同一のリージョンで構成しました。
  • Object StorageにアップするデータはOCIツールでアップロードした時間です。
  • Linux(VM)はWindows PC上のVirtualBoxにLinux環境を構築して、Oracle 12c R2のインスタンスで構成しました。
  • Linux(VM)のインスタンスは「データ・ウェアハウス」のデータベーステンプレートのデフォルト設定です。
  • データのインポートを実施する際、SQL Developerを使用しました。

検証内容(ADW Cloud へのデータインポート)

データインポートに関する検証概要と結果は以下の通りです。

1.検証概要

(1)データインポート実施環境の概要図

(2)データインポート検証項目

No.検証概要検証ポイント
1①Windows PC to ADW Cloud
Source環境:Windows PC(SSD)
Target環境:ADW Cloud
通信経路:社内NW + 社外NW
想定されるSource環境からADW Cloudにデータをインポートする際、以下の項目を確認する。

1.ボトルネックとなる箇所
 (1)各ネットワーク速度
   ⇒ ①or②と③と④を比較
 (2)Source環境のI/O性能
   ⇒ ①と②を比較

2. インポート時間の計測
 ①~④のケースでデータ容量や
 件数でインポートに要する時間
   ⇒ 10万件/4.15MB
     100万件/45.3MB
     1000万件/491MB
②NAS to ADW Cloud
Source環境:NAS
Target環境:ADW Cloud
通信経路:社内NW + 社外NW
③Object Storage to ADW Cloud
Source環境
Target環境
通信経路
④Windows PC to ADW Cloud
Source環境:Windows PC(SSD)
Target環境:ADW Cloud
通信経路:モバイル通信(4G)
2⑤Windows PC to Linux(VM)
Source環境:Windows PC(SSD)
Target環境:Linux(VM)
通信経路:VirtualBox内部通信
オンプレを想定したData Warehouse環境を以下の項目で比較する。

1.ADW Cloudと比較
(1)Source環境のDisk性能限界
   ⇒ ①と⑤、②と⑥を比較
(2)ネットワーク速度と時間
   ⇒ ①と⑤、②と⑥を比較
⑥NAS to Linux(VM)
Source環境:NAS
Target環境:Linux(VM)
通信経路:社内NW

2.[No.1]各環境からADW Cloudにインポート検証

(1)データインポート実施環境

(2)検証項目条件

No.元ファイルアップロード件数ファイル容量補足内容
1Windows PC
(SSD)
10万件4.15MB
2100万件45.3MB
31000万件491MB1回のみ実施
4NAS10万件4.15MB
5100万件45.3MB
61000万件491MB1回のみ実施
7Object Storage10万件4.15MB
8100万件45.3MB
91000万件491MB
10モバイル通信
(4G)
10万件4.15MB
11100万件45.3MB1回のみ実施

(3)検証結果

10万件のデータインポート結果
IMP先ADW Cloud
IMP元SSDNASObject Storageモバイル通信
処理内容インポートインポートアップロードインポートインポート
1回目0:00:420:00:270:00:140:00:080:00:39
2回目0:00:300:00:380:00:160:00:020:00:37
3回目0:00:280:00:300:00:230:00:050:00:40
4回目0:00:290:00:250:00:160:00:030:00:38
5回目0:00:430:00:350:00:160:00:140:00:41
100万件のデータインポート結果
IMP先ADW Cloud
IMP元SSDNASObject Storageモバイル通信
処理内容インポートインポートアップロードインポートインポート
1回目0:04:570:05:390:01:190:00:160:07:54
2回目0:05:200:05:530:01:110:00:24
3回目0:07:270:05:330:01:140:00:08
4回目0:05:430:06:070:01:310:00:09
5回目0:05:510:05:310:01:140:00:14
1000万件のデータインポート結果
IMP先ADW Cloud
IMP元SSDNASObject Storageモバイル通信
処理内容インポートインポートアップロードインポートインポート
1回目0:46:520:59:450:15:400:00:48
2回目0:15:360:00:48
3回目0:27:160:00:58
4回目0:21:420:00:51
5回目0:07:020:00:51

(4)検証結果の考察

  • 全般的にObject Storageからデータをインポートする時間は他の方法と比べてファイルのアップロード時間も含め短時間でインポートされた。Source環境でデータの配置先がSSDでもNASでもTarget環境へのインポートに大きな差異が見られないことからSource環境からTarget環境への通信がボトルネックになっていると考えている。
  • モバイル通信(4G)は性能的に社外NW以下の速度(75Mbps~100Mbps)になる為、結果として社内NW+社外NWを経由する通信経路する検証(①と②)より処理時間が要する考えている。
  • 検証内容を踏まえて、大量のデータをインポートする場合は、インポートデータをObject Storageに配置して実施することをお勧めします。
【参考】
Object Storageに大量データ(1000万件のデータ)をアップロードする際、OCIツールを使用した場合とインターネットブラウザを使用した場合では、インターネットブラウザはOCIツールでアップロードするより3倍ぐらい時間が掛かることが有りました。また、2GiB以上のファイルはインターネットブラウザではアップロードできない為、OCIツールなどを利用する必要があります。

3.[No.2]ADW Cloud と Linux(VM)にインポート時間の比較

(1)データインポート実施環境

(2)検証項目条件

No.元ファイルアップロード件数ファイル容量補足内容
1Windows PC
(SSD)
10万件4.15MB
2100万件45.3MB
31000万件491MBADW Cloudの検証は1回実施
4NAS10万件4.15MB
5100万件45.3MB
61000万件491MBADW Cloudの検証は1回実施

(3)検証結果

10万件のデータインポート結果
IMP先ADW Cloud
IMP元SSDNASObject Storageモバイル通信
処理内容インポートインポートアップロードインポートインポート
1回目0:00:420:00:270:00:140:00:080:00:39
2回目0:00:300:00:380:00:160:00:020:00:37
3回目0:00:280:00:300:00:230:00:050:00:40
4回目0:00:290:00:250:00:160:00:030:00:38
5回目0:00:430:00:350:00:160:00:140:00:41
100万件のデータインポート結果
IMP先ADW Cloud
IMP元SSDNASObject Storageモバイル通信
処理内容インポートインポートアップロードインポートインポート
1回目0:04:570:05:390:01:190:00:160:07:54
2回目0:05:200:05:530:01:110:00:24
3回目0:07:270:05:330:01:140:00:08
4回目0:05:430:06:070:01:310:00:09
5回目0:05:510:05:310:01:140:00:14
1000万件のデータインポート結果
IMP先ADW Cloud
IMP元SSDNASObject Storageモバイル通信
処理内容インポートインポートアップロードインポートインポート
1回目0:46:520:59:450:15:400:00:48
2回目0:15:360:00:48
3回目0:27:160:00:58
4回目0:21:420:00:51
5回目0:07:020:00:51

(4)検証結果の考察

  • データを配置したSource環境のSSDおよびNASからLinux(VM)にデータをインポートした際、ほぼ同一の実行時間となっている為、Windows PCのSSDは性能限界でボトルネックではなく、No.1の検証も考慮してボトルネックはADW Cloudへの通信になると考えている。
  • ネットワークの通信状況が影響していると考えていますが、オンプレを想定した環境ではインポートの時間がほぼ同じ時間に対し、ADW Cloudにインポートした実行時間の幅がありました。
  • Oracle Cloudを利用する際、インターネットなど通信が必要になる為、内部通信よりも通信速度が遅くなると思われます。本テストでは、外部の通信速度は内部の通信速度の10分の1となるが、1000万件のデータをインポートする時間は10倍以上掛かっていた。オンプレの環境を元にインポートの見込み時間を算出する場合、回線速度+αでの算出することをお勧めします。

最後に

最後になりますが、弊社は「データベースのオールマイティ企業」を謳っており、データベースに関する経験や知識、技術力を自負しています。データベース関連での課題解決等、必ずやお客様のお役に立てると信じていますので、何かございましたら弊社へご連絡下さい。

それでは、次回をお楽しみに!

コラム検索

連載タイトル

DOWNLOAD

資料ダウンロード

CONTACT

お問い合わせ