NTTデータが考えるデータ基盤の次の一手～AI活用のために知っておくべき新潮流とは？～（NTTデータテクノロジーカンファレンス 2020 発表資料）

© 2020 NTT DATA Corporation
NTTデータテクノロジーカンファレンス 2020
NTTデータが考えるデータ基盤の次の一手
～AI活用のために知っておくべき新潮流とは？～
2020年10月14日
株式会社NTTデータエグゼクティブITスペシャリスト土橋昌

2
自己紹介
 専門分野は、オープンソースソフトウェア活用、データ活用基盤、
分散処理
 Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に
関する研究開発、システム開発を主導
経歴
 技術カンファレンス Strata Data Conference, Spark Summit,
Kafka Summit, Hadoop/Spark Conference Japan,
USENIX OpML 等多数登壇・採録
 翔泳社『Apache Spark入門』、
『Apache Kafka 分散メッセージングシステムの構築と活用』など執筆・監修
登壇
・
出版
など
土橋昌
（どばしまさる）
エグゼクティブ I T スペシャリスト
NTTデータインテグレーション技術／OSSプロフェッショナルサービス

AIや機械学習とデータ基盤
3

4
なぜデータ基盤に着目するか？
参考）「機械学習工学に向けて」機械学習型システム開発へのパラダイム転換（2017）,丸山宏
「機械学習とデータ駆動システム＆ソフトウェアエンジニアリング」ESS2018招待講演, 鷲崎弘宜
目標データ
モデルアクション
機械学習等では、
モデル・アルゴリズムを
データから決定する

5
NTTデータの考えるAI適正利用においても基盤は重
要
別講演「信頼できるAI活用を支えるNTTデータの理念と技術」
（NTTデータ冨安）から引用

6
ビッグデータ関連の市場は堅調
国内BDAテクノロジー／サービス市場支出額
現場感覚で見ても将来に向けた取り組みのために、
改めてデータ活用・活用基盤を見直す話が多い
Source：『20200526_JPJ45144420_国内BDAテクノロシ
゙ー／サービス市場予測、2020年～2024年（May2020,
IDC #JPJ45144420）』
Note:本市場予測は、2020年3月末時点における新型コロナ
ウイルス感染症（COVID-19）の影響および見通しを考慮し
たものである

© 2020 NTT DATA Corporation 7
【質問】
データ活用に際し、ご自身の組織はITインフラスキルに
自信がありますか？
（選択肢）
A. 自組織には専門家不在で困っている
B. 一部専門家がいるが不安がある
C. 専門家集団なのでスキルに問題ない
D. 専門知識を使って他者を支援する組織である
不安
自信あり

8
データを活用したサービスや改善が着実に登場してい
る
• 危険外来種植物検知
• コンテンツ配信サービス

ケース
チャレンジ
データの種類
9
■実現したいことの流れ
■汎用的な並列分散処理基盤と機械学習基盤で実現
公共：危険外来種植物の検知
ドローンで撮影した画像から危険外来種植物を見つけ、社会課題解決を目指
す
• 機械学習を利用し、大量の画像の
中から危険外植物を見つける
• 専門家でないと判別の難しい植物
を見つける
• 全地域を対象とすると膨大な量の
画像データを取り扱うことになる
• ドローンから撮影した土地の画像
• 上記に対して専門家がラベルを付
けた画像 “A Distributed Machine Learning For Giant Hogweed Eradication”, 2019 USENIX Conference on Operational Machine Learning (OpML
‘19)“Deep learning technologies for giant hogweed eradication”, Strata Data Conference 2019 - New York
危険外来種植物
たくさんの土地の画像
ドローによる撮影
当社事例

ケース
チャレンジ
データの種類
10
コンテンツ配信サービスNetflixの公開事例
膨大なコンテンツコレクションから顧客ひとりひとりに向けてパーソナライズす
る
• 大量に集められたデータと機械学
習を利用したパーソナライゼー
ション
• データ量が膨大。総量10PB級。1億
件/日を処理
• リアルタイムとヒストリカルの両
データを扱うが、データ品質管理
が難しい
• メンバデータ
• ビデオデータ
引用：Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
オンラインパイプライン
オフラインパイプライン
機械学習の活用
■パーソナライズ基盤の全体
像
■品質管理のためのモニタリング
ヒストリカルデータ
のデータ分析

11
実際の現場では基本的な課題が根強く存在？
「データ分析における企業の課題トップ3は、人材／スキ
ル、データ品質、ITインフラスキルである。」
Q. データ分析を行う上で、現在どのような課題を持っていますか？（複数回答）
Source：『20200728_JPJ45144220_2020年国内ビッグテータ／アナリ
ティクス市場企業ユーザー調査（IDC#JPJ45144220,July 2020）』
データを扱い、
活かすために、
適切に
ITインフラを
使いこなしたい

【回答】
データ活用に際し、ご自身の組織はITインフラスキルに
自信がありますか？
（選択肢）
A. 自組織には専門家不在で困っている
B. 一部専門家がいるが不安がある
C. 専門家集団なのでスキルに問題ない
D. 専門知識を使って他者を支援する組織である
不安
自信あり

意外と悩ましいビッグデータ活用基盤

14
昔と比べて選択肢が増えてよくなった？
ひと昔は、Hadoopが世を席巻

15
昔と比べて選択肢が増えてよくなった？
ひと昔は、Hadoopが世を席巻
要件の高度化手段の多様化

16
人は考慮すべきものと選択肢が多すぎると決められな
い

17
そこで抽象化して考える⇒入力・処理・蓄積・活用
本質的にはデータレイクを中心に入力と出力をつなげる
だけ。しかし現実には要件と手段が多様すぎて単純化困
難
Collect.
Data Lake
Data Transfer
Tf
Visualization
/Analysis/BI
Portal/Search
（Management）
Visualization
Streaming
Processing
AI/ML
(Modeling)
ETL
File
Transporting
API
Bulk Loader
Data Hub
DWH
Trans-
forming
Data
Mart
データ
マート
Data
Mart
Data
Mart
AI/ML
(Inference)
Tf
To API
Notification
/Alert
Accumu-
lation
Transforming Utilization
Data
Source
Batch
Stream
Cooperation/Analysis
Data
Ops
System
Cooperation
Reporting
Interactive
Data Search
Real-time
Analysis
Flexible Data
Processing
Platform
Usability Scalability

18
NTTデータはリファレンスとして知見を集約して活
用
過去の知見を集約。例えば医療やユーティリティ※のような安心・安全
が求められる領域におけるシステムグランドデザインや検討で参照され
ている
※レスター大学PoC・グランドデザイン、電力データ活用・分析の実現検討等多数のプロジェクトで利用

19
ポイント1：オープンソースソフトウェアを生かす
には？
データ活用基盤を実現するうえでOSS由来の技術は欠かせないものとなってい
る。OSSは1点突破の圧倒的な特徴を備えたものが多く特性を考慮して使いた
い
プロダクトBの
カバー範囲/
得意分野
プロダクトAの
カバー範囲/得意分野
実案件の
要件範囲
各プロダクトの
特長を組み合わせて
要件を満たすように
デザインする
プロダクトCの
カバー範囲/
得意分野

20
ポイント2：プロダクトの特性を的確にとらえるに
は？
プロダクト誕生には「どうしても突破しなくてはならなかった課題」
＝秘話がある。「はじまり」をひも解き、変遷を理解することで特性が
分かる
論文化されて
いることもある
現実の特性は
実装に依存する
成長とともにコア
以外の要素が
充実する

21
ポイント3：的確に素早くグランドデザインするに
は？
経験的なベストプラクティスを体系化して育てる。
体系化されたリファレンスモデルをアレンジしてブートス
トラップ
ベースのアーキテクチャ体系ベースの検討観点エンジニアリング

データレイクの新潮流

24
ビッグデータ活用基盤リファレンスアーキテクチャ（デフォルメ版）
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
データ基盤では「データレイク」が活用の起点
Single Source of Truth
※ここではデータレイク≒永続用のストレージとする

25
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
エンジン
入力
現在のデータレイクの課題感の例
データを永続的に扱うデータレイクを起点としたとき、軸①
「データの取り回し」、軸②「活用のしやすさ」の2軸から課
題を定義できる
軸①データの取り回し
軸②活用のしやすさ
ストリームデータと合わせて
扱おうとするとアーキテクチャ
が複雑になる
分析や機械学習向けには、
シンプル過ぎ。作りこみが
煩雑になる。
軸①データの取り回し軸②活用のしやすさ

26
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
エンジン
入力
ストリームデータと合わせて
扱おうとするとアーキテクチャ
が複雑になる

27
軸①データの取り回し：まずは基本のバッチ処理
Single Source of Truthとしてのデータレイクを中心に、
その中のデータを活用するための処理エンジンを並べる
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
シンプル！

28
軸①データの取り回し：ストリームデータの流れを加
える
データレイクの横に、ニアリアルタイムでデータ処理するパイプライン
を構成
データレイク
処
理
エ
ン
ジ
ン
活
用
バッチ
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
エンジン
ストリーム
入力
いわゆるラムダアーキテクチャで、かなりゴチャゴチャ・・・
途中や末端でのバッチと
ストリームの統合が難し
い

29
軸①データの取り回し：そこでデータレイクを高
度化
データレイク上でストリームデータを統合し、分析用途にも
扱いやすくできたら…？という一石を投じる技術が登場
ストレージ部分で統合
通知
（ストリーム）
加工
分析・機械学習・AI活用
収集
収集メッセージング/加工
多様なクエリエンジンを利用
分析・
可視化
高度化された
データレイク
Delta Lake
Hudi
Iceberg
ストリーム
バッチ

30
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
エンジン
入力
分析や機械学習向けには、
シンプル過ぎ。作りこみが
煩雑になる。

31
軸②活用のしやすさ：データレイクへの期待は高
度化
最初は「大きなデータをリーズナブルに保存・処理する」だけでも効果
的と言われたが、次第に高度で複雑なユースケースにも利用される
ように…
もっと
高度な分析手法
も使いたい
大量の
データを分析
したい
大量の
データを処理
したい
7
8
<
>
×
∞ ∋

32
軸②活用のしやすさ：基盤に影響のある要件具体例
引用：「Data Platform for Machine Learning」Putlit Agrawal等、SIGMOD '19:
Proceedings of the 2019 International Conference on Management of DataJune
2019 Pages 1803–1816https://doi.org/10.1145/3299869.3314050
• ユースケースに合わせて多様に
加工したい
• ユースケースごとに異なる部分を
使いたい
• 多数のステークホルダで
同じデータを使いたい
• 結果をフィードバックし、再処理したい
• 過去のデータを使って再現したい
身近な要件例
身近な要件例
Apple社の論文から引用した機械学習におけるデータパイプライン

33
軸②活用のしやすさ：データ品質管理の例
• 引用：Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
• データを集計し、統計化することで
特徴を明確化する（異常検知な
ど）
• データをただ保存するだけではなく、
データを継続的に使いやすい状態
で蓄積、加工してくには…？
身近な要件例
Netflix社のプレゼンから引用したデータ品質管理におけるデータパイプライン

34
軸②活用のしやすさ：
データマイグレーション時にも安全にデータを取り回した
い
• 複数のレーンで加工し、バリデート
することで安全性を高める
• 引用：Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
• 断続的に絶えず入力が行われる
状況下で、複数のデータパイプラ
インで安全にデータを取りまわすに
は？
身近な要件例
Netflix社のプレゼンから引用したデータ加工におけるデータパイプライン

35
軸②活用のしやすさ：データレイクに向けられる期待を体
系化
様々なプロジェクトでスケーラブルであることは前提となっ
ている。特に多様性、柔軟性、安心を支える特徴が求められ
ている
データ操作、処理データ操作の補助非機能
多様なデータ多様なライブラリ、
入出力手法
多様なストレージの活用
再現性、説明可能性担保
コラボレーション
品質管理
特徴把握
スケーラビリティ
可用性
運用保守性
移行性
セキュリティ
OK
※機械学習固有の要件を含む数十の参考文献ほか、当社過去案件情報から体系化。約100要素をカテゴライズしたもの。

36
軸①＋②：データレイク高度化のアプローチ種類
「データを扱う処理エンジン」と「データを溜めるスト
レージ」というパーツに注目すると、3種類のアプローチ
がある
処理エンジン側を工夫
ストレージをうまく使う技術を追加して工夫
ストレージ側を工夫

37
軸①＋②：データレイク高度化のアプローチ種類
「データを扱う処理エンジン」と「データを溜めるスト
レージ」というパーツに注目すると、3種類のアプローチ
がある
処理エンジン側を工夫
ストレージをうまく使う技術を追加して工夫
ストレージ側を工夫

38
軸①＋②：ストレージをうまく使う技術の一例
ストレージ
（分散ファイルシステム、オブジェクトストレージ等）
ストレージレイヤソフトウェア
アプリケーション、処理ライブラリ
論理的なデータセットやテーブル
便利な特徴を提供読み書き
素朴な機能を提供データの実体や管理情報を読み書き
論理的なデータセットやテーブルに読
み書きすることで、便利な機能を使い
つつ透過的にストレージに読み書き
下回りにスケーラブルな
基盤を利用可能

39
ストレージレイヤソフトウェアの一例
いずれもデータレイクのスケーラビリティを生かしなが
ら、データフォーマットの工夫で新しい特徴を提供する
仕組み
分析用データセットの
スケーラブルな
テーブルフォーマット
（Apache Iceberg) (Apache Hudi) （Delta Lake）
ストレージにおける
ストリームデータの
扱いを改善する仕組み
ストレージにトランザ
クション管理の機能を
提供する仕組み

40
別セッションで個別の技術に踏み込んだ説明をし
ます
2種類についてそれぞれアーキテクチャ、実装、実際の動
作を踏まえて、実態に迫って解説します
■10/16 13:30
「分析指向データレイク実現の次の一手
～Delta Lake、なにそれおいしいの？」
■10/16 13:45
「ポスト・ラムダアーキテクチャの切り札? Apache Hudi」

41
本講演のまとめ
• AIや機械学習の活用においても、
データの取り回しが鬼門
• データ基盤を体系化してリファレンスとして活用
• データレイクへの期待が多様化。データレイクの進化は、例
えば軸①：データの取り回し、軸②：活用のしやすさ、と
いう2軸で考えられる
• 注目したいOSSも登場

記載されている会社名、商品名、サービス名は
各社の登録商標または商標です

NTTデータが考えるデータ基盤の次の一手～AI活用のために知っておくべき新潮流とは？～（NTTデータテクノロジーカンファレンス 2020 発表資料）

More Related Content

What's hot (20)

Similar to NTTデータが考えるデータ基盤の次の一手～AI活用のために知っておくべき新潮流とは？～（NTTデータテクノロジーカンファレンス 2020 発表資料） (20)

More from NTT DATA Technology & Innovation (20)

Recently uploaded (10)