SlideShare a Scribd company logo
© 2020 NTT DATA Corporation
NTTデータ テクノロジーカンファレンス 2020
NTTデータが考えるデータ基盤の次の一手
~AI活用のために知っておくべき新潮流とは?~
2020年10月14日
株式会社NTTデータ エグゼクティブITスペシャリスト 土橋 昌
2
© 2020 NTT DATA Corporation
自己紹介
 専門分野は、オープンソースソフトウェア活用、データ活用基盤、
分散処理
 Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に
関する研究開発、システム開発を主導
経歴
 技術カンファレンス Strata Data Conference, Spark Summit,
Kafka Summit, Hadoop/Spark Conference Japan,
USENIX OpML 等 多 数 登 壇・採録
 翔泳社 『Apache Spark入門』、
『Apache Kafka 分散メッセージングシステムの構築と活 用』 など 執筆・監修
登壇
・
出版
など
土橋 昌
(どばし まさる)
エグゼクティブ I T スペシャリスト
NTTデータ インテグレーション技術/OSSプロフェッショナルサービス
© 2020 NTT DATA Corporation
AIや機械学習とデータ基盤
3
4
© 2020 NTT DATA Corporation
なぜデータ基盤に着目するか?
参考)「機械学習工学に向けて」機械学習型システム開発へのパラダイム転換(2017),丸山 宏
「 機械学習とデータ駆動システム &ソフトウェアエンジニアリング 」ESS2018招待講演, 鷲崎弘宜
目標 データ
モデル アクション
機械学習等では、
モデル・アルゴリズムを
データから決定する
5
© 2020 NTT DATA Corporation
NTTデータの考えるAI適正利用においても基盤は重
要
別講演「信頼できるAI活用を支えるNTTデータの理念と技術」
(NTTデータ冨安)から引用
6
© 2020 NTT DATA Corporation
ビッグデータ関連の市場は堅調
国内BDAテクノロジー/サービス市場支出額
現場感覚で見ても将来に向けた取り組みのために、
改めてデータ活用・活用基盤を見直す話が多い
Source:『20200526_JPJ45144420_国内BDAテクノロシ
゙ー/サービス市場予測、2020年~2024年(May2020,
IDC #JPJ45144420)』
Note:本市場予測は、2020年3月末時点における新型コロナ
ウイルス感染症(COVID-19)の影響および見通しを考慮し
たものである
© 2020 NTT DATA Corporation 7
【質問】
データ活用に際し、ご自身の組織はITインフラスキルに
自信がありますか?
(選択肢)
A. 自組織には専門家不在で困っている
B. 一部専門家がいるが不安がある
C. 専門家集団なのでスキルに問題ない
D. 専門知識を使って他者を支援する組織である
不安
自信あり
8
© 2020 NTT DATA Corporation
データを活用したサービスや改善が着実に登場してい
る
• 危険外来種植物検知
• コンテンツ配信サービス
ケース
チャレンジ
データの種類
9
© 2020 NTT DATA Corporation
■実現したいことの流れ
■汎用的な並列分散処理基盤と機械学習基盤で実現
公共:危険外来種植物の検知
ドローンで撮影した画像から危険外来種植物を見つけ、社会課題解決を目指
す
• 機械学習を利用し、大量の画像の
中から危険外植物を見つける
• 専門家でないと判別の難しい植物
を見つける
• 全地域を対象とすると膨大な量の
画像データを取り扱うことになる
• ドローンから撮影した土地の画像
• 上記に対して専門家がラベルを付
けた画像 “A Distributed Machine Learning For Giant Hogweed Eradication”, 2019 USENIX Conference on Operational Machine Learning (OpML
‘19)“Deep learning technologies for giant hogweed eradication”, Strata Data Conference 2019 - New York
危険外来種植物
たくさんの土地の画像
ドローによる撮影
当社事例
ケース
チャレンジ
データの種類
10
© 2020 NTT DATA Corporation
コンテンツ配信サービスNetflixの公開事例
膨大なコンテンツコレクションから顧客ひとりひとりに向けてパーソナライズす
る
• 大量に集められたデータと機械学
習を利用したパーソナライゼー
ション
• データ量が膨大。総量10PB級。1億
件/日を処理
• リアルタイムとヒストリカルの両
データを扱うが、データ品質管理
が難しい
• メンバデータ
• ビデオデータ
引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
オンラインパイプライン
オフラインパイプライン
機械学習の活用
■パーソナライズ基盤の全体
像
■品質管理のためのモニタリング
ヒストリカルデータ
のデータ分析
11
© 2020 NTT DATA Corporation
実際の現場では基本的な課題が根強く存在?
「データ分析における企業の課題トップ3は、人材/スキ
ル、データ品質、ITインフラスキルである。」
Q. データ分析を行う上で、現在どのような課題を持っていますか?(複数回答)
Source: 『20200728_JPJ45144220_2020年国内ビッグテータ/アナリ
ティクス市場企業ユーザー調査(IDC#JPJ45144220,July 2020)』
データを扱い、
活かすために、
適切に
ITインフラを
使いこなしたい
© 2020 NTT DATA Corporation 12
【回答】
データ活用に際し、ご自身の組織はITインフラスキルに
自信がありますか?
(選択肢)
A. 自組織には専門家不在で困っている
B. 一部専門家がいるが不安がある
C. 専門家集団なのでスキルに問題ない
D. 専門知識を使って他者を支援する組織である
不安
自信あり
© 2020 NTT DATA Corporation 13
意外と悩ましいビッグデータ活用基盤
14
© 2020 NTT DATA Corporation
昔と比べて選択肢が増えてよくなった?
ひと昔は、Hadoopが世を席巻
15
© 2020 NTT DATA Corporation
昔と比べて選択肢が増えてよくなった?
ひと昔は、Hadoopが世を席巻
要件の高度化 手段の多様化
16
© 2020 NTT DATA Corporation
人は考慮すべきものと選択肢が多すぎると決められな
い
17
© 2020 NTT DATA Corporation
そこで抽象化して考える⇒入力・処理・蓄積・活用
本質的にはデータレイクを中心に入力と出力をつなげる
だけ。しかし現実には要件と手段が多様すぎて単純化困
難
Collect.
Data Lake
Data Transfer
Tf
Visualization
/Analysis/BI
Portal/Search
(Management)
Visualization
Streaming
Processing
AI/ML
(Modeling)
ETL
File
Transporting
API
Bulk Loader
Data Hub
DWH
Trans-
forming
Data
Mart
データ
マート
Data
Mart
Data
Mart
AI/ML
(Inference)
Tf
To API
Notification
/Alert
Accumu-
lation
Transforming Utilization
Data
Source
Batch
Stream
Cooperation/Analysis
Data
Ops
System
Cooperation
Reporting
Interactive
Data Search
Real-time
Analysis
Flexible Data
Processing
Platform
Usability Scalability
18
© 2020 NTT DATA Corporation
NTTデータはリファレンスとして知見を集約して活
用
過去の知見を集約。例えば医療やユーティリティ※のような安心・安全
が求められる領域におけるシステムグランドデザインや検討で参照され
ている
※レスター大学PoC・グランドデザイン、電力データ活用・分析の実現検討等多数のプロジェクトで利用
19
© 2020 NTT DATA Corporation
ポイント1:オープンソースソフトウェアを生かす
には?
データ活用基盤を実現するうえでOSS由来の技術は欠かせないものとなってい
る。OSSは1点突破の圧倒的な特徴を備えたものが多く特性を考慮して使いた
い
プロダクトBの
カバー範囲/
得意分野
プロダクトAの
カバー範囲/得意分野
実案件の
要件範囲
各プロダクトの
特長を組み合わせて
要件を満たすように
デザインする
プロダクトCの
カバー範囲/
得意分野
20
© 2020 NTT DATA Corporation
ポイント2:プロダクトの特性を的確にとらえるに
は?
プロダクト誕生には「どうしても突破しなくてはならなかった課題」
=秘話がある。「はじまり」をひも解き、変遷を理解することで特性が
分かる
論文化されて
いることもある
現実の特性は
実装に依存する
成長とともにコア
以外の要素が
充実する
21
© 2020 NTT DATA Corporation
ポイント3:的確に素早くグランドデザインするに
は?
経験的なベストプラクティスを体系化して育てる。
体系化されたリファレンスモデルをアレンジしてブートス
トラップ
ベースのアーキテクチャ体系 ベースの検討観点 エンジニアリング
© 2020 NTT DATA Corporation
データレイクの新潮流
24
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
データ基盤では「データレイク」が活用の起点
Single Source of Truth
※ここではデータレイク≒永続用のストレージとする
25
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
現在のデータレイクの課題感の例
データを永続的に扱うデータレイクを起点としたとき、軸①
「データの取り回し」、軸②「活用のしやすさ」の2軸から課
題を定義できる
軸①データの取り回し
軸②活用のしやすさ
ストリームデータと合わせて
扱おうとするとアーキテクチャ
が複雑になる
分析や機械学習向けには、
シンプル過ぎ。作りこみが
煩雑になる。
軸①データの取り回し 軸②活用のしやすさ
26
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
現在のデータレイクの課題感の例
データを永続的に扱うデータレイクを起点としたとき、軸①
「データの取り回し」、軸②「活用のしやすさ」の2軸から課
題を定義できる
軸①データの取り回し
ストリームデータと合わせて
扱おうとするとアーキテクチャ
が複雑になる
軸①データの取り回し
27
© 2020 NTT DATA Corporation
軸①データの取り回し:まずは基本のバッチ処理
Single Source of Truthとしてのデータレイクを中心に、
その中のデータを活用するための処理エンジンを並べる
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
シンプル!
28
© 2020 NTT DATA Corporation
軸①データの取り回し:ストリームデータの流れを加
える
データレイクの横に、ニアリアルタイムでデータ処理するパイプライン
を構成
データレイク
処
理
エ
ン
ジ
ン
活
用
バッチ
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
ストリーム
入力
いわゆるラムダアーキテクチャで、かなりゴチャゴチャ・・・
途中や末端でのバッチと
ストリームの統合が難し
い
29
© 2020 NTT DATA Corporation
軸①データの取り回し:そこでデータレイクを高
度化
データレイク上でストリームデータを統合し、分析用途にも
扱いやすくできたら…?という一石を投じる技術が登場
ストレージ部分で統合
通知
(ストリーム)
加工
分析・機械学習・AI活用
収集
収集 メッセージング/加工
多様なクエリエンジンを利用
分析・
可視化
高度化された
データレイク
Delta Lake
Hudi
Iceberg
ストリーム
バッチ
30
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
現在のデータレイクの課題感の例
データを永続的に扱うデータレイクを起点としたとき、軸①
「データの取り回し」、軸②「活用のしやすさ」の2軸から課
題を定義できる
軸②活用のしやすさ
分析や機械学習向けには、
シンプル過ぎ。作りこみが
煩雑になる。
軸②活用のしやすさ
31
© 2020 NTT DATA Corporation
軸②活用のしやすさ:データレイクへの期待は高
度化
最初は「大きなデータをリーズナブルに保存・処理する」だけでも効果
的と言われたが、次第に高度で複雑なユースケースにも利用される
ように…
もっと
高度な分析手法
も使いたい
大量の
データを分析
したい
大量の
データを処理
したい
7
8
<
>
×
∞ ∋
32
© 2020 NTT DATA Corporation
軸②活用のしやすさ:基盤に影響のある要件具体例
引用:「Data Platform for Machine Learning」Putlit Agrawal等、SIGMOD '19:
Proceedings of the 2019 International Conference on Management of DataJune
2019 Pages 1803–1816https://doi.org/10.1145/3299869.3314050
• ユースケースに合わせて多様に
加工したい
• ユースケースごとに異なる部分を
使いたい
• 多数のステークホルダで
同じデータを使いたい
• 結果をフィードバックし、再処理したい
• 過去のデータを使って再現したい
身近な要件例
身近な要件例
Apple社の論文から引用した機械学習におけるデータパイプライン
33
© 2020 NTT DATA Corporation
軸②活用のしやすさ:データ品質管理の例
• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
• データを集計し、統計化することで
特徴を明確化する(異常検知な
ど)
• データをただ保存するだけではなく、
データを継続的に使いやすい状態
で蓄積、加工してくには…?
身近な要件例
Netflix社のプレゼンから引用したデータ品質管理におけるデータパイプライン
34
© 2020 NTT DATA Corporation
軸②活用のしやすさ:
データマイグレーション時にも安全にデータを取り回した
い
• 複数のレーンで加工し、バリデート
することで安全性を高める
• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
• 断続的に絶えず入力が行われる
状況下で、複数のデータパイプラ
インで安全にデータを取りまわすに
は?
身近な要件例
Netflix社のプレゼンから引用したデータ加工におけるデータパイプライン
35
© 2020 NTT DATA Corporation
軸②活用のしやすさ:データレイクに向けられる期待を体
系化
様々なプロジェクトでスケーラブルであることは前提となっ
ている。特に多様性、柔軟性、安心を支える特徴が求められ
ている
データ操作、処理 データ操作の補助 非機能
多様なデータ 多様なライブラリ、
入出力手法
多様なストレージの活用
再現性、説明可能性担保
コラボレーション
品質管理
特徴把握
スケーラビリティ
可用性
運用保守性
移行性
セキュリティ
OK
※機械学習固有の要件を含む数十の参考文献ほか、当社過去案件情報から体系化。約100要素をカテゴライズしたもの。
36
© 2020 NTT DATA Corporation
軸①+②:データレイク高度化のアプローチ種類
「データを扱う処理エンジン」と「データを溜めるスト
レージ」というパーツに注目すると、3種類のアプローチ
がある
処理エンジン側を工夫
ストレージをうまく使う技術を追加して工夫
ストレージ側を工夫
37
© 2020 NTT DATA Corporation
軸①+②:データレイク高度化のアプローチ種類
「データを扱う処理エンジン」と「データを溜めるスト
レージ」というパーツに注目すると、3種類のアプローチ
がある
処理エンジン側を工夫
ストレージをうまく使う技術を追加して工夫
ストレージ側を工夫
38
© 2020 NTT DATA Corporation
軸①+②:ストレージをうまく使う技術の一例
ストレージ
( 分 散 フ ァ イ ル シ ス テ ム 、 オブジェクトストレージ 等 )
ストレージレイヤソフトウェア
アプリケーション、処理ライブラリ
論理的なデータセットやテーブル
便利な特徴を提供 読み書き
素朴な機能を提供 データの実体や管理情報を読み書き
論理的なデータセットやテーブルに読
み書きすることで、便利な機能を使い
つつ透過的にストレージに読み書き
下回りにスケーラブルな
基盤を利用可能
39
© 2020 NTT DATA Corporation
ストレージレイヤソフトウェアの一例
いずれもデータレイクのスケーラビリティを生かしなが
ら、データフォーマットの工夫で新しい特徴を提供する
仕組み
分析用データセットの
スケーラブルな
テーブルフォーマット
(Apache Iceberg) (Apache Hudi) (Delta Lake)
ストレージにおける
ストリームデータの
扱いを改善する仕組み
ストレージにトランザ
クション管理の機能を
提供する仕組み
40
© 2020 NTT DATA Corporation
別セッションで個別の技術に踏み込んだ説明をし
ます
2種類についてそれぞれアーキテクチャ、実装、実際の動
作を踏まえて、実態に迫って解説します
■10/16 13:30
「分析指向データレイク実現の次の一手
~Delta Lake、なにそれおいしいの?」
■10/16 13:45
「ポスト・ラムダアーキテクチャの切り札? Apache Hudi」
41
© 2020 NTT DATA Corporation
本講演のまとめ
• AIや機械学習の活用においても、
データの取り回しが鬼門
• データ基盤を体系化してリファレンスとして活用
• データレイクへの期待が多様化。データレイクの進化は、例
えば軸①:データの取り回し、軸②:活用のしやすさ、と
いう2軸で考えられる
• 注目したいOSSも登場
© 2020 NTT DATA Corporation
記 載 さ れ て い る 会 社 名 、 商 品 名 、 サ ー ビ ス 名 は
各 社 の 登 録 商 標 ま た は 商 標 で す

More Related Content

What's hot (20)

PPTX
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
NTT DATA Technology & Innovation
 
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
PPTX
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
 
PDF
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
Insight Technology, Inc.
 
PDF
SQL大量発行処理をいかにして高速化するか
Shogo Wakayama
 
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
 
PDF
PostgreSQL 15の新機能を徹底解説
Masahiko Sawada
 
PDF
超実践 Cloud Spanner 設計講座
Samir Hammoudi
 
PPTX
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
NTT DATA Technology & Innovation
 
PPTX
PostgreSQLのfull_page_writesについて(第24回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
 
PPTX
コンテナネットワーキング(CNI)最前線
Motonori Shindo
 
PDF
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
Hironobu Suzuki
 
PDF
オンライン物理バックアップの排他モードと非排他モードについて(第15回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQL 15 開発最新情報
Masahiko Sawada
 
PDF
Data platformdesign
Ryoma Nagata
 
PDF
Oracle GoldenGate入門
オラクルエンジニア通信
 
PDF
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PPTX
PostgreSQL14の pg_stat_statements 改善(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PPTX
iostat await svctm の 見かた、考え方
歩 柴田
 
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
NTT DATA Technology & Innovation
 
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
 
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
Insight Technology, Inc.
 
SQL大量発行処理をいかにして高速化するか
Shogo Wakayama
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
 
PostgreSQL 15の新機能を徹底解説
Masahiko Sawada
 
超実践 Cloud Spanner 設計講座
Samir Hammoudi
 
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
NTT DATA Technology & Innovation
 
PostgreSQLのfull_page_writesについて(第24回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
 
コンテナネットワーキング(CNI)最前線
Motonori Shindo
 
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
Hironobu Suzuki
 
オンライン物理バックアップの排他モードと非排他モードについて(第15回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQL 15 開発最新情報
Masahiko Sawada
 
Data platformdesign
Ryoma Nagata
 
Oracle GoldenGate入門
オラクルエンジニア通信
 
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQL14の pg_stat_statements 改善(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
iostat await svctm の 見かた、考え方
歩 柴田
 

Similar to NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料) (20)

PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
NTT DATA Technology & Innovation
 
PDF
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
 
PPTX
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
NTT DATA Technology & Innovation
 
PDF
NTT Communications' Initiatives to Utilize Infrastructure Data
DataWorks Summit
 
PDF
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
 
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
NTT DATA Technology & Innovation
 
PPTX
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
NTT DATA Technology & Innovation
 
PDF
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
オラクルエンジニア通信
 
PDF
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
PDF
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
Insight Technology, Inc.
 
PPTX
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
NTT DATA Technology & Innovation
 
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
 
PDF
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
 
PDF
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
 
PDF
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
Kentaro Ebisawa
 
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Insight Technology, Inc.
 
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
 
PPT
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
Jun Kawahara
 
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
Tetsutaro Watanabe
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
NTT DATA Technology & Innovation
 
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
NTT DATA Technology & Innovation
 
NTT Communications' Initiatives to Utilize Infrastructure Data
DataWorks Summit
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
NTT DATA Technology & Innovation
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
NTT DATA Technology & Innovation
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
オラクルエンジニア通信
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
Insight Technology, Inc.
 
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
NTT DATA Technology & Innovation
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
 
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
 
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
 
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
Kentaro Ebisawa
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Insight Technology, Inc.
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
 
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
Jun Kawahara
 
リクルートを支える横断データ基盤と機械学習の適用事例
Tetsutaro Watanabe
 
Ad

More from NTT DATA Technology & Innovation (20)

PDF
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
NTT DATA Technology & Innovation
 
PDF
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
2025年現在のNewSQL (最強DB講義 #36 発表資料)
NTT DATA Technology & Innovation
 
PDF
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
NTT DATA Technology & Innovation
 
PDF
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
NTT DATA Technology & Innovation
 
PDF
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
NTT DATA Technology & Innovation
 
PDF
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
NTT DATA Technology & Innovation
 
PDF
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
NTT DATA Technology & Innovation
 
PDF
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
NTT DATA Technology & Innovation
 
PDF
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)
NTT DATA Technology & Innovation
 
PDF
Gartnerも注目するグリーンソフトウェアの実現に向けて (Green Software Foundation Global Summit 2024 T...
NTT DATA Technology & Innovation
 
PDF
パーティションのATTACH時の注意ポイント (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
PDF
PostgreSQL17対応版 EXPLAINオプションについて (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
 
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
NTT DATA Technology & Innovation
 
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
NTT DATA Technology & Innovation
 
2025年現在のNewSQL (最強DB講義 #36 発表資料)
NTT DATA Technology & Innovation
 
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
NTT DATA Technology & Innovation
 
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
NTT DATA Technology & Innovation
 
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
 
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
NTT DATA Technology & Innovation
 
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
NTT DATA Technology & Innovation
 
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
NTT DATA Technology & Innovation
 
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
NTT DATA Technology & Innovation
 
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
NTT DATA Technology & Innovation
 
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)
NTT DATA Technology & Innovation
 
Gartnerも注目するグリーンソフトウェアの実現に向けて (Green Software Foundation Global Summit 2024 T...
NTT DATA Technology & Innovation
 
パーティションのATTACH時の注意ポイント (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
PostgreSQL17対応版 EXPLAINオプションについて (第49回PostgreSQLアンカンファレンス@東京 発表資料)
NTT DATA Technology & Innovation
 
Ad

Recently uploaded (10)

PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 

NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)

  • 1. © 2020 NTT DATA Corporation NTTデータ テクノロジーカンファレンス 2020 NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~ 2020年10月14日 株式会社NTTデータ エグゼクティブITスペシャリスト 土橋 昌
  • 2. 2 © 2020 NTT DATA Corporation 自己紹介  専門分野は、オープンソースソフトウェア活用、データ活用基盤、 分散処理  Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に 関する研究開発、システム開発を主導 経歴  技術カンファレンス Strata Data Conference, Spark Summit, Kafka Summit, Hadoop/Spark Conference Japan, USENIX OpML 等 多 数 登 壇・採録  翔泳社 『Apache Spark入門』、 『Apache Kafka 分散メッセージングシステムの構築と活 用』 など 執筆・監修 登壇 ・ 出版 など 土橋 昌 (どばし まさる) エグゼクティブ I T スペシャリスト NTTデータ インテグレーション技術/OSSプロフェッショナルサービス
  • 3. © 2020 NTT DATA Corporation AIや機械学習とデータ基盤 3
  • 4. 4 © 2020 NTT DATA Corporation なぜデータ基盤に着目するか? 参考)「機械学習工学に向けて」機械学習型システム開発へのパラダイム転換(2017),丸山 宏 「 機械学習とデータ駆動システム &ソフトウェアエンジニアリング 」ESS2018招待講演, 鷲崎弘宜 目標 データ モデル アクション 機械学習等では、 モデル・アルゴリズムを データから決定する
  • 5. 5 © 2020 NTT DATA Corporation NTTデータの考えるAI適正利用においても基盤は重 要 別講演「信頼できるAI活用を支えるNTTデータの理念と技術」 (NTTデータ冨安)から引用
  • 6. 6 © 2020 NTT DATA Corporation ビッグデータ関連の市場は堅調 国内BDAテクノロジー/サービス市場支出額 現場感覚で見ても将来に向けた取り組みのために、 改めてデータ活用・活用基盤を見直す話が多い Source:『20200526_JPJ45144420_国内BDAテクノロシ ゙ー/サービス市場予測、2020年~2024年(May2020, IDC #JPJ45144420)』 Note:本市場予測は、2020年3月末時点における新型コロナ ウイルス感染症(COVID-19)の影響および見通しを考慮し たものである
  • 7. © 2020 NTT DATA Corporation 7 【質問】 データ活用に際し、ご自身の組織はITインフラスキルに 自信がありますか? (選択肢) A. 自組織には専門家不在で困っている B. 一部専門家がいるが不安がある C. 専門家集団なのでスキルに問題ない D. 専門知識を使って他者を支援する組織である 不安 自信あり
  • 8. 8 © 2020 NTT DATA Corporation データを活用したサービスや改善が着実に登場してい る • 危険外来種植物検知 • コンテンツ配信サービス
  • 9. ケース チャレンジ データの種類 9 © 2020 NTT DATA Corporation ■実現したいことの流れ ■汎用的な並列分散処理基盤と機械学習基盤で実現 公共:危険外来種植物の検知 ドローンで撮影した画像から危険外来種植物を見つけ、社会課題解決を目指 す • 機械学習を利用し、大量の画像の 中から危険外植物を見つける • 専門家でないと判別の難しい植物 を見つける • 全地域を対象とすると膨大な量の 画像データを取り扱うことになる • ドローンから撮影した土地の画像 • 上記に対して専門家がラベルを付 けた画像 “A Distributed Machine Learning For Giant Hogweed Eradication”, 2019 USENIX Conference on Operational Machine Learning (OpML ‘19)“Deep learning technologies for giant hogweed eradication”, Strata Data Conference 2019 - New York 危険外来種植物 たくさんの土地の画像 ドローによる撮影 当社事例
  • 10. ケース チャレンジ データの種類 10 © 2020 NTT DATA Corporation コンテンツ配信サービスNetflixの公開事例 膨大なコンテンツコレクションから顧客ひとりひとりに向けてパーソナライズす る • 大量に集められたデータと機械学 習を利用したパーソナライゼー ション • データ量が膨大。総量10PB級。1億 件/日を処理 • リアルタイムとヒストリカルの両 データを扱うが、データ品質管理 が難しい • メンバデータ • ビデオデータ 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”, https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems オンラインパイプライン オフラインパイプライン 機械学習の活用 ■パーソナライズ基盤の全体 像 ■品質管理のためのモニタリング ヒストリカルデータ のデータ分析
  • 11. 11 © 2020 NTT DATA Corporation 実際の現場では基本的な課題が根強く存在? 「データ分析における企業の課題トップ3は、人材/スキ ル、データ品質、ITインフラスキルである。」 Q. データ分析を行う上で、現在どのような課題を持っていますか?(複数回答) Source: 『20200728_JPJ45144220_2020年国内ビッグテータ/アナリ ティクス市場企業ユーザー調査(IDC#JPJ45144220,July 2020)』 データを扱い、 活かすために、 適切に ITインフラを 使いこなしたい
  • 12. © 2020 NTT DATA Corporation 12 【回答】 データ活用に際し、ご自身の組織はITインフラスキルに 自信がありますか? (選択肢) A. 自組織には専門家不在で困っている B. 一部専門家がいるが不安がある C. 専門家集団なのでスキルに問題ない D. 専門知識を使って他者を支援する組織である 不安 自信あり
  • 13. © 2020 NTT DATA Corporation 13 意外と悩ましいビッグデータ活用基盤
  • 14. 14 © 2020 NTT DATA Corporation 昔と比べて選択肢が増えてよくなった? ひと昔は、Hadoopが世を席巻
  • 15. 15 © 2020 NTT DATA Corporation 昔と比べて選択肢が増えてよくなった? ひと昔は、Hadoopが世を席巻 要件の高度化 手段の多様化
  • 16. 16 © 2020 NTT DATA Corporation 人は考慮すべきものと選択肢が多すぎると決められな い
  • 17. 17 © 2020 NTT DATA Corporation そこで抽象化して考える⇒入力・処理・蓄積・活用 本質的にはデータレイクを中心に入力と出力をつなげる だけ。しかし現実には要件と手段が多様すぎて単純化困 難 Collect. Data Lake Data Transfer Tf Visualization /Analysis/BI Portal/Search (Management) Visualization Streaming Processing AI/ML (Modeling) ETL File Transporting API Bulk Loader Data Hub DWH Trans- forming Data Mart データ マート Data Mart Data Mart AI/ML (Inference) Tf To API Notification /Alert Accumu- lation Transforming Utilization Data Source Batch Stream Cooperation/Analysis Data Ops System Cooperation Reporting Interactive Data Search Real-time Analysis Flexible Data Processing Platform Usability Scalability
  • 18. 18 © 2020 NTT DATA Corporation NTTデータはリファレンスとして知見を集約して活 用 過去の知見を集約。例えば医療やユーティリティ※のような安心・安全 が求められる領域におけるシステムグランドデザインや検討で参照され ている ※レスター大学PoC・グランドデザイン、電力データ活用・分析の実現検討等多数のプロジェクトで利用
  • 19. 19 © 2020 NTT DATA Corporation ポイント1:オープンソースソフトウェアを生かす には? データ活用基盤を実現するうえでOSS由来の技術は欠かせないものとなってい る。OSSは1点突破の圧倒的な特徴を備えたものが多く特性を考慮して使いた い プロダクトBの カバー範囲/ 得意分野 プロダクトAの カバー範囲/得意分野 実案件の 要件範囲 各プロダクトの 特長を組み合わせて 要件を満たすように デザインする プロダクトCの カバー範囲/ 得意分野
  • 20. 20 © 2020 NTT DATA Corporation ポイント2:プロダクトの特性を的確にとらえるに は? プロダクト誕生には「どうしても突破しなくてはならなかった課題」 =秘話がある。「はじまり」をひも解き、変遷を理解することで特性が 分かる 論文化されて いることもある 現実の特性は 実装に依存する 成長とともにコア 以外の要素が 充実する
  • 21. 21 © 2020 NTT DATA Corporation ポイント3:的確に素早くグランドデザインするに は? 経験的なベストプラクティスを体系化して育てる。 体系化されたリファレンスモデルをアレンジしてブートス トラップ ベースのアーキテクチャ体系 ベースの検討観点 エンジニアリング
  • 22. © 2020 NTT DATA Corporation データレイクの新潮流
  • 23. 24 © 2020 NTT DATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 データ基盤では「データレイク」が活用の起点 Single Source of Truth ※ここではデータレイク≒永続用のストレージとする
  • 24. 25 © 2020 NTT DATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 現在のデータレイクの課題感の例 データを永続的に扱うデータレイクを起点としたとき、軸① 「データの取り回し」、軸②「活用のしやすさ」の2軸から課 題を定義できる 軸①データの取り回し 軸②活用のしやすさ ストリームデータと合わせて 扱おうとするとアーキテクチャ が複雑になる 分析や機械学習向けには、 シンプル過ぎ。作りこみが 煩雑になる。 軸①データの取り回し 軸②活用のしやすさ
  • 25. 26 © 2020 NTT DATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 現在のデータレイクの課題感の例 データを永続的に扱うデータレイクを起点としたとき、軸① 「データの取り回し」、軸②「活用のしやすさ」の2軸から課 題を定義できる 軸①データの取り回し ストリームデータと合わせて 扱おうとするとアーキテクチャ が複雑になる 軸①データの取り回し
  • 26. 27 © 2020 NTT DATA Corporation 軸①データの取り回し:まずは基本のバッチ処理 Single Source of Truthとしてのデータレイクを中心に、 その中のデータを活用するための処理エンジンを並べる データレイク 処 理 エ ン ジ ン 活 用 入力 シンプル!
  • 27. 28 © 2020 NTT DATA Corporation 軸①データの取り回し:ストリームデータの流れを加 える データレイクの横に、ニアリアルタイムでデータ処理するパイプライン を構成 データレイク 処 理 エ ン ジ ン 活 用 バッチ 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン ストリーム 入力 いわゆるラムダアーキテクチャで、かなりゴチャゴチャ・・・ 途中や末端でのバッチと ストリームの統合が難し い
  • 28. 29 © 2020 NTT DATA Corporation 軸①データの取り回し:そこでデータレイクを高 度化 データレイク上でストリームデータを統合し、分析用途にも 扱いやすくできたら…?という一石を投じる技術が登場 ストレージ部分で統合 通知 (ストリーム) 加工 分析・機械学習・AI活用 収集 収集 メッセージング/加工 多様なクエリエンジンを利用 分析・ 可視化 高度化された データレイク Delta Lake Hudi Iceberg ストリーム バッチ
  • 29. 30 © 2020 NTT DATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 現在のデータレイクの課題感の例 データを永続的に扱うデータレイクを起点としたとき、軸① 「データの取り回し」、軸②「活用のしやすさ」の2軸から課 題を定義できる 軸②活用のしやすさ 分析や機械学習向けには、 シンプル過ぎ。作りこみが 煩雑になる。 軸②活用のしやすさ
  • 30. 31 © 2020 NTT DATA Corporation 軸②活用のしやすさ:データレイクへの期待は高 度化 最初は「大きなデータをリーズナブルに保存・処理する」だけでも効果 的と言われたが、次第に高度で複雑なユースケースにも利用される ように… もっと 高度な分析手法 も使いたい 大量の データを分析 したい 大量の データを処理 したい 7 8 < > × ∞ ∋
  • 31. 32 © 2020 NTT DATA Corporation 軸②活用のしやすさ:基盤に影響のある要件具体例 引用:「Data Platform for Machine Learning」Putlit Agrawal等、SIGMOD '19: Proceedings of the 2019 International Conference on Management of DataJune 2019 Pages 1803–1816https://doi.org/10.1145/3299869.3314050 • ユースケースに合わせて多様に 加工したい • ユースケースごとに異なる部分を 使いたい • 多数のステークホルダで 同じデータを使いたい • 結果をフィードバックし、再処理したい • 過去のデータを使って再現したい 身近な要件例 身近な要件例 Apple社の論文から引用した機械学習におけるデータパイプライン
  • 32. 33 © 2020 NTT DATA Corporation 軸②活用のしやすさ:データ品質管理の例 • 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”, https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems • データを集計し、統計化することで 特徴を明確化する(異常検知な ど) • データをただ保存するだけではなく、 データを継続的に使いやすい状態 で蓄積、加工してくには…? 身近な要件例 Netflix社のプレゼンから引用したデータ品質管理におけるデータパイプライン
  • 33. 34 © 2020 NTT DATA Corporation 軸②活用のしやすさ: データマイグレーション時にも安全にデータを取り回した い • 複数のレーンで加工し、バリデート することで安全性を高める • 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”, https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems • 断続的に絶えず入力が行われる 状況下で、複数のデータパイプラ インで安全にデータを取りまわすに は? 身近な要件例 Netflix社のプレゼンから引用したデータ加工におけるデータパイプライン
  • 34. 35 © 2020 NTT DATA Corporation 軸②活用のしやすさ:データレイクに向けられる期待を体 系化 様々なプロジェクトでスケーラブルであることは前提となっ ている。特に多様性、柔軟性、安心を支える特徴が求められ ている データ操作、処理 データ操作の補助 非機能 多様なデータ 多様なライブラリ、 入出力手法 多様なストレージの活用 再現性、説明可能性担保 コラボレーション 品質管理 特徴把握 スケーラビリティ 可用性 運用保守性 移行性 セキュリティ OK ※機械学習固有の要件を含む数十の参考文献ほか、当社過去案件情報から体系化。約100要素をカテゴライズしたもの。
  • 35. 36 © 2020 NTT DATA Corporation 軸①+②:データレイク高度化のアプローチ種類 「データを扱う処理エンジン」と「データを溜めるスト レージ」というパーツに注目すると、3種類のアプローチ がある 処理エンジン側を工夫 ストレージをうまく使う技術を追加して工夫 ストレージ側を工夫
  • 36. 37 © 2020 NTT DATA Corporation 軸①+②:データレイク高度化のアプローチ種類 「データを扱う処理エンジン」と「データを溜めるスト レージ」というパーツに注目すると、3種類のアプローチ がある 処理エンジン側を工夫 ストレージをうまく使う技術を追加して工夫 ストレージ側を工夫
  • 37. 38 © 2020 NTT DATA Corporation 軸①+②:ストレージをうまく使う技術の一例 ストレージ ( 分 散 フ ァ イ ル シ ス テ ム 、 オブジェクトストレージ 等 ) ストレージレイヤソフトウェア アプリケーション、処理ライブラリ 論理的なデータセットやテーブル 便利な特徴を提供 読み書き 素朴な機能を提供 データの実体や管理情報を読み書き 論理的なデータセットやテーブルに読 み書きすることで、便利な機能を使い つつ透過的にストレージに読み書き 下回りにスケーラブルな 基盤を利用可能
  • 38. 39 © 2020 NTT DATA Corporation ストレージレイヤソフトウェアの一例 いずれもデータレイクのスケーラビリティを生かしなが ら、データフォーマットの工夫で新しい特徴を提供する 仕組み 分析用データセットの スケーラブルな テーブルフォーマット (Apache Iceberg) (Apache Hudi) (Delta Lake) ストレージにおける ストリームデータの 扱いを改善する仕組み ストレージにトランザ クション管理の機能を 提供する仕組み
  • 39. 40 © 2020 NTT DATA Corporation 別セッションで個別の技術に踏み込んだ説明をし ます 2種類についてそれぞれアーキテクチャ、実装、実際の動 作を踏まえて、実態に迫って解説します ■10/16 13:30 「分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?」 ■10/16 13:45 「ポスト・ラムダアーキテクチャの切り札? Apache Hudi」
  • 40. 41 © 2020 NTT DATA Corporation 本講演のまとめ • AIや機械学習の活用においても、 データの取り回しが鬼門 • データ基盤を体系化してリファレンスとして活用 • データレイクへの期待が多様化。データレイクの進化は、例 えば軸①:データの取り回し、軸②:活用のしやすさ、と いう2軸で考えられる • 注目したいOSSも登場
  • 41. © 2020 NTT DATA Corporation 記 載 さ れ て い る 会 社 名 、 商 品 名 、 サ ー ビ ス 名 は 各 社 の 登 録 商 標 ま た は 商 標 で す

Editor's Notes

  • #10: 危険外来種植物など統一する★
  • #11: NTC2020時に引用OKの旨%
  • #12: NTC2020時に引用OKの旨受領済み
  • #18: 実際のところ、ここまで単純化するのに苦労する。 単一の解というわけではなく、さまざまなバリエーションや亜種が存在する。
  • #36: 機能・仕様一覧 https://nttdseh.box.com/s/xkfanl4kh9pfvssex4euu6z44j6x47yr
  • #37: 様々な処理エンジンで使える方法を提供(多くの処理エンジンが対応しているプロトコルを通じて透過的に特徴を提供すれば、幅広い処理エンジンに同時に対応できる) パブリッククラウドのストレージ、すでにデファクトスタンダードのHDFSなど、いじりづらい技術に変更を加えるより現実的。また既存のスケーラブルなストレージの特長をそのまま利用可能。
  • #47: Innovation Conference2020時に引用OKの旨受領済み