SlideShare a Scribd company logo
Python
Sky
20160708 データ処理のプラットフォームとしてのpython 札幌
•
• Python 2000
(**)
• db tech showcase MongoDB
•
• FB: Ryuji Tamagawa
• Twitter : tamagawa_ryuji
20160708 データ処理のプラットフォームとしてのpython 札幌
2015
2016
• Python
• Python
• Python
•
• Python
• NumPy, SciPy, matplotlib, Pandas
• Python
• scikit-learn
• TensorFlow
• Python IPython, Jupyter notebook, Spyder, VisualStudio
• Python
• Python
• Pandas
• Spark - PySpark DataFrame API
• matplotlib
Part 1 : Python
Python
•
• Google
Guido Google
Google 1
•
NumPy, SciPy, matplotlib → Pandas
•
•
-2000
Linux
-2010 Web Trac
Google
Python
•
•
•
•
→
•
Python
•
• pyODBC
• Web WSGI
Python
• 2.x 3.x 32bit 64bit
64bit
• 2.x
• 3.x
3
• 2.x
3.x
• Ruby?
• R?
• Java?
• Scala?
Python
• Python ’CPython’ JIT
PyPy JVM Jython .Net IronPython
• CPython
• CPython 2
• C
• processing
PySpark
Python
• Python
• 1 Linux Mac OS Python
Python Mac
• Python pip 3.x Python 2.7.9 2.x
Python pip Linux Python
pip yum apt
• Python Anaconda Python
conda
• python 2016

http://qiita.com/y__sama/items/5b62d31cb7e6ed50f02c
NumPy, SciPy, matplotlib, Pandas
•
• NumPy SciPy
• Pandas
Pandas Pandas NumPy
• Anaconda Python
Python
•
scikit-learn http://
scikit-learn.org/stable/
Python
• TensorFlow 

Python
Python


IPython
Jupyter, …
IDE
Spyder, Rodeo
Visual Studio, PyCharm, PyDev
•
• GUI IDLE
•
OK
• IPython
•
•
• Anaconda
• pip


• Jupyter Notebook
• Python
• IPython Notebook
Python
• Apache Zeppelin http://
zeppelin.apache.org
IDE
• R RStudio
• IDE
•
• 2 Spyder Rodeo
•
Spyder
•
• Visual Studio
• Eclipse PyDev
• PyCharm
•
Part 2 :
Python
1 1.2 1000000L Python2
‘abc’ u’ ’ Python2
[1, 2, 3,‘foo’,‘bar’,‘foo’]
(1, 2, 3,‘foo’,‘bar’,‘foo’)
{‘k1’:‘value1’,‘k2’:‘value2’}
set(1, 2, 3,‘foo’,‘bar’)
•
•
• split
s = ‘foo, bar, baz’
items = s.split(‘,’)
print items[0]
print items[-1]
print items[0][-2:]
• 

list comprehension
• 

dictionary comprehension
• lambda map, reduce, filter
sList = [‘foo’, ‘bar’, ‘baz’]
lList = [len(s) for s in sList]
lList = map(lambda s:len(s),
sList)
lDict = {s:len(s) for s in sList}
Pandas
• Pandas
•
matplotlib / seaborn
• NumPy
SciPy
Python
• Pandas + matplotlib
OK Pandas NumPy
NumPy / SciPy
Pandas
• Pandas
DataFrame
• R
• RDB
2
• index Series Columns
Columns
Series Series SeriesIndex
Pandas I/O
• CSV JSON RDB Excel
• column
• RDB
•
import pandas as pd
pd.read_csv(<filename>)
pd.read_json(<filename>)
pd.to_csv(<filename>)
pd.to_excel(<filename>)
#
pd.to_clipboard()
• http://sinhrks.hatenablog.com/entry/2015/01/28/073327
0 1
import pandas as pd
df[‘nValue’] = df[‘value’] / sum(df[‘value’])
id value color
sapporo 43 red
osaka 42 pink
matsumoto 40 green
id value color nValue
sapporo 43 red 0.344
osaka 42 pink 0.336
matsumoto 40 green 0.32
Python
Spark - PySpark DataFrame
API
•
Python
• Spark PySpark
findSpark
Spark
• Python Spark API
DataFrame API
• Spark Pandas
Spark
PySpark
Spark

node
Spark

node
Spark

node
Spark

node
driver
matplotlib / seaborn
•
• Python NumPy
/ Pandas
• Jupyter Notebook
Spyder
Questions ?

More Related Content

PDF
20161215 python pandas-spark四方山話
Ryuji Tamagawa
 
KEY
anohana
ybenjo
 
PDF
Hive at Last.fm
Skills Matter
 
PDF
日本全国ぶらりPerl旅
鉄次 尾形
 
PDF
ニュースパスのクローラーアーキテクチャとマイクロサービス
mosa siru
 
PDF
DRUG - RDSTK Talk
rtelmore
 
PDF
Go, memcached, microservices
mosa siru
 
KEY
第 10 回 Webteko
Shinya Ohyanagi
 
20161215 python pandas-spark四方山話
Ryuji Tamagawa
 
anohana
ybenjo
 
Hive at Last.fm
Skills Matter
 
日本全国ぶらりPerl旅
鉄次 尾形
 
ニュースパスのクローラーアーキテクチャとマイクロサービス
mosa siru
 
DRUG - RDSTK Talk
rtelmore
 
Go, memcached, microservices
mosa siru
 
第 10 回 Webteko
Shinya Ohyanagi
 

What's hot (7)

PDF
Infrastructure coders logstash
David Lutz
 
KEY
State of Python (2010)
Richard Jones
 
PPTX
Linux commands
Being Skilled
 
PPTX
C# - Raise the bar with functional & immutable constructs (Dutch)
Rick Beerendonk
 
PDF
穏やかにファイルを削除する続き
鉄次 尾形
 
PDF
Amazon AI のスゴいデモ(仮) - Serverless Meetup Osaka
崇之 清水
 
PDF
IT talk "Python language evolution"
DataArt
 
Infrastructure coders logstash
David Lutz
 
State of Python (2010)
Richard Jones
 
Linux commands
Being Skilled
 
C# - Raise the bar with functional & immutable constructs (Dutch)
Rick Beerendonk
 
穏やかにファイルを削除する続き
鉄次 尾形
 
Amazon AI のスゴいデモ(仮) - Serverless Meetup Osaka
崇之 清水
 
IT talk "Python language evolution"
DataArt
 
Ad

Viewers also liked (13)

PDF
第5回パターン認識勉強会
Yohei Sato
 
PPTX
はじめてのパターン認識4章後編
Tanaka Hidenori
 
PDF
はじめてのパターン認識読書会 第四回 前半
Atsushi Hayakawa
 
PDF
lessons learned from talking at rakuten technology conference
Ryuji Tamagawa
 
PDF
はじめてのパターン認識勉強会 20130716
Hiroko Onari
 
PDF
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
 
PDF
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
 
PDF
はじパタ2章
tetsuro ito
 
PDF
データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831
Yusaku Kinoshita
 
PDF
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
 
PDF
PythonによるWebスクレイピング入門
Hironori Sekine
 
PDF
はじめてのパターン認識 第1章
Prunus 1350
 
PDF
見やすいプレゼン資料の作り方 - リニューアル増量版
MOCKS | Yuta Morishige
 
第5回パターン認識勉強会
Yohei Sato
 
はじめてのパターン認識4章後編
Tanaka Hidenori
 
はじめてのパターン認識読書会 第四回 前半
Atsushi Hayakawa
 
lessons learned from talking at rakuten technology conference
Ryuji Tamagawa
 
はじめてのパターン認識勉強会 20130716
Hiroko Onari
 
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
 
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
 
はじパタ2章
tetsuro ito
 
データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831
Yusaku Kinoshita
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
 
PythonによるWebスクレイピング入門
Hironori Sekine
 
はじめてのパターン認識 第1章
Prunus 1350
 
見やすいプレゼン資料の作り方 - リニューアル増量版
MOCKS | Yuta Morishige
 
Ad

Similar to 20160708 データ処理のプラットフォームとしてのpython 札幌 (20)

PDF
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
Ryuji Tamagawa
 
PDF
LTから入門するPython開発環境 #PyLadiesTokyo
Hidenori Matsuki
 
PDF
スマートフォン勉強会@関東 #11 どう考えてもdisconなものをiPhoneに移植してみた
Taro Matsuzawa
 
PDF
Py "Baseball" Data入門〜サービス(と野球)を支えるデータ分析基盤 #monotarotech
Shinichi Nakagawa
 
PDF
Python と Docker で mypy Playground を開発した話
Yusuke Miyazaki
 
KEY
Onsg10 Intro Termtter
Shota Fukumori
 
KEY
関西アンカンファレンス Python の Paver について
Shinya Ohyanagi
 
PDF
Apex on Local - Better Alternative to Salesforce DX
tzm_freedom
 
PDF
オペレーティングシステム 設計と実装 第3版(20101211)
Ryousei Takano
 
KEY
Kiosk / PHP
Basuke Suzuki
 
PDF
Py "Baseball" Data入門 - 広島東洋カープ編 #pyconhiro
Shinichi Nakagawa
 
PDF
OSINT tools for security auditing [FOSDEM edition]
Jose Manuel Ortega Candel
 
PDF
IoT Chess 16th April Berlin
Lars Gregori
 
PPTX
Relational Database Access with Python ‘sans’ ORM
Mark Rees
 
PDF
ggplotのplotエリアで日本語ラベルを使う
Tsuda University Institute for Mathematics and Computer Science
 
PDF
JAWS FESTA 中四国 2017 懇親会LT
Akira Shibata
 
KEY
tDiary annual report 2009 - Sapporo Ruby Kaigi02
Hiroshi SHIBATA
 
PDF
Cncf k8s_network_part1
Erhwen Kuo
 
PDF
Migrating from matlab to python
ActiveState
 
PDF
플렉스팀 프론트엔드 기술 스택의 이해: `lint`, `build`, `run`
Heejong Ahn
 
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
Ryuji Tamagawa
 
LTから入門するPython開発環境 #PyLadiesTokyo
Hidenori Matsuki
 
スマートフォン勉強会@関東 #11 どう考えてもdisconなものをiPhoneに移植してみた
Taro Matsuzawa
 
Py "Baseball" Data入門〜サービス(と野球)を支えるデータ分析基盤 #monotarotech
Shinichi Nakagawa
 
Python と Docker で mypy Playground を開発した話
Yusuke Miyazaki
 
Onsg10 Intro Termtter
Shota Fukumori
 
関西アンカンファレンス Python の Paver について
Shinya Ohyanagi
 
Apex on Local - Better Alternative to Salesforce DX
tzm_freedom
 
オペレーティングシステム 設計と実装 第3版(20101211)
Ryousei Takano
 
Kiosk / PHP
Basuke Suzuki
 
Py "Baseball" Data入門 - 広島東洋カープ編 #pyconhiro
Shinichi Nakagawa
 
OSINT tools for security auditing [FOSDEM edition]
Jose Manuel Ortega Candel
 
IoT Chess 16th April Berlin
Lars Gregori
 
Relational Database Access with Python ‘sans’ ORM
Mark Rees
 
ggplotのplotエリアで日本語ラベルを使う
Tsuda University Institute for Mathematics and Computer Science
 
JAWS FESTA 中四国 2017 懇親会LT
Akira Shibata
 
tDiary annual report 2009 - Sapporo Ruby Kaigi02
Hiroshi SHIBATA
 
Cncf k8s_network_part1
Erhwen Kuo
 
Migrating from matlab to python
ActiveState
 
플렉스팀 프론트엔드 기술 스택의 이해: `lint`, `build`, `run`
Heejong Ahn
 

More from Ryuji Tamagawa (20)

PDF
20171012 found IT #9 PySparkの勘所
Ryuji Tamagawa
 
PDF
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
Ryuji Tamagawa
 
PPTX
hbstudy 74 Site Reliability Engineering
Ryuji Tamagawa
 
PDF
PySparkの勘所(20170630 sapporo db analytics showcase)
Ryuji Tamagawa
 
PDF
20170210 sapporotechbar7
Ryuji Tamagawa
 
PDF
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
 
PDF
Performant data processing with PySpark, SparkR and DataFrame API
Ryuji Tamagawa
 
PDF
Apache Sparkの紹介
Ryuji Tamagawa
 
PDF
足を地に着け落ち着いて考える
Ryuji Tamagawa
 
PDF
ヘルシープログラマ・翻訳と実践
Ryuji Tamagawa
 
PDF
Google Big Query
Ryuji Tamagawa
 
PDF
BigQueryの課金、節約しませんか
Ryuji Tamagawa
 
PDF
You might be paying too much for BigQuery
Ryuji Tamagawa
 
PDF
Google BigQueryについて 紹介と推測
Ryuji Tamagawa
 
PDF
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
Ryuji Tamagawa
 
PDF
Mongo dbを知ろう devlove関西
Ryuji Tamagawa
 
PDF
Seleniumをもっと知るための本の話
Ryuji Tamagawa
 
PDF
データベース勉強会 In 広島 mongodb
Ryuji Tamagawa
 
PDF
Invitation to mongo db @ Rakuten TechTalk
Ryuji Tamagawa
 
PDF
MongoDB tuning on AWS
Ryuji Tamagawa
 
20171012 found IT #9 PySparkの勘所
Ryuji Tamagawa
 
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
Ryuji Tamagawa
 
hbstudy 74 Site Reliability Engineering
Ryuji Tamagawa
 
PySparkの勘所(20170630 sapporo db analytics showcase)
Ryuji Tamagawa
 
20170210 sapporotechbar7
Ryuji Tamagawa
 
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
 
Performant data processing with PySpark, SparkR and DataFrame API
Ryuji Tamagawa
 
Apache Sparkの紹介
Ryuji Tamagawa
 
足を地に着け落ち着いて考える
Ryuji Tamagawa
 
ヘルシープログラマ・翻訳と実践
Ryuji Tamagawa
 
Google Big Query
Ryuji Tamagawa
 
BigQueryの課金、節約しませんか
Ryuji Tamagawa
 
You might be paying too much for BigQuery
Ryuji Tamagawa
 
Google BigQueryについて 紹介と推測
Ryuji Tamagawa
 
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
Ryuji Tamagawa
 
Mongo dbを知ろう devlove関西
Ryuji Tamagawa
 
Seleniumをもっと知るための本の話
Ryuji Tamagawa
 
データベース勉強会 In 広島 mongodb
Ryuji Tamagawa
 
Invitation to mongo db @ Rakuten TechTalk
Ryuji Tamagawa
 
MongoDB tuning on AWS
Ryuji Tamagawa
 

Recently uploaded (20)

PPTX
ASSIGNMENT_1[1][1][1][1][1] (1) variables.pptx
kr2589474
 
PPTX
Presentation about Database and Database Administrator
abhishekchauhan86963
 
PDF
advancepresentationskillshdhdhhdhdhdhhfhf
jasmenrojas249
 
PPTX
The-Dawn-of-AI-Reshaping-Our-World.pptxx
parthbhanushali307
 
PPTX
Contractor Management Platform and Software Solution for Compliance
SHEQ Network Limited
 
PDF
Balancing Resource Capacity and Workloads with OnePlan – Avoid Overloading Te...
OnePlan Solutions
 
PPTX
slidesgo-unlocking-the-code-the-dynamic-dance-of-variables-and-constants-2024...
kr2589474
 
PPT
Activate_Methodology_Summary presentatio
annapureddyn
 
PPTX
Visualising Data with Scatterplots in IBM SPSS Statistics.pptx
Version 1 Analytics
 
PPTX
Presentation about variables and constant.pptx
kr2589474
 
PDF
10 posting ideas for community engagement with AI prompts
Pankaj Taneja
 
PDF
lesson-2-rules-of-netiquette.pdf.bshhsjdj
jasmenrojas249
 
PPTX
Presentation about variables and constant.pptx
safalsingh810
 
PPTX
Explanation about Structures in C language.pptx
Veeral Rathod
 
PDF
Enhancing Healthcare RPM Platforms with Contextual AI Integration
Cadabra Studio
 
PDF
Exploring AI Agents in Process Industries
amoreira6
 
PPTX
ConcordeApp: Engineering Global Impact & Unlocking Billions in Event ROI with AI
chastechaste14
 
PDF
Bandai Playdia The Book - David Glotz
BluePanther6
 
PPTX
Maximizing Revenue with Marketo Measure: A Deep Dive into Multi-Touch Attribu...
bbedford2
 
PDF
Salesforce Implementation Services Provider.pdf
VALiNTRY360
 
ASSIGNMENT_1[1][1][1][1][1] (1) variables.pptx
kr2589474
 
Presentation about Database and Database Administrator
abhishekchauhan86963
 
advancepresentationskillshdhdhhdhdhdhhfhf
jasmenrojas249
 
The-Dawn-of-AI-Reshaping-Our-World.pptxx
parthbhanushali307
 
Contractor Management Platform and Software Solution for Compliance
SHEQ Network Limited
 
Balancing Resource Capacity and Workloads with OnePlan – Avoid Overloading Te...
OnePlan Solutions
 
slidesgo-unlocking-the-code-the-dynamic-dance-of-variables-and-constants-2024...
kr2589474
 
Activate_Methodology_Summary presentatio
annapureddyn
 
Visualising Data with Scatterplots in IBM SPSS Statistics.pptx
Version 1 Analytics
 
Presentation about variables and constant.pptx
kr2589474
 
10 posting ideas for community engagement with AI prompts
Pankaj Taneja
 
lesson-2-rules-of-netiquette.pdf.bshhsjdj
jasmenrojas249
 
Presentation about variables and constant.pptx
safalsingh810
 
Explanation about Structures in C language.pptx
Veeral Rathod
 
Enhancing Healthcare RPM Platforms with Contextual AI Integration
Cadabra Studio
 
Exploring AI Agents in Process Industries
amoreira6
 
ConcordeApp: Engineering Global Impact & Unlocking Billions in Event ROI with AI
chastechaste14
 
Bandai Playdia The Book - David Glotz
BluePanther6
 
Maximizing Revenue with Marketo Measure: A Deep Dive into Multi-Touch Attribu...
bbedford2
 
Salesforce Implementation Services Provider.pdf
VALiNTRY360
 

20160708 データ処理のプラットフォームとしてのpython 札幌