SlideShare a Scribd company logo
Pythonによる
Webスクレイピング入門
関根裕紀
自己紹介
• 関根裕紀(せきね ひろのり)
• アライドアーキテクツ株式会社
• ソフトウェア・エンジニア
• PyCon JP 2014 スタッフ
• Twitter(@checkpoint )
• 前職まで
• RSSリーダー、SNS
• WebMail
• 写真共有サービス
• 現在(アライドアーキテクツ)
• モニプラFacebook、Social-IN
• Webアプリケーション開発全般を担当
経歴
アジェンダ
• Webスクレイピングとは
• PythonでのWebスクレイピング
• ライブラリの紹介、サンプル(入門編)
Webスクレイピングとは?
Webスクレイピングとは、WebサイトからWebページのHTMLデータを収
集して、特定のデータを抽出、整形し直すことである。
!
Webスクレイピングを行うことで、Webページを対象として、あたかも
Web APIを利用しているかのようにデータを効率的に取得・収集することが
可能になる。用途の例としては、部分的にコンテンツを取り出して携帯電話
向けのコンテンツを生成したり、小見出しの一覧を生成したり、といった使
い方あある。Webスクレイピングは様々な手段で実現可能であるが、PHPや
Perlといったスクリプト言語を使用して行われることが多い。
!
IT用語辞典	
( http://www.sophia-it.com/content/Webスクレイピング ) より
Webスクレイピング
• WebサイトからHTMLのデータを収集
• 特定のデータを抽出、加工
• 抽出したデータを再利用
• クローリング + スクレイピング
クローリング
• 英語の意味は、[ はう、ゆっくり進む]
• Webページのリンクの内容をたどる
• Webページの内容をダウンロードして収集
• クローラー、スパイダーと呼ばれる
スクレイピング
• 英語の意味は、[ 削ること ]
• ページの内容から、必要な情報を抽出すること
用途
• 検索エンジン
• 価格比較
• 気象データの監視
• サイトの変更検出
• Webサイトの情報解析、研究(比較、分類、統計など)
• マッシュアップ
方法(1)
• Webサービス、アプリケーション
• Yahoo! Pipes( https://pipes.yahoo.com/ )
• kimono ( https://www.kimonolabs.com/ )
• import.io ( https://import.io/ )
方法(2)
• Ruby
• Nokogiri
• Mechanize
• Perl
• Web::Scraper
• JavaScript
• CasperJS
Pythonでのスクレイピング
• 標準ライブラリ
• BeautifulSoup
• pyquery
• Scrapy(スクレピー、スクラパイ、スクレパイ)
Python
• バッテリー付属言語
標準ライブラリ
• Pythonの標準ライブラリはとても充実している
• ネットワーク、正規表現ライブラリ
• Pythonの処理系だけあれば良い
• 簡単なスクレイピングであれば十分実用的
サンプル
import re, urllib2
res = urllib2.urlopen( http://ll.jus.or.jp/2014/program")
pattern_title = re.compile( <title>(.*?)</title>')
m = pattern_title.search(res.read())
title = m.group(1)
print title
>>> プログラム ¦ LL Diver
Beautiful Soup
• 2004年からあるライブラリ
• HTMLやXMLからデータを抽出して取得できる
• 複数のパーサーに対応、パーサーを指定できる
• 最新バーションはBeautiful Soup 4系
• Python 2.7、Python 3.2に対応
• スクレイピング
サンプル
import urllib2
from bs4 import BeautifulSoup
res = urllib2.urlopen( http://ll.jus.or.jp/2014/program )
soup = BeautifulSoup(res.read())
soup.title
>>> <title>プログラム ¦ LL Diver</title>
for link in soup.find_all( a'):
print(link.get( href'))
>>> http://ll.jus.or.jp/2014/
>>> http://ll.jus.or.jp/2014/
pyquery
• jQuery風にHTML/XML操作が可能
• パーサーにはlxmlを使用(高速)
• JQuery風のセレクタを利用できる
• スクレイピング
サンプル
from pyquery import PyQuery as pq
d = pq("http://ll.jus.or.jp/2014/program")
print d( title").text()
>>> プログラム ¦ LL Diver
print d( .entry-title").text()
>>> プログラム
print d( #day ).text()
>>> 昼の部
Scrapy
• Scarpyは速くて、ハイレベルなスクレイピング
クローラーのフレームワーク。Webサイトのク
ロールと、構造化されたデータを取り出すのに
使用する。幅広い目的に使用できる。データマ
イニングから、モニタリング、自動テストなど
Scrapyの特徴
• クローリング、スクレイピングフレームワーク
• シンプル、拡張性がある
• バッテリー付属
• ドキュメント、テストが充実
• コミュニティが活発
• Python2.7のみ対応
Scrapyの主な機能
• Webページからの情報抽出
• Robots.txtのパース
• ドメイン、IPアドレス単位のクロール間隔調整
• 並行処理
• エラー時のリトライ(回数を設定)
• http://orangain.hatenablog.com/entry/scrapy
アーキテクチャ
https://scrapy.readthedocs.org/en/latest/topics/architecture.html
Scrapy Engine
https://scrapy.readthedocs.org/en/latest/topics/architecture.html
Scrapy Engine
• 全てのコンポーネントを制御するシステム
• 特定のアクションが発生したら、イベントを起
こす責任を持つ。
Spider
https://scrapy.readthedocs.org/en/latest/topics/architecture.html
Spider
• ユーザーが作成するカスタムクラス
• 取得したいURL、抽出する項目などを記述する
• 取得した内容をスクレイピングして、Itemとし
てItem Pipelineに送る
Scheduler
https://scrapy.readthedocs.org/en/latest/topics/architecture.html
Scheduler
• リクエストのトラフィック等の制御
Downloader
https://scrapy.readthedocs.org/en/latest/topics/architecture.html
Downloader
• 実際にWebページを取得する
• Downloader middlewaresで処理を差し込む事
ができる。(キャッシュなど)
Item Pipeline
https://scrapy.readthedocs.org/en/latest/topics/architecture.html
Item Pipeline
• スパイダーによって抽出されたアイテムを出力
• データのクレンジング、検証
• 永続化(JSON、File、DB、Mail)など
手順
• Scrapy プロジェクトの作成
• 抽出するアイテムの定義
• アイテムの抽出とクローリングのためのSpider
を作成
• 抽出したアイテムのパイプライン部分作成
• 基本はSpiderとItem部分を書いていけばOK
プロジェクト作成
$ scrapy startproject scrapy_sample
$ tree scrapy_sample
scrapy_sample/
├── scrapy.cfg
└── scrapy_sample
├── __init__.py
├── items.py
├── pipelines.py
├── settings.py
└── spiders
└── __init__.py
抽出するItem定義
class TorrentItem(scrapy.Item):
url = scrapy.Field()
name = scrapy.Field()
Spider作成
class MininovaSpider(CrawlSpider):
name = 'mininova'
allowed_domains = ['mininova.org']
start_urls = ['http://www.mininova.org/yesterday/']
rules = [Rule(LinkExtractor(allow=['/tor/d+']), parse_torrent')]
!
def parse_torrent(self, response):
torrent = TorrentItem()
torrent['url'] = response.url
torrent['name'] = response.xpath("//h1/text()").extract()
return torrent
実行
$ scrapy crawl mininova -o scraped_data.json
$ cat scraped_data.json
{
"url": "http://www.mininova.org/tor/13277197",
"name": ["lady anna voice free plugin VSTI free download new by Softrave ]
},
{
"url": "http://www.mininova.org/tor/13277195",
"name": ["mandala VSTI free download new by Softrave ]
},
まとめ
• Pythonでスクレイピングを行う場合、色々なア
プローチがある。
• 標準のライブラリから、フレームワークまで選
択肢は沢山あるので、要件に合わせて使用すれ
ば良い
• Pythonに限らず、LL言語はスクレイピング用の
ライブラリがたくさん。
参考URL
• http://scrapy.org ( Scrapy )
• http://www.slideshare.net/MasayukiIsobe/web-scraping-20140622isobe
• https://github.com/gawel/pyquery/ ( pyquery )
• http://www.crummy.com/software/BeautifulSoup/ ( BeautfulSoup )
• http://orangain.hatenablog.com/entry/scrapy
• http://akiniwa.hatenablog.jp/entry/2013/04/15/001411
• http://tokyoscrapper.connpass.com/ ( Webスクレイピング勉強会 )
• http://www.slideshare.net/nezuQ/web-36143026?ref=http://www.slideshare.net/slideshow/
embed_code/36143026
• http://qiita.com/nezuq/items/c5e827e1827e7cb29011( 注意事項 )
宣伝
• PyCon JP 2014は来月開催です。
宣伝
• https://pycon.jp/2014/
• 9/12 (金)∼ 9/15(月)の4日間
• チュートリアル(9/12)
• カンファレンス(9/13、14)
• スプリント(9/15)
• 絶賛準備中。お待ちしております!
ご静聴ありがとうございました。

More Related Content

What's hot (20)

PDF
「人工 知能 が 『 生命 』 となるとき」 人間はなぜ AI にキャラクターを欲望するの か
Youichiro Miyake
 
PPTX
NLP2021 AI王 解法紹介 8
Takamichi Toda
 
PDF
中小企業によるFIDO導入事例
FIDO Alliance
 
PDF
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
 
PPTX
Rによるベイジアンネットワーク入門
Okamoto Laboratory, The University of Electro-Communications
 
PDF
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
PDF
CVIM#11 3. 最小化のための数値計算
sleepy_yoshi
 
PDF
[DL輪読会]Deep Learning for Sampling from Arbitrary Probability Distributions
Deep Learning JP
 
PDF
DSIRNLP06 Nested Pitman-Yor Language Model
Kei Uchiumi
 
PDF
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
 
PDF
自由エネルギー原理入門: 正規分布を仮定した場合
Masatoshi Yoshida
 
PDF
ディープラーニングの最新動向
Preferred Networks
 
PDF
Practical recommendations for gradient-based training of deep architectures
Koji Matsuda
 
PDF
Deep Dive: Amazon DynamoDB (db tech showcase 2016)
Amazon Web Services Japan
 
PDF
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Kazuhiro Ota
 
PDF
線形計画法入門
Shunji Umetani
 
PDF
Reinforcement Learning @ NeurIPS2018
佑 甲野
 
PDF
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
Koichi Hamada
 
PDF
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
 
PDF
Prml 2.3
Yuuki Saitoh
 
「人工 知能 が 『 生命 』 となるとき」 人間はなぜ AI にキャラクターを欲望するの か
Youichiro Miyake
 
NLP2021 AI王 解法紹介 8
Takamichi Toda
 
中小企業によるFIDO導入事例
FIDO Alliance
 
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
 
Rによるベイジアンネットワーク入門
Okamoto Laboratory, The University of Electro-Communications
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
CVIM#11 3. 最小化のための数値計算
sleepy_yoshi
 
[DL輪読会]Deep Learning for Sampling from Arbitrary Probability Distributions
Deep Learning JP
 
DSIRNLP06 Nested Pitman-Yor Language Model
Kei Uchiumi
 
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
 
自由エネルギー原理入門: 正規分布を仮定した場合
Masatoshi Yoshida
 
ディープラーニングの最新動向
Preferred Networks
 
Practical recommendations for gradient-based training of deep architectures
Koji Matsuda
 
Deep Dive: Amazon DynamoDB (db tech showcase 2016)
Amazon Web Services Japan
 
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Kazuhiro Ota
 
線形計画法入門
Shunji Umetani
 
Reinforcement Learning @ NeurIPS2018
佑 甲野
 
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
Koichi Hamada
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
 
Prml 2.3
Yuuki Saitoh
 

Viewers also liked (20)

PDF
python-twitterを用いたTwitterデータ収集
Hikaru Takemura
 
PDF
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
 
PDF
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
 
PDF
Pythonで簡単ネットワーク分析
antibayesian 俺がS式だ
 
PDF
10分でわかるPythonの開発環境
Hisao Soyama
 
PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Katsuhiro Morishita
 
PDF
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
 
PDF
Python東海Vol.5 IPythonをマスターしよう
Hiroshi Funai
 
PDF
RとPythonによるデータ解析入門
Atsushi Hayakawa
 
PDF
Scikit learnで学ぶ機械学習入門
Takami Sato
 
PDF
scikit-learnを用いた機械学習チュートリアル
敦志 金谷
 
PDF
Gensim
saireya _
 
PDF
Python入門 : 4日間コース社内トレーニング
Yuichi Ito
 
PDF
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
 
PDF
JupyterNotebookとMySQLでゼロからはじめるデータサイエンス
infinite_loop
 
PDF
ソフトシンセを作りながら学ぶPythonプログラミング
Ransui Iso
 
PDF
Requestsで始める5分前帰社
Satoshi Yamada
 
PPTX
Pythonスタートアップ勉強会201109 python入門
Takayuki Shimizukawa
 
PDF
Pythonによるwebアプリケーション入門 - Django編-
Hironori Sekine
 
PPTX
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
 
python-twitterを用いたTwitterデータ収集
Hikaru Takemura
 
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
 
Pythonで簡単ネットワーク分析
antibayesian 俺がS式だ
 
10分でわかるPythonの開発環境
Hisao Soyama
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Katsuhiro Morishita
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
 
Python東海Vol.5 IPythonをマスターしよう
Hiroshi Funai
 
RとPythonによるデータ解析入門
Atsushi Hayakawa
 
Scikit learnで学ぶ機械学習入門
Takami Sato
 
scikit-learnを用いた機械学習チュートリアル
敦志 金谷
 
Gensim
saireya _
 
Python入門 : 4日間コース社内トレーニング
Yuichi Ito
 
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
 
JupyterNotebookとMySQLでゼロからはじめるデータサイエンス
infinite_loop
 
ソフトシンセを作りながら学ぶPythonプログラミング
Ransui Iso
 
Requestsで始める5分前帰社
Satoshi Yamada
 
Pythonスタートアップ勉強会201109 python入門
Takayuki Shimizukawa
 
Pythonによるwebアプリケーション入門 - Django編-
Hironori Sekine
 
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
 
Ad

Similar to PythonによるWebスクレイピング入門 (20)

PDF
クラウド運用のためのストリームマイニング
Shin Matsumoto
 
PDF
Data Scientist Workbench - dots0729
s. kaijima
 
PDF
概説 Data API v3
Yuji Takayama
 
PDF
地方企業がソーシャルゲーム開発を成功させるための10のポイント
Kentaro Matsui
 
PPTX
Tech fun rails_workshop
OMEGA (@equal_001)
 
PDF
実践!AWSクラウドデザインパターン
Hiroyasu Suzuki
 
PDF
Pythonおじさんのweb2py挑戦記
Yoshiyuki Nakamura
 
PDF
続Pythonによるwebスクレイピング入門
Hironori Sekine
 
PDF
ASP.NET Core 概要(2017年3月時点)
Atsushi Yokohama (BEACHSIDE)
 
PDF
「新しい」を生み出すためのWebアプリ開発とその周辺
Yusuke Wada
 
PDF
Isomorphic web development with scala and scala.js
TanUkkii
 
PDF
Building modernapplicationwithelasiccloud
Shotaro Suzuki
 
PDF
GraphQLはどんな時に使うか
Yutaka Tachibana
 
PPTX
Swagger jjug ccc 2018 spring
kounan13
 
PPTX
インドのインターネット環境 との戦い方
Kenichi Tatsuhama
 
KEY
Rdbms起点で考えると見えない世界 okuyama勉強会
Masakazu Muraoka
 
PDF
Elastic on Azure Integration & Building React UI Based Search App Using Azure...
Shotaro Suzuki
 
PDF
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
 
PDF
Rubyで作るtwitter風webアプリケーション
Naoto Hori
 
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
 
クラウド運用のためのストリームマイニング
Shin Matsumoto
 
Data Scientist Workbench - dots0729
s. kaijima
 
概説 Data API v3
Yuji Takayama
 
地方企業がソーシャルゲーム開発を成功させるための10のポイント
Kentaro Matsui
 
Tech fun rails_workshop
OMEGA (@equal_001)
 
実践!AWSクラウドデザインパターン
Hiroyasu Suzuki
 
Pythonおじさんのweb2py挑戦記
Yoshiyuki Nakamura
 
続Pythonによるwebスクレイピング入門
Hironori Sekine
 
ASP.NET Core 概要(2017年3月時点)
Atsushi Yokohama (BEACHSIDE)
 
「新しい」を生み出すためのWebアプリ開発とその周辺
Yusuke Wada
 
Isomorphic web development with scala and scala.js
TanUkkii
 
Building modernapplicationwithelasiccloud
Shotaro Suzuki
 
GraphQLはどんな時に使うか
Yutaka Tachibana
 
Swagger jjug ccc 2018 spring
kounan13
 
インドのインターネット環境 との戦い方
Kenichi Tatsuhama
 
Rdbms起点で考えると見えない世界 okuyama勉強会
Masakazu Muraoka
 
Elastic on Azure Integration & Building React UI Based Search App Using Azure...
Shotaro Suzuki
 
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
 
Rubyで作るtwitter風webアプリケーション
Naoto Hori
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
 
Ad

PythonによるWebスクレイピング入門