- 博客(13)
- 收藏
- 关注
原创 常见的dos命令
// 盘符: 进入指定的盘下面 dir 列出当前控制台所在的路径下的所有文件以及文件夹 cd 进入指定的路径下 cd … 回退到上一级目录 cd \ 回退到当前路径的根目录 md 文件夹的名字 创建一个文件夹 rd 文件夹的名字 删除一个空文件夹。注意:不能用于删除非空的文件夹 e...
2019-08-12 16:10:46
104
原创 命令
pip install xxx 安装xxx依赖包 pip list 查看所有的依赖包 pip freeze 查看新安装的包 pip uninstall xxx 卸载xxx包
2019-08-12 13:27:32
108
原创 python爬虫的selenium库无头操作
from selenium import webdriver from selenium.webdriver import ChromeOptions co=ChromeOptions() # 新建一个参数对象 co.add_argument('--headless') # 添加参数 dirver=webdriver.Chrome(chrome_options=co) dirver.get("h...
2019-03-22 19:16:24
729
原创 python爬虫的selenium库的使用
from selenium import webdriver from selenium.webdriver.common.keys import Keys broesor =webdriver.Chrome() # 创建一个chrome调试浏览器 broesor.get('http://www.baidu.com/index.html') broesor.find_element_by_nam...
2019-03-22 17:52:47
144
原创 python使用urllib库进行爬虫
from urllib import request # 新建一个http的处理对象 http_handler=request.HTTPHandler(debuglevel=0) # 新建一个打开器 opener=request.build_opener(http_handler) req=request.Request('http://www.baidu.com') res=opener.op...
2019-03-21 20:31:07
121
原创 python爬虫中xpath的用法
import lxml from lxml import etree htmlfiel=''' <html> <body> <ul> <li class="item-0"><a href="link0.html">first item1</a>&...
2019-03-21 20:28:03
401
原创 将爬取的数据写入mysql数据库的代码
def save_to_database(object): db=pymysql.connect(host="127.0.0.1",database="company",user='root',password='123456') # 连接数据库 cursor=db.cursor() # 建立游标 for job in job_list: n...
2019-03-21 19:00:57
1060
原创 爬虫中代理的使用
import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup proxy_get=requests.get('http://193.112.219.93:5000/get') proxy={ 'http':'http://'+proxy_get.text } ua=UserAgent(...
2019-03-20 22:05:55
257
原创 beautifulsoup的用法
from bs4 import BeautifulSoup # 新建一个soup对象 doc_html=""" <title class='title'><a></a></title> """ soup=BeautifulSoup(doc_html,'lxml') print(soup,type(soup)) print(soup.head) # 文...
2019-03-20 21:45:24
234
原创 深度策略进行爬取页面,其中的知识点有re的使用,返回状态码的使用,递归爬取,字典的使用
import re import requests from fake_useragent import UserAgent ua=UserAgent() headers={ 'user-agent':ua.random } def getHTML(url): # 获取这个url的响应 res = requests.get(url=url, headers=header...
2019-03-20 20:04:09
175
原创 爬虫下载cookie
from urllib import request import urllib from http import cookiejar my_cookiejar=cookiejar.LWPCookieJar(filename='baidu.txt') cookie_handler=request.HTTPCookieProcessor(my_cookiejar) opener=request....
2019-03-20 19:16:53
332
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人