自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 常见的dos命令

// 盘符: 进入指定的盘下面 dir 列出当前控制台所在的路径下的所有文件以及文件夹 cd 进入指定的路径下 cd … 回退到上一级目录 cd \ 回退到当前路径的根目录 md 文件夹的名字 创建一个文件夹 rd 文件夹的名字 删除一个空文件夹。注意:不能用于删除非空的文件夹 e...

2019-08-12 16:10:46 104

原创 Java基础知识

// 单行注释 /* …/ 多行注释 /**…/ 文档注释

2019-08-12 13:44:08 99

原创 命令

pip install xxx 安装xxx依赖包 pip list 查看所有的依赖包 pip freeze 查看新安装的包 pip uninstall xxx 卸载xxx包

2019-08-12 13:27:32 108

原创 python爬虫的selenium库无头操作

from selenium import webdriver from selenium.webdriver import ChromeOptions co=ChromeOptions() # 新建一个参数对象 co.add_argument('--headless') # 添加参数 dirver=webdriver.Chrome(chrome_options=co) dirver.get("h...

2019-03-22 19:16:24 729

原创 python爬虫的selenium库的使用

from selenium import webdriver from selenium.webdriver.common.keys import Keys broesor =webdriver.Chrome() # 创建一个chrome调试浏览器 broesor.get('http://www.baidu.com/index.html') broesor.find_element_by_nam...

2019-03-22 17:52:47 144

原创 python使用urllib库进行爬虫

from urllib import request # 新建一个http的处理对象 http_handler=request.HTTPHandler(debuglevel=0) # 新建一个打开器 opener=request.build_opener(http_handler) req=request.Request('http://www.baidu.com') res=opener.op...

2019-03-21 20:31:07 121

原创 python爬虫中xpath的用法

import lxml from lxml import etree htmlfiel=''' <html> <body> <ul> <li class="item-0"><a href="link0.html">first item1</a>&...

2019-03-21 20:28:03 401

原创 经常使用到的一些命令

退出虚拟环境的命令deactivate

2019-03-21 19:15:18 96

原创 将爬取的数据写入mysql数据库的代码

def save_to_database(object): db=pymysql.connect(host="127.0.0.1",database="company",user='root',password='123456') # 连接数据库 cursor=db.cursor() # 建立游标 for job in job_list: n...

2019-03-21 19:00:57 1060

原创 爬虫中代理的使用

import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup proxy_get=requests.get('http://193.112.219.93:5000/get') proxy={ 'http':'http://'+proxy_get.text } ua=UserAgent(...

2019-03-20 22:05:55 257

原创 beautifulsoup的用法

from bs4 import BeautifulSoup # 新建一个soup对象 doc_html=""" <title class='title'><a></a></title> """ soup=BeautifulSoup(doc_html,'lxml') print(soup,type(soup)) print(soup.head) # 文...

2019-03-20 21:45:24 234

原创 深度策略进行爬取页面,其中的知识点有re的使用,返回状态码的使用,递归爬取,字典的使用

import re import requests from fake_useragent import UserAgent ua=UserAgent() headers={ 'user-agent':ua.random } def getHTML(url): # 获取这个url的响应 res = requests.get(url=url, headers=header...

2019-03-20 20:04:09 175

原创 爬虫下载cookie

from urllib import request import urllib from http import cookiejar my_cookiejar=cookiejar.LWPCookieJar(filename='baidu.txt') cookie_handler=request.HTTPCookieProcessor(my_cookiejar) opener=request....

2019-03-20 19:16:53 332

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除