
爬虫
xzhanxiang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在post请求构造data值得时候发现得加密
在采集网页得时候以为正常得网址,构造得时候只构造了当前页数,后来发现无法请求成功,然后发现传入的参数每次都会在你翻页的时候发生变化,好了下面我们来看第一眼我们是不是以为都是正常的请求就行了,因为页码什么的都有,后来返现code这个参数一直发生变化,当时还以为是cookie的问题后来发现是js加密,后面我们找到js肯定不是在jquery里面了,所以我就进去下面这个js去看,发现果然是这个在加密通过看这里你应该就能看出来他的加密了,下面我们只需要调试就行了,调试发现这个值正是我们要传入的参数,我们拿原创 2021-03-17 17:05:28 · 558 阅读 · 0 评论 -
本地python库与其离线包批量导出以及python第三方库快速批量安装
本地python库与其离线包批量导出以及python第三方库快速批量安装首先进入你的黑窗口,pip freeze => request.txt然后就生成了你想要的文件了,我这里是直接在桌面生成的,你可以cd导你的桌面去生成,如果python版本不对应的话,你也可以看你当前的版本是多少,然后去选择你要生成的版本。>pip -V #print(pip 20.2.3 from c:\python39\lib\site-packages\pip (python 3.9))#然后你可以在你生原创 2021-02-06 11:17:43 · 295 阅读 · 0 评论 -
导出csv文件
今天写的是导出的csv文件,在数据爬取的时候方便我们检查下面开始我们的代码操作import csvfrom datetime import datetimeimport osimport pandasclass ItemFileMixIn: # 带OS开头的,说明是用python,os包拼接的文件路径,不存在操作系统不兼容的问题 ROOT_DIR = root_path = os.path.abspath(os.path.dirname(__file__)).rstrip(原创 2021-02-19 10:24:51 · 694 阅读 · 0 评论 -
pycharm中的内置小应用----只为代码好看方便
实时监控自己的代码出现错误,防止错过,这里我们就需要用到自己的邮件了好了,具体我们也不废话了,下面让我们来看代码import osimport tracebackimport smtplibfrom email.mime.application import MIMEApplicationfrom email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextclass Carry_files_E原创 2021-01-26 17:02:59 · 173 阅读 · 0 评论 -
在解析页面的时候碰到AES加密
在当时解析网页的时候,以为只是一个普普通通的请求,一路畅通无阻,结果在解析文本的时候发现他给了一大串的加密过后的东西,通过看这个页面显示的发现是通过AES加密的在这里可以看到有一大陀的数字字母片段,访问的页面需要的内容是没有的,那么这里其实可以看出是AES加密的,那么我们只需要去找到加密的过程进行解密就可以了,好了下面我,我们开始最后我们在js中找到了,显示我们可以看一下他存储的这些解密的可以直接看到然后我们根据它里面提示的这些密码账号可以直接进行解密的代码奉上from Crypto.Cipher原创 2020-10-20 09:52:28 · 242 阅读 · 0 评论 -
爬虫取文本格式的更加简易的操作正则
这个是对爬虫在网页上碰到正则的处理,以及多元性,可以运用正则更加轻松,好了,下面开始上代码 def hander_table(cls, string_content, reg_dict, item, need_reverse=None, need_2list=None, single_line_keys=None,原创 2020-09-08 17:23:26 · 245 阅读 · 0 评论 -
爬虫 对解析文本的一些使用
爬虫 对解析文本的一些使用## 标题当你在爬取网页文本的时候,可能碰到的格式比较多,这时我们就会多写一些代码,这时我们就可以用到这个方法,比较节省代码 def gen_item_with_reg(cls, string_content, reg_dict, item, need_reverse=None, need_2list=None, si原创 2020-08-14 14:24:41 · 364 阅读 · 0 评论 -
把图片转化为文本的格式
这个是在工作中看到同事写的一个,感觉很好用,下面让我们来看具体的代码实现''' 百度图片文字识别接口封装'''import base64from .httplib import HEADERS, retry_get, retry_postclass GeneralOcr(object): '''百度云通用文字识别''' __client_id = 'z9ILc5DopWA5rm4NuAou64GY' __client_secret = 'fAHDaKibD原创 2020-07-20 17:49:31 · 337 阅读 · 0 评论