
数据分析
numpy、pandas
深蓝冰河
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python批量把表格的图片链接变图片
import requests# from openpyxl import Workbookfrom openpyxl import load_workbookfrom openpyxl.drawing.image import Image#当前模块主要功能:把表格的图片链接列下载下来,插入对应列,设置宽高#子函数1:图片下载def download_img(url,file_name): res = requests.get(url) img = open(img_path原创 2021-05-25 14:47:50 · 1135 阅读 · 0 评论 -
为安卓系统(夜神模拟器)添加Mitmproxy证书
说明Android证书分为“用户证书”和“系统证书”两种,在设置->安全->"查看安全证书"列表中,可以看到“系统”和“用户”两个列表。用户通过浏览器下载安装或者通过WLAN高级设置安装的证书均为用户证书。安装为系统证书有什么好处呢?(1)安装用户证书必须要设置开机密码,而且设置后就不能取消,除非先删掉所有的用户证书。如果安装为系统证书就不需要设置开机密码,自动化操作时更方便。(2)Android 7以上版本APP默认不信任用户证书,只信任系统证书,安装为用户证书,对APP的HTT原创 2021-05-23 19:57:58 · 5489 阅读 · 5 评论 -
pandas写入表格 pd.to_excel()写入表格不同工作表、写入不同表格,不同工作表
写入表格不同工作表(工作表同名则覆盖)import pandas as pdwriter=pd.ExcelWriter(ExcelFile,engine='openpyxl',index=True,encoding='utf-8-sig') df_titlerank.to_excel(writer,sheet_name='标题词权重计数') df_wordCount.to_excel(writer,sheet_name='标题词计数') writer.save()写入不同表格,不同工作表(工原创 2021-05-19 22:12:39 · 2781 阅读 · 0 评论 -
mitmproxy常用response/request 方法参数 API
针对http,常用的APIhttp.HTTPFlow 实例 flowflow.request.headers #获取所有头信息,包含Host、User-Agent、Content-type等字段flow.request.url #完整的请求地址,包含域名及请求参数,但是不包含放在body里面的请求参数flow.request.pretty_url #同flow.request.url目前没看出什么差别flow.request.host #域名flow.request.method #请求方式。原创 2021-05-06 19:24:57 · 5942 阅读 · 0 评论 -
查看谷歌浏览器chrome默认用户数据目录、启动时的命令参数、chrome命令参数大全,及selenium的使用
1)查看用户数据目录1、在地址栏输入 chrome:version2、随后查看谷歌浏览器保存文件的位置:个人资料路径路径一般为:C:\Users\Administrator\AppData\Local\Google\Chrome\User Data\Default2)chrome命令参数,及selenium的使用目前我封装是这样配置的options=webdriver.ChromeOptions()options.add_argument(r’–user-data-dir=C:\Users\原创 2021-05-06 16:21:33 · 9521 阅读 · 0 评论 -
selenium技巧:谷歌chrome浏览器准备:以调试模式在指定端口打开,指定个人数据存放目录、连接控制已打开的浏览器、标签页新建/切换,操作
1)selenium控制已打开的浏览器谷歌浏览器准备:以调试模式在指定端口打开、指定个人数据存放目录cmd运行如下命令:需建chrome环境变量或直接建快捷方式:右键属性–目标里 接上chrome.exe后命令如下chrome.exe --remote-debugging-port=9222 --user-data-dir="F:\Demo\python\common\seleniumChromeProfile"from selenium import webdriverfrom selen原创 2021-05-06 15:12:36 · 4568 阅读 · 1 评论 -
puppeteer自动化及爬虫:连接现有谷歌浏览器、新建窗口
1)安装puppeteer官方文档:https://zhaoqize.github.io/puppeteer-api-zh_CN/#/知乎教程:https://zhuanlan.zhihu.com/p/66296309# 1.仅安装核心,然后用chrome运行,不下载Chromium 【建议方式】cnpm i puppeteer-core# or "yarn add puppeteer-core"# 2.下载完整版本,含chromium,速度慢npm i puppeteer# or "ya原创 2021-05-02 08:49:40 · 1821 阅读 · 1 评论 -
pd商品js采集为json格式、一键导出为csv格式并下载
1.采集所有商品信息打开分类列表,打开控制台输入如下代码// var li1=document.getElementsByClassName('_3iNHeZU4>div')var li1=document.querySelectorAll('._3iNHeZU4>div')var products=[]var product={}for(var i=1;i<=li1.length;i++){ title=li1[i].querySelector('._1Tk_m28N s原创 2021-04-18 20:11:21 · 268 阅读 · 0 评论 -
谷歌插件web scraper拼多逐个点击每个sku并爬取多sku爬取各sku对应价格等信息,及导出的写好脚本(打开复制导入即可)
爬取各sku对应价格等信息重点操作1创建一个点击项把sku点开2创建一个sku点击项3从2项点进去创建一个子项各项关系图谷歌插件web scraper拼多逐个点击每个sku并爬取多sku导出脚本(打开复制导入即可)点击import sitemap,把以下json复制进去即可{ "_id": "pdd_detail", "startUrl": ["https://mobile.yangkeduo.com/goods.html?goods_id=175451208823"],原创 2021-04-08 13:53:22 · 954 阅读 · 0 评论 -
用selenium隐藏webdriver信息爬取淘宝:自动写读cookie实现自动登录、判断是否登录、EC显示等待使用、pyquery空标签perser处理
spider.py原创 2021-04-06 22:06:42 · 290 阅读 · 0 评论 -
appium的安装+连接夜神模拟器控制app
一、下载夜神模拟器官网:https://www.yeshen.com1.安步骤安装即可2.配置把android sdk的C:\Users\Administrator\AppData\Local\Android\Sdk\platform-tools\adb.exe复制到C:\Program Files\Nox\bin中,并改名为nox_adb.exe(原nox_adb.exe随便改个名字即可)二、安装及配置appium官网:appium.io下载地址:github.com/appium/a原创 2021-03-26 21:00:18 · 446 阅读 · 0 评论 -
anaconda指定目录打开jupyter notebook
一、指定目录打开notebook方法一:直接在目标文件夹shift+右键 打开命令提示符输入:jupyter notebook注:此命令需要在安装anaconda时勾选:【not recommend】注册环境变量否则需要手工添加以下环境变量(我的电脑右键>属性>高级系统设置>环境变量):C:\ProgramData\Anaconda3\Scripts;C:\ProgramData\Anaconda3\Library\mingw-w64\bin;C:\ProgramData原创 2021-01-13 21:56:12 · 4351 阅读 · 1 评论 -
pandas基础
一、pandas简介pandas是一个强大的Python数据分析的工具包。pandas是基于NumPy构建的。1.pandas的主要功能:具备对其功能的数据结构DataFrame、Series集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据2.安装方法:pip install pandas3.引用方法:import pandas as pd二、panda...原创 2019-11-01 09:41:28 · 518 阅读 · 0 评论 -
NumPy基础
创建ndarray数组:import numpy as np np.array([2,3]) #创建一个2行3列的一维ndarray数组常用属性T 数组的转置(对高维数组而言)dtype 数组元素的数据类型size 数组元素的个数ndim 数组的维数shape 数组的维度大小(以元组形式)数据类型dtype:bool_ , int(8, 16,32,64), uint(...原创 2019-10-24 09:58:43 · 239 阅读 · 0 评论