自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据科学与计算numpy

NumPy 是一个开源的 Python 科学计算库,支持直接操作数组和矩阵,简化循环语句,提供丰富的数学函数。

2025-07-31 16:47:18 107

原创 数据储存总结

这份PPT介绍了如何使用PyMySQL库在Python中操作MySQL数据库,包括安装、基本使用方法和两个实际案例。

2025-07-29 18:01:47 146

原创 MySQL 数据库基础(二)

SQL语句的熟练度需要通过大量练习来提升,尤其是多表连接和子查询部分,建议结合具体案例反复练习。:返回左表所有记录,右表不匹配则为NULL。:返回右表所有记录,左表不匹配则为NULL。连接查询时,字段名需明确表名以避免歧义。注意事项:列数、字段顺序必须一致。后的字段必须是分组字段或聚合函数。多表查询时,使用别名简化代码。:判断子查询是否返回结果。可判断NULL和普通值。在分组前筛选,效率更高。:返回两表匹配的记录。:返回两表的笛卡尔积。

2025-07-28 16:26:13 161

原创 MYSQL

SQLDDL(数据定义语言):定义和修改数据库结构,如CREATEALTERDROP。DML(数据操纵语言):操作数据,如INSERTUPDATEDELETE。DQL(数据查询语言):检索数据,如SELECT。DCL(数据控制语言):管理权限,如GRANTREVOKE。TCL(事务控制语言):管理事务,如COMMITROLLBACK。5. 学习收获掌握了MySQL的基本概念和SQL语法。学会了数据库的创建、表的增删改查。理解了数据类型和约束的作用。能够使用Navicat等工具管理数据库。

2025-07-24 18:44:28 363

原创 爬虫应用开发

爬取人邮图书、酷狗音乐榜、起点中文网数据并存储为CSV文件。分析网页结构,编写XPath规则提取书名、作者、价格等信息。:会话管理、文件上传、SSL证书验证、代理设置。:语法规则、节点定位、属性与文本提取、多值匹配。:精准的路径表达式是关键,需多练习网页结构分析。将爬取的数据存储为CSV文件,便于后续分析。掌握数据存储的基本流程(爬取→解析→存储)。先分析网页DOM结构,再编写XPath规则。:保持登录状态,自动管理Cookies。:灵活运用会话和代理能有效应对反爬机制。:解析HTML并自动补全标签。

2025-07-23 16:39:25 231

原创 静态网页爬取与数据存储

告诉爬虫哪些页面可以抓取,哪些不能抓取,避免对服务器造成负担或侵犯隐私。:结构化存储,适合表格数据,可用Excel打开。,但协议无强制约束性,不遵守可能面临法律问题。:适合存储结构化数据(如API返回的数据)。f.write("爬取的数据"):防止爬取敏感信息(如用户数据)。:数据检索困难,适合存储少量文本。:避免爬虫频繁请求导致网站崩溃。:未经授权抓取数据可能涉及侵权。:需要复杂表格或数据分析时。:允许访问的目录(可选)。:禁止访问的目录(如。:简单、跨平台兼容。

2025-07-22 15:48:45 296

原创 CSS基础语法总结

CSS(层叠样式表,Cascading Style Sheets)是一种用于改变HTML元素默认显示方式的样式语言。

2025-07-21 18:55:53 251

原创 HTML的学习

表单元素:<input>(文本框、单选、复选)、<select>(下拉菜单)、<textarea>(多行文本)<header>、<footer>、<section> 等语义化标签。文本格式化:<b>(加粗)、<i>(斜体)、<u>(下划线)等。标签的嵌套规则(如 <p> 段落、<h1>~<h6> 标题)表格结构:<table>、<tr>(行)、<td>(单元格)<html>、<head>、<body> 三大基本标签。常用HTML标记(文本、列表、表格、超链接、图片等)

2025-07-21 18:51:45 266

原创 Requests实现模拟登录

方法一:直接复制浏览器的Cookie(适合懒人)方法二:用Session对象保持登录状态(更专业)登录后直接访问个人主页会失败(因为没带Cookie)必须用Session保持状态才能持续访问(就像进学校要一直戴着学生证)

2025-07-21 18:44:25 222

原创 静态网页爬取模块

在现在互联网中,几乎所有的 URI 都是 URL,一般的网页链接既可以称为 URL,也可以称为 URI。在节点树中,顶端节点为根,每个节点除根外都有父节点,可拥有任意数量的子节点,同胞是拥有相同父节点的节点。手机号码归属地查询:利用 Get 请求的参数传递特点,构造包含手机号码的 url,获取查询结果的 HTML 内容,体现了对静态网页文本内容的爬取应用。1. 概念:网络爬虫( Crawler,又被称为网页蜘蛛--Spider、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

2025-07-17 14:43:49 368

原创 网络爬虫.

在现在互联网中,几乎所有的 URI 都是 URL,一般的网页链接既可以称为 URL,也可以称为 URI。在节点树中,顶端节点为根,每个节点除根外都有父节点,可拥有任意数量的子节点,同胞是拥有相同父节点的节点。1. 概念:网络爬虫( Crawler,又被称为网页蜘蛛--Spider、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。手机号码归属地查询:利用 Get 请求的参数传递特点,构造包含手机号码的 url,获取查询结果的 HTML 内容,体现了对静态网页文本内容的爬取应用。

2025-07-16 15:43:12 756

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除