- 博客(11)
- 收藏
- 关注
原创 MySQL 数据库基础(二)
SQL语句的熟练度需要通过大量练习来提升,尤其是多表连接和子查询部分,建议结合具体案例反复练习。:返回左表所有记录,右表不匹配则为NULL。:返回右表所有记录,左表不匹配则为NULL。连接查询时,字段名需明确表名以避免歧义。注意事项:列数、字段顺序必须一致。后的字段必须是分组字段或聚合函数。多表查询时,使用别名简化代码。:判断子查询是否返回结果。可判断NULL和普通值。在分组前筛选,效率更高。:返回两表匹配的记录。:返回两表的笛卡尔积。
2025-07-28 16:26:13
161
原创 MYSQL
SQLDDL(数据定义语言):定义和修改数据库结构,如CREATEALTERDROP。DML(数据操纵语言):操作数据,如INSERTUPDATEDELETE。DQL(数据查询语言):检索数据,如SELECT。DCL(数据控制语言):管理权限,如GRANTREVOKE。TCL(事务控制语言):管理事务,如COMMITROLLBACK。5. 学习收获掌握了MySQL的基本概念和SQL语法。学会了数据库的创建、表的增删改查。理解了数据类型和约束的作用。能够使用Navicat等工具管理数据库。
2025-07-24 18:44:28
363
原创 爬虫应用开发
爬取人邮图书、酷狗音乐榜、起点中文网数据并存储为CSV文件。分析网页结构,编写XPath规则提取书名、作者、价格等信息。:会话管理、文件上传、SSL证书验证、代理设置。:语法规则、节点定位、属性与文本提取、多值匹配。:精准的路径表达式是关键,需多练习网页结构分析。将爬取的数据存储为CSV文件,便于后续分析。掌握数据存储的基本流程(爬取→解析→存储)。先分析网页DOM结构,再编写XPath规则。:保持登录状态,自动管理Cookies。:灵活运用会话和代理能有效应对反爬机制。:解析HTML并自动补全标签。
2025-07-23 16:39:25
231
原创 静态网页爬取与数据存储
告诉爬虫哪些页面可以抓取,哪些不能抓取,避免对服务器造成负担或侵犯隐私。:结构化存储,适合表格数据,可用Excel打开。,但协议无强制约束性,不遵守可能面临法律问题。:适合存储结构化数据(如API返回的数据)。f.write("爬取的数据"):防止爬取敏感信息(如用户数据)。:数据检索困难,适合存储少量文本。:避免爬虫频繁请求导致网站崩溃。:未经授权抓取数据可能涉及侵权。:需要复杂表格或数据分析时。:允许访问的目录(可选)。:禁止访问的目录(如。:简单、跨平台兼容。
2025-07-22 15:48:45
296
原创 HTML的学习
表单元素:<input>(文本框、单选、复选)、<select>(下拉菜单)、<textarea>(多行文本)<header>、<footer>、<section> 等语义化标签。文本格式化:<b>(加粗)、<i>(斜体)、<u>(下划线)等。标签的嵌套规则(如 <p> 段落、<h1>~<h6> 标题)表格结构:<table>、<tr>(行)、<td>(单元格)<html>、<head>、<body> 三大基本标签。常用HTML标记(文本、列表、表格、超链接、图片等)
2025-07-21 18:51:45
266
原创 Requests实现模拟登录
方法一:直接复制浏览器的Cookie(适合懒人)方法二:用Session对象保持登录状态(更专业)登录后直接访问个人主页会失败(因为没带Cookie)必须用Session保持状态才能持续访问(就像进学校要一直戴着学生证)
2025-07-21 18:44:25
222
原创 静态网页爬取模块
在现在互联网中,几乎所有的 URI 都是 URL,一般的网页链接既可以称为 URL,也可以称为 URI。在节点树中,顶端节点为根,每个节点除根外都有父节点,可拥有任意数量的子节点,同胞是拥有相同父节点的节点。手机号码归属地查询:利用 Get 请求的参数传递特点,构造包含手机号码的 url,获取查询结果的 HTML 内容,体现了对静态网页文本内容的爬取应用。1. 概念:网络爬虫( Crawler,又被称为网页蜘蛛--Spider、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
2025-07-17 14:43:49
368
原创 网络爬虫.
在现在互联网中,几乎所有的 URI 都是 URL,一般的网页链接既可以称为 URL,也可以称为 URI。在节点树中,顶端节点为根,每个节点除根外都有父节点,可拥有任意数量的子节点,同胞是拥有相同父节点的节点。1. 概念:网络爬虫( Crawler,又被称为网页蜘蛛--Spider、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。手机号码归属地查询:利用 Get 请求的参数传递特点,构造包含手机号码的 url,获取查询结果的 HTML 内容,体现了对静态网页文本内容的爬取应用。
2025-07-16 15:43:12
756
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人