- 博客(28)
- 收藏
- 关注
原创 机器学习之集成算法学习
集成学习(ensemble learning)通过构建并结合多个个体学习器来完成学习任务,核心思想是 “集众家之长”—— 就像多个专家共同判断往往比单个专家更可靠。其关键在于如何生成多样化的个体学习器并设计有效的结合策略。随机森林适合处理高维数据,训练高效且结果稳定,是工业界常用的 “万能模型”;AdaBoost 专注于修正错误样本,适合处理非线性问题,但对噪声较敏感;Stacking 灵活性高,可融合多种模型的优势,但实现较复杂。
2025-08-21 15:44:55
639
原创 机器学习之K 均值聚类算法
通过本次学习,我掌握了 K 均值算法的基本原理、实现步骤和代码应用,同时理解了其在处理不同数据集时的优势与局限性,为后续更复杂的聚类任务打下了基础。聚类是机器学习中的无监督学习问题,核心是将相似的数据样本分到同一组,难点在于聚类结果的评估和参数调优。
2025-08-21 15:30:19
189
原创 机器学习之数据预处理学习总结
数据预处理的核心目标是提升数据质量,使数据更适合模型输入。数值型数据常需标准化或归一化;分类特征需根据是否有序选择编码方式;缺失值和离群值需针对性处理,避免影响模型学习。掌握的模块和pandas的相关工具,能高效完成预处理流程,为后续模型训练奠定坚实基础。
2025-08-21 09:41:00
721
原创 决策树学习总结
通过本次学习,对决策树的主要算法、特殊情况处理、剪枝策略、代码实现参数及实践应用有了较为全面的认识,为后续进一步深入学习和应用决策树奠定了基础。今天的课堂练习,使用决策树对泰坦尼克号幸存者进行预测。
2025-08-19 15:11:46
532
原创 决策树学习总结
决策树是一种直观且实用的机器学习模型,其核心在于通过熵和信息增益来选择特征和进行切分,从而构建出能有效进行分类或回归的树模型。通过实际案例的练习,可以更好地理解和掌握决策树的构造过程。
2025-08-18 15:54:34
503
原创 机器学习之 KNN 算法学习总结
知识掌握:深入理解了 KNN 算法的原理和实现流程,掌握了欧式距离、曼哈顿距离等距离度量方法,学会了使用交叉验证选择最优 K 值,能够运用 sklearn 库实现基于 KNN 的分类任务。实践能力:通过电影分类和鸢尾花分类案例,提升了将理论知识应用于实际问题的能力,熟悉了数据集加载、划分、模型训练、评估和预测的完整流程。算法特点认知:认识到 KNN 算法是一种 “惰性学习” 算法,不需要预先训练模型,而是在预测时进行计算,其性能受 K 值和距离度量方式影响较大,在实际应用中需合理选择参数。
2025-08-15 14:30:09
1215
原创 机器学习内容总结
机器学习是通过处理特定任务,以大量经验数据为基础,依据一定的评判标准,分析数据并不断优化任务完成效果的过程。其核心逻辑是从经验中归纳规律,再运用规律对新问题进行预测,具体表现为利用历史数据训练模型,使模型能对未知的新数据做出预测。
2025-08-14 15:09:04
1191
原创 数据分析可视化学习总结(美妆2)
在本次数据分析学习中,我围绕商品销售数据展开了一系列分析与可视化操作,通过 Python 的 matplotlib、seaborn 等库实现了数据的筛选、分组统计及图表绘制,深入理解了数据可视化在业务分析中的应用价值。
2025-08-13 17:59:21
916
原创 数据分析学习总结之实例练习(双十一淘宝美妆)
本次通过对双十一淘宝美妆数据的分析实践,我系统掌握了数据处理与分析的完整流程,从数据初步认知到深度挖掘,再到可视化呈现与结论提炼,收获颇丰。
2025-08-12 17:06:48
1120
原创 爬虫与数据分析结合案例学习总结
今天的学习通过爬虫技术获取了中国大学排名数据,展示了从网页请求、数据解析到存储的完整爬虫流程;随后利用 pandas 进行数据预处理,解决了数据缺失问题;最后通过 matplotlib 绘制柱形图和饼图,直观呈现了不同星级学校的数量及占比分布。整个过程体现了爬虫技术在数据获取中的作用,以及数据分析与可视化在数据解读中的价值,为后续基于该数据的深入研究奠定了基础。
2025-08-11 19:19:04
932
原创 Seaborn 学习总结
今天我学习的Seaborn 是一个建立在 Matplotlib 基础之上的 Python 数据可视化库,它专注于绘制各种统计图形,能让用户更轻松地呈现和理解数据。其设计目标是简化统计数据可视化过程,提供了高级接口和美观的默认主题,使用户通过少量代码就能实现复杂图形的绘制。
2025-08-08 15:47:45
742
原创 Matplotlib 学习总结
今天我学习了Matplotlib ,它是 Python 的绘图库,能轻松将数据图形化,提供多样化输出格式,可绘制静态、动态、交互式图表,如散点图、柱状图等。python运行plt.show()python运行plt.show()
2025-08-07 16:34:33
1241
原创 NumPy 常用函数学习总结(二)
NumPy 提供了一系列用于字符串操作的函数,可对数组中的字符串元素进行处理。,用于计算数组中角度的正弦、余弦、正切值(需先将角度转为弧度)。NumPy 包含多种数学函数,可对数组进行各类数学运算。:向下取整,返回小于或者等于指定表达式的最大整数。:向上取整,返回大于或者等于指定表达式的最小整数。返回输入数组的排序副本,可指定排序轴、排序算法等。用于对数组进行基本的算术运算。返回数组值从小到大的索引值。:返回指定数字的四舍五入值。用于对数组进行统计分析。用于对数组进行排序操作。
2025-08-06 19:22:40
319
原创 NumPy 常用函数学习总结(一)
NumPy 提供了丰富的字符串处理函数,可对字符串或字符串数组进行各种操作。NumPy 提供了丰富的数学运算函数,支持对数组进行批量计算。支持数组间的基本算术运算及特殊运算。:连接两个数组的逐个字符串元素。:返回按元素多重连接后的字符串。用于对数组元素进行统计分析。(需将角度转换为弧度)
2025-08-04 16:33:28
381
原创 NumPy 数组操作学习总结
使用 broadcast_to 函数将数组 a 广播到形状 (4, 4)bb = np.tile(b, (4, 1)) # 重复 b 的各个维度。# 创建一个形状为 (1, 1, 3, 4) 的四维数组。# 创建一个形状为 (2, 3, 4) 的三维数组。# 创建一个形状为 (2, 3, 4) 的三维数组。# 创建一个形状为 (1, 3, 3) 的三维数组。print('调用 ravel 函数之后:')# 创建一个形状为 (1, 4) 的二维数组。# 创建一个形状为 (2, 2) 的二维数组。
2025-08-01 18:28:11
633
原创 NumPy 学习总结
NumPy 是一个开源的 Python 科学计算库,能直接对数组和矩阵进行操作,可省略很多循环语句,其众多数学函数也让编写代码的工作轻松不少。
2025-07-31 17:45:50
1011
原创 BeautifulSoup 数据解析学习总结
BeautifulSoup 是一个用于处理导航、搜索、修改分析树等功能的工具箱,它提供简单、Python 式的函数,能方便地从文档中解析出需要抓取的数据。其具有自动处理编码的特性,会将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码,无需开发者额外考虑编码问题。同时,它还为用户灵活地提供不同的解析策略或强劲的速度。若输出 “Hello”,则说明安装成功。解析器使用方法优点劣势Python 标准库Python 的内置标准库、执行速度适中、文档容错能力强。
2025-07-31 11:58:04
620
原创 MySQL 数据库基础学习总结
CREATE:用于创建数据库对象。CREATE DATABASE (IF NOT EXISTS) 库名;,例如。CREATE TABLE (IF NOT EXISTS) 表名(属性名 数据类型 约束);,例如。ALTER:修改数据库对象结构。ALTER TABLE 表名 ADD COLUMN 列名 数据类型;,如。ALTER TABLE 表名 MODIFY COLUMN 列名 数据类型;,如。ALTER TABLE 表名 CHANGE COLUMN 旧列名 新列名 数据类型;,如。
2025-07-28 17:07:09
804
原创 MySQL 数据库基础学习总结
SQL 是用于组织和访问数据库数据的标准语言,1974 年由 Boyce 和 Chamberlin 提出,具有功能丰富、简洁、灵活的特点。数据定义语言(DDL):用于定义和修改数据库结构,命令有 CREATE、ALTER、DROP、TRUNCATE 等。数据操纵语言(DML):对数据库数据进行操作,命令包括 INSERT、UPDATE、DELETE、CALL 等。数据查询语言(DQL):用于检索数据,主要是 SELECT、WHERE 语句。数据控制语言(DCL)
2025-07-24 18:22:19
883
原创 Requests 库与 XPath 学习总结
在今天的习中,我学习了在爬虫应用开发中,Requests 库的高级用法和 XPath 解析是非常重要的技能。Requests 库能帮助我们与网页进行交互,而 XPath 则能精准提取所需信息,两者结合能高效完成数据爬取任务。
2025-07-24 09:25:59
835
原创 爬虫应用开发之静态网页爬取模块数据存储
网络爬虫在爬取数据时可能引发性能骚扰(增加服务器资源开销)、法律风险(数据产权问题)和隐私泄露(突破访问控制)等问题,因此需遵循 Robots 协议规范行为。爬取数据后需存储,主要学习了 TXT、CSV 文件存储及相关库的使用。
2025-07-22 16:56:58
766
原创 HTML学习和VSCoed下载
输入元素:包括文本域(text)、密码域(password)、单选按钮(radio)、复选框(checkbox)等,通过 <input> 标记实现,不同 type 对应不同功能;下载完成后,会得到一个.exe后缀的安装程序文件。- 基本结构:由 <html> (文件开始)、 <head> (头部,含标题等)、 <title> (标题内容)、 <body> (主体内容)构成。- 图片: <img> ,属性包括路径(src)、提示文字(title)、替代文本(alt)、宽高(width/height)等。
2025-07-18 16:55:59
397
原创 Requests库实现模拟登录
定义登录逻辑,向豆瓣移动端登录接口( url )发送POST请求,提交用户名( name )、密码( password )等参数( parm )。- 定义 headers (请求头),包含浏览器标识( User-Agent )和Cookie信息,模拟真实浏览器的请求环境,避免被网站识别为爬虫。- 使用 requests.session() 创建会话( s ),自动保存登录状态(如Cookie),后续请求可复用该会话,保持登录状态。- 程序运行的起点,先调用 login() 函数执行登录,获取会话对象。
2025-07-18 16:26:02
384
原创 Requests库学习小结
练了表情包爬取和手机号查询案例,思路都是先找URL,再发请求,最后处理返回内容。感觉自己已经能上手简单的爬虫任务了,下次试试爬点更有意思的东西~status_code 看状态(200是成功), text 拿内容, encoding 和 apparent_encoding 解决乱码问题。2.请求方法:GET(查数据)和POST(提交数据)最常用,用哪种得看网站要求,F12开发者工具能帮我们确认。今天学了Requests库,感觉打开了爬虫新世界的大门!1.通用代码框架必须掌握,加了异常处理才不容易翻车。
2025-07-17 17:53:37
214
原创 学习网络爬虫
这个代码中, requests.get 用于发起请求, raise_for_status 检查请求状态,apparent_encoding 处理编码, try - except 进行异常处理 ,从而实现了一个简单的静态网页爬取功能。1.HTTP基本原理:包含URI和URL(URL是资源地址)、超文本、HTTP和HTTPS(HTTPS更安全)、请求过程、请求方式(如GET、POST )、响应(含状态码等)。3.增量式网络爬虫:对已下载网页增量更新,含爬行、排序等模块,使用统一更新法等策略更新页面。
2025-07-17 12:07:51
285
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人