- 博客(242)
- 资源 (19)
- 收藏
- 关注
原创 Pandas 合并数据集:concat 和 append
一些最有趣的数据研究来自于合并不同的数据源。 这些操作可以包括从非常简单的两个数据集的拼接,到更复杂的数据库式连接和合并,这些操作能够正确处理数据集之间的重叠部分。 `Series` 和 `DataFrame` 都是为这种操作设计的,Pandas 提供了函数和方法,使得这种数据整理变得快速且简单。
2025-08-22 22:39:30
1031
原创 OFD格式文件及Python将PDF转换为OFD格式文件
本文介绍了OFD格式文档以及如何使用Python的`easyofd`库将PDF文件转换为OFD格式。
2025-08-22 22:33:28
977
原创 C# 使用iText获取PDF的trailer数据
使用 iText 获取 PDF 的 trailer 数据是一个稍微底层一些的操作,但完全可以实现。trailer 是 PDF 文件结构的核心部分,它告诉解析器如何找到文件的关键部分,比如交叉引用表 (xref)、文档信息字典 (/Info) 和文档根对象 (/Root)。
2025-08-09 13:42:04
711
原创 Pandas 分层索引
本笔记系统介绍了 Pandas 的分层索引(MultiIndex)及其在 Series 和 DataFrame 中的应用。内容涵盖了分层索引的创建方法(如 from_tuples、from_arrays、from_product 等)、索引和切片操作、索引排序、堆叠与反堆叠(stack/unstack)、索引与列之间的转换(reset_index/set_index),以及多重索引在实际数据分析中的优势。通过丰富的代码示例,展示了如何灵活、高效地处理高维数据,并强调了分层索引在数据探索和处理中的重要作用。
2025-08-09 10:20:19
795
原创 编码器和解码器风格的Transformer架构
纯编码器模型侧重理解,纯解码器模型侧重生成,编码器-解码器混合模型则兼顾理解与生成,适用于更广泛的NLP任务。随着模型能力提升,三类结构的界限也在逐渐模糊,出现了更多统一和多功能的Transformer模型。
2025-07-27 18:50:21
1153
原创 宏观杠杆率及其数据获取(使用AKShare)
本文介绍了宏观杠杆率的定义、意义及其在中国经济中的应用,并通过AKShare库获取了中国宏观杠杆率的历史数据。随后,利用Matplotlib对各部门杠杆率的变化趋势进行了可视化分析。通过数据和图表可以直观了解中国居民、企业、政府及金融部门的杠杆率变化,为宏观经济风险监测和政策制定提供了数据支持。
2025-07-26 21:20:31
865
原创 资产负债表及其数据获取
本笔记介绍了资产负债表的基本概念及其在股票投资分析中的重要性,详细说明了如何使用 AKShare 获取沪深 A 股上市公司的资产负债表数据,并通过 pandas 进行数据处理和分析。我们以 2025 年第一季度为例,获取了全市场资产负债表数据,计算了“货币资金比总负债”等关键财务指标,并将结果保存为 Excel 文件,便于后续分析。通过本流程,投资者可以高效获取和分析上市公司财务健康状况,为投资决策提供数据支持。
2025-07-26 20:51:09
922
原创 C# WPF 实现读取文件夹中的PDF并显示其页数
工作中需要整理一些PDF格式文件,程序员的存在就是为了让大家可以“更高效地工作”,而AI的出现就可以让程序更“高效地工作”,于是求助于很长(我指上下文)的Gemini,它帮助了我快速搭建项目,但也给我留下了坑(见本文“后记”部分),于是我把这个开发过程记录了下来。
2025-07-25 21:23:12
1136
原创 Pandas 处理缺失数据
本文介绍了现实世界中缺失数据的常见情况及其在 Pandas 中的处理方式。我们讨论了缺失值的两种主要表示方法(掩码和哨兵值),并重点介绍了 Pandas 对 None、NaN 和 pd.NA 的支持及其背后的权衡。通过示例演示了缺失值的检测(isnull、notnull)、删除(dropna)和填充(fillna、ffill、bfill)等常用操作。此外,还介绍了 Pandas 的可空数据类型(如 Int32),使得带缺失值的整数数据能够被更好地支持。掌握这些方法有助于在数据分析过程中更高效、灵活地处理缺失
2025-07-25 21:04:52
1688
原创 股市中的险资举牌及其数据获取
本笔记介绍了险资举牌的定义、特征及其在股市中的重要意义,并详细说明了如何通过 AkShare 获取险资举牌相关数据。通过实际数据展示,可以发现险资举牌的股票并不一定业绩优异,投资者需结合公司基本面、行业地位等多维度进行分析。数据的自动化获取和保存为 Excel 文件,有助于后续深入研究险资举牌行为及其对市场的影响。
2025-07-21 20:22:53
858
原创 股票分红派息及其数据获取(使用Python)
本文介绍了股票分红派息的基本概念及其在投资中的重要性,并详细说明了如何通过 AkShare 数据接口获取分红派息数据。通过实际代码演示,展示了如何查询当天及未来15天的分红派息信息,并将结果汇总保存为 Excel 文件。整个流程实现了分红数据的自动化采集和整理,为投资者分析分红机会提供了便利的数据支持。
2025-07-21 19:41:41
1068
原创 使用akshare获取机构推荐池数据
该接口用于获取新浪财经的机构推荐池数据,涵盖最新投资评级、目标价、行业分类等关键指标。数据来源为专业金融机构(券商、基金等)发布的股票评级报告,反映市场主流机构对个股的价值判断。
2025-07-17 21:45:05
758
原创 机构参与度及其Python数据获取示例
机构参与度:衡量机构投资者(如基金、保险公司)在个股交易中的活跃程度和持仓比例,数值范围0-100%。例如,数值30%表示该股票30%的流通股被机构持有。本文使用akshare调用机构参与度接口。
2025-07-14 22:21:10
782
原创 Pandas 中的数据操作
NumPy 的核心优势之一在于支持快速执行逐元素操作(element-wise operations),涵盖基础算术运算(加、减、乘等)及复杂运算(三角函数、指数与对数函数等)。
2025-07-13 14:33:29
1179
原创 使用AKShare获取全国主要城市空气质量
根据提供的文档,我们可以使用AKShare的air_quality_rank接口获取全国各大城市的空气质量数据。
2025-07-13 13:28:58
754
原创 自注意力机制及其与早期注意力机制的区别
自注意力机制(Self-Attention)作为Transformer架构的核心,其命名和设计理念源于对早期注意力机制的扩展与重构。
2025-07-13 12:07:34
1098
原创 Rust 模块系统:控制作用域与私有性
模块(mod)是 Rust 组织代码的核心机制,用于封装代码、管理作用域和实现私有性控制。核心概念包括:模块声明、路径(paths)、pub 公开性 和 use 快捷引用。
2025-07-13 11:39:30
807
原创 使用Python和AkShare轻松获取新闻联播文字稿:从数据获取到文本挖掘
新闻联播作为国内权威新闻节目,其内容对政策导向、市场趋势具有显著影响。据深交所统计,政策类新闻对相关板块的刺激效应平均持续21个交易日,如何高效获取并分析这些关键信息?Python库 AkShare 提供了完整的解决方案。
2025-07-11 23:33:38
1635
原创 关于大模型引用特定网页或文章的思考
突发奇想,想让大模型引用自己的网页或者文章,于是问了大模型,也查找了资料——要让大模型的回答引用特定的网页和文章,关键在于理解AI生成内容的运作逻辑,并针对性优化内容策略。以下是系统化的解决方案,结合AI引用机制、内容优化、技术对接和品牌建设四个维度
2025-07-11 21:42:00
934
原创 微博舆情:散户看不见的“市场情绪雷达”?用Python一键捕捉股价波动信号
当千万条微博讨论汇聚成投资风向标,你是否能从中嗅到财富机会?本文将用代码揭秘舆情数据与股价的隐秘关联。
2025-07-09 21:45:30
1148
原创 破净股:被市场错杀的“黄金陷阱”?用Python一键挖掘低估宝藏!
什么是破净股,破净股在股票投资中有什么意义,使用akshare库读取破净股列表的Python程序。
2025-07-09 21:18:40
1045
原创 物流景气指数:经济运行的“晴雨表”——Python使用akshare获取该数据
物流景气指数(Logistics Prosperity Index, LPI)是反映物流行业整体运行状况的综合性指标。它通过对物流企业的业务量、新订单、从业人员、库存周转率、设备利用率等关键指标进行加权计算,形成的一个综合指数。使用Python调用akshare库,可以获取并分析该指标。
2025-07-08 19:07:44
381
原创 股票筹码分布及其数据获取
筹码分布(也称为成本分布)是一种展示股票持仓成本结构的技术分析工具。它通过统计不同价格区间的成交量分布,直观呈现市场参与者的持股成本集中区域。本文继续金融知识与程序开发相结合……
2025-07-07 23:44:58
2813
原创 Pandas 索引器 loc 和 iloc 比较及代码示例
优先用 loc 保证可读性,性能敏感时切 iloc。始终通过 print(df.head()) 确认数据结构,避免索引混淆。
2025-07-06 15:19:31
633
原创 Pandas 数据索引与选择
之前,我们详细介绍了访问、设置和修改 NumPy 数组中数值的方法和工具。这些方法包括索引(例如 arr[2, 1])、切片(例如 arr[:, 1:5])、掩码(例如 arr[arr > 0])、花式索引(例如 arr[0, [1, 5]])以及它们的组合(例如 arr[:, [1, 5]])。在这里,我们将学习类似的方法来访问和修改 Pandas 的 Series 和 DataFrame 对象中的数值。如果你已经使用过 NumPy 的这些模式,那么在 Pandas 中的对应用法会让你感觉很熟悉,尽
2025-07-06 14:58:08
1068
原创 突破山脊线及向上突破数据获取:揭秘股票技术选股中的“向上突破”密码
在股市的崇山峻岭中,向上突破如同登山者翻越最后一道山脊线——它既是趋势逆转的冲锋号,也是资金博弈的分水岭。本文将深入解析这一技术信号的核心逻辑、实战意义及操作策略,助你精准捕捉起涨点,并应用AkShare获取“向上突破”的数据。
2025-07-05 13:34:51
1379
原创 Rust简洁控制流:if let与let else高效编程指南
在Rust中,`if let`和`let else`是处理单一匹配场景的利器,它们让代码更简洁、更聚焦。本文将深入探索这两种语法糖的妙用!
2025-07-05 12:17:50
1139
原创 akshare获取向下突破数据
本笔记通过akshare接口获取了跌破500日、250日、60日均线的A股股票数据,并分别保存为以当前日期命名的CSV文件。跌破长期均线(如500日、250日)通常被视为股票长期趋势转弱的重要信号,跌破60日均线则反映中期趋势走弱。实际操作中,需结合成交量、技术指标及基本面等多维度综合判断,避免因单一信号导致误判。本流程为量化选股和风险监控提供了数据基础和自动化工具。
2025-07-04 21:43:03
1017
原创 Rust match 控制流结构
match是Rust中最强大的控制流工具之一,它提供了一种优雅的方式来处理多种可能性。就像硬币分拣机一样,match能够精确地将值分配到正确的处理路径。
2025-07-04 20:54:32
517
原创 Rust枚举:让数据类型告别单调乏味
枚举(Enum)是Rust中强大的数据类型,它能优雅地表示"多选一"的场景。与只能表示"且"关系的结构体不同,枚举擅长表达"或"关系的数据结构。
2025-07-03 21:11:00
1125
原创 Rust方法语法:赋予结构体行为的力量
在Rust中,方法是为结构体添加行为的核心工具。它们让数据与操作紧密结合,形成真正的面向对象编程体验。下面我们将通过一个矩形案例,全面探索Rust方法语法的精髓!
2025-07-03 20:54:11
376
原创 结构体实战:用Rust编写矩形面积计算器
让我们通过一个生动的例子来探索Rust结构体的强大功能!我们将创建一个矩形面积计算器,逐步展示如何使用结构体组织相关数据。
2025-07-01 22:45:41
380
原创 Rust 定义与实例化结构体
结构体(struct)是Rust中组织和封装相关数据的核心工具。它通过命名字段将不同类型的数据组合成一个有意义的整体,提供比元组更清晰的语义和更强的类型安全性。本章将深入探讨结构体的定义、实例化及高级技巧。
2025-07-01 22:13:52
1085
原创 Pandas 对象介绍
本文介绍了 Pandas 的三大核心数据结构:Series(一维带索引数组)、DataFrame(二维表格型数据结构)和 Index(用于存储轴标签的对象)。我们学习了它们的基本用法、构造方式以及与 NumPy 数组和 Python 字典的类比。通过实际代码示例,展示了如何利用这些结构进行高效的数据访问、切片、索引和集合操作。掌握这些基础,为后续深入数据分析和处理打下了坚实的基础。
2025-06-30 12:54:11
1267
原创 NLP文本数据增强
数据增强通过对原始数据进行变换、扩展或扰动,生成新的训练样本,从而提升模型的泛化能力,减少过拟合。在文本数据中,常用的数据增强技术包括:同义词替换:将句子中的部分词语替换为其同义词。随机插入:随机在句子中插入与上下文相关的词语。随机删除:随机删除句子中的某些词语。随机交换:随机交换句子中两个词语的位置。回译(Back Translation):将文本翻译为其他语言后再翻译回来,获得语义相近但表达不同的新句子。文本生成模型:利用预训练语言模型(如GPT、BERT等)生成与原句语义相似的新文本。
2025-06-30 10:04:07
834
原创 NLP文本增强——随机删除
随机删除是一种常用的文本数据增强方法,其核心思想是以一定的概率随机删除句子中的某些词语,从而生成新的训练样本。这种方法可以帮助模型适应输入中可能出现的噪声或缺失,提高模型的鲁棒性和泛化能力。
2025-06-29 23:08:10
281
原创 NLP随机插入
随机插入是一种文本数据增强方法,其核心思想是在原句中随机选择若干位置,插入与上下文相关的词语,从而生成新的训练样本。这种方法能够增加句子的多样性,提高模型对不同词序和表达方式的鲁棒性。
2025-06-29 23:02:03
226
vue3 typescript gauge仪表盘效果示例
2024-04-24
nvm-windows (symlink识别修改)源代码及应用程序
2023-09-19
OpenCV-4.5.5 Visual Studio 2019 (VC16)源代码
2022-04-16
OpenCV4.5.5及OpenCV-contrib源代码(适用于VS2019及VS2022)
2022-04-17
[Go语言入门(含源码)] The Way to Go (with source code)
2014-06-11
Pro LINQ: Language Integrated Query in C# 2010 (含源码)
2014-06-17
Android攻略第二版 Android Recipes 2nd Edition Dec 2012 (含源代码)
2014-03-18
VC操作Word文件
2015-09-17
Pro WPF 4.5 in C# (Pro WPF系列第四版 英文书及其源代码)
2014-02-17
iText in Action 2nd Edition iText实战第二版(含源代码)
2013-02-26
Cryptography in C and C++, Second Edition (With Source Code)
2013-10-17
Pro WPF in C# 2010 (第三版,英文原版及源代码)
2014-02-17
VarCfg C# 简单XML配置类
2012-05-08
锋利的jQuery
2012-05-11
jquery.validation 工具
2013-05-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人