
pandas
文章平均质量分 89
像风一样自由2020
深度学习,神经网络,python
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python中如何实现高效的列表过滤
本文详细介绍了Python中实现高效列表过滤的多种方法,包括基础的for循环、列表推导式、filter函数、itertools模块,以及高级的pandas和numpy库。我们还讨论了生成器的使用,以及在实际场景中的应用。通过性能测试和优化建议,希望你能选择最适合自己需求的方法,提高代码的效率和可读性。关键要点:根据数据规模选择工具:小规模数据使用列表推导式即可;大规模数据考虑numpy或pandas。注重代码可读性:清晰、易读的代码更易于维护和扩展。性能优化。原创 2024-11-12 08:34:16 · 2451 阅读 · 1 评论 -
利用 Feather 格式加速数据科学工作流:Pandas 中的最佳实践
Feather 是一种二进制文件格式,由 Apache Arrow 项目开发,专为高效的读写操作设计。它支持不同编程语言之间的数据交换,并且适用于大规模数据存储和传输。Pandas 提供了对 Feather 的直接支持,允许用户轻松将DataFrame转换为 Feather 文件格式,并在不同环境中快速加载。Feather 格式为数据科学工作流中的读写性能提升带来了显著的优势,特别适用于需要高频率存取的大型数据集。通过熟练掌握 Feather 与 Pandas 的结合使用技巧,可以大幅提升数据处理的效率。原创 2024-11-05 15:56:33 · 1178 阅读 · 0 评论 -
pandas在数据清洗中的实际应用
在当今数据驱动的时代,数据已成为企业和研究机构做出明智决策的核心要素。如果不对这些问题进行处理,可能会导致分析结果的偏差,甚至得出错误的结论。通过实际的代码示例,逐步演示从数据读取、缺失值处理、重复值删除、数据类型转换、异常值处理到数据标准化的完整流程。从数据读取、缺失值处理、重复值删除、数据类型转换、异常值处理,到数据标准化和字符串处理,我们涵盖了数据清洗的主要步骤和方法。接下来,我们将从 pandas 库的简介开始,逐步深入数据清洗的各个环节。为例,演示完整的数据清洗流程。在众多数据处理工具中,原创 2024-10-17 10:29:34 · 1112 阅读 · 0 评论 -
Pandas 中 transform() 与 apply() 的联系与区别
和apply()是 Pandas 中处理分组数据的两个重要方法。更适合用于简单的转换操作,而apply()则具有更大的灵活性,适合用于复杂的数据处理需求。在选择时,需要根据具体任务的复杂性和结果的需求来决定使用哪个方法。原创 2024-10-15 14:02:55 · 515 阅读 · 0 评论 -
Pandas GroupBy 详解2:深入理解与实践
apply()方法允许我们对每个组执行自定义的操作,具有极高的灵活性。df['标准化销售额'] = df.groupby('城市')['销售额'].apply(standardize)print(df)城市 销售额 月份 平均销售额 标准化销售额0 北京 100 一月 90.0 0.7302971 上海 200 一月 225.0 -0.7071072 广州 150 一月 135.0 0.7071073 北京 80 二月 90.0 -1.095445。原创 2024-10-15 13:56:25 · 813 阅读 · 0 评论 -
深入理解 Pandas 分组聚合:从基础到进阶-groupby使用
分组聚合是指将数据按某些条件进行分组,然后对每组数据进行某种计算,如求和、平均值、计数等。使用groupby()进行分组。使用聚合函数对分组后的数据进行汇总。我们还可以使用自定义的聚合函数。custom_agg = df.groupby('城市')['销售额'].agg(lambda x: x.max() - x.min())城市北京 20广州 30上海 50Name: 销售额, dtype: int64。原创 2024-10-15 11:18:43 · 1392 阅读 · 0 评论 -
pandas学习笔记-第10章-综合练习
第一步导入所需的库一、评委打分某比赛有1000名选手,300位评委打分,每个选手由三个不同的评委打分,每位评委打10位选手的分现在需要将各个评委的编号转到列索引,行索引不变,表格内容为打分分数,缺失值(即选手i没有被评委j打分)用’-'填充二、企业收入熵指数一个企业的产业多元化水平可以由收入熵指数计算衡量,其公式为−Σ???? ???? ln???? ????−ΣPilnPi,其中i表示第i个收入类型,???? ????Pi表示该类型收入额所占整个收入额的比重(因此Σ??原创 2020-06-30 09:54:03 · 1085 阅读 · 0 评论 -
遗传算法求三元函数极值(python)-采用实数编码2
这次代码的修改点在select函数中,在100个个体中,通过轮盘赌选择出前48个个体,然后再选择出最优个体和最差个体,总共50个,然后再在轮盘赌中后剩下的50个个体进行交叉和变异,返回出50个,这样50+50=100个体作为下一次进化的初始种群,如此不断循环,得出结果。select如下:def select(pop, fitness): # nature selection wrt pop's fitness # fitnew=fitness.copy() #深拷贝 fitnew =原创 2020-06-29 20:07:17 · 1041 阅读 · 0 评论 -
pandas学习笔记-第9章-时序数据的处理
同样,首先导入相应库和数据。一、时序的创建二、时序的索引及属性三、重采样四、窗口函数【练习一】 现有一份关于某超市牛奶销售额的时间序列数据,请完成下列问题:(a)销售额出现最大值的是星期几?(提示:利用dayofweek函数)(b)计算除去春节、国庆、五一节假日的月度销售总额(c)按季度计算周末(周六和周日)的销量总额(d)从最后一天开始算起,跳过周六和周一,以5天为一个时间单位向前计算销售总和(e原创 2020-06-28 10:24:39 · 415 阅读 · 0 评论 -
pandas学习笔记-第8章-分类数据
pandas学习笔记-第8章-分类数据首先导入库和数据一、category的创建及其性质二、分类变量的排序三、分类变量的比较操作【练习一】 现继续使用第四章中的地震数据集,请解决以下问题:(a)现在将深度分为七个等级:[0,5,10,15,20,30,50,np.inf],请以深度等级Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ,Ⅵ,Ⅶ为索引并按照由浅到深的顺序进行排序。(b)在(a)的基础上,将烈度分为4个等级:[0,3,4,5,np.inf],依次对南部地区的深度和原创 2020-06-25 15:16:52 · 319 阅读 · 0 评论 -
pandas学习笔记-第7章-文本数据
第7章-文本数据首先导入库一、string类型的性质二、拆分与拼接三、替换广义上的替换,就是指str.replace函数的应用,fillna是针对缺失值的替换,上一章已经提及提到替换,就不可避免地接触到正则表达式,这里默认读者已掌握常见正则表达式知识点,若对其还不了解的,可以通过(https://regexone.com/)来熟悉四、子串匹配与提取五、常用字符串方法. 练习【练习一】 现有一份关于字符串的数据集原创 2020-06-23 10:54:29 · 375 阅读 · 0 评论 -
pandas学习笔记-第六章-缺失数据的处理方法
本文所用pandas版本是1.0.0Pandas在步入1.0后,对数据类型也做出了新的尝试,尤其是Nullable类型和String类型,了解这些可能在未来成为主流的新特性是必要的首先导入所需的相关库和数据head() 默认显示前5行,也可以指定显示前3行如下图同样可以指定查看后3行数据一、缺失观测及其类型1. 了解缺失信息(a)isna和notna方法对Series使用会返回布尔列表以class为例,缺失4个数据。从这个图知道有0-34行共35行数据,class有31个值,原创 2020-06-22 11:07:31 · 570 阅读 · 0 评论