
Python数据分析与挖掘
文章平均质量分 65
基于python 的数据分析和挖掘相关的内容
暖仔会飞
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python数据分析实战之:特征重要性分析
【代码】Python数据分析实战之:特征重要性分析。原创 2022-09-30 16:43:58 · 3918 阅读 · 0 评论 -
Python 数据分析之:pandas 中的日期相关数据处理:to_datetime() 完成日期的转换和生成;日期数据处理(获取年月日、判断是否为闰年);使用日期对象;date_range
从 2021-01-01 开始每隔一天产生一个日期每隔一个月产生一个日期- 使用 函数;每次统计一定量的数据,然后统计出这些数据中的 open high low close 数据原创 2022-06-20 14:59:53 · 11674 阅读 · 1 评论 -
Python数据分析之:保存数据到一个 Excel 的多个 sheet中
将数据保存到一个 excel 的多个 sheet原创 2022-06-20 11:55:13 · 4339 阅读 · 2 评论 -
日常学习之:在 numpy数组中挑出不是 nan 的值;判断两组数据之间是否存在显著差异
挑出非 nan 值import numpy as npx = np.array([1,2,3,4,5,np.nan,3,4,np.nan])x = x[np.logical_not(np.isnan(x))]print(x)[1. 2. 3. 4. 5. 3. 4.]Process finished with exit code 0判断两组数据的显著差异采用 t-test https://blog.csdn.net/qq_33039859/article/details/74625原创 2022-03-24 18:38:55 · 2754 阅读 · 0 评论 -
数据分析常用技巧之:读取 xls 后缀文件、数据相关性可视化、异常值替换和删除、求各列数据之间的相关性、数据分箱、数据排序、数据标准化和归一化
文章目录常用工具包读取 xls 结尾的文件删除整列(或行)都为 nan 的列(或行)筛选文中是否存在异常值数据标准化和归一化对 dataframe 中的不同列计算相关性对 dataframe 分箱对 dataframe 中的 Series 排序数据相关性可视化heatmap 产生相关性矩阵通过 sns.regplot() 可视化两组数据是否存在相关关系plt 作图的中文显示问题常用工具包import pandas as pdimport numpy as npimport matplotlib.py原创 2022-03-19 02:09:23 · 2012 阅读 · 0 评论 -
日常学习之:使用均值来填补缺失值的条件
文章目录均值填补如何判断正态分布可视化观察卡方检验结论均值填补很多时候,我们的数据会存在缺失值的情况,如果数据量大的情况下我们通常会选择将缺失的数据删除,但是如果数据量比较小,我们则需要对缺失值进行填补均值填补的方式是一种常用的方式,那么均值填补需要具备的条件是什么呢?缺失值的数量不能超过总数据的 1/10;如果缺失的数量过大,均值就会失准从而均值填补失效数据要满足正态分布才能用均值进行填补如何判断正态分布可视化观察import pandas as pdfrom scipy im原创 2022-03-14 15:26:43 · 7546 阅读 · 1 评论 -
Python学习之:matplotlib 画子图的两种方式——add_subplot(),subplots();调整子图之间的留白——subplots_adjust()
文章目录fig.add_subplot()plt.subplots()调整子图之间的留白fig.add_subplot()import matplotlib.pyplot as plt%matplotlib inline# 产生 fig 对象fig = plt.figure(figsize=(5,5))# 在 fig 对象的基础上使用 add_subplot 方法添加子图# add_subplot 返回的是一个 AxesSubplot 的对象 axfor i in range(4):原创 2022-02-26 23:51:49 · 4881 阅读 · 0 评论 -
Python学习之:使用 pandas 产生 one-hot 编码
import pandas as pddata = [['red',3] ,['green',5] ,['yellow',4] ,['red',6]]columns = ['color','age']df = pd.DataFrame(data,columns=columns)df color age 0 red 3原创 2022-02-26 22:43:54 · 2516 阅读 · 0 评论 -
python学习之:pandas 使用函数或者映射进行数据替换;pandas 离散化数据和分箱
文章目录函数或映射进行值替代分箱按照指定的边界值来分箱按照指定的分位数进行分箱函数或映射进行值替代df = pd.DataFrame([['jeff',18] ,['herry',20] ,['chris',25] ,['culry',38]],columns=['name','age'])df name age原创 2022-02-26 16:27:29 · 743 阅读 · 0 评论 -
Python学习之:pandas 索引 loc,iloc ;数据过滤和筛选
import pandas as pdcolumns = ['name','age','sex']data = [['wang',15,'male'], ['li',20,'female']]df = pd.DataFrame(data=data,columns=columns)df name age sex 0 wang 15原创 2022-02-23 23:51:13 · 3186 阅读 · 0 评论 -
Python学习之:pandas中的注意事项
df[“column”] 和 df.column 的区别import numpy as npimport pandas as pdcolumns = ["name","id"]names = ["wangfang","zhangsan","jeff","peter","hell"]ids = [i** 2 for i in range(5)]df = pd.DataFrame(data=np.array([names,ids]).T,columns=columns)df原创 2022-02-21 14:37:17 · 1829 阅读 · 0 评论 -
数据分析学习之:如何均衡样本——使用 imblearn 库实现重采样(resampling),过采样(over-sampling) + 欠采样(under-sampling))
文章目录什么是样本不平衡如何平衡数据集的样本——重采样欠采样(也叫 undersampling)将大的样本集的数据全部筛选出来通过随机采样操作采样固定个数的样本留下和少样本的样本集拼合成最终的样本集样本均衡了过采样(over-sampling)通过 imblearn 库扩充小的样本集样本均衡了什么是样本不平衡import pandas as pdimport numpy as npimport seaborn as snsvalues = {"姓名":["A","B","C","D","E",原创 2021-12-02 13:00:02 · 3380 阅读 · 1 评论 -
柱状图之间的区别:hist & bar
柱状图 barbar 图的作用柱状图,根据每一个 x 坐标,对应一个 y 坐标bar 图的 seaborn 实现import matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snsdata = [1,2,1,2,1,2,3,3,3,3,2,2,1]sns.barplot(*,x=None,y=None,hue=None,data=None,order=None,hue_order=None,est原创 2021-12-02 00:36:59 · 2403 阅读 · 0 评论 -
pandas学习笔记:按照指定的条件筛选和修改某一列的值
文章目录根据条件定位/筛选某一列的值返回 series 结构的写法返回 dataframe 结构的写法基于整张表的定位操作根据条件修改某一列的值基于 series 结构的修改基于 dataframe 结构的修改Note: 这种情况是不奏效的,这是规定,因此在赋值的时候我们最好只用上面的第一种方式去写。再来一个训练实例根据条件定位/筛选某一列的值import pandas as pdimport numpy as npdf = pd.DataFrame(data={"数据":[1,2,3,4,5,6原创 2021-12-02 00:17:46 · 17451 阅读 · 6 评论 -
pandas学习笔记:某一列字符类型转换为离散的数值标签;将某一列数值类型转换成独热码
文章目录将字符串变成离散的数值将离散的数值变量变成独热码import pandas as pd将字符串变成离散的数值整个“性别”列只有男和女df = pd.DataFrame({"性别":["男","女","女","女","男","男","男","男","男","女","女","男"]})df 性别 0 男 1 女原创 2021-12-01 23:38:26 · 1280 阅读 · 0 评论 -
python(pandas + numpy)数据分析的基础操作
数据 NaN 值排查,统计,排序参考内容:https://www.bilibili.com/video/BV1HJ411j7NG?p=38data.isnull()data 是一个 dataframe 的结构np.sum(data.isnull())找到缺失值的总数data.sort_values()按照某个列进行数据的排序,或者按照某两个列进行排序基本统计方法参考内容:https://www.bilibili.com/video/BV1HJ411j7NG?p=39四种原创 2021-11-26 14:14:28 · 1982 阅读 · 0 评论 -
python数据分析之:python连接数据库获得表信息
库依赖pymysql pip install pymysqlsqlalchemy pip install sqlalchemy可能遇到的问题python 连接 mysql 时报错 KeyError: 255解决方法安装合适的 pymysql 版本 pip install --upgrade pymysql连接数据库import pymysqlfrom sqlalchemy import create_engineimport pandas as pdimport mysql.con原创 2021-11-21 10:40:54 · 1739 阅读 · 0 评论 -
Python数据分析之:处理缺失值---拉格朗日插值法
文章目录将异常值变成空值np.nan / none将空值的位置筛选出来,并用正常的值来替换将空值的位置筛选出来,并用拉格朗日插值法来替换拉格朗日插值法存在于 python 的scipy库中,接下来的部分分为以下步骤进行:找出 dataframe中的异常值将空值进行统一处理,用None 或者 np.nan来替换异常值用拉格朗日法进行科学的插值处理将异常值变成空值np.nan / none在 dataframe 中有时存在很多异常值,或者不规则的值,首先要将这些值变成统一的格式,空值 np.na原创 2020-07-11 00:06:29 · 8410 阅读 · 0 评论 -
Python数据分析之:pandas拓展数据分析函数(cum / rolling ) / 作图功能
文章目录1. pandas拓展数据分析函数1.1 .cum()1.1.1 .cumsum():累加1.1.2 .cumprod():累乘1.1.3 .cummax():前n个数依次求最大值1.1.4 .cummin():前n个数依次求最小值1.2. pandas.rolling()2. pandas 作图1. pandas拓展数据分析函数1.1 .cum()因为 .cum 方法是针对 Series 和 Dataframe 结构处理的方法,所以调用的时候格式不是 pandas.cum,而是创建出来的 s原创 2020-07-10 14:49:21 · 5420 阅读 · 0 评论 -
Python数据分析之:Pandas的基本数据分析功能
文章目录1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据3.1 describe()3.2 var / sum3.3 求相关性 corr3.4 计算协方差 cov3.5 skew 偏度(三阶矩)/kurt 峰度(四阶矩)Pandas 是 Python数据分析的强有效的库,主要通过 Series 结构和 DataFrame 结构来进行数据表格的创建,并通过其内置的一些函数进行数据的统计和分析。1. pandas原创 2020-07-09 23:58:39 · 608 阅读 · 0 评论 -
Python数据分析之:pandas 的索引方式 data.loc[], data[][]
文章目录1. data.loc[index,column]2. data[column][index]1. data.loc[index,column]使用.loc[ ]第一个参数是行索引,第二个参数是列索引import pandas as pddata = pd.DataFrame([range(1,5),range(6,10),range(11,15)])print(data)dt = data.loc[0,1] //[index,column]print(dt)相当于第0行第1列原创 2020-07-09 23:39:47 · 43397 阅读 · 1 评论 -
Python数据分析之:进行数据分析的必要知识
1.常用的图来分析数据1.1 箱型图:分析异常值箱线图的存在主要是用来分析异常值。【异常值】异常值也叫离群点,异常值的存在经常会导致数据整体的偏差增大等问题。判断异常值的标准有如下:① 通过最大值和最小值:例如:用户的年龄不可能超过199岁,小孩的年龄不可能是-1岁,利用这些简单的统计量分析可以判断异常值② 通过 3σ3σ3σ原则:如果数据服从正态分布,在3σ3σ3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过 3倍标准差 的值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准原创 2020-07-09 19:18:08 · 605 阅读 · 0 评论