
数据分析挖掘
文章平均质量分 79
wuxianfeng1987
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
异常点检测
参考链接:时间序列异常检测算法S-H-ESD - Treant - 博客园 (cnblogs.com)机器学习数据分析之异常值检测_`AllureLove的博客-CSDN博客python一维时间序列平滑:移动平均、指数平滑、开尔曼滤波等_`AllureLove的博客-CSDN博客_python 时间序列平滑常用包TsmoothieadtkpyculiarityTwitter开源,直接Pip安装检索不到,我是直接下载安装包来安装的GitH...原创 2022-04-16 13:14:31 · 2266 阅读 · 3 评论 -
mysql 问题记录
1、数值型字符串的过滤问题 数值型字符串范围过滤时,不能直接用字符串过滤,否则会有bug,而且是不易发现的bug e.g:sslv_avg是varchar类型select count(*) from TQXS_SSLV_AVG_STDDEV_WXF where sslv_avg > '0' and sslv_avg <= '2' 过滤时不仅仅会过滤出0~2之间的数字字符串,11, 12这类也会过滤出来,处理方案:select co...原创 2021-11-30 13:47:04 · 1479 阅读 · 0 评论 -
文件系统及数据库了解
了解下当前流行的文件系统及数据库,有个大概的了解,方便定技术路线。目录1、FAT文件系统。2、NTFS文件系统。3、ExtFAT文件系统。4、ext2文件系统。5、ext3文件系统。6、reiserFS文件系统。7、VFAT文件系统。8、APFS文件系统。9、XFS文件系统HDFSHadoopHBaseHiveHadoopHBaseHive总结:ElasticsearchSolr文件系统是操作系统用于明确存储设备(常见...原创 2021-10-11 11:52:02 · 686 阅读 · 0 评论 -
特征工程
注:现阶段的理解,不一定正确,各位看官如有不同的见解,欢迎交流,Q:358892790特征工程个人觉得是数据分析挖掘项目中最难也是最为关键的一步,特征工程的前期基本是基于对业务的了解,有点天马行空,目前还没看到归纳的方法论或执行框架。第二步是探索性分析,也就是判断提取的特征对最终的目标预测有意义,这个可以看探索性分析章节。第三步是特征的进一步处理,主要用到的技术:1、one-h原创 2017-05-27 14:35:24 · 469 阅读 · 0 评论 -
数据分析挖掘框架总结
通用的数数据预处理 http://blog.csdn.net/wuxianfeng1987/article/details/72781191 缺失值处理KNN平均值随机数中位数不去补充缺失值 异常值处理 探索性数据分析单变量分布二维分布相关分析特征工程增加特原创 2017-05-27 14:32:00 · 1887 阅读 · 0 评论 -
异常值处理
数据分析重的异常值处理原创 2017-05-31 14:04:06 · 4965 阅读 · 0 评论 -
探索性数据分析
待续...原创 2017-05-27 14:34:16 · 881 阅读 · 0 评论 -
模型评估
待续...原创 2017-05-27 14:37:24 · 475 阅读 · 0 评论 -
超参数优化
待续...原创 2017-05-27 14:36:21 · 898 阅读 · 0 评论 -
数据预处理
对于数据挖掘和分析人员来说,数据准备(Data Preparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题,进行了初步介绍并推荐了一些处理方法。值得注意的是,这里所说的缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来原创 2017-05-27 14:31:16 · 7110 阅读 · 0 评论