
ml
阿唐明
time is money
https://www.zhihu.com/people/hirolin-89
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GBDT+LR 入门+实例
GBDT-LR思想利用GBDT生成特征在利用LR对特征值进行拟合。 GBDT是梯度提升决策树,由多棵树组成。构造一个决策树,根据已有的模型和实际样本输出的残差上再构造一颗决策树,不断地进行迭代。 每一次迭代都会产生一个增益较大的分类特征,因此GBDT树有多少个叶子节点,得到的特征空间就有多大,并将该特征作为LR模型的输入。 下面通过一个实例说明这个过程。 1.准备数据 使用sklearn 数据集...原创 2020-03-17 22:38:15 · 868 阅读 · 0 评论 -
机器学习问题处理流程
1.加载数据,查看总体情况pandas。如果文件过大则用chunck分块 head() info() describe() 注意缺失值 2.数据预处理 离群点 根据数据说明判断是否要去除 数据是否符合正态分布。如果用回归模型则考虑转换 数据之间关联性 使用corr 如果数据有id这样的自增数据,删除 。抽取label字段 3.特征工程 丢失值 填充0 或者None看数据说明 Coun...原创 2020-02-15 23:21:57 · 220 阅读 · 0 评论 -
关键词提取-TFIDF 自定义逆文档IDF的值
TF-IDF 用于提取关键词,那么如何从多个文档中提取出关键词。文章的关键词可能有什么规律,表示文章主要意思,那这个词应该在该文章中出现多次,但是在其他文章中出现次数不多。 TF 词频 (Term Frequency)表示w在文档Di中出现的频率 TF=count(w)Di TF = \frac {count(w)}{Di} TF=Dicount(w) IDF 逆文档频率(Inverse Doc...原创 2020-02-14 23:58:04 · 497 阅读 · 0 评论 -
python线性回归基本实现
通过这个笔记记录以下学习的过程。 在使用python实现机器学习,可以使用anaconda (清华镜像下载)去实现。 线性回归是常见的拟合算法,本文通过梯度下降实现数据拟合。 1.到入库 import numpy as np #导入数据处理模块numpy import matplotlib.pyplot as plt #绘图模块 2. 产生随机数据 x = np.ara...原创 2018-06-14 23:56:10 · 573 阅读 · 0 评论 -
jupyter远程访问+kernel配置+背景色更换
1.远程访问 1.首先主机上安装jupyter notebook(可以使用anoconda镜像安装) 2.生成jupyter配置文件 jupyter notebook --generate-config #输出 Writing default config to: /root/.jupyter/jupyter_notebook_config.py jupyter 密码访问设置,即打开j...原创 2019-02-28 23:10:03 · 672 阅读 · 0 评论