
深度学习
文章平均质量分 64
今天也要笑笑鸭
技术小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
word2vec公式推导及原理简记
https://www.cnblogs.com/pinard/p/7243513.htmlhttp://www.cnblogs.com/pinard/p/7249903.htmlword2vec区别于one_hot映射方法,将词向量赋予含义并映射到向量空间,通过向量减法、点乘表示两词相差、相关性。 两种预测模型:Cbow(周围词向量预测中间词向量)和skip-gram(中间词向量预...原创 2018-12-04 14:08:25 · 1024 阅读 · 1 评论 -
条件随机场(crf)相关理解
https://www.zhihu.com/question/35866596建模公式:(一套CRF由一套参数λ唯一确定(先定义好各种特征函数)) 公式中O为观测序列,是X, I为隐状态序列, 为Y。 i为观测序列第i个token,k为第k个特征。 打分:指数上的特征加权。分数越高证明序列越靠谱,所以通过分数高可以确定。HMM, MEMM,CRF的模型区别:HMM,...原创 2018-12-04 19:59:38 · 251 阅读 · 0 评论 -
CNN用于文本分类的原理细节
https://blog.csdn.net/chuchus/article/details/77847476卷积的三维定义通常情况下为[滤波器数量,卷积核长度, 卷积核宽度]。卷积核长度一般为time维度,也就是句子长度的维度。宽度一般为特征维度,通常情况下是词向量的维度。卷积之后的结果:filtersize*(sententenlength - kernel length ...原创 2018-12-02 22:34:23 · 862 阅读 · 0 评论 -
lstm结构及公式
https://blog.csdn.net/lreaderl/article/details/78022724lstm一共有四个重要公式。f:忘记门,对拼接结果取sigmoid表示是否丢弃先前结果。 i:更新门,对拼接结果取sigmoid表示先前结果是否需要更新。 g:加工门,对拼接结果取tanh表示先前结果需要左何等程度更新。i与g做点乘,表示更新结果c'。f与ci-1点...原创 2018-12-02 22:44:41 · 4174 阅读 · 0 评论 -
gru公式及原理简记
https://blog.csdn.net/zhangxb35/article/details/70060295 GRU一共有2个门。z:更新门,取sigmoid表示以前的信息是否需要更新。 r:重置门,取sigmoid类似于LSTM的忘记门,代表以前的信息是否需要重置。h‘:输入+忘记该忘记的(ht-1 * r)新的h:更新需要更新的,不需要更新的维持。...原创 2018-12-02 22:54:15 · 10666 阅读 · 1 评论 -
优化方法公式及简记
写在前面:随机梯度下降是最经典的优化算法,从公式来讲接下来的其他算法都是根据它可以修改、完善的。详见:https://blog.csdn.net/SecondLieutenant/article/details/81537772,L:N个样本的Loss和求均值。一会用反向梯度更新。1.GD(梯度下降)BGD:用所有样本去更新参数。 SGD:随机采取一个样本更新参数。速...原创 2018-12-07 21:52:40 · 1665 阅读 · 0 评论 -
机器学习的一些性能评价指标
分类1.精确率,准确率,召回率,F1-score。TP(True postive),真正的正样本,实际为正,预测为正。 FP(False positive), 假的正样本,实际为负,预测为正。 TN(True negative),真的负样本,实际为负,预测为负。 FN(False negative),假的负样本,实际为正,预测为负。 精确率:正确预测的样本/总样本 = (TP + ...原创 2018-12-05 18:34:06 · 776 阅读 · 0 评论 -
几种聚类算法原理简述:kmeans(以及++),DBSCAN,层次聚类
kmeans和kmeans++参数:k(聚类个数)随机选取K个中心点。(KMEANS++会在选取一个中心点后更倾向于去选择离选定中心点更远的) 计算其他点离哪个中心点更近,就算做哪一簇。 计算每个新簇的新中心点(取平均)。 重新调整除中心点外的归属情况。 直到每次分簇情况相同或者中心点收敛。DBSCAN参数:MINPTS,r某个点要成为中心点,他需要有多少个在以这个点为圆...原创 2018-12-05 22:14:26 · 1024 阅读 · 0 评论 -
LR是如何实现多分类的
https://www.cnblogs.com/lianyingteng/p/7784158.htmlone vs one: n个分类,训练n(n-1)个分类器,两两比较。最终投票决定最终类。 one vs all:n个分类n个分类器,表示是或不是这个分类器的概率,最终选择概率最大的作为最终类。 softmax:归一化的one vs all。k=2时是lr。 类别互斥,用softma...原创 2018-12-06 12:06:19 · 3255 阅读 · 0 评论 -
防止过拟合和欠拟合的方法
防止过拟合Early stop。增加验证集,验证集性能没有明显提升的时候停止。 增大数据集。常见的是增加一些噪声构造新样本,重采样,从源头采集,以及分析数据分布构造更多假数据。 正则化。为了降低模型复杂度,避免过分拟合训练数据,包括噪声和异常点。 dropout。随机丢弃一些神经元,避免过度赖某些数据特征。防止欠拟合添加其他特征 添加多项式特征组合 减少正则化参数...原创 2018-12-09 12:19:16 · 707 阅读 · 0 评论 -
激活函数
激活函数的作用:将线性的神经网络通过附加激活函数可以逼近任何非线性函数。1.sigmoid(, )函数不关于原点中心对称,收敛速度慢。 导数很容易接近0,造成梯度消失。 含有指数,计算量大。2.tanh( ) 关于原点中心对称,收敛速度好一些。 梯度消失问题和计算量大的问题依然存在。3.relu(relu(x) = max(0,x))学习率大的时候,很可能造成网络中很...原创 2018-12-09 15:39:27 · 272 阅读 · 1 评论