梦幻之窗-CSDN博客

转载 hive简单命令【转载】

在MaxCompute中，每当表的数据被修改后，表的LastDataModifiedTime将会被更新。如果表是分区表，则根据各分区的LastDataModifiedTime判断该分区是否该被回收。分区表的最后一个分区被回收后，该表不会被删除。如果表是非分区表，自最后一次数据被修改开始计算，经过days天后数据仍未被改动，则此表无需您干预，MaxCompute会自动回收，类似drop table操作。您可以在创建表时，通过lifecycle关键字指定生命周期。禁止或恢复指定表或分区的生命周期。

2024-10-24 18:05:16 73

转载 pymysql获取要查询的字段名（列名）【转载】

使用pymysql连接数据库进行查询时，获取的只是查询的结果，并不包含列名。可以使用cursor.description来获取列名的相关信息。

2021-12-08 10:17:32 2010

转载 simhash算法及原理简介[转载]

背景如何设计一个比较两篇文章相似度的算法？可能你会回答几个比较传统点的思路：一种方案是先将两篇文章分别进行分词，得到一系列特征向量，然后计算特征向量之间的距离（可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等），从而通过距离的大小来判断两篇文章的相似度。另外一种方案是传统hash，我们考虑为每一个web文档通过hash的方式生成一个指纹（finger print）。下面，我们来分析下这两种方法。采取第一种方法，若是只比较两篇文章的相似性还好，但如果是海量数据呢，有着数以百万甚至亿万的网

2020-11-04 17:12:49 607

原创 hive 动态分区表

环境版本使用方式问题解读参考文章环境版本hive:1.2cdh:1.5.6spark:1.6.1动态分区表使用方式1、设置属性SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstrict;SET hive.exec.max.dynamic.partitions=2048;SET hive...

2018-05-04 17:05:44 437

转载数据挖掘系列-朴素贝叶斯分类算法原理与实践

一个简单的例子　　朴素贝叶斯算法是一个典型的统计学习方法，主要理论基础就是一个贝叶斯公式，贝叶斯公式的基本定义如下：　　这个公式虽然看上去简单，但它却能总结历史，预知未来。公式的右边是总结历史，公式的左边是预知未来，如果把Y看出类别，X看出特征，P(Yk|X)就是在已知特征X的情况下求Yk类别的概率，而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。　　举个例子，大学的时候，某男生经常去...

2018-03-27 21:00:53 539

转载文本特征选择

在做文本挖掘，特别是有监督的学习时，常常需要从文本中提取特征，提取出对学习有价值的分类，而不是把所有的词都用上，因此一些词对分类的作用不大，比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法：互信息　　一个常用的方法是计算文档中的词项t与文档类别c的互信息MI，MI度量的是词的存在与否给类别c带来的信息量，互信息的基本定义如下：　　应用到文本特征选择:　　U、C都是二值随机变量，当文档...

2018-03-27 20:59:32 1312

转载搜狐新闻文本分类：机器学习大乱斗

目标从头开始实践中文短文本分类，记录一下实验流程与遇到的坑运用多种机器学习（深度学习 + 传统机器学习）方法比较短文本分类处理过程与结果差别工具深度学习：keras传统机器学习：sklearn参与比较的机器学习方法CNN 、 CNN + word2vecLSTM 、 LSTM + word2vecMLP（多层感知机）朴素贝叶斯KNNSVMSVM + word2vec 、SVM + doc2vec第...

2018-03-27 20:37:59 2763 3

转载（转）SSE,MSE,RMSE,R-square指标讲解

SSE(和方差、误差平方和)：The sum of squares due to errorMSE(均方差、方差)：Mean squared errorRMSE(均方根、标准差)：Root mean squared errorR-square(确定系数)：Coefficient of determinationAdjusted R-square：Degree-of-freedom adjusted...

2018-03-25 13:04:35 4353

转载 HBase内置过滤器的一些总结

版权声明：本文为博主转载文章转自（http://blog.csdn.net/cnweike/article/details/42920547#comments），转载请注明出处HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时

2016-10-14 13:54:53 314

幸福天使的博客