
笔记
^LiuYttt
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark RDD与DataFrame的区别与联系
区别: RDD是分布式的java对象的集合,但是对象内部结构对于RDD而言却是不可知的。 DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息,相当于关系数据库中的一张表 联系 1.都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action才会运算 3.都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出 4、三者都有partition的概念 5.三者有许多共.原创 2021-12-20 21:04:35 · 2591 阅读 · 0 评论 -
Scala语言中的apply()方法作用
最主要的是 结合伴生对象,利用伴生对象 是object单例静态对象 不用实例化,来构建工厂模式,创建实例化对象。即实现: " val 实例对象 = 类名(参数) " 这种函数式编程的风格实现 实例化对象。。。实现多范式编程,保持对象和函数之间使用的一致性 用户在创建类的实例时,无需使用new关键字,而是使用伴生对象中的apply方法,实现解耦 3. ...原创 2021-11-19 20:50:21 · 665 阅读 · 0 评论 -
Apriori算法(经典的发现频繁项目集算法)分析
基本概念 I是一个项目集合,事务数据库D是由一系列具有唯一标识TID的事务组成,每个事务t都对应I上的一个子集 支持度:项目集I1在数据集D上的支持度是包含I1的事务在D中所占的百分比 频繁项目集:对项目集I和事务数据库D,T中所有满足用户指定的最小支持度的项目集,即大于或等于minsupport的I的非空子集 最大频繁项目集:在频繁项目集中挑出所有不被其他元素包含的频繁项目集 规则的可信度:包含I1,I2的事务数与包含I1的事务数之比 强关联规则:D在I上满足最小支持度和最小信任度的关联规则 关连规则原创 2021-11-18 10:34:16 · 4387 阅读 · 3 评论 -
基于MapReduce的词频统计过程分析
问题提出: 假设HDFS中/user/hadoop/input文件夹下有文件wordfile1.txt和wordfile2.txt。现在需要设计一个词频统计程序,统计input文件夹下所有文件中每个单词的出现次数。 运行过程: 1.Map输入<key,value>形式,即 map第一个任务: <1,I love spark> <1,I love hadoop> map第二个任务: <1,hadoop is good> <2,spark is fas原创 2021-11-17 20:59:00 · 3597 阅读 · 0 评论