【大数据技术】Spark MLlib机器学习库、数据类型详解（图文解释）

最新推荐文章于 2025-07-09 17:43:31 发布

showswoller

最新推荐文章于 2025-07-09 17:43:31 发布

阅读量1.4k

点赞数 25

CC 4.0 BY-SA版权

分类专栏：大数据技术Hadoop+Spark 机器学习文章标签：大数据 spark-ml spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/128402123

机器学习的定义

机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习的构建过程是利用数据通过算法构建出模型并对模型进行评估，评估的性能如果达到要求就拿这个模型来测试其他的数据，如果达不到要求就要调整算法来重新建立模型，再次进行评估，如此循环往复，最终获得满意的经验来处理其他的数据。

机器学习的分类

1：监督学习

通过已有的训练样本（即已知数据以及其对应的输出）训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。例如分类、回归和推荐算法都属于有监督学习。

2：无监督学习

根据类别未知（没有被标记）的训练样本，而需要直接对数据进行建模，我们无法知道要预测的答案。例如聚类、降维和文本处理的某些特征提取都属于无监督学习。

3：半监督学习

半监督学习（Semi-supervised Learning）是介于监督学习与无监督学习之间的一种机器学习方式，是模式识别和机器学习领域研究的重点问题。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。

4：强化学习

通过观察来学习动作的完成，每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。

MLlib的简介

MLlib是Spark提供的可扩展的机器学习库，其中封装了一些通用机器学习算法和工具类，包括分类、回归、聚类、降维等，开发人员在开发过程中只需要关注数据，而不需要关注算法本身，只需要传递参数和调试参数。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

showswoller 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。