大数据课程D1——hadoop的初识

本文介绍了大数据的基础概念,强调了其特点,如数据量大、种类多样、价值密度低、增长速度快等,并探讨了大数据在物流、电商、旅游等多个领域的应用。接着,文章详细阐述了Hadoop的起源、发展、版本和模块,包括HDFS、YARN、MapReduce,以及Hadoop在大数据生态系统中的重要地位。此外,还提到了Hadoop的安装模式和Web访问端口,帮助初学者理解Hadoop的基本操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章作者邮箱:[email protected]              地址:广东惠州

 ▲ 本章节目的

⚪ 了解大数据的概念;

⚪ 了解大数据的部门结构;

⚪ 了解hadoop的定义;

⚪ 了解hadoop的发展史;

一、大数据简介

1. 概述

1. 美国调研机构Gartner给出了定义:大数据是一种新的处理模式,针对海量数据能够提供更强的决策力、洞察发现力和流程优化能力。

2. 维基百科给出了定义:大数据是指无法在可承受的时间范围内用常规的软件或者法来对大量的数据进行捕捉、管理和处理。

3. 无论哪个机构对大数据进行定义,实际上都是围绕对海量数据进行快速有效的处理方案。

2. 特点

1. Volumn:数据体量大。很多中小型企业的入门数据量是从TB级别开始,很多大型的企业的入门数据量是从PB级别开始。很多大型的企业,累计数据量已经达到了EB甚至ZB级别。

2. Variety:数据种类样式和来源多:

a. 种类:文本(日志)、图片、音频、视频、flash等。

b. 样式:结构化数据(数据本身有结构并且数据解析之后能够用一张或者几张固定的表来进行存储);半结构化数据(数据本身有结构但是解析之后无法用一张或者几张固定的表来进行存储,例如json,xml等);非结构化数据(数据本身没有结构并且解析之后无法用几张固定的表来进行存储)。

c. 来源:日志、爬虫、网页埋点、手动录入、数据库等。

3. V

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值