深入了解物联网数据:探索与分析
立即解锁
发布时间: 2025-08-30 01:00:59 阅读量: 3 订阅数: 11 AIGC 

### 深入了解物联网数据:探索与分析
#### 1. 数据有效性检查
在完成数据完整性检查后,检查现有记录中数据的有效性至关重要。对于测量架中的每个字段,需要查找远超出其他数据点的异常值,同时检查高频出现的特定值。异常值可能是错误值,也可能是除测量之外的事件指示;高频值可能是本应被实际测量值覆盖的默认值。目标是识别这些异常值及其大致出现频率。
以 Qgag 值为例,在数值尺度上可以明显看到,负值方面有常见异常值 -9999,正值方面有 999.990(在视图中可能四舍五入为 1000)。选择每个异常值区域的点来查看单个记录,检查实际值是始终一致还是存在变化。一致的值可能是有意设置的指示符,而变化可能是由于小数点位置错误的计算或转换错误导致。
按站点逐一查看相同视图,会发现所有站点至少有一个 -9999 值,但并非所有站点都有 999.99 值。由于这些极端值似乎并非实际读数,可通过过滤 0 到 900 之间的值来排除高低极端值,然后查看结果,了解各气象站的典型范围,过滤后的 Qgag 值范围在 0 到 2.4 之间。
对于数据集中的另一个测量值 Qpcp,重复相同过程。它也有相同的极端值(-9999 和 999.990),但有些站点没有 -9999 记录。与 Qgag 值的连续尺度不同,Qpcp 似乎以 0.1 为增量报告。选择一些点并查看单个数据记录,会发现 Qpcp 值精确到十分位。
以下是检查数据有效性的步骤总结:
1. 查找测量架中各字段的异常值和高频值。
2. 选择异常值区域的点查看单个记录,判断值的一致性。
3. 按站点查看数据视图。
4. 过滤极端值,查看典型范围。
5. 对其他测量值重复上述步骤。
#### 2. 评估信息延迟
物联网设备的数据并非总是以相同的时间间隔到达数据集。一些设备由于位置较近或位于人口更密集、连接性更好的区域,其记录可能会快速包含在数据集中。而偏远位置的设备在捕获观测值与数据记录进入数据集之间可能会有更多延迟。此外,不同组的物联网设备在数据传输路线或处理数据的 ETL 作业方面也可能存在差异。
在对数据应用更高级的分析之前,评估这种延迟时间的变化(即信息延迟)非常重要。因为快速到达的数据记录可能存在显著偏差,而在包含该时间段的所有记录后,这种偏差可能就不存在了。
为了了解信息延迟的变化,对于用于分析的每个记录,用观测值捕获时间减去记录添加到数据集的时间。然后创建一个直方图(分箱条形图)来查看延迟时间的分布。将低延迟时间箱中的数据与完整数据集进行比较,查看值的差异,尤其要关注地理位置。平均值和标准差的差异表明快速到达的数据记录可能不能很好地代表完整数据集。在分析近期数据记录时,需要设置一个等待时间过滤器,以确保得出有效结论所需的大多数记录已到达数据集。
评估信息延迟的步骤如下:
1. 计算每个记录的延迟时间(观测值捕获时间 - 记录添加到数据集的时间)。
2. 创建延迟时间分布的直方图。
3. 比较低延迟时间箱数据与完整数据集。
4. 设置等待时间过滤器。
#### 3. 数据代表性
观测到的数据值是否能代表现实世界?物联网设备记录的值不仅应在传感器的范围内,还应与实际测量的内容相符。例如,测量脉搏率的医疗物联网设备报告的分布应与医生办公室对同一患者群体观察到的分布相似。虽然脉搏率为 120 是有效的,但平均为 120 的分布可能不代表正常患者群体,除非该设备仅在患者进行剧烈活动时使用,否则数据可能存在问题。
#### 4. 基本时间序列分析
##### 4.1 时间序列的含义
时间序列分析非常常见,从股票市场价格趋势到 GDP 图表,我们每天都会遇到。它直观且普遍,甚至给它命名都显得有些奇怪。时间序列就是按时间顺序排列数据值,并分析结果中的模式。即使某个时间间隔没有数据,顺序也应是等间隔的。
可以按一年中的时间(季节性)、商业周期、值随时间的增减(趋势)甚至一天中的时间来发现模式。识别出的模式可用于预测未来值。
##### 4.2 应用时间序列分析
时间序列分析的第一步是确定在探索数据时使用的时间间隔。可以选择多个间隔,在了解物联网数据时这样做是很好的实践。可以从月度趋势开始,然后是每周、每日,甚至到分钟级。
以每日间隔为例,从 Qpcp 测量值开始,按站点查看以绘制每日 Qpcp 总和值的图表。过滤掉几乎肯定不是实际测量值的极端值(可使用 0 到 900 的范围进行过滤)。我们已经发现 2013 年 9 月美国科罗拉多州博尔德 2 号气象站的记录数量异常高。
由于并非每个 15 分钟时间段都有数据记录,且推测数据主要在有降水量报告时发送,因此一天的 Qpcp 值总和应指示当天的降水量。图表显示,2013 年 9 月的几天里,每日降水量总和达到了前所未有的高度。选择该时间段并查看柱状图背后的数据记录,检查值和记录的日期时间,未发现记录重复。
为了确认这些异常值是否真实,可以利用外部资源,如通过谷歌搜索来验证。搜索结果显示,当时科罗拉多州博尔德地区确实发生了极端天气事件,降雨量之大被称为“千年一遇的降雨”,这增加了报告结果准确性的可信度。
接下来可以将 Qgag 值作为时间序列进行探索。Qgag 是测量设备中累积降水量的度量。过滤极端值后查看 Qgag 随时间的变化图,可以发现两个有趣的模式:一是 2013 年 7 月左右,所有站点的 Qgag 值都缺失,这需要进一步调查原因;二是某个站点的 Qgag 值随时间增加,并在不规则间隔突然降至显著较低的值,这可能表明设备中容纳降水量的容器被清空。识别这样的模式对公司来说可能是有价值的机会,可以开发分析流程来确定容器何时需要清空以及任务是否完成,这对需要派遣技术人员到偏远地区工作的客户来说非常有价值,公司可以通过提供这项服务增加收入。
应用时间序列分析的步骤如下:
1. 确定时间间隔(月度、每周、每日、分钟级等)。
2. 选择测量值(如 Qpcp),按站点查看并过滤极端值。
3. 分析数据模式,如季节性
0
0
复制全文
相关推荐










