数据清洗

概述

数据清洗（Data Cleansing）是物联网数据处理流程中的关键环节，用于处理设备上报的异常值、缺失值、重复数据、格式不一致等问题，提升数据质量，为后续分析、告警、AI训练提供可靠输入。物联网设备受环境干扰、传感器漂移、通信故障、固件缺陷等因素影响，上报数据常含噪声。若直接入库或参与计算，将导致误告警、报表失真、模型预测偏差。数据清洗在数据入库前（实时流）或入库后（离线批处理）进行校验、过滤、补全、标准化，是数据治理的基础设施。

物联网数据清洗的挑战在于：数据量大、实时性要求高、设备类型多样导致规则难以统一。温度传感器与湿度传感器的合理范围不同，同一设备在不同季节的"正常"波动也不同。清洗规则需支持按设备类型、产品、场景灵活配置，并可结合历史统计、机器学习实现自适应异常检测。

核心功能

异常检测

范围校验：数值超出物理或业务合理范围（如温度-100°C、湿度>100%）直接丢弃或标记
突变检测：相邻时刻数值变化超过阈值（如温度1秒内升10°C），可能表示传感器故障或通信错误
离群点检测：基于统计方法（如3σ、IQR）或机器学习识别异常值，适用于无明显物理阈值的场景
逻辑一致性：如流量计读数不应为负、累计值应单调递增

缺失处理

设备断网、上报失败、采样间隔不均导致数据缺失。处理策略包括：线性插值（相邻点间线性填充）、前值填充（用上一时刻值填充，适合缓慢变化量）、丢弃（对关键指标缺失时直接丢弃该条）、标记为缺失（保留时间戳，供后续分析时识别）。选择策略需结合业务：报表统计可接受插值，告警规则通常要求真实数据。

去重

设备重复上报、消息队列重复消费、多路径采集导致重复数据。去重基于设备ID+时间戳+指标的唯一键，保留首次或最新一条。高吞吐场景下可采用布隆过滤器+Redis实现快速去重。

格式转换与标准化

单位统一（如温度统一为摄氏度、长度统一为米）、时间戳统一为ISO 8601或Unix毫秒、枚举值标准化（如"开"/"ON"/"1"统一为"开"）。与物模型对齐，确保不同设备、不同厂商的数据可被统一解析与聚合。

物联网典型场景

传感器漂移校正：温湿度传感器长期漂移，需定期校准或通过参考值校正。可结合历史数据、多传感器交叉验证实现自动校正。

数据补全：报表、大屏展示需要连续时间序列，缺失点需补全。批处理场景下可对历史数据进行离线补全。

报表数据质量：能源报表、产量统计等需剔除异常值，避免单点异常拉高或拉低整体指标。可设置异常值替换规则（如用前后均值替代）。

AI训练数据：机器学习模型对脏数据敏感，训练前需系统清洗。缺失、异常可导致模型过拟合或欠拟合，清洗质量直接影响模型效果。

实现方式

数据清洗可集成在规则引擎（实时规则中增加校验逻辑）、流处理（Flink/Spark Streaming中增加清洗算子）、独立清洗服务（消费Kafka后清洗再写入）。实时场景优先流处理，离线场景优先批处理。达希物联在物联网数据管理实践中，建议在数据接入层与存储层之间增加清洗环节，确保入库数据质量可控。

概述