基于物联网的智慧城市数据分析框架

作者: Saumitra Jagdale

物联网设备的快速增长以及由此产生的数据泛滥给管理、处理和分析物联网数据带来了独特的挑战。庞大的数据量、速度和多样性需要能够处理和提取有意义的见解的先进数据科学技术。当数据科学被应用时,在物联网领域有很大的创新和价值创造空间。除了强调其好处外,它还研究了在使用数据科学技术评估物联网数据时要考虑的困难和因素。

数据科学在各种物联网领域的应用,包括工业物联网、智慧城市、医疗保健和农业。确定了未来的研究和发展方向,包括理解机器学习模型,隐私和安全问题,以及物联网中数据科学的伦理影响。

数据科学的实施和应用伴随着物联网框架,强调与检查和利用物联网数据相关的方法、目的和障碍。考虑到这类数据的特殊性,研究了处理物联网数据的数据科学技术的独特特征,包括异常检测、融合、机器学习和预处理过程。此外,它还强调了分布式和可扩展数据处理系统对于处理大量实时物联网数据的重要性。

物联网数据预处理和清理中使用的技术

数据清洗技术通过消除未处理物联网数据中的噪声、异常和不规则性,提高数据的准确性和质量。它涉及识别和管理缺失值、修复错误以及确保数据完整性。丢失的数据处理主要集中在传感器故障、网络中断和设备故障上,导致物联网数据流中的值丢失。数据科学家使用均值插补和插值等成像技术通过查找模式和联系来填补数据集中的空白。 为了提供公平的比较和分析,使用数据标准化技术对数据进行标准化,使其达到标准规模。

基于物联网的智慧城市数据分析框架

图 1:物联网数据特征(图片来源:参考文献 [1])

特征工程是从未经过滤的原始物联网数据中提取有用和相关的特征。它通过捕获数据中复杂的相关性和模式来提高机器学习算法的功能。特征工程技术的例子包括变量转换、交互项创建和统计特征提取。使用这些方法,数据专业人员可以通过确保物联网数据的质量、可靠性和完整性来保证分析的准确性和意义。这些过程为后期的数据科学任务创造了舞台,包括特征选择、模型构建和预测分析,允许提取分析信息并根据物联网数据做出可辩护的结论。

物联网数据对数据科学的挑战

数据采集:物联网设备在多个环境和地点的分散特性可能具有挑战性。为了获得可信的物联网数据,数据科学家必须考虑数据采集以及兼容性、同步和数据访问。

数据预处理:在分析物联网数据之前,经常需要进行大量的准备。从设备中检索到的原始数据中可能存在缺失的数字、异常、噪声和不一致。数据预处理将应对与数据质量、处理缺失值、检测和处理异常值以及扩展或标准化数据相关的困难。

数据融合:各种来源,包括社交媒体、智能手机、平板电脑和传感器,经常产生物联网数据。一个重要的挑战是集成和融合来自不同来源的数据,为了合并和组合来自许多传感器或设备的数据,可以通过考虑数据的语义、时间和地理组件来使用数据融合技术。

数据隐私和安全:物联网数据经常包含敏感和个人数据,这引发了安全和隐私问题。为了保护物联网数据,数据隐私和安全必须采用隐私保护策略,安全的数据处理程序,并遵守隐私法。

机器学习在物联网数据分析中的关键应用

统计方法:统计方法检测物联网数据中标准模式的偏差。它们是相对可解释的和直接的,使它们适合于识别简单的异常。然而,它们可能无法捕获复杂的异常或模式,并假设可能不适用于所有物联网场景的数据分布和假设。

异常检测:物联网数据异常可能是故障、奇怪行为或安全漏洞的迹象,可以使用机器学习技术来发现。 通过基于标准数据模式的训练模型,可以识别并标记与规范的偏差,以进行额外的查询。

聚类和细分:机器学习聚类算法可以找到具有相似使用模式的设备集群,对数据进行细分以进行重点分析,或根据特定特征或行为对可比较的物联网数据实例进行分组,并协助识别模式。

特征选择和降维:物联网数据可以有很多方面并且是高维的。 特征选择和最小化维度等机器学习技术可以通过定位最相关的特征或将数据转换到较低维度的空间来增强计算效率和模型性能。

分类和回归:机器学习算法可以识别特定事件或条件,或将物联网数据分为多个组。 例如,回归模型可以根据环境条件或取决于输入变量的数值来预测能源使用情况。

时间序列分析:模式和时间顺序在物联网数据中很常见。 使用机器学习方法进行时间序列分析可以从时变数据中获得有价值的见解,从而促进长期趋势分析、异常检测和预测。 时间序列分析技术还可以捕获物联网数据中的时间依赖性和趋势。 它们能够预测未来趋势并识别一段时间内的异常情况。 然而,他们可能需要有关不规则或丢失的时间序列数据的帮助,并且正确的建模和时间序列技术的选择需要专业知识。

通过采用机器学习方法,它可以检测潜在模式,提供精确的预测,增强资源分配,并获得重要的见解以支持物联网环境中的决策程序。 然而,考虑到物联网数据的独特品质和困难,例如数量、速度、多样性和真实性,谨慎选择和训练机器学习模型至关重要。 技术的选择取决于物联网数据的具体特征以及所需的准确性和可解释性水平。 研究人员和从业者在选择合适的物联网数据异常检测和异常值分析方法时应考虑这些因素。

结论

数据科学方法对于评估物联网设备产生的大量数据并从中获取意义至关重要。 这些策略可以使智能城市、医疗保健、农业和工业物联网的应用成为可能。 物联网数据分析需要机器学习算法的帮助,例如聚类、异常检测、预测性维护和分类。 降维和特征选择等方法可以提高模型性能。 大量的物联网数据提供了显着的可扩展性和实时处理障碍。 边缘计算和分布式框架可以促进实时分析并处理大量物联网数据。

数据科学应用广泛应用于用于预测性维护的工业物联网、用于交通管理的智能城市、用于远程患者监控的医疗保健以及用于农作物产量预测的农业等领域。 但是,关于物联网可扩展性、隐私、安全性、模型可解释性、道德问题和数据可靠性的数据科学方法仍然存在悬而未决的问题。 物联网可以通过解决这些问题来充分利用数据科学。

参考
[1] Hu, L. 和 Shu, Y. (2023)。利用物联网环境中的数据科学增强决策能力。国际先进计算机科学与应用杂志,14(9) doi:https ://doi.org/10.14569/IJACSA.2023.01409120