大家好,本期Jesse想暂时先跳开TSDB的话题,讲讲物联网数据如何改变我们的世界,我们都知道TSDB的主要应用场景之一是IoT,那么我想我们也有必要多介绍一些IoT相关的内容和行业趋势。
本文仅代表个人观点,如有偏颇之处,还请海涵~
🤠🤠🤠
物联网数据正在改变世界
近些年来,我们似乎已经接受了大部分公司都将转变为数据公司的事实。现今,不仅仅是我们印象中的谷歌、亚马逊、苹果、阿里、腾讯等这种大公司会产生海量数据。因为物联网的兴起,越来越多的设备和产品都嵌入了传感器,无论是从汽车、电器再到我们身上穿戴的小米手环,或者华为智能家居中各种各样的家电,最酷的是上海特斯拉的工厂中包含着各种KUKA的机械手臂等,即使是那些低调不起眼的小企业其可访问的数据量也在呈指数级的增长。但是,我们必须明白创建数据和有效地使用它们是截然不同的两件事。
当我们回顾历史,看看个性化广告、产品推荐或者再想想便捷的在线支付体验,我们就会知道当大型科技公司开始利用数据去发挥优势时世界和我们的生活会发生什么——巨大的变革。但诸如制造业、汽车和公用事业这种传统行业才刚刚开始通过策略去挖掘他们数据的价值。这些策略的效果虽然仍处于起步阶段,但即便如此,也有迹象表明,这种数据觉醒的影响比大型科技公司带来的数据驱动变革更有意义。
改造传统行业
这种变革,我们可以先以传统的汽车行业为例,一辆配备数百个传感器的自动驾驶汽车每天可能会收集超过25GB的数据,这为汽车制造商积累了EB级规模的数据。如果我们能将这些数据量转移到云端并进行战略性的利用,这种影响和价值可能是巨大的。 例如,如果汽车制造商开始收集和分析来自汽车传感器的数据,它可以与保险提供商共享这些数据,从而从根本上改变保险单的创建方式。司机越安全,每月支付的费用就越低。除此之外,他们甚至可以与政府合作,分享有关驾驶行为的见解、告知新道路和检测恶劣条件——改变当今城市的一些设计。
我们再来看看电表行业,智能电表制造商也正在思考采取类似汽车制造商的举措,以充分利用其数据的潜力。监控能源消耗的智能电表不断收集对满足社区能源需求至关重要的数据。这些数据对公用事业公司至关重要:不仅为可靠性和维护措施以及定价结构提供信息,而且还推动了减少碳排放的绿色举措。与公用事业公司携手合作,智能电表制造商可能成为更可持续未来的重要加速器。
如何成功使用物联网数据
为了创造一个传统公司大量地使用物联网数据的环境,信息安全与脱敏不可忽视,同时易于访问的云是关键。事实上,云越来越成为传统公司转型的核心,云和围绕它提供的服务将推动传统的企业逐渐从硬件生产商转变为数据聚合商。虽然云的好处已得到广泛认可,但大规模、快速、安全地获取数据所产生的挑战,使得云的利用严重不足。大规模、非结构化的物联网数据工作负载——通常存储在边缘或本地,其需要基础设施不仅可以处理大数据流入,而且还要求高稳定性以确保数据在不中断或停机的情况下到达需要的位置,便于后续的分析处理。对于PB、EB级别的数据集而言,这绝非易事,但这是基本挑战:优先考虑大规模实时处理数据。通过建立优化物联网数据的捕获、迁移和使用的基础设施,这些公司可以解锁新的商业模式和收入,从根本上改变它们对我们周围世界的影响。
随着越来越多的传统公司开始接受物联网数据,我们相信物联网数据终将从根本上改变我们的世界,世界的商业模式将又一次开始演变。
我们正在进入工业4.0时代,一系列的新技术使我们的生产经营和组织模式变得高效,比如预测性的机器分析、计算机视觉技术、无人驾驶的车辆以及具有增强现实功能的工业级可穿戴设备等等。虽然新技术多种多样,但我们还是能从中看到这些技术的共性 —— 为了支持数据化的科学决策,他们都需要采集、处理、存储和分析大量的数据。IIoT(工业物联网)的核心价值就是希望使组织能够以可扩展、高性能、高效的方式来从大量数据中分析和提取价值。而数据库技术正是实现这一价值的核心。
不幸的是,由于缺乏必要的技能和相关基础设施技术的挑战,Cisco之前的调查认为70%的物联网项目是失败的。与此同时,工业组织大都面临传统基础设施转型的挑战,通过云端实时优化其流程是他们可供选择的转型方式之一。
IIoT数据是一个挑战
首先,IIoT所涉及的数据源和前端数据采集点广而分散,所以其数据规模和类型与传统和网络规模下的数据有诸多不同,传统的数据库和基础设施技术根本不适合处理IIoT规模的机器数据量。关于IIoT数据规模如果没有直观体会,我们可以试想一下,现在有一个拥有数万传感器的工厂,从一万个不同类型的传感器主动收集数据,同时这个组织还可能在世界各地经营着100家这样的工厂,运营着每条供应链。IIoT场景下选用的数据库,其任务不仅是收集这些庞大的传感器数据量,而且还要提供高效的性能并实现纳秒级的实时数据分析。
其次,IIoT场景的数据具有多样性的特点。IIoT传感器数据通常存储为多层嵌套的JSON文件。还有一些相关数据,例如文章和产品信息、批次信息、拓扑结构和固件,这些数据必须与传感器数据相关联,并结合情景才有意义。
最后,IIoT场景还生成带有时间戳的时序数据。比如,用于跟踪流程、地理空间以协调移动设备的数据点、用于验证产品状况的图像和其他多媒体BLOB数据。随着工业组织规模的扩大,如此庞大的数据范围必须易于管理。工业组织希望保持简单易用,因此他们更倾向于使用单个数据库而不是协调多个数据库。
传统数据库不适合IIoT
首先,传统的SQL类型数据库,比如,Oracle、MySQL等。他们的缺点我们在之前的介绍中其实以及多次提到过,其扩展成本很高,同时也满足不了IIoT场景下的高数据量和复杂查询,其问题很多。
其次,NoSQL和NewSQL数据库(如MongoDB和Apache Cassandra),他们的易用性使得它们有一定吸引力。不过,它们需要专业的工程师和复杂的管理,从而导致高昂的人员成本。同时,绝大多数工业工程堆栈都是SQL连接的,这使得这些NoSQL和NewSQL解决方案难以与现有工具集成和适应。最后,这些数据库选项也并未针对IIoT工作负载进行性能优化。
最后,我们来看看现有的时序数据库产品,看起来它们目前是IIoT场景下最有力的数据库提供商。但它们大都也有自己的不足,比如某国际领先的时序数据库厂商:其一,其开源版本没有完全分布式的架构,例如,连接、子查询和聚合查询不是以完全分布式的方式实现的,这使得横向扩展计算能力来满足这些需求变得困难。其二,它可以轻松存储数据并制作时间序列图表,但不是为运行高度并发的工作负载而构建的。而IIoT工作负载可能需要处理每个节点的数千个连接。例如,在高负载下运行交互式仪表板并同时写入系统。由于工业环境中数据的海量和速度,一个数据库每秒必须处理多个时序查询,这比标准时序数据库的顶级查询速度要快得多。
IIoT呼唤新的数据库
IIoT需要无限的可扩展性,因为IIoT解决方案可以轻松达到TB甚至PB级的数据。数据库不仅必须处理该数据量,还必须满足计算端的性能需求。存储和计算的可扩展性必须像添加新节点一样简单,这就好比我们在搭建乐高积木。此外,我们希望数据库是通用的数据模型,能够存储IIoT所需的不同类型的数据。它还必须支持大规模和高度并发的工作负载,并具有动态架构,使组织能够在运行时添加列,而无需重新标记或重放数据。最后,数据库必须为混合云和本地边缘部署提供支持。工厂需要能够在没有可靠的互联网连接或不需要云连接的情况下实时做出关键决策并启用分析。
IIoT的成功取决于效率
IIoT部署必须易于集成和操作,同时考虑效率。例如,文档和关系型数据库可能需要八个节点才能以可接受的速度运行一个 IIoT用例。相比之下,IIoT新的数据库可能只需要三个节点就可以单独处理相同的用例,从而大幅提高效率。效率还意味着能够规模化终端用户数量。例如,当组织利用交互式仪表板看到相关结果和机会时,他们可以迅速扩大员工数量。这是计算需求的巨大增长,当然扩展必须简单且价格合理。此外,高效的IIoT数据库解决方案是任何开发人员都可以开箱即用的解决方案,并且在将其作为分布式引擎运行时具有较低的复杂性。理想情况下,数据库将在很少维护和监督的情况下运行,并且不需要专门的DevOps人员。
数据库世界的发展日新月异,面对新的IIoT场景,我们期待新的数据库出现,CnosDB正在朝着这一方向努力。
参与CnosDB社区交流群:
扫描下方二维码,加入CC进入CnosDB社区进入社区交流,CC也会在群内分享直播链接哒