本期Jesse想跳开所谓的数据库,来跟大家聊一聊时序数据,事实上时序数据已经在广泛的存在于我们身边。
本文仅代表个人观点,如有偏颇之处,还请海涵~
🤠🤠🤠
时序数据无处不在
我们在生活中每天都在使用时序数据,比如智能家居、联网汽车和移动设备等。由于传感器和连接设备的快速增长,大部分公司都产生了比之前更多的时序数据,从股票市场分析到地震预测甚至再到医疗保健,时序数据在各个行业生根发芽,因为我们产生了越来越多随时间变化的趋势。
时序数据爆炸的背后
两个重要因素促成了时序数据的激增。第一个因素毫无疑问是连接设备和物联网的兴起。随着新设备上线,它们会生成越来越多的时序数据。试想一下联网汽车的通用指标,比如以公里/小时为单位的速度。如果我们将收集此指标的信息频率更改为每分或者每秒,那么所产生的数据集会大几个数量级。将这一原则应用于拥有数百万个连接设备和传感器的整个行业,这些数据的指数级增长变得显而易见。时序数据增长的第二个因素是公司使用数据本身的方式。随着公司将大量数据迁移到云端,这些系统、流程和容器会生成时序数据。一旦上云,公司就会横向使用这些数据,从而创建更大的工作负载和更多数据。例如,某些大公司业务从一个地理区域开始,现在跨越了六大洲的数百个地点。类似的趋势在不停上演,持久数据在不断扩展的网络中得到重用。
需要注意的是,有不同类型的时序数据:指标和事件。指标是定期进行的测量;事件是不定期收集的测量值。为了有效地使用时序数据,我们需要能够处理这两种类型。仅收集指标意味着我们可能会在关键事件发生时错过它们,而仅收集事件意味着我们可能会将异常误解为重大事件。
从时序数据中受益
无论是公司此前的应用程序就包含了时序数据,或是现在想将时序数据分析加入到已经建立、预先存在的应用中,时序数据应用的行业和用例差别很大,比如:金融服务公司会使用时序数据监控交易异常;工业企业使用工厂车间的系统生成各种时序数据,用于实时警报、流程优化和预测;流媒体服务使用时序数据在问题影响最终用户之前识别和预防问题;电信运营商依赖时序数据进行异常检测、网络遥测和容量规划等等。
伴随时序数据来源的增加,我们分析和处理这些数据的需求也在增加,上面所举的示例会生成的数据带有不同的格式。事实上,同一个应用程序可能会从10个甚至更多不同的来源中提取数据,每个来源的格式都不同。这也是为什么选择可以从各种来源获取时序数据的解决方案至关重要。解决方案在数据摄取方面越灵活,我们的应用程序就越能适应未来,从长远来看可以节省时间和金钱。
时序数据平台包括什么
每个用例都不同,因此选择满足应用程序摄取需求的时序数据平台至关重要。在平台中寻找的属性包括:
(1)数据的规模和速度。这是一个关键指标——随着时序数据呈指数级增长,我们希望利用它的组织,得到一个能够在现在和未来几年内处理所有数据的平台。
(2)时间序列数据的形状。这比其他数据类型的变化要快得多,从长远来看,拥有一个可以适应添加新数据字段而无需额外开发工作的解决方案将为我们节省大量时间。诸如关系数据库或文档数据库之类的遗留技术不足以管理此类数据。
(3)遗留设备的现代化。产生时间戳数据的设备包括消费类设备,如手机、汽车和电器,以及工业物联网设备和流程,如与制造或医疗保健相关的设备和流程。但公司对旧设备进行现代化改造和升级的方式也需要考虑在内。连接和集成这些设备进一步增加了时序数据的数量。
当时序数据已经成为主流,它的未来会走向何方?回想一下,当“移动”成为技术的上升趋势时,企业争先恐后地提出移动战略。随着移动技术的普及,这种压力逐渐消失。移动成为产品和服务的基础,每个人从一开始就将其纳入他们的战略。最近,“云”趋势遵循了类似的轨迹。
预计时序数据会有类似的趋势。手动监控物理仪表板的概念将会消失。相反,自动化流程和决策将监控数据趋势,并根据工作流中发生的情况采取行动。这种类型的自动化已经在发生,但会变得更加普遍。
未来几年,我们预测时序数据将牢固地嵌入我们使用的应用程序和服务中。目前,这些数据无处不在,但未得到充分利用。公司越早的将它们整合进自己的数据战略中,就能越早获得与那些没有这样做的人相比的竞争优势。
参与CnosDB社区交流群:
扫描下方二维码,加入CC进入CnosDB社区进入社区交流,CC也会在群内分享直播链接哒