大家好,上期经过了王宏志教授对数据库前沿领域的介绍,不知道小伙伴们是否对数据库领域有了更深的认识呢,本期让我们回归时序数据库,再来聊一聊时序数据库在水电站领域的应用。
本文仅代表个人观点,如有偏颇之处,还请海涵~
🤠🤠🤠
时序数据库在水电站领域的应用
传统水电站监控系统迎挑战
在水电站的自动化控制过程中,电站的运行数据监控系统举足轻重。其后期为运行分析、趋势判断和事故处理等提供了有力的保障。水电站监控的数据具有采集频次高、并呈现时间序列排序等特点,使用传统的RDB(诸如MySQL、SQL Server、Oracle等)存储带来了诸多的问题。
首先,其存储成本高,写入吞吐低。大型水电站的测点非常之大,即使只是1万个测点,如果每秒采集一次,一天也要占用大约10 ~ 20 GB的磁盘存储空间。普通的磁盘阵列的容量很难满足上述海量数据的存储需求,而且关系型数据库对时序数据的压缩不理想,这也就造成伴随时间推移,其成本还将不断上升。此外,在传统方案下,海量数据写入耗时较长,难以满足千万级的写入需求。
其次,查询性能差。虽然会对关系型数据库进行分库分表、优化索引等技术操作,但随着存储数据的不断增长,其查询效率还是会显著降低,难以在秒级甚至毫秒级获取所需要的数据。同时,分表策略也会增加查询业务的复杂性。比如,如果按月分表,那么查询跨月数据需要通过多条SQL或联合查询才能获得所需结果。
时序数据库解决传统数据库瓶颈
针对水电厂监控系统中存储的数据大部分是时序数据的特点,基于时序数据库搭建水电站的监控系统成为了更好的选择。相比于关系型数据库,时序数据库在数据存储和查询方面,都有明显的性能优势。
时序数据库的高效压缩比可以节省大量的存储空间。这主要是因为其采用了列式存储的方法。其每列都存储了一组有序数据,将这些数据转换为单行“数组”形式的数据。然后针对其数据类型,使用特定压缩算法对每个数组进行单独压缩。
在查询方面,时序数据库的数据通常每秒或者每毫秒记录一次,这导致数据增长很快。而对于传统关系型数据库来说,由于大量地使用B+树进行索引,当数据量到达一定量级后,其写入性能就会出现明显的下降。而时序数据库可以进行自动分区,随着不断地数据写入,以时间戳来自动建立分区,将时序数据分区存放,保证每一个分区的索引维持在一个较小规模,从而维持住写入性能。查询时也可以快速定位到所需的数据分区,保证查询性能。
基于时序数据库提供更优服务
水电站监控系统的时序数据库主要用于曲线查询、报表查询等服务,根据相关的查询请求到时序数据库中查询相应的数据,生成相应的结果集返回。比如报表查询功能,主要是进行时序数据采样、输出,要实现可选间隔时序数据的平均值、最大值、最小值、均值等统计功能。同时也要求,通过配置界面配置所需要的测点统计功能,前端页面能够展示所需要的统计值。目前看来时序数据库提供的聚合查询函数完全能够满足水电站监控系统的所需要的统计功能,并且请求时间均在1秒以内。再比如,曲线查询功能,其要求系统可由时序数据库提供任意历史时间段的实时数据,供电站人员查询实时曲线,并要求可同时查询多个测点的曲线,以便进行分析比较。
好了各位小伙伴,本期我们就聊到这里,我们下次再见。
本文参考了《水电站设计》期刊中由边丽娟等所著的《基于时序库的水电站监控系统设计与实现》一文。
参与CnosDB社区交流群:
扫描下方二维码,加入CC进入CnosDB社区进入社区交流,CC也会在群内分享直播链接哒