探索BI系统搭建的必要性与AI技术的应用潜力
656
2022-05-29
随着数据的持续增长,数据存储的高性价比是云上数据仓库的核心竞争力之一,GaussDB(DWS)目前支持特性冷热数据管理。
随着业务的发展和持续运行,系统产生的数据会持续增长,伴随数据的增长对数据库的硬件要求也在提高,为保证对数据的操作性能,就需要较高的硬件配置,比如高性能CPU、大内存、SSD硬盘等,并且在积累大量数据后需要通过扩大集群规模来保证系统的稳定运行。在系统里积累了越来越多的历史数据,如果依然采用高配置的机器来存放那些使用频率非常低的冷数据,以及无止境的扩容,势必会带来非常高的成本。
冷热存储定义
数据存在的价值在于其被使用的程度,即被查询或更新的频率。在不同的业务系统中,人们对于不同时期的数据有着不同的使用需求。如在网络流量分析系统中,客户会对最近一个月内安全事件和网络访问情况感兴趣,而很少关注几个月前的数据。对于这样的一些场景,我们将数据按照时间可以分为两个阶段:热数据、冷数据。
Hot(热数据):被频繁查询或更新,对访问的响应时间要求很高;
Cold(冷数据):不允许更新,偶尔被查询,对访问的响应时间要求不高。
用户可以定义冷热管理表,将符合规则的冷数据切换至OBS上进行存储,可以按照分区自动进行冷热数据的判断和迁移。
冷数据自动迁移
GaussDB(DWS)列存数据写入时,数据首先进入热分区进行存储,分区数据较多后,可通过手动或自动的方式,将符合冷数据规则的数据切换至OBS上进行存储。在数据切换至OBS上后,其元数据、Desc表信息以及索引信息也在本地进行存储,保证了读取的性能。
冷热切换策略
目前冷热切换的策略名称支持LMT和HPN,LMT指按分区的最后更新时间切换,HPN指保留热分区的个数切换。
LMT:[day]:表示切换[day]时间前修改的热分区数据为冷分区,将该数据迁至OBS表空间中。其中[day]为整型,范围[0, 36500],单位为天。
在下图中,设置day为2,即在冷热切换时,根据分区数据的最晚修改时间,保留2日内所修改的分区为热分区,其余数据为冷分区数据。[4-26]分区在4-30日进行了delete操作,[4-27]分区在4-29日进行了insert操作,这两个分区的最晚修改时间为4-30和4-29,当前为4-30日,故在冷热切换时,保留[4-26][4-27][4-29][4-30]为热分区。
HPN: [hot_partition_num]:表示保留[hot_partition_num]个有数据的分区为热分区。保留规则为查找出有数据的分区的最大的Sequence ID,大于Sequence ID的无数据分区为热分区,并按这个Sequence ID从大到小保留[hot_partition_num]个分区为热分区;分区Sequence ID小于保留的最小热分区的Sequence ID的分区为冷分区,在冷热切换时,需要将数据迁移至OBS表空间中。其中[hot_partition_num]为整型,范围为[0,1600]。
在下图中,设置hot_partition_num为3,即在冷热切换时,保留最新的3个有数据的分区为热分区数据,其余分区均切为冷分区。
优势点总结:
存储空间成本控制,随着未来计量数据的扩增,有效降低冷数据存储成本
计算和存储快速独立扩容
强事务能力(并发,一致性)
冷热数据自动管理,用户无感知
集群间互联互通
想了解GuassDB(DWS)更多信息,欢迎微信搜索“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技~
EI企业智能 Gauss AP 数据仓库服务 GaussDB(DWS)
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。