大数据时代下数据重删的考虑

el/2024/6/13 21:17:39


 

大家周末愉快,今天我也是首次推送有偿阅读文章,虽然平时工作忙,但在下班后尽可能挤时间总结一些平时工作中遇到的技术来和大家分享,但是每次看到文章的阅读量,发现关注我的粉丝人数和阅读量相差太大,我的积极性和主动性每次都承受着打击,推送有偿阅读主要目的是想了解下,到底有多少忠实读者在默默关注支持我,另一方面通过投票也想大家反馈下自己关注的内容,以便我以后有针对性的进行文章内容调整。

 

因为最近跟数据重删压缩打交道比较多,所以今天的话题也是重删压缩。在备份、主存储及AFA存储中,重删压缩功能可以说是必选项,但是站在用户角度和存储厂商角度我们会面临这两个需要取舍的困窘。

 

站在用户角度,从理论上来说,删除重复数据是会减少数据的可靠性,特别是在备份场景中。备份的目的就是为了提高数据的可靠性,但重删之后,这些重复数据都不存在了。但有付出就有收获,我们获得了存储空间上的节省,可以写更多数据进来。同时,之前的重复数据不是一种有规划的重复,重复数据应该怎么分布,如何避免某一个磁盘、磁盘框、机柜损坏之后,数据还可以读出来等等都没有考虑。


为了提高数据可靠性,可以针对重复度较高的数据,采用写多份拷贝的形式来提高这些重复数据的可靠性,同时,也可以根据存储的布局和组网,将这些拷贝按照相应的规则分部到不同的故障域中,更进一步提高系统的可靠性。

 

针对存储厂商,重删特性垃圾回收都是一个非常头疼的问题,垃圾回收存在两种不同的方法,基于引用计数和全盘扫描。这两种方式都各有优缺点,例如引用计数要求数据块的引用计数一定正确,不能有任何的错误,特别是不能多减,不然会出现数据不一致。这就要求系统中必须实现要有保证强一致的方法,比如事务。全盘扫描虽然不用保证强一致性,但需要进行全盘的读取,所以性能上不会那么好。

在随机业务场景中,重删之后使得数据分布更散,并且容易导致下层的空间管理单元中出现空洞,如果空洞很多,则导致存储空间的利用率不高,所以一般都会涉及到数据空间的整理及搬移。如何搬移才能保证较好的分配效果,使得这些空洞能被最大可能性的利用起来,并且不对后续的读写性能带来较大的影响,是一件很有挑战性的工作。

  

 

传统的重删压缩功能实现都放在存储层、在存储软件栈中增加重删压缩模块的实现方式。这种实现方式一方面使得单个节点的实现变得更复杂,同时如果涉及到节点间的通信,将会把整个存储系统进一步复杂化,在超过数百个节点时,这种通信交互是不可想象的。

 

免费阅读就到此为止,关于重删压缩分类、不同场景的重删方法、不同厂商实现方法、云存储服务上的重删压缩等详细介绍,通过打赏后,我会各自推送到相应读者微信上,打赏金额可以不限,打赏的目的开篇已经说明,希望得到的大家支持、技术投票和建议,今后推出更好的文章。


温馨提示:

请搜索“ICT_Architect”“扫一扫”下面二维码关注公众号,获取更多精彩内容。


http://www.ngui.cc/el/4994574.html

相关文章

先谈云计算再谈云大会

 针对第八届中国云计算大会前几天我写过一个介绍文章,今天我想在介绍该盛会之前,给大家首先分享下云计算在目前落地的情况和主要的云玩家、以及目前这些厂家的基本战略,这样大家可以在享受周末愉快时光、了解大会的同…

解析Ceph和9000分布式存储

 Ceph是呼声很高的开源分布式的SDS产品存储系统。同时提供对象存储、块存储和文件系统存储三种功能,满足不同应用需求。Ceph使用C++语言开发,遵循LGPL协议开源。Sage Weil(Ceph论文发表者)于2011年创立了以Inktank公司主导Ceph的开发和社区维护。2014年Redhat收购 …

浅析端到端方案兼容性

今天想跟大家讨论下数据中心解决方案和设备兼容性话题,随着信息技术的发展和新旧设备的更替,不同设备间的兼容性问题是客户和厂商必须面对的现实问题,一方面产品不断推出新功能满足不断攀升的客户需求,另一方面客户的计划性、周期…

X86架构小机以何应对核心业务

 随着近期华为发布基于X86架构的小型机Kunlun,X86小型机在业内引发很多不同声音。我最近刚好参加了一次Kunlun发布会并看了Kunlun在金融等行业方案简单介绍,今天也正好利用周末时间,谈谈我个人对开放架构小机的看法和理解。 话题还得从小型机发展开始说起,…

雨水泛洪和网络泛洪那个更可怕

 每逢烈日当头都酷暑难耐,每逢想起“哪儿凉快哪儿待着去”这句话,都让人倍感关怀之至。近日雨水充沛、风清气爽,但全国上下顿时滔滔,山坡流石、泥水缭绕,欲与房屋试比高。 雨水泛洪非常可怕,此图让人一斑见全貌。让我们为那些深受洪水侵袭的人们祈福,早日度过…

OpenStack云数据的护花使者Smaug

 ICT架构师技术交流(微信号ICT_Architect) 分析和交流ICT行业最前沿技术,分享云计算、存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步。 Smaug是一个OpenStack中提供应用数据保…

【Ceph专题】 Ceph架构详细分析

 Ceph专题一 Ceph架构详细分析 支持原创,支持ICT架构师技术交流(微信号ICT_Architect) 分析和交流ICT行业最前沿技术,分享云计算、存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步。 Ceph是呼声很高的开源分布式的SDS产品…

云时代下,传统和新型存储的博弈已经开始

 云时代下,传统和新型存储的博弈已经开始 ICT架构师技术交流 (微信号ICT_Architect) 分析和交流ICT行业最前沿技术,分享更多存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同…

有哪些IT巨头,在打造Ceph这朵开源存储金花?

 ICT架构师技术交流(微信号ICT_Architect) 分析和交流ICT行业最前沿技术,分享更多存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步。 关于Ceph架构和RedHat企业版Ceph Storage 2特…

Docker网络优化方案,你认为哪种将引爆未来?

 ICT架构师技术交流 分析和交流ICT行业最前沿技术,分享更多云计算、存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步。 上一篇文章Docker原生网络和实现原理中,我们讨…