如何从删库到不跑路

el/2024/5/21 20:55:34

序言

    从删库到跑路,别人做了一辈子不敢干的事儿。。。不敢想也不敢做更不敢当。

    小手冰凉,整天嘴里叽叽喳喳的哒哒哒,一个女孩子,怎么可以打打杀杀的呢?

    长的漂亮,别人可能会多看你几眼,但是。。。你要是删库了,能高看一眼。。。是个狠人,狠起来连自己都能打。。。

纵深防御

    1 运维负载

    运维面临着很多压力,也有很多的挑战,东西总是要坏的,这就是生活。

    运维,都希望自己在on call的时候,不会收到告警,然而现实却不是,垃圾系统遍地开花,还美其名曰,高端架构,高并发,高性能。。。一点都不可靠。

    其实都一样,无论是开发,还是运维,都是逐步演进的,变得越来越复杂,变得越来越庞大。

    运维压力来自于几个方面:出现故障时的恢复时间,毕竟SLA在哪放着;运维琐事一大堆,有的是开会,有的各种垃圾警报,误报的,多报的,少报的;还有各种故障报告需要写;还有各种技术需要去学习,去提高;还有各种不同的人需要去交流沟通,需要推进问题的解决。

    关注运维,关注琐事,减少琐事的时间,将主要的时间,精力放在自己感兴趣的地方,放在有挑战的地方,从而,每天最多只能处理一个紧急事件,而对于普通的工单类型的问题,可以花费几天,而最重要的是,一天的时间占比,其中应该有部分时间用来提高自己的技术技能,或者是用来自动化的时间,这是一个持久的工程。

    当发现负载很高的时候,应该适当的减少琐事,将一些优先级较低的事情放在后面慢慢处理,而不是再次去追寻速度,当负载很低的时候,那就可以搞事情了,各种演练,容灾演练,备份恢复演练等,提高生产环境的感知力。毕竟过多的负载容易没脑子,CPU队列一直在排队;而负载过低容易造成生产环境生疏,所以演练也是锻炼的一个过程。

    梦想是好的,现实是996,007,运维负载,开发负载,测试负载,现实就是一个压测环境。。。扛得住就抗,扛不住就是平庸的员工啦。。。反抗呢?反抗就是251咯,就不是兄弟咯。。。

    2 数据库监控

    数据库有各种各样的监控指标,各种各样的备份系统,其中的原则是,早发现,早恢复,对于数据完整性来说,只要丢失了部分的数据,那么就有可能数据库无法启动,也有可能是巨大的业务损失,但是要是在用户发现之前就解决了,那么数据库的可用性就是百分百。

    上云的时候,各种云都吹牛逼,说数据可靠性能达到多少个9,但是他们没说,在极端情况下能保证多少。

    除了数据库的基本监控之外,那么还可以添加数据库的备份监控,最简单的方式就是监控数据库的备份文件是否存在,假如设定的阀值为3份,一旦检测发现少于三,那么此时立刻触发备份,并发送告警;一旦发现只有一份的时候,那么此时立刻将备份远程传输到分布式存储中,并触发备份和告警。

    这样监控就完了么。。。还要继续,备份不是为了存档,而是为了恢复,所以呢,可以在数据库层面,做一个自动化测试任务,此任务的主要目的就是为了检查备份是否可用,自动创建一个数据库,自动将备份进行恢复,如果发现无法恢复,那么可能以前的备份都是无效的,发送告警,并重新进行备份。

    备份只是一种手段,所谓的三副本也只是一种手段,真正的目的是为了当数据库出现问题的时候及时的将数据进行恢复。

    raid就一定可靠么,如果硬件没做好监控,raid坏了一块你没发现,坏了两块。。。那就比较凉快了。

    在这个层面上,其实多做演练,确保熟悉流程,并确保备份可用,也是一种防止误删的一种手段。

    3 回收站

    当我们一不小心删除一个文件的时候,文件都会进入到回收站,清理回收站之后,文件才会被真正的删除。

    其实对于云平台来说也是一样的,对于最终用户来说,删除一个东西,进入云平台的回收站里面,用户删除是自己有权限的,而对于回收站里面的清空则是一个云平台的权限,回收站的最大功能就是保证了如果用户误删除了,那么还是可以直接恢复的。

    一个云平台好不好,可以从这个方面来进行判断,保护了多少用户的误操作,无论是极端的操作,还是一些普通的错误操作。这才是关键。吹牛逼的时候,大家都可以,都能,都会。。。一旦真正发生了故障,我不行,我不可以,是你自己操作的。。。摔锅三连。。

    

    对于任何事情来说,都是从三个方面来进行保障一个系统的正常运转,那就是人,系统,制度。

    制度就是关注运维负载,系统就是云平台,保障的底线,很多风险都是平台扛着,无论是可靠性,可用性,高性能都是经过事实的验证的,而制度则是各种应急演练流程,各种备份策略,各种告警监控优化,三个方面缺一不可。

    思考和解决问题的方法很关键,首先。。。我们的认知要同步,不然都会痛不欲生。。。

    长的漂亮,别人可能会多看你几眼。。。然而你要是删库了。。。别人才会高看你一眼。。。别人家的运维都是很个性的。。。哎,我比较平庸。。。

    自动化做的越来越好,那么运维也会越来越少。。。珍惜运维,快绝种了

    防御永远不是最佳策略,最佳策略是进攻。。。所以呢,没事删库演练演练,毕竟黑天鹅事件偶尔会发生,没有碰到只不过是幸存者而已,现实是。。。手抖心慌慌。。。哪只手删的剁哪只。。。


http://www.ngui.cc/el/5239906.html

相关文章

SRE service

序言 夜深人静风微凉,时间就是你的朋友,然而时机不是。。。时间会一直陪伴着你,而时机不是,时机都是一个瞬间的状态,你能抓住,那就抓住了,你要是没抓住,那就只能等待下一次的机会。 …

应该追求什么?

序言 每次都是回归到一个原点状态,最简单的问题就是我是谁,我在哪里,我在干什么?那么你会追求什么? 动机很重要,就像上篇文章一样的道理,只是尝试一下这种付费功能,不知道有人看了是…

为他人做嫁衣

序言 嫁衣虽美,可不要贪杯。。。没有自己的灵魂,没有自己的独立思考,即使穿上了嫁衣,也是行尸走肉而已。 翻开自己的回忆,看看还能记住哪些人,记住哪些事,记住哪些美好的东西,喜欢的…

上云容易下云难。。。

序言 迁云的时候各种工具,让你迁移上云,当你一旦上云之后,想下云那就难了。。。责任,不可能的,你个渣男。。。 就像天天吹嘘的互联网文化,只是其中的加班文化盛行而已,当然,这个见仁…

一朵云,一座城

序言 云服务,让容灾更简单。 我们不是局外人,现在不是,未来也不是,因为无穷的远方有无数的人们。 风言风语 1 云让容灾更简单 一朵云,一座城,选择了一朵云,那就是选择了一座城,选择很…

因为不理解,造就不平凡

序言 因为专业,所以信任,因为专业,所以挑剔,因为专业,所以傲慢。 总是说高风险高收益,实际情况是对有的人来说是高收益,而对你来说可能是高风险,高挑战,收益?…

机器的依附者

序言 文章还非要有个标题,正文还非要个序言,这是规矩,也是一种束缚,既想打破这种束缚,又想另立一套规矩,恶狼循环。。。 听说你要出差去跪着了。。贵州,说错了,哈哈哈哈哈 序言 1 你…

创业公司和其他公司

序言 听到的你别全信,知道的你也别全说,这荒凉的社会你永远也不知道谁在玩谁。。。 带着面具演戏,最后当了真。。。单纯过了头,就是幼稚,就是愚蠢,毕竟。。。没有经历过社会的毒打。。。但是,随…

差异化

序言 人丑就要多读书,难怪大家都说,一看我就不是读书的料。。。 灵魂这个东西,很有意思,给对了人,无价之宝,给错了,分文不值,很多东西可以免费,但是绝对不能廉价。。 风言…

面向头衔聊天

序言 永远不要用身高丈量自己,要丈量自己到天空的距离。 没有带着脑袋,就无法思考;没有带着耳朵,就无法听见风声;没有带着灵魂,就是行尸走肉。。。 风言风语 1 面向头衔聊天 在解数学题的时候,我…
最新文章