首页 > 编程学习 > 从苏宁电器到卡巴斯基(第二部)第10篇:我在卡巴的日子 X

目录

在这里,我看到了究极

分组

启发查杀组

每周的任务

深入学习与总结

启发特征的发布

人工智能


在这里,我看到了究极


在南派三叔所写的小说《盗墓笔记》的《云顶天宫》这一部中,说张起灵化妆成“阴兵”去了青铜门后面的世界。等他回来的时候,众人问他在青铜门后面究竟有什么,张起灵回答道,他看到了终极。

直至小说的最后,南派三叔也没描写这个所谓的“终极”究竟是什么,但应该是一种超出常人理解甚至是张起灵理解的事物或者是超自然现象吧。因为“终极”也就预示着一切的尽头,不可能再有更进一步的发展了。而我在卡巴斯基,也遇到了类似的情况。但技术是永无止境的,我觉得用“终极”不妥,所以这里称其为“究极”。

 

分组


在之前我给大家看的排班表中,我说我们每个分析师在一周五天的工作中,有三天要上线去处理日常的Case,还有两天需要做高级查杀技术的研究。其实在一开始正式走出训练期的时候,我并不知道自己还需要做研究,因为当时我一周五天都是要上线处理Case的,甚至有些时候,我们四个分析师会同时上线。由于我们的业务并没有那么多,因此四个人同时上线,劳动力确实是有些富余了。

大约是训练期结束后的一个多月吧,此时我和另一个新同事Yang都已经处理了一段时间的Case,对卡巴日常的业务也算是比较熟悉了。有一天,Rocky突然对我俩说,我们以后要开始排班,每人一周上线三天,另外两天不用上线,需要加入一些研究组来做一些查杀技术的研究。然后他就把我分配到了启发查杀组,把Yang分到了主动防御组。由于Rocky也是启发组的,因此接下来这段时间就由他来指导我关于卡巴查杀引擎中启发模块的用法以及特征的提取方式。而Yang则由俄罗斯的一位同事进行远程指导。

Yang所学习的主动防御技术有些复杂,一开始还需要先配置好分析环境,听说配置文件有好几个G,安装起来很容易报错,这就让他感觉很头疼,花了很长时间配好以后,特征也很难写。因此他其实也没有在主防组待多久,就和Rocky表达了想要转组的要求,结合他自己的意向,就把他分配到了安卓病毒研究组。他在这方面毕竟也是有些基础,而“渣兔”也在这个组,大家还可以相互交流研究,因此Yang上手很快,没多久就通过了培训,开始正式做安卓病毒特征的编写工作了。

 

启发查杀组


我这边的启发式查杀相对来说上手还是比较简单的,在卡巴的内部,有一套用于启发特征编写的集成开发环境,有点类似于Visual Studio,我需要学习这套IDE的用法和语法,相当于是新学一门编程语言。然后需要以恶意程序的家族为单位,总结这一类恶意程序的特点,再基于卡巴的启发引擎,写出查杀程序。这样,以后只要出现包含有相同行为的样本,那么旧的特征依旧可以匹配到新的恶意程序。

在此之前,我完全不知道还有启发式查杀这一说,我天真地以为目前最厉害的查杀方式也就是主动防御了,因为我在入职前的自学时,确实看过一些文章,也了解过一些厂商会采用主防这样的方法。而在Rocky面试我的时候,我也仅仅回答了哈希查杀以及传统的特征码查杀这两种方式,并不知道启发是怎么回事,也完全没有听说过。这也就说明了,如果想要接触最先进的技术,还是得进大厂深造的。

在一开始,Rocky仅仅告诉我了一些最基本的启发语法,也给了我一些家族的样本,让我练练手,我需要以最小的代价干掉更多的恶意程序。在这个学习的过程中,由于我对启发理解不透彻,因此也是走了不少的弯路。比如我要是发现样本调用了DeleteFile函数,我可能就要直接报毒了,因为这个样本做了文件删除的操作,我就觉得很可疑。这个时候Rocky就会教导我说,单一的函数不可以拿出来作为特征,毕竟微软将这些API函数发明出来,不可能仅仅是为了给黑客利用的,正常的程序也是可以调用这些函数的。因此编写启发特征,应当提取出只有恶意程序才会使用的函数序列才可以。另外,最好是将静态和动态启发结合来使用,以达到最好的查杀效果。

这里所说的静态是指单单从样本的文件本身层面去找一些可疑的东西,比如奇怪的字符串等,但是如果样本使用了混淆或者加了壳,静态特征就无从下手了,此时就需要将这个样本在沙箱里面运行一下,通过分析沙箱运行出来的日志文件,提取特征。那么这也就是之前所说的函数调用序列了。有些时候日志文件会非常庞大,这就需要依靠分析师的经验从而在合适的地方进行提取了,大海捞针式地找可疑的地方肯定是不行的,这样会非常耗费时间。

 

每周的任务


当时Rocky让我一周提交八条启发特征,看起来不多,但实际上这确是一个比较艰巨的任务。因为尽管我们有非常好的启发引擎来帮助我们的分析与查杀,但现在很多的样本写得非常地晦涩,极难从中找到一些比较好的特点鲜明的特征出来。所以尽管我一周有两天时间做这方面的研究,但基本上能写出四条特征就已经很不错的了。所以没办法,为了完成任务,我就只能加班了。这个加班并不是每天六点下班以后继续干,而是利用我的休息日,也就是周日和周一,也来公司找样本做研究,提取特征。只有这样才勉强能够完成Rocky给我定下的目标。有时运气好,一周可以写出超过八条的特征,于是我就会把多余的这些留到下周再提交。

随着时间的推移,我发现我们系统样本库中的样本也是越来越少,好分析的都被我和美国的一位新来的分析师给研究完了,余下的都是特征不鲜明的样本了。这就很糟糕了,于是我就又改变了策略。由于我一周是要上线三天处理Case的,这些Case一般就是分析一些最新的样本。因此我就把每天上线遇到的这些样本保存了下来,到我做研究的时候,就专门研究这些最新的样本,这样就极大地缓解了系统库中样本不足的问题。这么做还有一个好处,那就是如果遇到的这些样本是世界上最新的病毒,而我又第一时间对其写出了启发式特征,那么等这些样本再次更新的时候,只要其核心恶意功能没有改变,那么我所编写的旧的特征依旧可以查杀新的样本,真正实现了防患于未然。此时Rocky也会非常惊讶,甚至还边检查我的特征边自言自语问道:我查杀的这些样本都是哪来的啊?

很明显这些样本连他也没见过。而直到我离职,我也没和他说其中的缘由,毕竟他也没正面问我,要是正面问,我当然会说的。

 

深入学习与总结


除了每次我都能利用启发查杀掉最新的样本从而令Rocky吃惊以外,我自己还看了很多俄罗斯大神编写的启发特征。因为Rocky教我的那些语法都太简单了,随着我对启发式查杀理解的加深,以及样本复杂性的增加,就势必促使我学习一些更加高级的语法以更巧妙地干掉更多的样本。特别是有一次,我写了一条特征可以有效地对抗“白加黑”恶意程序,Rocky见了也有点惊讶,一开始也是有点质疑地问我这样真的可以吗?我自信满满地说没问题,我看了很多这样的样本都具有这样的特性,于是在将信将疑中,Rocky几乎没有对我的特征做什么改动,就审核通过并发布了。要知道,我以往的特征,Rocky或多或少地都会做一些修改,以避免误报或者以适应更多样本的查杀。可越到后来,我就越不需要他的修改了,他能够提出的意见也是非常有限了。其实,这正是他对我能力的无声的认可。

尽管启发式特征非常强大,但是它的缺点也是非常明显的,那就是非常容易造成误报。像是我们日常所处理的Case里面,如果出现了误报,那么大概率是由于启发或者主动防御特征所引起的。毕竟很多开发人员就是喜欢将代码写得和病毒一样,而我们又不可能因为几起误报而修改启发特征。这里其实涉及到一种权衡的思想,有些写得很好的也是有些年头的启发特征,在其下已经查杀了几十万个恶意样本,因此这样的特征我们是坚决不能动的,于是出现误报,也就只能将被误报的文件放进白名单里面了。

 

启发特征的发布


而我在一开始写启发特征的时候,如果Rocky审核没问题,也会发布出来,但是这种发布需要以Silent的形式发布,也就是这种特征只会默默地收集符合特征的样本,并不会直接报毒。大概收集一周或者半个月之后,分析师可以看一下这段时间的这条特征之下的样本是否出现了干净文件,如果全都是恶意的,那么才可以解除Silent形态以正式发布。假设其中有干净文件,那么就要进一步分析,看看是不是特征没有写好,如果是的话,则要进行修改,然后继续以Silent形式发布,收集样本再次进行研究,如此循环,直至确认没问题才可以发布。因此一条启发特征往往是要经历很长的一段时间才可以发布的,毕竟启发式特征是可以实现一对多的查杀的,一旦由于分析师个人的原因将特征写错,那么势必会出现大规模的误报,从而产生不可逆的后果了。所以Rocky也是小心谨慎,只让我写特征就好,其余的后续工作就由他来处理,偶尔也会让我看看收集到的样本是否有问题,但大部分情况还是可以的,于是也就直接发布了。而熟悉了启发式查杀特征的编写,也预示着我对卡巴的日常工作可以说是完全上手了。

启发特征对我的影响非常深远,往近了说,我在吾爱破解的视频教程比赛中所使用的就是静态启发式查杀的思想,尽管我在课程里面所用的方法和卡巴很不一样,毕竟卡巴是专业的查杀引擎,而我是自己写程序,但却可以达到类似的效果。往远了说,后来我和看雪合作,新出了一套《恶意程序分析与高级对抗技术》课程,里面的高级篇就是举了好几个关于启发查杀的例子,尽管课程里面的启发与卡巴相比依旧是小巫见大巫,但我也是希望通过我的课程的启发,能够令更多的朋友了解到这样的一种思想,从而更好地为世界网络和平做贡献。

 

人工智能


当时在我离职前,卡巴招聘了一个北邮的实习生,在我们这里做一些高级技术研究。这位同事所研究的内容和卡巴现有的体系又不一样。因为不论是启发还是主防,虽说是目前最为成熟的高级查杀技术,但依旧很传统,特别是当人工智能技术的兴起,那么如何将这一新技术和病毒查杀相结合,势必会成为未来我们领域的主流研究方向。如果人工智能可以达到和分析师一样的水准,一方面可以大大提高病毒对抗效率,另一方面也会彻底解放我们分析师,也会促使我们转行,让我们也投入到人工智能的研究领域。

这位新同事在我们这里主要研究的是机器学习中的初阶——模式识别的一种方法。简单来说,我们知道图像文件其实也是101010这样的二进制文件,而病毒文件也是这样。于是我们可以采用一定的算法,将病毒的二进制文件强行转化为图片形式,主要是转化为灰度图。然后利用图像识别分析算法对其进行特征的提取,也可以计算不同图片文件的相似度,以确定这些病毒图片文件是否属于同一类。

这是一个非常新颖的思路,它最大的好处在于可以无视我们所分析的目标样本文件,因为不论是哪一类的样本,最后都会被转化为图片,然后只要直接调用图像相关算法就好了。而我们传统的分析与对抗方式,不论是启发还是主动防御,都要求我们分析师要熟悉不同恶意程序的特点才行,因为不同类型的文件会具有不同的文件结构、分析方法和分析工具,这就需要我们势必要进行长时间的培训,以熟悉不同样本的分析技术。而有了这种模式识别方式之后,研究人员只要不断地去优化算法就好,将传统的分析技能转化为数学的方法。因此这样的一种方式确实是让我眼界大开。同时可以说也是让我找到了自己未来研究的方向。

现在想想,真的是非常感激卡巴斯基让我接触到了这么多的黑科技,因为我也了解过一些友商的情况,他们并没有诸如启发这样的方式,很多时候依旧要依靠最基本的哈希或特征码查杀的形式。所以我才会有这样的感慨——

       在这里,我看到了究极。

 

回到目录

下一篇

Copyright © 2010-2022 ngui.cc 版权所有 |关于我们| 联系方式| 豫B2-20100000