本文是安天董事长、首席技术架构师肖新光为《情报驱动应急响应(第二版)》中文版译著作的推荐序,出版时略有删改。在刊发版基础上,作者做了二次修订。
很高兴收到译者邀请,为本书第二版的中文译本写推荐序。本书为国际资深安全专家所著,由国内两名实战经验非常丰富的网络安全从业者翻译。
本书第一译者李柏松是我的同事,是安天的联合创始人。在上世纪90年代,他是哈尔滨较早的逆向工程分析和反病毒技术研究人员。我们于1998年在BBS太阳岛站相识,经常在线讨论病毒分析技术。很巧的是,我当时从实习的金融机构IT岗位回校工作,是他接替了我的工作职责。我们已经并肩战斗了二十几年,柏松参与了安天反病毒引擎最早版本的开发,是安天安全研究与应急处理中心(安天CERT)的创立者。如今,他已从主要面向系统底层安全研究的窄带的专业技术工程师,成长为我国在网络安全事件应急处理、分析溯源方面优秀的技术指挥员。作为主要指挥者之一,他深度参与了“口令蠕虫”“震荡波”“冲击波”等多起重大蠕虫事件的应急响应工作,“破壳”“沙虫”等多个严重漏洞的应急处置工作。自2010年以来,我们一起带领包括安天CERT在内的多个技术体系的工程师们,针对多起APT攻击事件和多个APT攻击组织,长期持续跟踪分析研究,并取得了一系列创新突破。
长期从事引擎研发和主持样本特征提取工作,带给他对机读情报的敏锐理解。而带队进行威胁分析报告的编写,也让他高度关注信息(人读)情报。他凭借兴趣和坚定的个人信念,自2016年元旦起,每天早上6点准时将编辑整理好的“每日安全简讯”转发到十几个安全技术微信群,再经群友接力传播,使最新威胁事件能够及时被业内同仁获知。八年如一日,风雨无阻,从不间断。直到2024年初,才因身体原因调整了发布时间,但至今仍未间断。他还致力于网络安全技术与文化的传播,把安全威胁分析能力作为专项课程推广到了多所高校。
因此,无论是与柏松共事,还是为他的译作写序,都让我感到非常荣幸。
本书是在应急响应的方法实践中非常重要的一份文献,具有指导性意义,主要从两个大的方面为应急响应工作提供了支撑。
一、 威胁情报对应急响应的“启动”价值
应急响应并不是一种常态化工作,因其是一种以人为主的行为活动,是高成本的,需要高度经验技巧和完善流程来保证。以安天CERT的运行机制为例,我们提出按照“第一时间启动,同时应对多线威胁,三体系联动,四作业面协同”的原则来开展应急响应工作。可是,这里有一个很重要的问题需要回答——什么是“第一时间”?或者说,启动应急响应行动的触发条件是什么?
这里有必要简要回顾IT场景下安全威胁的演进,以及对应的响应行动触发条件:
早期的信息系统的应急响应是由威胁现象触发的。在上世纪八九十年代,对于DOS病毒感染事件的响应,触发条件很容易判断,因为DOS病毒通常有明显的发作现象(例如,引人注目的屏幕动画效果,或者受感染程序文件大小的显著改变)。用户一旦发现这些现象,就会产生响应诉求。这类需求快速拉动了反病毒技术和产品的功能闭合。随着商业反病毒软件的兴起,对于恶意代码威胁的响应模式逐步转化为:厂商分析病毒样本、输出检测规则;用户升级反病毒软件,扫描、清除恶意代码。流行病毒的响应过程,基本在主流反病毒厂商的引擎或规则库的迭代运营之内形成闭环,通常并不需要借助公共资源的协同处理。
早期的网络事件的应急响应是由基础设施运行状态异常触发的。真正意义的应急响应体系出现于上世纪末至本世纪初。彼时,信息高速公路快速建设和发展,也为蠕虫的大规模传播提供了条件。蠕虫传播的影响范围较大,容易被感知(如出现明显的网络迟缓或连接占用等现象)。蠕虫在扫描和漏洞利用过程中造成大量系统瘫痪,易于引起公众和主管部门的关注,从而产生应急协同处理的需求。蠕虫的大规模传播是具有极高感知度的安全事件,可以迅速从一些表征事件出发获取相关网络发包数据和样本,再根据分析结果展开应急响应工作。随着监管机构、运营商和政企侧的网络流量监测能力的不断建设,应急响应也从现象驱动走向事件驱动,或者由事件统计结果是否达到某个阈值来触发应急响应工作的启动。由于蠕虫传播是一种高感知、易于捕获的共性威胁,对于蠕虫事件的响应已经成为反病毒厂商和主流网络安全厂商基础能力。
APT攻击、定向勒索威胁的应急响应需要高质量情报作为触发机制。2010年以来,网络攻击“大玩家”不断浮出水面,越来越多的攻击行动背后有着国家或地区的政治经济集团力量背景。其攻击行动具有高度隐蔽性,在用户侧难于感知,既不会表现为频繁的网络数据通联,也不会表现为明显的主机系统和网络基础设施的负载变化。这一特点给应急响应工作的触发带来了非常大的困惑与干扰。在用户对攻击行动无感的情况下,如何触发响应行动?对于近年来日趋流行的勒索攻击,尽管其造成的数据破坏或数据泄露易于感知,但其后果往往是难于恢复和不可逆的,一旦勒索攻击团伙得手,启动响应为时已晚。而且,目前渐成主流攻击模式的RaaS (勒索即服务)与定向攻击相结合,其前导攻击环节在定向性和隐蔽性等方面不逊于APT攻击,传统的应急响应方式已经无法起到效果。因此,对于勒索攻击的响应,应从其前导攻击环节开始。可是,这类攻击活动通常采用定向攻击与逃逸、免杀相结合,往往可以穿透反病毒引擎、网络检测引擎等共性能力,因而需要采用更加抵近终端的情报分析
和情报生产,或基于已捕获威胁的深度分析,形成威胁情报,快速支撑全网排查。这就是威胁情报的重要价值。
而如果把启动时机问题扩展到整个威胁周期的角度来看,现代应急响应体系不应是简单的基于事件触发的向后处理,而必须包含向前追溯和对于长期潜伏威胁的深度猎杀。但这又提出了新的问题,威胁追溯的输入性条件到底是什么?用来支撑猎杀持续性的信标和逻辑又是什么?我们要真正理解威胁情报所具备的价值和含义:威胁情报本质价值并不是一类广谱检测能力,而是通过精确性的形式化条件,构建对攻击活动、攻击组织的明确指向,并能够供应急响应流程和安全产品消费。因此,其也就能为启动响应和指引处置带来非常量化的输入。
二、 本书对应急响应的流程体系的价值
对于应急响应来说,另一大挑战是流程体系建设。应急响应不是应对单一威胁的固化流程,而是应对多种重大威胁的综合体系。为了有效应对威胁,我经常讲“两化”的观点,即流程的“归一化”,逻辑的“形式化”。无论是威胁检测、威胁处置,还是安全运营,本质上都是“归一化”的过程。即把复杂异构的安全事件、威胁对象或系统的脆弱性转化为某一类同构的流程和规则体系。同时,为了保障响应的确定性、响应质量以及响应能力迭代的稳定性,就需要尽可能将全过程依托于“形式化”的规则、范式和逻辑来完成。一直以来,几乎对所有的安全团队来说,应急响应都似乎很难保证持续稳定输出成果。经常会有某个小团队在某次事件的响应中异军突起,赢得了好评,但不久即泯然众人,自此寂静无声。有的时候,具有一定规模和技术积累的厂商,反而会错过其应重点关注的安全事件,缺少章法,错过战机,或虎头蛇尾。包括安天CERT团队,在应急响应的成果输出方面也并不是足够稳定。其中一个重要原因,就是应急响应流程体系过度依赖个人经验和高水平的分析人员。
对于安天在应急响应和分析工作中取得的一些关键成果,我们曾多次复盘。通过复盘发现,有为数不少的关键突破,来自于我、柏松和其他关键分析师当时的直觉判断。这就使应急响应工作在推动衔接的全过程中,高度依赖于个人能力,甚至是对个体的心智状态的高度依赖。本书的一个重要价值是,依托网络安全的基本运行机理(如OODA环等模型)贡献了一套整体的流程框架,可供安全企业和安全运营团队参考。强大、弹性的流程体系,可以使优秀工程师的灵感,从灵光乍现,转化为在流程体系上的升华,而不是流程环节中的阻塞节点。
介绍完本书的两大价值,我想在最后和读者分享关于如何理解威胁情报能力和攀登威胁情报痛苦金字塔的观点和实践。
威胁情报并不是现有的威胁检测机制的替代技术,其既不可能通过文件哈希(HASH)这种的粗糙检测去挑战反病毒引擎的高度鲁棒性和海量精准规则检测能力,也无法通过IP、域名这类规则去替代现有的网络侧的行为检测能力。它的价值从来不在于它的数量,而在于它的精确指向性、可消费性和可以针对场景建立个性而非共性的规则。因此,基于海量的文件哈希或IP清单的条数规模(而不是其质量)来看待威胁情报是错误的。
我在阅读本书的过程中在思考一个问题,那就是威胁情报生产、消费难度层次(俗称“痛苦金字塔”)应该如何突破。目前大部分的业内实践还停留在金字塔的底层(即文件哈希、IP、域名等层次),这就导致多数用户对威胁情报的认知也止步于此,而回避了工具(Tools)/载荷(Payload)乃至技战术(TTP)的情报生产和消费的困难性问题。显然,站在工具/载荷(安天称为执行体)的层面,类似文件哈希这种零鲁棒性的检测机制作用极为有限。比如,《震网事件的九年再复盘与思考》报告1曾提到:震网的载荷投放程序,在每落地一台机器时,会有一个内嵌配置数据的自我更新,从而导致震网的每次落地形成的主执行体的HASH均不同。在这种情况下,反病毒引擎固然可以作为高质量的威胁情报的消费机制,但其作为易于获得、易于验证的安全资源,必然面临针对性免杀、盗用数字签名绕过等屡见不鲜的攻击手段。尤其近来一些将正常软件(而不是恶意软件)作为攻击工具的混合执行体攻击的大量出现,令反病毒引擎不得不在误报、漏报之间左右为难。虽然类似YARA规则之类的情报产品(本书第9章有详细介绍)具有一定程度的专属化定制能力,但其规则编写成本难免给网络管理运营者带来更大的心智负担。
面对这一困境,我们提出了“向量级情报”和“执行体情报”。生产向量级情报需要依托反病毒引擎的深度预处理和向量提取能力。通过提取出执行体的关键字符串(如PDB路径、注册表项、键名和值等)或经过预处理的指令片断,再匹配向量情报库,实现在企业内网环境猎杀长期潜伏的未知威胁。网络管理者在阅读分析报告时,将其中可理解的形式化内容配置为专属化情报,加入向量情报库,这就构建出既有检测深度又符合具体防御场景的、攻击者难以预判或预测的安全能力。执行体情报2(参见《网络空间安全科学学报》2024年第2期论文《执行体信誉情报——支撑IT治理的新型情报》)同样需要与反病毒引擎相结合,通过将执行体对象和其运行环境联合标识,将威胁对象从其运行环境中孤立出来,将处于可疑状态的正常软件或工具标定出来,为检测混合执行体攻击提供基础。此时,叠加海量执行体的初始信誉度和信誉计算模型,将可被用于网络攻击的正常软件标识为Riskware(风险软件),再结合其执行路径、软件安装列表等环境条件判定,就可以更准确地发现混合执行体攻击。
上述方法在一定程度上强化了工具/载荷层面的情报消费,但在技战术层面,似乎还没有一种方法能有效控制技战术情报带来的知识体系和心智压力膨胀。多年来,我们一直坚持对标ATT&CK战术矩阵(本书第3章有详细介绍)来提升引擎和产品的威胁检测和防御能力,不惜付出增加产品复杂性的代价。将来,我们会把更多的研发资源投入执行体的识别、检测和管控逻辑, 不断尝试攀登威胁情报痛苦金字塔的塔尖。
总之,今天的我们依然在对标、学习网络安全领域的国际先进经验,同时也在积极进行我们自己的安全创新和实践。在安天创业伊始时,无论是我、柏松和其他伙伴,都是艾伦·所罗门、尤金·卡巴斯基等反病毒技术大师们的仰慕者和学习者,而在我们经历了20多年的将威胁检测引擎转化为共性能力的创新实践与持续的威胁分析响应实战后,我们已经有了“欲与天公试比高”的底气和勇气。
肖新光
2025年8月15日初稿
2025年10月14日修订