潘柱廷:应急与应极 PIDCERF修正模型——“抗疫”给网络安全应急带来的思考

时间 :  2020年04月02日  来源:  安天


        发端于2019年底,爆发于2020年初的这一场新冠肺炎疫情,让我们看到了建立多年的疫情应对体系存在的一些问题,同时也看到了我国政府在疫情爆发后的一系列应急措施确实及时有效。不管在哪一个领域,这种级别的超大型灾难都是不多见的,有防灾救灾责任的领域都应当认真借鉴这次大灾的教训和经验,反省自身。

一、必须面对的一些“客观”事实

大灾难,不会是最后一次

        在现代社会制度和治理体系的组织下,以及现代科技的护航下,人类社会已经具有了很强的防灾抗灾能力,例如传统领域中抗击水灾的水利设施、防范疫情的疾控体系,在非传统领域的金融风控、网络安全领域的CERT机制等。虽然人类抗击甚至防范灾难的能力确实越来越强,但是灾难总是突如其来,就像2003年的非典疫情过去17年后的今天。

安全危害守恒定律

        笔者2012年在一次演讲中曾提出了一个《安全危害守恒定律》:“在IT系统的业务价值一定、威胁力度一定的理想条件下,该系统遭到和可能遭到的危害总量是恒定的。”人们总是会高估自己采用的强大手段和体系的保障效果。而从危害守恒的角度看,系统的保障只是改变了危害的分布和受控程度,危害并没有被消灭,只是受控了。一旦控制措施失效,原先被认为受控的危害就会被释放出来。所以,在一个貌似强大的网络安全体系保障下,面对平静了一段时间的网络,不应当安逸下来,而应当警醒起来。

急与极——急迫与极致

        现在被我们称之为灾难的事情,一般都是具有“急迫”的时间属性。疫情中感染人数会以指数级增加;股灾会出现瞬间的狂跌而触发熔断机制;计算机病毒和蠕虫的蔓延更是迅捷。因为灾难的迅疾发展,使得处置跟不上、资源跟不上、能力顶不住。

        所谓急的另外一个表现就是“突发性”,灾难的暴发往往并没有明显的先兆,难于检测、判断、决断。而“极致”则是灾难的另一个多维属性:极致的大规模和大范围;极致的程度、烈度、数量;极致的小概率事件发生。大部分人都没有见过的“连续投硬币二十次,都是正面”的概率,其实严格算起来也没有那么低。

大灾难总是复杂的,也总是跨域的

        现在的大灾难总是复杂的、非线性的,因为那些简单的、线性的灾难我们早就能处置和防范。而能够从我们的防范和保障体系中漏出来的,都是不简单的。现在的大灾难总是跨领域的,就像这次新冠肺炎疫情,起源于卫生健康领域,蔓延于人流的流动,但接着就冲击了交通和物流、冲击了经济等多个领域,成为综合性的复杂的大灾难。

面对灾难,为什么保障体系总是那么脆弱?

        因为安全三要素(被保护的业务、威胁和危害、保障措施)都具有超复杂性。我们身边这些被保护的重要系统和体系,早已演化成大型的复杂体系。保障措施也越来越复杂,使得能够掌控全局的人也越来越少。而在防护不断升级和强化的作用下,能够突破防护而发生的灾难都是超复杂的,都是无数个小概率事件一起发生后的“百年不遇”。我们不愿意承认,或者故意忽视保障措施的保障能力是有限的,在极限条件下是必然失效的。我们更不愿意正视的,就是“保障措施会有副作用”;就像严格的疫情防范措施,对于经济的摧残力度也很大,这让我们面临两难的抉择。

不能因没有阻止灾难发生就全面否定防范体系

        不要因为堤坝决堤导致洪灾就否定堤坝,不要因为疾控体系没有及时预警这次“新冠肺炎疫情”就全面否定疾控体系的有效性。一个体系没有解决所有问题,并不意味着这个体系没有价值。防灾抗灾救灾体系实际上是在一次次不断升级的灾难中锤炼出来的。

灾难和攻击是有区别的

        一根火柴毁掉一片森林,一个原子弹炸掉一座城市,两者之间还是有很大区别的。虽然火柴可能是攻击者(纵火者)投放的,但是整个毁灭的过程是一种“非受控”过程。而攻击,则常常体现为破坏的主过程(甚至全过程)都是受控的。本文探讨的观点主要针对的是灾难而不是攻击。

二、网络安全应急体系修正模型——PIDCERF

        在网络安全应急领域,有一个被广泛认同的PDCERF模型,六个环节分别是:准备(Preparation)、检测(Detection)、遏制(Containment)、消除(Eradication或Erase)、恢复(Recovery)、后续跟踪(Follow-up)。

        而这次“新冠肺炎疫情”带来的一个教训就是“检测”竟然没有起到应有的作用。并不是基层和前端没有检测没有上报,而是因为整个上报体系是一个复杂系统,受到非技术性因素的干扰,使得足够的检测数据和检测情报被隐瞒和修饰,最终导致对疫情的判断出现重大缺失和延误,错失早期“遏制”的时间窗口。

        受此教训的驱动,笔者将PDCERF模型的六个环节扩展为七个环节,将PDCERF中的D检测,扩展分解为两个环节“I 检测(Inspection)”和“D 研判(Decision)”。拆解出来的两个新环节的工作内容在原有模型中也都有涉及,但特地拆分出来就是要分别有所强调。

        鉴于“新冠肺炎疫情”的教训,“I检测”机制必须有一个前端原始数据的无人干预分析结果的“向上直报”机制。而且,这个向上直报机制不会受到各个层级“D研判”的影响和干预。作为高级别的分析研判机制,不仅要收取下级的分析研判初步结果(局部“小数据”汇集分析),还要收取下面各级的原始数据进行分析(全局覆盖的“大数据”分析)。

        “I检测”环节,更强调由系统来自动完成;对于极端敏感和重要的防灾体系,则要建立双通路(甚至是三通路)的数据向上直报体系,避免通路被故障或人为因素阻塞。现在很多政府机构和关键信息基础设施机构中,扫描检测发现的漏洞、运行检测所发现的攻击动态、已经造成损害的安全事件等基层信息常常都被遮蔽而没有上报,使得全局的情报缺失、预警态势研判无据,只有在大范围伤害和损失发生时才暴露出来。

        而“D研判”环节,则是有很多人的参与和最终决策。D研判环节是应急模型中常态和应急态的“转换开关”,至关重要。重大系统的D研判环节需要有多领域的专家参与到决策和决断中。从现在能获得的信息分析,在这次新冠肺炎疫情的预警研判过程中,主要的问题和失误是中下级研判和向上直报的单通道被闭塞了;而当足够的相关情报通达到中央级研判机制的时候,研判决策和后续的快速响应还是非常有效的。

        一个好的灾难应对机制,必须能够容错一些节点的局部失效和错误,并有效执行应急动作。

三、从“抗疫”战役中,网络安全还能借鉴到什么

抗灾都是总体战

        习近平总书记3月2日在北京考察新冠肺炎防控科研攻关工作时,对这次抗击新冠肺炎疫情有一个描述是“总体战”,可谓十分精准到位。前面已经讲过,所有的大灾大难都是跨域的,而抗灾必然也要在多个领域同时展开,是一个多领域协同的总体战。

        这次抗击新冠肺炎疫情的战役中,就包括了医疗、医学研究、社会宣传和舆论、城市交通、全国交通、物流、外交、国际贸易、全面经济、货币政策、军事救灾、互联网、基础设施建设、新基建等多个领域。在不同的阶段,可能会侧重不同的领域。就像疫情早期核心就是阻击疫情的扩散,封城、限制流动,宁可牺牲暂时的经济;在疫情趋缓之后就要防疫和复工复产两手都要抓;在疫情日趋平稳可控的后期,就要积极地恢复全面生产,复苏经济。这就是总体战观念的具体体现。

        可以想象,未来涉及广泛社会影响的网络空间灾难发生的时候,必然也会是一个牵扯众多领域的总体战。而其他任何一个领域的社会性灾难,也必然会深度影响网络空间,网络空间既是一个灾难蔓延地,也是一个抗灾的重要手段重要战场。面对网络灾难,能够快速建立甚至预先建立起“联防联控机制”,是落实总体战思路的重要举措。

从合规性安全,到检验性安全

        怎么能够尽量防范大型灾难,尽量抑制灾难规模,甚至是做到尽量不发生?正如上文所提到的,这次新冠肺炎疫情的教训就是,PIDCERF的I检测环节,不仅仅要检测灾难的苗头,还要检测自身(这个检测系统)是否有效。

        在网络安全领域中有很多检测和监控系统,但是由于一些灾害、攻击、事故并不会频繁发生,所以在没有告警的时候怎么能够确认是“检测失效”还是“平安无事”?这就需要对检测系统本身的活性及其检测效能进行检验,进而演进到对于PIDCERF全环节的活性和有效性都要进行检验。这就是检验性安全。

        安全防范的都是还没有发生的事情,安全有效的时候,结果是“什么都没发生”。这也导致了安全做的效果好,反倒结果是安全投入的下降。为此,才有了合规性要求,迫使责任方按照合规要求来做安全上的投入。

        而要进一步做好安全,我们就需要了解安全措施的效果到底如何,这就需要“检验性安全”机制。在网络安全中,这种机制包括:渗透测试、众测、演习演练、自检系统、伴生他检系统、永不停歇的合作性攻击检测。最有效的检验性安全手段就是从威胁者和攻击者的视角进行非伤害性攻击检测。

理性看待防范体系的能力极限和副作用

        我们对于防范体系的能力限制常常采取消极的鸵鸟策略,对于防范体系有可能存在的失效没有预案,对于副作用又常常存在过激反应。能够理性地看待能力极限和副作用,是一个防范体系的必备条件。

要解决问题,而不要解决提出问题的人

        新冠肺炎疫情早期一件非常令人遗憾的事情就是“八名造谣者被训诫”。这就是典型的“不解决问题,而是解决提出问题的人”。

        在网络安全领域中,一个重要的检验性安全措施就是众测式的漏洞挖掘,而漏洞发布平台纷纷被取缔和限制,进而扼制安全技术人员对于系统漏洞的研究和发现。而真正的黑客和攻击者并不会因为安全技术人员被扼制和放弃自己的攻击企图。这是典型的“不解决问题,解决提出问题的人”。

        漏洞的挖掘和发布确实有副作用,而对这种副作用的过度夸大,导致扼制了漏洞挖掘的研究工作;反而无视漏洞不被善意挖掘会造成未来重大损失的可能性。要更好地建立良性的“检验性安全”机制,就要设计有效降低副作用的具体措施,而不要试图消灭副作用,要承认和接纳参与副作用。

平行仿真,提高早期预警能力

        怎样能在灾难的早期就能够发现并预警?这个非常难以做到。

        就像新冠肺炎疫情之后,各个专家纷纷推出疫情发展趋势预测,这个阶段的预测推演实际上难度已经不大。但是早期预测的作用还是非常大的,能够指导决策,决定封城并调集重兵支援武汉抗疫。后期疫情被确认后,疫情的走势会高度依赖于疫情处置措施与疫情演进规律的叠加,预测对于措施的前瞻性指导作用大大降低。也就是灾难预测最有价值的时候就是灾难确认前和灾难蔓延的早期,但这个时候的检测和预测也是最难的。

        一个可行的解决路线是通过仿真进行推演。对于灾难早期有限的信息和线索,进行多个平行空间的仿真推演。每个平行空间都有发生的概率,利用系统的模型化自动推演、人工演练推演、AI探索式推演等方法和技术研判灾难的可能性。

平行仿真,灾难复盘

        灾难迟早还会发生,虽然细节必然不同,但大框架总会相似地重复。灾难复盘是在时间和环境上尽量重演灾难。对一个跨域的大灾大难,从疫情被确认时候开始就要调动资源开始进行数据留存,以便同步和事后进行灾难的多平行空间推演。数据是唯一能够跨越时间的要素,有了数据,我们就可以回到灾难发生的时间和场景进行分析。所有的网络安全灾难和事故,都应当在一个虚拟靶场中去复现,并且被反复推演,作为一个经典的演练脚本被使用,以防止类似的事故再度发生。

隔离式安全,依然是最有效的遏制措施

        对抗新冠肺炎疫情这样的大灾难,“C遏制”措施要优先于“E消除”措施。限制流动、封城、网格化管理、戴口罩等都是不同层面的隔离措施,非常有效。而在网络空间领域,云计算、数据中心、互联网化等趋势,都让“隔离”变得越来越不时髦、越不正确。而真到大灾难发生的时候,我们就会发现没有边界可以被临时封锁,没有门可以被临时关上,没有闸门来隔离灾难蔓延。笔者曾在参加的一个车联网标准的评审会上,发现该网络设计竟然没有对驾驶网络和非驾驶网络施加强隔离,也就是说车载娱乐系统的漏洞或者被攻击,可能就导致汽车驾驶环节的故障,从而发生交通事故而危及生命安全。

        业界现在经常提起的一句话是“边界没有了”,但是从这次抗疫来看,边界依然是防止灾难扩散的有效关卡。对于现有网络架构中的很多热点概念和热点技术要从灾难的角度加以反思。

网络领域的“方舱医院”是什么?

        在武汉出现的很多抗击疫情的新事物中,都值得分析其在网络领域的对应事物。比如,网络领域的“方舱医院”应当是什么?很多国营和民营的网络关键基础设施(互联网机构、数据中心机构等),能否在网络灾难发生的时候,变成可以被调集的战略性救援资源。

网络领域如何依法救灾

        在这次疫情中,很多矛盾冲突凸显,中央很快就指出了“依法救灾”的原则。针对《网络安全法》,就网络灾难应急,是否应当尽快补充相关法律解释、单独制定专门的《网络安全灾难应急条例》。

网络灾难的救灾支援队伍在哪里

        在中央决定全力抗击疫情的第一时间,全国的医疗力量就开始驰援武汉,特别是军队医疗力量。在疫情最高峰时期,驰援武汉的医护人员超过了三万人。那么如果和武汉疫情相当的网络灾难发生的时候,相应的支援力量在哪里?

        我国专业医护人员与人口的比例大致是1:600;而我国专业网络安全人员与网民数量的比例如果按照1:1000的比例来估算,我国现有网民超过7亿,那么专业网络安全人员的需求量就是70万,这是巨大的人才缺口。面临永恒之蓝这样还称不上大灾难的网络安全事件时,能够支援到一线的专业人员就极端匮乏,而且也缺乏有效的调动机制。

网络上的人民战争,“兵民”的人民在哪里

        习近平总书记给抗击疫情的一个定位描述是“人民战争”。在武汉,一个榜样式的例子就是“快递小哥汪勇”。尽管有重兵驰援,有全国人民的捐献,但在复杂和严峻的灾难面前,总有大集中体制大指挥机制覆盖不到的地方,此时就需要有汪勇这样的凡人英雄。而在网络安全领域这样有能力的人民在哪里,这些人民的专业成长土壤在哪里?

灾难级网络问题,呼吁网军的建制

        从这次疫情灾难看,应当加强和增加我军的军内医疗力量,不仅可以作为国家卫生和生物安全的军事级力量,同时也可以作为国家卫生灾难发生时的救援力量。那么在网络空间领域如果发生灾难,我们的军队在哪里?

        现在国家推出的经济复苏政策中提出的新基建:5G基建、特高压、城际高铁和轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网。有人把这七大领域再加上北斗导航,称呼为新基建八仙。这八仙中有五仙都是直接的TMT(数字新媒体产业)领域。未来在关键信息基础设施领域,必然是战争潜力网的所在,也必然是网络灾难的发生地。不管是军事对抗还是抗击灾难,都需要有成建制的、专业化装备的、高素质训练的网军。