网络知识 娱乐 忽视的12分钟,破防!

忽视的12分钟,破防!

业务崩溃!

现象:某大客户集群部分服务器出站流量飙高,集群cpu整体水平在持续上涨,客户业务出现崩溃。

溯源时间线

(1)18:51,客户侧因远程运维需求,变更安全组策略:

客户侧为方便异地工程师远程登录调试,变更安全组策略,安全组开放TCP:20~22端口,来源0.0.0.0/24

临时开启20-22端口源地址不受限访问

因为这一条策略,有了下面的故事

(2)12分钟破防,测试网段跳板机jumpserver01首先沦陷,测试网段病毒扩散(AAA.AA.A.0/24):

19:03:29,主机安全控制台收到测试网段跳板机jumpserver01告警:

jumpserver01跳板机(AAA.AA.A.14)发出异常告警,该服务器对外请求了可疑域名https://xxx.xxx.xxx

19:03:29,主机安全发出告警消息

主机安全告警记录

19:03:03,恶意进程开始启动:/etc/secure_ssh.sh

19:03:03 首恶意进程开始启动

测试网段跳板机jumpserver01恶意进程启动记录

26秒完成外部病毒植入,感染

19:03:29 ,使用curl从外部下载植入恶意病毒: http://xxx.xxx.xx/b2f628/b.sh

19:03:29 对外请求下载恶意病毒

因测试网段(AAA.AA.A.0/24)子机间ssh互通,病毒遍历跳板机/root/.ssh/know_hosts记录,实现远程登录,病毒植入。

测试网段其余子机感染。子机感染逻辑:

病毒内网横移逻辑
恶意进程执行入侵路径复现

(3)生产网段感染(BB.B.B.0/24):

19:03:29, 生产网段跳板机jumpserver02(内网IP:BB.B.B.11)首先沦陷,最早发起对外链接,发起2次外部请求,下载病毒:

19:03:29 生产跳板机沦陷

生产网段内网横向移动,同理测试网段扩散逻辑,不再赘述

(4)扩散成功后,沦陷机器发起15起对外攻击,其中14起为redis对外爆破,占比93.33%,1起为ssh对外爆破,占比6.67%。

对外攻击占比

对外攻击行为,服务器流量打满,CPU占用过高,业务崩溃。

紧急恢复!

杀毒脚本

入侵路径复现:

入侵路径复现

问题根因:安全组异常变更

安全组变更,导致该安全组里70+CVM连带策略变更,暴露ssh服务于公网,为入侵提供了条件

因安全组策略开放TCP:20~22端口,来源0.0.0.0/24,该安全组规则下绑定的70+cvm暴露了22端口于公网,而跳板机同时在该安全组策略下,跳板机暴露沦陷导致集群沦陷,攻击发起,业务瘫痪。

安全优化方案

业务快速恢复同溯源留痕往往在业务瘫痪的紧急情况下略有冲突,为什么?

技术与成本的矛盾点

因涉及客户成本等其他因素,公有云客户快照备份情况较低,结合客户容灾需求及入侵溯源需求,针对此case场景,在不考虑大量成本追加前提下的优化方案:

1.生产网核心集群及入口跳板机配置主机安全专业版,开启爆破阻断策略

2.入口跳板机Jumpserver设置全量快照策略

低成本追加下安全优化架构