changelog
changelog
2024-6-29-23:59
- 2024年6月18日生科院发生异常停电时事件,导致机房空调断电,集群依靠备用电源强行运行大致一小时,最终发生高温预警,好在空调余温勉强维持至备用电源断电,并没有造成严重损伤;
- 鉴于集群同时出现了登录节点卡顿、登录权限锁定等现象,此次就地对集群进行停机维护,维护时长12天,排查了一系列硬件和软件问题,并部署了服务器安全策略;
-
详细维护记录
- 病毒查杀:
- 系统盘扫描结果:登录节点、所有的计算节点、GPU节点均被植入了恶意挖矿病毒,现已删除;
- 停机期间处于断网状态,病毒进入休眠状态,目前尚未查找到存在异常进程;
- 计算节点登录锁定修复:
- 自2024年4月以来,计算节点的登录全部被锁定,管理员无法通过远程和物理方式登录任意一个节点;
- 通过启动救援模式排查全部计算节点,成功找到被黑客恶意植入的系统配置文件并解除锁定;
- /home存储节点异常宕机修复:
- 恢复供电之后,集群2号存储节点发生异常宕机无法启动,/home目录无法挂载;
- 经检查是由于异常停电导致存储节点日志系统持续写入,现已解决并恢复/home目录数据;
- /data存储节点异常宕机修复:
- 恢复供电之后,对/data存储节点的一块12T坏盘进行了更换,但仍然无法挂载/data目录;
- 经检查是由于异常停电导致系统卡死,现已成功挂载并恢复/data目录数据;
-
安全策略部署
- 禁止root远程登录,并且只允许管理组切换root;
- 为降低爆破风险,ssh 端口已切换为:23743(计算节点),45324(web节点);
- 为屏蔽恶意IP入侵,集群已经部署fail2ban服务,任意IP登录错误5次将会被锁定10分钟;
- 为提升密码安全性,今后将由管理员定期为用户发放高强度密码,普通用户无法进行密码修改,但是搭配双因素认证服务,登录过程也将更为简单;
-
双因素认证登录:
- 现在登录集群需要双重认证手段:密码 + 临时验证码
-
首先在手机上下载一个验证码生成器:
- Microsoft Authenticator
- Google Authenticator(需要手机支持谷歌服务)

-
打开软件,登录账号步骤可以跳过,直接找到扫描QR码功能,扫描管理员发放的二维码即可看到动态刷新的验证码

Microsoft Authenticator

Google Authenticator
-
登录示例
-
Xshell7
-
创建新会话,填写正确的IP和端口号:
- 计算节点:172.21.66.12 / 23743;
- web 节点:172.21.66.13 / 45324;

-
用户身份验证中填写正确的用户名和管理员发放的密码,方法选择 Keyboard Interactive,不要勾选 Password;

-
确定之后连接,会弹出两个窗口,第一个是输入验证码(手机动态生成),第二个是输入密码(可以选择记住密码)


-
-
Mac/Linux
- 加上-p参数指定ssh登录的端口,不同的系统,指定登录端口的选项略有不同,有的选项为 -p (小写),有的选项为 -P (大写)
- $ ssh -p port username@ip
-
-
数据传输
- WinSCP
- WinSCP 不可使用
后台传输 (Background Transfers)
- WinSCP 不可使用
- Xftp
- Xftp 如长时间连接后传输文件出错,设置
会话 (Sessions)->属性 (Properties)->选项 (Options)->仅使用主连接 (Use main connection only)。
- Xftp 如长时间连接后传输文件出错,设置
- FileZilla
- 二次验证设置:
文件->站点管理器->新站点->协议:sftp->填写ip和端口->登录方式:交互式->用户:个人账号->连接 - 第一个弹窗输入6位动态口令,第二个弹窗输入个人账号密码
- FileZilla 长时间空闲不操作连接会中断,须在
站点 (Site)->传输设置 (Transfer Settings)->勾选限制并发连接数 (Limit number of simultaneous connections)->设置最大连接数 (Maximum number of connections)为1。
- 二次验证设置:
- WinSCP
-
其它
- 双因素验证的二维码是一次性的,当前验证码使用过一次立即失效,由于验证码和密码错误没有提示,所以一旦输入验证码之后又弹出了验证码输入弹窗,请等待下一次验证码刷新之后再尝试输入,并再次确定密码准确无误;
- 用户登录空闲时间超过2小时将会被踢下线,推荐使用终端进程保存工具 tmux 等保存自己的 shell 界面;
-
设置 ssh Banner:

-
设置登录后欢迎词:

-
废话文学盲盒:

-
后续任务
- module 统一安装软件
- 集群上配置了 module 工具,可以由管理员统一为大家安装各种软件和数据库,避免重复安装或安装没有权限的问题:简单易用的module工具 - 集群简介与使用(长时间施工中) (gxu.edu.cn),可以通过填写在线表格申请统一安装到 module 服务中:https://docs.qq.com/sheet/DSGRvQ01nZkl3a2Vl?tab=BB08J2
- 鉴于目前 /home 和 /data 的容量都较为有限,并且由于分布式存储的特点,/home目录下删除文件效率非常低,如果是删除、迁移大文件都会直接导致整个登录节点的严重卡顿,希望大家在安装大型软件和数据库之前提前查看集群是否已经安装过;
- 队列资源量限制机制
- 计算节点分为normal、high和gpu类型,但是都没有进行单一任务资源限制,可能导致任务资源分配不均;
- Rstudio Server
- 计算节点将部署 web 版本 Rstudio ,用户可以在页面上直接访问集群文件,但是大型分析任务还是需要投递至队列
- module 统一安装软件
- 病毒查杀:
2023-6-2-15:58
cu07根目录空间耗尽,调整mariadb存储目录,由/var/lib/mysql更改为/data/var/lib/mysql。