Skip to content

changelog

changelog

2024-6-29-23:59

  • 2024年6月18日生科院发生异常停电时事件,导致机房空调断电,集群依靠备用电源强行运行大致一小时,最终发生高温预警,好在空调余温勉强维持至备用电源断电,并没有造成严重损伤;
  • 鉴于集群同时出现了登录节点卡顿、登录权限锁定等现象,此次就地对集群进行停机维护,维护时长12天,排查了一系列硬件和软件问题,并部署了服务器安全策略;
  • 详细维护记录

    • 病毒查杀:
      • 系统盘扫描结果:登录节点、所有的计算节点、GPU节点均被植入了恶意挖矿病毒,现已删除;
      • 停机期间处于断网状态,病毒进入休眠状态,目前尚未查找到存在异常进程;
    • 计算节点登录锁定修复:
      • 自2024年4月以来,计算节点的登录全部被锁定,管理员无法通过远程和物理方式登录任意一个节点;
      • 通过启动救援模式排查全部计算节点,成功找到被黑客恶意植入的系统配置文件并解除锁定;
    • /home存储节点异常宕机修复:
      • 恢复供电之后,集群2号存储节点发生异常宕机无法启动,/home目录无法挂载;
      • 经检查是由于异常停电导致存储节点日志系统持续写入,现已解决并恢复/home目录数据;
    • /data存储节点异常宕机修复:
      • 恢复供电之后,对/data存储节点的一块12T坏盘进行了更换,但仍然无法挂载/data目录;
      • 经检查是由于异常停电导致系统卡死,现已成功挂载并恢复/data目录数据;
    • 安全策略部署

      • 禁止root远程登录,并且只允许管理组切换root;
      • 为降低爆破风险,ssh 端口已切换为:23743(计算节点),45324(web节点);
      • 为屏蔽恶意IP入侵,集群已经部署fail2ban服务,任意IP登录错误5次将会被锁定10分钟;
      • 为提升密码安全性,今后将由管理员定期为用户发放高强度密码,普通用户无法进行密码修改,但是搭配双因素认证服务,登录过程也将更为简单;
      • 双因素认证登录:

        • 现在登录集群需要双重认证手段:密码 + 临时验证码
        • 首先在手机上下载一个验证码生成器:

          • Microsoft Authenticator
          • Google Authenticator(需要手机支持谷歌服务)

          Untitled

        • 打开软件,登录账号步骤可以跳过,直接找到扫描QR码功能,扫描管理员发放的二维码即可看到动态刷新的验证码

        Microsoft Authenticator

        Microsoft Authenticator

        Google Authenticator

        Google Authenticator

        • 登录示例

          • Xshell7

            • 创建新会话,填写正确的IP和端口号:

              • 计算节点:172.21.66.12 / 23743;
              • web 节点:172.21.66.13 / 45324;

              Untitled

            • 用户身份验证中填写正确的用户名和管理员发放的密码,方法选择 Keyboard Interactive,不要勾选 Password;

              Untitled

            • 确定之后连接,会弹出两个窗口,第一个是输入验证码(手机动态生成),第二个是输入密码(可以选择记住密码)

              Untitled

              Untitled

          • Mac/Linux

            • 加上-p参数指定ssh登录的端口,不同的系统,指定登录端口的选项略有不同,有的选项为 -p (小写),有的选项为 -P (大写)
            • $ ssh -p port username@ip
        • 数据传输

          • WinSCP
            • WinSCP 不可使用后台传输 (Background Transfers)
          • Xftp
            • Xftp 如长时间连接后传输文件出错,设置 会话 (Sessions)->属性 (Properties)->选项 (Options)->仅使用主连接 (Use main connection only)
          • FileZilla
            • 二次验证设置:文件->站点管理器->新站点->协议:sftp->填写ip和端口->登录方式:交互式->用户:个人账号->连接
            • 第一个弹窗输入6位动态口令,第二个弹窗输入个人账号密码
            • FileZilla 长时间空闲不操作连接会中断,须在站点 (Site)->传输设置 (Transfer Settings)->勾选限制并发连接数 (Limit number of simultaneous connections)->设置最大连接数 (Maximum number of connections)为1。
    • 其它

      • 双因素验证的二维码是一次性的,当前验证码使用过一次立即失效,由于验证码和密码错误没有提示,所以一旦输入验证码之后又弹出了验证码输入弹窗,请等待下一次验证码刷新之后再尝试输入,并再次确定密码准确无误;
      • 用户登录空闲时间超过2小时将会被踢下线,推荐使用终端进程保存工具 tmux 等保存自己的 shell 界面;
      • 设置 ssh Banner:

        Untitled

      • 设置登录后欢迎词:

        Untitled

      • 废话文学盲盒:

        Untitled

    • 后续任务

      • module 统一安装软件
      • 队列资源量限制机制
        • 计算节点分为normal、high和gpu类型,但是都没有进行单一任务资源限制,可能导致任务资源分配不均;
      • Rstudio Server
        • 计算节点将部署 web 版本 Rstudio ,用户可以在页面上直接访问集群文件,但是大型分析任务还是需要投递至队列

2023-6-2-15:58

cu07根目录空间耗尽,调整mariadb存储目录,由/var/lib/mysql更改为/data/var/lib/mysql。