# 服务器运维标准 ## 元数据 | 属性 | 值 | |------|-----| | **领域** | 运维 | | **责任人** | 严维序(opengineer) | | **版本** | v1.0 | | **创建日期** | 2026-06-24 | | **最后更新** | 2026-06-24 | | **标签** | 运维, 监控, 巡检, 备份 | ## 概述 本文档定义 BizWings 团队所有服务器的日常运维标准,包括巡检频率、监控指标、备份策略和安全基线。适用于所有生产环境服务器(阿里云 / 家庭内网 / HP 服务器)。 --- ## 一、服务器巡检标准 ### 1.1 巡检频率 | 类型 | 频率 | 执行方式 | |------|------|----------| | 心跳自检 | 每 10 分钟 | openclaw 心跳自动巡检 | | 深度巡检 | 每日一次 | 手动执行 `python3 $SCRIPTS/heartbeat_helper.py opengineer` | | 全量巡检 | 每周一次 | 逐个检查全部服务器 | ### 1.2 巡检清单 #### 资源负载 ```bash # 磁盘使用率(警告 > 80%,严重 > 90%) df -h | grep -v tmpfs # CPU 负载 uptime # 内存使用 free -h # 网络 IO sar -n DEV 1 3 ``` #### 服务状态 ```bash # 核心服务清单(按实际部署确认) systemctl status nginx mysql docker sshd # Docker 容器健康 docker ps | grep -c "Up" ``` #### 日志异常 ```bash # 最近 10 分钟的错误日志 journalctl --since "10 min ago" -p err --no-pager | tail -20 ``` --- ## 二、监控指标定义 ### 2.1 告警阈值 | 指标 | 警告 (WARN) | 严重 (CRIT) | 处理 | |------|-------------|-------------|------| | 磁盘使用率 | > 80% | > 90% | 清理日志 / 扩容 | | CPU 负载 (1min) | > 4.0 | > 8.0 | 检查异常进程 | | 内存使用率 | > 85% | > 95% | 检查 OOM 风险 | | 根分区 inode | > 80% | > 90% | 清理小文件 | | 服务进程 | 停止 | — | 重启服务 | | 端口监听 | 消失 | — | 检查服务状态 | | Docker 容器 | 非 Up | — | docker start / compose up | ### 2.2 日志监控 - 系统日志:`journalctl -p err` 重点关注 - 应用日志:`error`, `exception`, `failed`, `timeout` 关键词监控 - Nginx 日志:5xx 错误率 > 1% 时触发调查 --- ## 三、备份策略 ### 3.1 数据库备份 ```bash # MySQL 全量备份(建议每日凌晨执行) mysqldump --all-databases --single-transaction --quick | gzip > /backup/db/all-$(date +%Y%m%d).sql.gz ``` ### 3.2 配置备份 - 服务器配置文件:`/backup/conf//` 目录 - 每次变更前执行:`cp .$(date +%Y%m%d-%H%M%S).bak` ### 3.3 Docker 数据备份 ```bash # 思源笔记备份(已配置每日 3:00) tar czf /backup/siyuan/siyuan-data-$(date +%Y%m%d).tar.gz -C . ``` ### 3.4 备份保留策略 | 类型 | 保留期限 | |------|----------| | 数据库全量备份 | 30 天 | | 配置备份 | 90 天 | | Docker 数据 | 7 天 | | 日志归档 | 90 天 | --- ## 四、变更管理标准 ### 4.1 变更准入 - ✅ 每次变更前必须备份原始文件 - ✅ 高危操作(防火墙、内核、数据库)必须保留回滚方案 - ✅ 变更前评估影响范围 - ✅ 变更后验证服务状态 - ❌ 禁止在无备份的情况下直接修改生产配置 - ❌ 禁止在高峰时段执行非紧急变更 ### 4.2 变更分级 | 级别 | 示例 | 要求 | |------|------|------| | 低风险 | 普通应用更新 | 备份 → 部署 → 验证 | | 中风险 | 配置修改 | 备份 → 预演 → 部署 → 验证 | | 高风险 | 内核 / 防火墙 / 数据库 | 备份 → 预演 → 通知 → 部署 → 验证 → 监控 | --- ## 五、安全基线 ### 5.1 基本要求 - [ ] SSH 禁止 root 密码登录(高风险服务器) - [ ] 防火墙最小权限原则 - [ ] 非必要端口不对外开放 - [ ] 定期更新系统安全补丁 - [ ] 日志审计开启 ### 5.2 密码管理 - 服务器密码统一记录在 TOOLS.md - 数据库密码统一管理 - 禁止在代码中硬编码密码 --- ## 六、服务器清单与分类 | 环境 | 服务器数 | 用途 | 巡检频率 | |------|----------|------|----------| | 阿里云生产 | 3 | 应用服务、数据库 | 每次心跳 | | 家庭内网生产 | 4 | 应用、数据库、PVE | 每次心跳 | | HP 测试 | 3 | 测试、NAS | 每日 | | 树莓派 | 1 | 辅助设备 | 每日 | 详细清单见 TOOLS.md「SSH/WinRM 服务器清单」 --- ## 相关条目 - [部署流程_v1.0.md](部署流程_v1.0.md) - [故障排查手册_v1.0.md](故障排查手册_v1.0.md) ## 变更记录 | 日期 | 版本 | 变更说明 | 变更人 | |------|------|----------|--------| | 2026-06-24 | v1.0 | 初始创建 | 严维序 |