服务器运维标准
元数据
| 属性 |
值 |
| 领域 |
运维 |
| 责任人 |
严维序(opengineer) |
| 版本 |
v1.0 |
| 创建日期 |
2026-06-24 |
| 最后更新 |
2026-06-24 |
| 标签 |
运维, 监控, 巡检, 备份 |
概述
本文档定义 BizWings 团队所有服务器的日常运维标准,包括巡检频率、监控指标、备份策略和安全基线。适用于所有生产环境服务器(阿里云 / 家庭内网 / HP 服务器)。
一、服务器巡检标准
1.1 巡检频率
| 类型 |
频率 |
执行方式 |
| 心跳自检 |
每 10 分钟 |
openclaw 心跳自动巡检 |
| 深度巡检 |
每日一次 |
手动执行 python3 $SCRIPTS/heartbeat_helper.py opengineer |
| 全量巡检 |
每周一次 |
逐个检查全部服务器 |
1.2 巡检清单
资源负载
服务状态
日志异常
二、监控指标定义
2.1 告警阈值
| 指标 |
警告 (WARN) |
严重 (CRIT) |
处理 |
| 磁盘使用率 |
> 80% |
> 90% |
清理日志 / 扩容 |
| CPU 负载 (1min) |
> 4.0 |
> 8.0 |
检查异常进程 |
| 内存使用率 |
> 85% |
> 95% |
检查 OOM 风险 |
| 根分区 inode |
> 80% |
> 90% |
清理小文件 |
| 服务进程 |
停止 |
— |
重启服务 |
| 端口监听 |
消失 |
— |
检查服务状态 |
| Docker 容器 |
非 Up |
— |
docker start / compose up |
2.2 日志监控
- 系统日志:
journalctl -p err 重点关注
- 应用日志:
error, exception, failed, timeout 关键词监控
- Nginx 日志:5xx 错误率 > 1% 时触发调查
三、备份策略
3.1 数据库备份
3.2 配置备份
- 服务器配置文件:
/backup/conf/<server>/ 目录
- 每次变更前执行:
cp <config> <config>.$(date +%Y%m%d-%H%M%S).bak
3.3 Docker 数据备份
3.4 备份保留策略
| 类型 |
保留期限 |
| 数据库全量备份 |
30 天 |
| 配置备份 |
90 天 |
| Docker 数据 |
7 天 |
| 日志归档 |
90 天 |
四、变更管理标准
4.1 变更准入
- ✅ 每次变更前必须备份原始文件
- ✅ 高危操作(防火墙、内核、数据库)必须保留回滚方案
- ✅ 变更前评估影响范围
- ✅ 变更后验证服务状态
- ❌ 禁止在无备份的情况下直接修改生产配置
- ❌ 禁止在高峰时段执行非紧急变更
4.2 变更分级
| 级别 |
示例 |
要求 |
| 低风险 |
普通应用更新 |
备份 → 部署 → 验证 |
| 中风险 |
配置修改 |
备份 → 预演 → 部署 → 验证 |
| 高风险 |
内核 / 防火墙 / 数据库 |
备份 → 预演 → 通知 → 部署 → 验证 → 监控 |
五、安全基线
5.1 基本要求
5.2 密码管理
- 服务器密码统一记录在 TOOLS.md
- 数据库密码统一管理
- 禁止在代码中硬编码密码
六、服务器清单与分类
| 环境 |
服务器数 |
用途 |
巡检频率 |
| 阿里云生产 |
3 |
应用服务、数据库 |
每次心跳 |
| 家庭内网生产 |
4 |
应用、数据库、PVE |
每次心跳 |
| HP 测试 |
3 |
测试、NAS |
每日 |
| 树莓派 |
1 |
辅助设备 |
每日 |
详细清单见 TOOLS.md「SSH/WinRM 服务器清单」
相关条目
变更记录
| 日期 |
版本 |
变更说明 |
变更人 |
| 2026-06-24 |
v1.0 |
初始创建 |
严维序 |