Files
EnterpriseArchitect/knowledge/运维/服务器运维标准_v1.0.md

4.5 KiB
Raw Permalink Blame History

服务器运维标准

元数据

属性
领域 运维
责任人 严维序(opengineer
版本 v1.0
创建日期 2026-06-24
最后更新 2026-06-24
标签 运维, 监控, 巡检, 备份

概述

本文档定义 BizWings 团队所有服务器的日常运维标准,包括巡检频率、监控指标、备份策略和安全基线。适用于所有生产环境服务器(阿里云 / 家庭内网 / HP 服务器)。


一、服务器巡检标准

1.1 巡检频率

类型 频率 执行方式
心跳自检 每 10 分钟 openclaw 心跳自动巡检
深度巡检 每日一次 手动执行 python3 $SCRIPTS/heartbeat_helper.py opengineer
全量巡检 每周一次 逐个检查全部服务器

1.2 巡检清单

资源负载

# 磁盘使用率(警告 > 80%,严重 > 90%
df -h | grep -v tmpfs

# CPU 负载
uptime

# 内存使用
free -h

# 网络 IO
sar -n DEV 1 3

服务状态

# 核心服务清单(按实际部署确认)
systemctl status nginx mysql docker sshd

# Docker 容器健康
docker ps | grep -c "Up"

日志异常

# 最近 10 分钟的错误日志
journalctl --since "10 min ago" -p err --no-pager | tail -20

二、监控指标定义

2.1 告警阈值

指标 警告 (WARN) 严重 (CRIT) 处理
磁盘使用率 > 80% > 90% 清理日志 / 扩容
CPU 负载 (1min) > 4.0 > 8.0 检查异常进程
内存使用率 > 85% > 95% 检查 OOM 风险
根分区 inode > 80% > 90% 清理小文件
服务进程 停止 重启服务
端口监听 消失 检查服务状态
Docker 容器 非 Up docker start / compose up

2.2 日志监控

  • 系统日志:journalctl -p err 重点关注
  • 应用日志:error, exception, failed, timeout 关键词监控
  • Nginx 日志:5xx 错误率 > 1% 时触发调查

三、备份策略

3.1 数据库备份

# MySQL 全量备份(建议每日凌晨执行)
mysqldump --all-databases --single-transaction --quick | gzip > /backup/db/all-$(date +%Y%m%d).sql.gz

3.2 配置备份

  • 服务器配置文件:/backup/conf/<server>/ 目录
  • 每次变更前执行:cp <config> <config>.$(date +%Y%m%d-%H%M%S).bak

3.3 Docker 数据备份

# 思源笔记备份(已配置每日 3:00)
tar czf /backup/siyuan/siyuan-data-$(date +%Y%m%d).tar.gz -C <data-dir> .

3.4 备份保留策略

类型 保留期限
数据库全量备份 30 天
配置备份 90 天
Docker 数据 7 天
日志归档 90 天

四、变更管理标准

4.1 变更准入

  • 每次变更前必须备份原始文件
  • 高危操作(防火墙、内核、数据库)必须保留回滚方案
  • 变更前评估影响范围
  • 变更后验证服务状态
  • 禁止在无备份的情况下直接修改生产配置
  • 禁止在高峰时段执行非紧急变更

4.2 变更分级

级别 示例 要求
低风险 普通应用更新 备份 → 部署 → 验证
中风险 配置修改 备份 → 预演 → 部署 → 验证
高风险 内核 / 防火墙 / 数据库 备份 → 预演 → 通知 → 部署 → 验证 → 监控

五、安全基线

5.1 基本要求

  • SSH 禁止 root 密码登录(高风险服务器)
  • 防火墙最小权限原则
  • 非必要端口不对外开放
  • 定期更新系统安全补丁
  • 日志审计开启

5.2 密码管理

  • 服务器密码统一记录在 TOOLS.md
  • 数据库密码统一管理
  • 禁止在代码中硬编码密码

六、服务器清单与分类

环境 服务器数 用途 巡检频率
阿里云生产 3 应用服务、数据库 每次心跳
家庭内网生产 4 应用、数据库、PVE 每次心跳
HP 测试 3 测试、NAS 每日
树莓派 1 辅助设备 每日

详细清单见 TOOLS.md「SSH/WinRM 服务器清单」


相关条目

变更记录

日期 版本 变更说明 变更人
2026-06-24 v1.0 初始创建 严维序