Files

T

vincent e829a4060b BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

新增文件:
- metrics.py: Prometheus 指标端点 (:9191), 10+3 个指标
- health.py: /health (liveness) + /health/ready (readiness)
- webui.py: WebUI 后端 API (SSE 实时推送 + 配置热重载)
- static/dashboard.html: 仪表盘前端 (Chart.js, 令牌桶仪表+队列柱状图+吞吐折线图)

更新文件:
- rate_limiter.py: 增加 AdaptiveTokenBucket 避退模式 (ADR-009)
  状态机 NORMAL→RETREAT→RECOVER, 429 率滑动窗口监控
- server.py: structlog 结构化日志 + 避退反馈回路
  挂载 metrics_server (:9191) + health/ready + webui + /status
- pyproject.toml: 增加 prometheus-client, pydantic, types-PyYAML 依赖

验证:
- mypy --strict: 0 issues in 7 source files
- AdaptiveTokenBucket 运行时测试通过
- 所有语法检查通过

Co-authored-by: multica-agent <github@multica.ai>

2026-06-24 11:54:02 +08:00

static

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

__init__.py

BIZ-40: NVIDIA Sidecar 限流代理 Phase1 — 核心代理模块

2026-06-24 08:32:47 +08:00

.gitignore

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

config.py

BIZ-40: NVIDIA Sidecar 限流代理 Phase1 — 核心代理模块

2026-06-24 08:32:47 +08:00

health.py

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

metrics.py

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

priority_queue.py

BIZ-40: NVIDIA Sidecar 限流代理 Phase1 — 核心代理模块

2026-06-24 08:32:47 +08:00

pyproject.toml

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

rate_limiter.py

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

README.md

BIZ-40: NVIDIA Sidecar 限流代理 Phase1 — 核心代理模块

2026-06-24 08:32:47 +08:00

server.py

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

webui.py

BIZ-42: Phase2 可观测性+WebUI+避退模式 — metrics/health/webui/dashboard/adaptive

2026-06-24 11:54:02 +08:00

README.md

NVIDIA Sidecar 限流代理

为 NVIDIA API 提供优先级排队 + 令牌桶限流的透明代理层。

快速启动

pip install .
nvidia-sidecar

监听 127.0.0.1:9190，代理到 NVIDIA API。

环境变量

变量	默认值	说明
`SIDECAR_HOST`	`127.0.0.1`	监听地址
`SIDECAR_PORT`	`9190`	监听端口
`SIDECAR_METRICS_PORT`	`9191`	Metrics 端口
`SIDECAR_UPSTREAM`	`https://integrate.api.nvidia.com/v1`	上游 API 地址
`SIDECAR_API_KEY`	—	NVIDIA API Key（必填）
`SIDECAR_RATE_RPM`	`40`	每分钟请求数限制
`SIDECAR_BUCKET_CAPACITY`	`40`	令牌桶容量
`SIDECAR_TIMEOUT`	`6000`	上游请求超时（秒）
`SIDECAR_QUEUE_MAX`	`500`	队列最大长度
`SIDECAR_LOW_TIMEOUT`	`2.0`	低优先级令牌等待超时（秒）
`SIDECAR_FALLBACK_PASSTHROUGH`	`true`	队列满时是否直通上游
`SIDECAR_LOG_LEVEL`	`INFO`	日志级别

YAML 配置

listen_port: 9292
rate_rpm: 60
upstream_api_key: "nvapi-xxx"

nvidia-sidecar --config /etc/nvidia-sidecar.yaml

API 端点

路径	方法	说明
`/v1/chat/completions`	POST	OpenAI Chat Completions 代理
`/v1/completions`	POST	OpenAI Completions 代理（legacy）
`/v1/embeddings`	POST	OpenAI Embeddings 代理
`/v1/models`	GET	模型列表代理
`/health`	GET	健康检查
`/metrics`	GET	指标查询

架构

请求 → 网关识别 → [NVIDIA: 优先级排队 → 令牌桶限流] → httpx → NVIDIA API
                → [非 NVIDIA: 直通] → httpx → 上游

四级优先级: URGENT > HIGH > NORMAL > LOW（通过 X-Priority header 指定）
队列满策略: PASSTHROUGH（直通）/ REJECT（503）/ DROP_LOWEST（丢弃最低优先级）
令牌桶: 40 RPM，线程安全，支持阻塞/非阻塞消费

README.md Unescape Escape

NVIDIA Sidecar 限流代理

快速启动

环境变量

YAML 配置

API 端点

架构

README.md