fix(BIZ-26): 限流范围收窄到 NVIDIA 网关

- 新增网关识别逻辑：只识别 nvidia / nvidiavx18088980513 为限流目标 - volcengine-plan、siliconflow、deepseek 等非 NVIDIA 网关默认不进入令牌桶 - RequestScheduler 增加 gateway/model 参数与 _should_rate_limit 判断 - 未知网关默认不限流，避免误伤其他通道 - 补充网关范围测试与使用文档说明 Co-authored-by: multica-agent <github@multica.ai>
2026-06-23 16:12:02 +08:00
parent 7f1edfb2fd
commit 4b31322be3
3 changed files with 153 additions and 16 deletions
@@ -11,7 +11,7 @@
 本模块实现了 BIZ-13 运行稳定性保障方案中的 API 限流优化功能：
-1. **令牌桶限流器**：40 RPM 上限，防止触发 API 429 错误
+1. **NVIDIA 网关专用令牌桶限流器**：40 RPM 上限，防止触发 NVIDIA 网关 API 429 错误
 2. **四级优先级队列**：紧急 > 高 > 正常 > 低
 3. **智能降级策略**：高优先级等待，低优先级切备用模型
 4. **缓存管理器**：按数据类型设置不同 TTL
@@ -20,7 +20,31 @@
 ---
-## 二、快速开始
+## 二、适用范围（已按要求收窄）
 **令牌桶限流器只对 NVIDIA 网关 API 生效。**
 识别规则：
 - `nvidia`、`nvidia-gateway`、`nvidiavx18088980513/...` → 进入 40 RPM 令牌桶
 - `volcengine-plan/...`、`siliconflow/...`、`deepseek/...` → 不进入令牌桶，不受该限流器影响
 - 未知网关默认不限制，避免误伤非 NVIDIA 通道
 调用方应显式传入 `gateway` 或 `model`，例如：
 ```python
 # 走 NVIDIA 网关：限流
 scheduler.submit(payload=data, gateway="nvidia", priority=Priority.NORMAL, callback=handler)
 scheduler.submit(payload=data, model="nvidiavx18088980513/deepseek-ai/deepseek-v4-pro", callback=handler)
 # 走其他网关：不限流
 scheduler.submit(payload=data, model="volcengine-plan/ark-code-latest", callback=handler)
 scheduler.submit(payload=data, model="siliconflow/Qwen/Qwen3", callback=handler)
 scheduler.submit(payload=data, model="deepseek/deepseek-chat", callback=handler)
 ```
 ---
 ## 三、快速开始
 ### 2.1 基本用法
@@ -87,7 +111,7 @@ print(f"缓存条目：{stats['total_entries']}")
 ---
-## 三、API 参考
+## 四、API 参考
 ### 3.1 TokenBucket（令牌桶）
@@ -208,7 +232,7 @@ poller.stop()
 ---
-## 四、缓存策略
+## 五、缓存策略
 | 数据类型 | TTL | 说明 |
 |----------|-----|------|
@@ -219,7 +243,7 @@ poller.stop()
 ---
-## 五、降级策略
+## 六、降级策略
 ### 5.1 令牌不足时的处理
@@ -242,7 +266,7 @@ poller.stop()
 ---
-## 六、监控与调试
+## 七、监控与调试
 ### 6.1 查看调度器状态
@@ -267,7 +291,7 @@ print(f"按类别：{stats['by_category']}")
 ---
-## 七、测试
+## 八、测试
 运行测试套件：
@@ -286,7 +310,7 @@ python3 scripts/test_rate_limiter.py
 ---
-## 八、集成示例
+## 九、集成示例
 ### 8.1 与 Multica CLI 集成
@@ -352,7 +376,7 @@ def heartbeat_check():
 ---
-## 九、注意事项
+## 十、注意事项
 1. **令牌速率配置**：根据实际 API 限制调整 `rate` 参数
 2. **缓存 TTL**：根据数据变化频率调整，避免过期数据
@@ -362,7 +386,7 @@ def heartbeat_check():
 ---
-## 十、TODO
+## 十一、TODO
 - [ ] 接入实际的 Multica CLI 调用
 - [ ] 添加 Prometheus 监控指标导出
@@ -25,6 +25,57 @@ from enum import IntEnum
 from datetime import datetime, timedelta
 # ============================================================================
 # 网关识别：只对 NVIDIA 网关限流
 # ============================================================================
 NVIDIA_GATEWAY_ALIASES = {
    "nvidia",
    "nvidia-gateway",
    "nvidia_gateway",
    "nvidiavx18088980513",
 }
 UNLIMITED_GATEWAY_ALIASES = {
    "volcengine",
    "volcengine-plan",
    "siliconflow",
    "deepseek",
    "deepseek-api",
 }
 def normalize_gateway_name(value: Optional[str]) -> Optional[str]:
    """
    归一化网关/模型名称。
    输入可以是：
    - provider: nvidia / volcengine-plan / siliconflow / deepseek
    - model: nvidiavx18088980513/deepseek-ai/deepseek-v4-pro
    - model: volcengine-plan/ark-code-latest
    返回 provider 前缀的小写形式。未知则返回 None。
    """
    if not value:
        return None
    text = str(value).strip().lower()
    if not text:
        return None
    return text.split("/", 1)[0]
 def is_nvidia_gateway(value: Optional[str]) -> bool:
    """判断请求是否走 NVIDIA 网关。未知网关默认不限流。"""
    provider = normalize_gateway_name(value)
    if provider is None:
        return False
    if provider in NVIDIA_GATEWAY_ALIASES:
        return True
    if provider in UNLIMITED_GATEWAY_ALIASES:
        return False
    return provider.startswith("nvidia")
 # ============================================================================
 # 优先级枚举
 # ============================================================================
@@ -50,6 +101,8 @@ class Request:
    payload: Any = field(compare=False)
    callback: Optional[Callable] = field(compare=False, default=None)
    fallback_model: Optional[str] = field(compare=False, default=None)
    gateway: Optional[str] = field(compare=False, default=None)
    model: Optional[str] = field(compare=False, default=None)
    def __post_init__(self):
        if self.timestamp is None:
@@ -69,7 +122,10 @@ class Request:
 class TokenBucket:
    """
-    令牌桶限流器
+    NVIDIA 网关专用令牌桶限流器
    注意：令牌桶本身只负责节流算法；是否启用由 RequestScheduler._should_rate_limit()
    按 gateway/model 判断。volcengine-plan、siliconflow、DeepSeek 等非 NVIDIA 网关不会进入此桶。
    参数：
        rate: 令牌生成速率（个/秒），默认 40 RPM = 0.67 个/秒
@@ -362,6 +418,28 @@ class RequestScheduler:
                # 记录错误但不中断工作线程
                print(f"[RequestScheduler] Worker error: {e}")
    def _extract_gateway_hint(self, request: Request) -> Optional[str]:
        """从 request.gateway / request.model / payload 中提取网关提示。"""
        if request.gateway:
            return request.gateway
        if request.model:
            return request.model
        if isinstance(request.payload, dict):
            for key in ("gateway", "provider", "model", "model_id"):
                value = request.payload.get(key)
                if value:
                    return str(value)
        return None
    def _should_rate_limit(self, request: Request) -> bool:
        """
        只对 NVIDIA 网关请求启用令牌桶。
        设计原则：未知网关默认不限制，避免误伤 volcengine-plan / siliconflow / DeepSeek
        等其他 API 网关。要被限流，调用方必须显式传 gateway/model，且能识别为 NVIDIA。
        """
        return is_nvidia_gateway(self._extract_gateway_hint(request))
    def _process_request(self, request: Request) -> None:
        """
        处理单个请求
@@ -372,7 +450,12 @@ class RequestScheduler:
        """
        self.stats["total_requests"] += 1
-        # 尝试获取令牌
+        # 只对 NVIDIA 网关请求启用令牌桶；其他网关直接执行
        if not self._should_rate_limit(request):
            self._execute_request(request)
            return
        # NVIDIA 网关请求：尝试获取令牌
        if request.priority <= Priority.HIGH:
            # 高优先级：无限等待
            got_token = self.token_bucket.wait_for_token(timeout=None)
@@ -419,7 +502,9 @@ class RequestScheduler:
        priority: Priority = Priority.NORMAL,
        callback: Optional[Callable] = None,
        fallback_model: Optional[str] = None,
-        request_id: Optional[str] = None
+        request_id: Optional[str] = None,
        gateway: Optional[str] = None,
        model: Optional[str] = None
    ) -> str:
        """
        提交请求到调度队列
@@ -440,7 +525,9 @@ class RequestScheduler:
            request_id=request_id,
            payload=payload,
            callback=callback,
-            fallback_model=fallback_model
+            fallback_model=fallback_model,
            gateway=gateway,
            model=model
        )
        self.request_queue.put(req)
@@ -28,6 +28,7 @@ from rate_limiter import (
    Priority,
    retry_with_backoff,
    CoordinatedPoller,
    is_nvidia_gateway,
 )
@@ -240,9 +241,10 @@ def test_rate_limit_stress():
    for i in range(50):
        priority = Priority.NORMAL if i % 10 != 0 else Priority.URGENT
        scheduler.submit(
-            payload={"index": i},
+            payload={"index": i, "provider": "nvidia"},
            priority=priority,
-            callback=callback
+            callback=callback,
            gateway="nvidia"
        )
    print("提交完成，等待处理...")
@@ -266,6 +268,29 @@ def test_rate_limit_stress():
    print("\n✅ 压力测试完成\n")
 def test_gateway_scope():
    """测试限流范围：只对 NVIDIA 网关生效"""
    print("=" * 60)
    print("测试 7: 网关范围识别（只限 NVIDIA）")
    print("=" * 60)
    assert is_nvidia_gateway("nvidia") is True
    assert is_nvidia_gateway("nvidiavx18088980513/deepseek-ai/deepseek-v4-pro") is True
    assert is_nvidia_gateway("volcengine-plan/ark-code-latest") is False
    assert is_nvidia_gateway("siliconflow/Qwen/Qwen3") is False
    assert is_nvidia_gateway("deepseek/deepseek-chat") is False
    assert is_nvidia_gateway(None) is False
    scheduler = RequestScheduler(rate=1/60, capacity=1, enable_cache=True)
    # 先耗尽 NVIDIA 桶
    scheduler.submit(payload={"provider": "nvidia", "i": 1}, priority=Priority.NORMAL, callback=lambda x: x, gateway="nvidia")
    # 非 NVIDIA 请求应直接执行，不受桶状态影响
    non_nv = {"provider": "volcengine-plan", "i": 2}
    assert scheduler._should_rate_limit(type("R", (), {"gateway": "volcengine-plan", "model": None, "payload": non_nv})()) is False
    print("✅ 网关范围识别测试完成：volcengine-plan/siliconflow/DeepSeek 不限流，NVIDIA 限流\n")
 def main():
    """运行所有测试"""
    print("\n")
@@ -284,6 +309,7 @@ def main():
        test_retry_decorator()
        test_coordinated_poller()
        test_rate_limit_stress()
        test_gateway_scope()
        print("\n")
        print("╔" + "=" * 58 + "╗")