## 问题描述 平均 Token 数硬编码导致并发计算不准确。 ## 受影响的文件 - `src/rate_limiter.py` 行 420-423 ## 硬编码值 - `llm: 3500` - `embedding: 500` - `rerank: 500` - `ds_ocr: 3500` ## 问题 这些值因场景而异(Query vs Insert),但被固定为保守值,导致不必要的速率限制,降低系统吞吐量。 ## 解决方案 应该支持按租户/服务配置平均 token 数。