Skip to content

Average tokens per request hardcoded - inaccurate concurrency calculation #14

@BukeLy

Description

@BukeLy

问题描述

平均 Token 数硬编码导致并发计算不准确。

受影响的文件

  • src/rate_limiter.py 行 420-423

硬编码值

  • llm: 3500
  • embedding: 500
  • rerank: 500
  • ds_ocr: 3500

问题

这些值因场景而异(Query vs Insert),但被固定为保守值,导致不必要的速率限制,降低系统吞吐量。

解决方案

应该支持按租户/服务配置平均 token 数。

Metadata

Metadata

Assignees

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions