[FEATURE] 简洁阐述功能如何计算传给模型的内容的token数量，并动态限制确保不超过max-model-len的值 #5104

TZJ12 · 2024-11-26T02:02:23Z

功能描述 / Feature Description
是否支持计算传给模型的引用文本、提示词、用户问题等内容的token数量，并且在超出模型能接受的最大token的时候进行动态限制，防止报错: 请求内容超出模型最大token数量

解决的问题 / Problem Solved
解决请求内容超出模型最大token数量的报错

实现建议 / Implementation Suggestions

替代方案 / Alternative Solutions

其他信息 / Additional Information

948024326 · 2024-11-26T12:10:49Z

动态限制？如果你是直接从xinfer三方模型服务平台接进来的那么你要从chatchat报错里改了

TZJ12 · 2024-11-27T02:40:54Z

我是使用vllm启动的模型

948024326 · 2024-11-27T03:20:10Z

我是使用vllm启动的模型

得从chatchat这部分改我后面看下处理好后回复你

TZJ12 · 2024-11-27T06:49:59Z

好的，谢谢你

Zephyr69 · 2024-12-05T01:08:40Z

同问，自己也在看。这部分居然没有做限制，一旦超过max-model-len直接让它报错。

github-actions · 2025-01-04T21:30:20Z

这个问题已经被标记为 stale ，因为它已经超过 30 天没有任何活动。

TZJ12 added the enhancement New feature or request label Nov 26, 2024

github-actions bot added the stale label Jan 4, 2025

Provide feedback