forked from kvcache-ai/ktransformers
-
Notifications
You must be signed in to change notification settings - Fork 2
Open
Description
检查清单
- 1. 如果您提出的不是新功能而是问题,请在讨论区发起讨论 https://github.com/kvcache-ai/ktransformers/discussions。否则该 issue 将被关闭
- 2. 为方便社区交流,我将使用中文/英文或附上英文/中文翻译(如使用其他语言)。未附带翻译的非英文/中文内容可能会被关闭
需求背景
你好,拜读了您的提高ktransformers性能的大作,很是厉害👍。我现在有个想法,就是现在的ktransformers不能支持avx cpu 指令集,就是是不能支持E5 v1 v2 cpu,而这直接导致ddr3 内存不能用。我现在通过修改setup.py可以完成编译,生成的安装包看有avx的字样。在ktransformers/ktransformers_ext/example中的test程序可以在E5 v2的机器运行,在运行deepseek-V2-lite-chat模型时可以载入,在chat:输入“who are”两个字,系统只能报token的性能信息,没有答复(我看了系统内部回复是googles…信息),如果输入三个字或以上系统出错,出错的意思是cuda那边的错。我现在想问您ktransformers系统在cpu推理方面借鉴了大量llama.cpp的实现,我现在修改了编译avx开关,这些开关起作用了吗? ktransformers的avx 指令是在哪里实现的? 是在llamafile中实现的吗?我确实看不懂llamafile中的c代码是怎么支持ktransformers。
相关资源
No response
Metadata
Metadata
Assignees
Labels
No labels