我使用的是一台Copilot+ PC,使用了AMD的Ryzen处理器,并包含了NPU。此前尝试过使用Lemonade Server运行LLM,但是它不支持使用纯NPU,仅能够混合使用,仍然需要用到核显进行计算。
我最近在Reddit上看到一个帖子,现在有工具可以在Ryzen NPU上运行大语言模型了。Running LLMs exclusively on AMD Ryzen AI NPU,于是我今天开始尝试用这个软件——FastFlowLM
看了一下,和Lemonade一样,只支持使用较小的模型。如果想用较大的模型的话可以放弃这个方案了。支持的模型的列表在 Models这个页面。
安装 链接到标题
下载本体 链接到标题
到FastFlowLM的仓库里下载可以直接运行的安装程序。目前看起来仅支持Windows,下载地址为flm-setup.exe。
下载后一步一步安装即可。
安装NPU驱动 链接到标题
需要确保Windows任务管理器中能够看到NPU,或者设备管理器中应当有"Neural Processor"。如果没有,则可能需要去安装AMD的NPU驱动。
NPU性能模式 链接到标题
为了更好的性能,你可能应该为AMD的NPU开启性能模式。操作方法为打开命令行并使用以下指令:
cd C:\Windows\System32\AMD\
.\xrt-smi configure --pmode turbo
更多关于NPU的电源模式,参阅AMD XRT SMI Documentation
使用 链接到标题
用法类似ollama。为测试是否可用,可以直接打开命令行并使用以下指令:
flm run llama3.2:1b
先运行个小模型看看能不能用,如果下了个比较大的发现自己的设备不能用就白浪费时间了。
更多用法:
Usage: C:\Program Files\flm\flm.exe <command: run <model_tag> <file_name>
Usage: C:\Program Files\flm\flm.exe <command: serve <model_tag>
Usage: C:\Program Files\flm\flm.exe <command: pull <model_tag> [--force]
Commands:
run - Run the model interactively
serve - Start the Ollama-compatible server
pull - Download model files if not present
help - Show the help
remove - Remove a model
list - List all the models
version - Show the version
Options:
--force - Force re-download even if model exists (for pull command)
参阅 链接到标题
以上安装方法部分翻译自FastFlowLM的文档,并根据我的心情进行了一些简化和补充。
具体请参阅:FastFlowLM Docs