我使用的是一台Copilot+ PC,使用了AMD的Ryzen处理器,并包含了NPU。此前尝试过使用Lemonade Server运行LLM,但是它不支持使用纯NPU,仅能够混合使用,仍然需要用到核显进行计算。

我最近在Reddit上看到一个帖子,现在有工具可以在Ryzen NPU上运行大语言模型了。Running LLMs exclusively on AMD Ryzen AI NPU,于是我今天开始尝试用这个软件——FastFlowLM

看了一下,和Lemonade一样,只支持使用较小的模型。如果想用较大的模型的话可以放弃这个方案了。支持的模型的列表在 Models这个页面。

安装 链接到标题

下载本体 链接到标题

FastFlowLM的仓库里下载可以直接运行的安装程序。目前看起来仅支持Windows,下载地址为flm-setup.exe

下载后一步一步安装即可。

安装NPU驱动 链接到标题

需要确保Windows任务管理器中能够看到NPU,或者设备管理器中应当有"Neural Processor"。如果没有,则可能需要去安装AMD的NPU驱动。

下载AMD驱动

NPU性能模式 链接到标题

为了更好的性能,你可能应该为AMD的NPU开启性能模式。操作方法为打开命令行并使用以下指令:

cd C:\Windows\System32\AMD\
.\xrt-smi configure --pmode turbo

更多关于NPU的电源模式,参阅AMD XRT SMI Documentation

使用 链接到标题

用法类似ollama。为测试是否可用,可以直接打开命令行并使用以下指令:

flm run llama3.2:1b

先运行个小模型看看能不能用,如果下了个比较大的发现自己的设备不能用就白浪费时间了。

更多用法:

Usage: C:\Program Files\flm\flm.exe <command: run <model_tag> <file_name>
Usage: C:\Program Files\flm\flm.exe <command: serve <model_tag>
Usage: C:\Program Files\flm\flm.exe <command: pull <model_tag> [--force]
Commands:
  run     - Run the model interactively
  serve   - Start the Ollama-compatible server
  pull    - Download model files if not present
  help    - Show the help
  remove  - Remove a model
  list    - List all the models
  version - Show the version
Options:
  --force - Force re-download even if model exists (for pull command)

参阅 链接到标题

以上安装方法部分翻译自FastFlowLM的文档,并根据我的心情进行了一些简化和补充。

具体请参阅:FastFlowLM Docs