使用AMD Ryzen NPU在本地运行大语言模型

我使用的是一台Copilot+ PC，使用了AMD的Ryzen处理器，并包含了NPU。此前尝试过使用Lemonade Server运行LLM，但是它不支持使用纯NPU，仅能够混合使用，仍然需要用到核显进行计算。

我最近在Reddit上看到一个帖子，现在有工具可以在Ryzen NPU上运行大语言模型了。Running LLMs exclusively on AMD Ryzen AI NPU，于是我今天开始尝试用这个软件——FastFlowLM

看了一下，和Lemonade一样，只支持使用较小的模型。如果想用较大的模型的话可以放弃这个方案了。支持的模型的列表在 Models这个页面。

安装链接到标题

下载本体链接到标题

到FastFlowLM的仓库里下载可以直接运行的安装程序。目前看起来仅支持Windows，下载地址为flm-setup.exe。

下载后一步一步安装即可。

安装NPU驱动链接到标题

需要确保Windows任务管理器中能够看到NPU，或者设备管理器中应当有"Neural Processor"。如果没有，则可能需要去安装AMD的NPU驱动。

下载AMD驱动

NPU性能模式链接到标题

为了更好的性能，你可能应该为AMD的NPU开启性能模式。操作方法为打开命令行并使用以下指令：

cd C:\Windows\System32\AMD\
.\xrt-smi configure --pmode turbo

更多关于NPU的电源模式，参阅AMD XRT SMI Documentation

使用链接到标题

用法类似ollama。为测试是否可用，可以直接打开命令行并使用以下指令：

flm run llama3.2:1b

先运行个小模型看看能不能用，如果下了个比较大的发现自己的设备不能用就白浪费时间了。

更多用法：

Usage: C:\Program Files\flm\flm.exe <command: run <model_tag> <file_name>
Usage: C:\Program Files\flm\flm.exe <command: serve <model_tag>
Usage: C:\Program Files\flm\flm.exe <command: pull <model_tag> [--force]
Commands:
  run     - Run the model interactively
  serve   - Start the Ollama-compatible server
  pull    - Download model files if not present
  help    - Show the help
  remove  - Remove a model
  list    - List all the models
  version - Show the version
Options:
  --force - Force re-download even if model exists (for pull command)

参阅链接到标题

以上安装方法部分翻译自FastFlowLM的文档，并根据我的心情进行了一些简化和补充。

具体请参阅：FastFlowLM Docs

安装 链接到标题

下载本体 链接到标题

安装NPU驱动 链接到标题

NPU性能模式 链接到标题

使用 链接到标题

参阅 链接到标题