无尘阁日记

无尘阁日记

联想 PGX、Mac 顶配,到底能不能本地跑 DeepSeek-V4-Flash?
2026-05-19

最近很多人看到联想 ThinkStation PGX 这类“桌面 AI 超级电脑”,第一反应是:

既然它能跑 200B 参数模型,那能不能本地跑 DeepSeek-V4-Flash?

结论先说清楚:

单台联想 PGX 不适合本地跑完整 DeepSeek-V4-Flash;Mac 顶配更有机会,但也只是“能跑起来”,不等于“跑得爽、跑得稳、跑得快”。


一、判断一台电脑能不能跑大模型,核心看 3 个数

不要只看宣传里的“AI 算力”“TOPS”“超级芯片”,真正决定能不能跑的,是这三个东西:

1. 总参数量

DeepSeek-V4-Flash 是 284B 总参数、13B 激活参数、1M 上下文;DeepSeek-V4-Pro 更大,是 1.6T 总参数、49B 激活参数。这两个都是 MoE 模型。(Hugging Face)

这里最容易误解的是:

13B 激活参数,不代表只需要 13B 模型的内存。

MoE 模型推理时每个 token 只激活一部分专家,但模型权重整体仍然要被加载、切分、调度。也就是说,看部署门槛时,不能只看激活参数,必须看总参数和权重精度。


2. 内存/显存容量

大模型本地推理,第一道门槛不是 CPU,也不是硬盘,而是:

权重能不能装进内存/显存。

DeepSeek-V4-Flash 是 284B 参数,即使用 4bit 粗略估算:

284B × 4bit ≈ 142GB

这还只是理想化权重体积,没有算运行开销、KV Cache、框架占用、系统占用,以及 FP4 + FP8 混合精度带来的额外复杂度。

所以,128GB 内存的机器,天然就非常紧张。


3. 上下文长度

DeepSeek-V4 系列支持 1M token 上下文。上下文越长,KV Cache 压力越大。DeepSeek 官方也强调 V4 系列做了长上下文优化,但优化不等于没有成本。(DeepSeek API Docs)

所以实际部署时经常会出现一种情况:

模型能加载,但上下文一拉长,速度、内存和稳定性立刻出问题。


二、联想 PGX 到底是什么水平?

你截图里的联想 ThinkStation PGX,大体配置是:

项目 配置
芯片 NVIDIA GB10 Grace Blackwell
统一内存 128GB LPDDR5x
内存带宽 273GB/s
AI 算力 最高 1000 TOPS / 1 PFLOP FP4 稀疏
硬盘 1TB 或 4TB NVMe
系统 NVIDIA DGX OS / Ubuntu Linux Pro
双机互联 两台 PGX 可支持更大模型

联想官方对 PGX 的定位是“个人 AI 开发工作站”,单台可处理最高约 200B 参数模型,两台连接后可处理最高约 405B 参数模型。(Lenovo StoryHub)

这句话已经把答案说得很清楚了:

单台 PGX:约 200B 参数模型
DeepSeek-V4-Flash:284B 总参数

所以,单台 PGX 不适合跑完整 DeepSeek-V4-Flash。


三、为什么 PGX 单台不建议跑 DeepSeek-V4-Flash?

原因很简单:

1. 参数量超过单机舒适区

PGX 单台官方定位是最高约 200B 参数模型,而 V4-Flash 是 284B。
这不是差一点,是已经超过了它的合理边界。

2. 128GB 统一内存偏紧

V4-Flash 即使极低精度估算,权重体积也很容易超过 128GB 的舒适范围。

更麻烦的是,本地跑模型不是“权重塞进去就完事”,还要留空间给:

  • 推理框架;

  • KV Cache;

  • 系统进程;

  • tokenizer;

  • 显存/内存调度;

  • 长上下文运行开销。

所以单台 PGX 很容易变成:

能折腾
不好用
上下文受限
速度慢
稳定性差

3. 两台 PGX 理论上更接近,但不建议作为主方案

两台 PGX 互联后,官方说可处理最高 405B 参数模型。这个数字覆盖了 V4-Flash 的 284B 参数量。(Lenovo StoryHub)

但实际工程上还要解决:

  • 模型并行;

  • 框架兼容;

  • 网络互联;

  • 权重切分;

  • 推理吞吐;

  • 长上下文内存控制;

  • 本地部署维护成本。

所以两台 PGX 可以作为技术探索,但不适合作为稳定生产方案。


四、Mac 顶配为什么反而更有机会?

Mac 顶配能跑超大模型,靠的不是传统意义上的独立显卡,而是:

超大统一内存。

Apple Mac Studio M3 Ultra 官方规格可到 32 核 CPU、80 核 GPU、819GB/s 内存带宽。(apple.com)

Mac 的优势是 CPU 和 GPU 共用统一内存。对大模型来说,这一点很关键。

传统 PC 的问题是:

内存很大,但显存不够
显卡很强,但显存太小

Mac 的优势是:

统一内存够大
模型权重可以整体放进统一内存
不用完全受独立显卡显存限制

所以,很多人说“Mac 顶配可以跑”,这个说法大方向是对的。

但要补一句:

它通常指的是量化版、本地体验版、低并发场景,不是生产级高吞吐部署。

另外,512GB 统一内存版本是否还能在官方渠道正常购买,需要下单前确认;近期有媒体报道苹果已调整或移除部分高内存 Mac Studio 配置选项。(Tom's Hardware)


五、个人电脑最低配置怎么选?

如果目标是本地体验 DeepSeek-V4-Flash,我建议按下面这个标准判断。

目标 最低建议 判断
只调用 DeepSeek API 普通电脑即可 最现实
本地折腾 V4-Flash 量化版 Mac Studio M3 Ultra,256GB 统一内存起步 勉强线
本地更稳地跑 V4-Flash Mac Studio M3 Ultra,512GB 统一内存更理想 更安全,但看渠道
单台联想 PGX 不推荐 128GB 内存偏紧
两台 PGX 互联 可探索 不建议生产
真正稳定部署 云 GPU / 多卡服务器 更适合生产

一句话:

256GB 是“能折腾”的门槛,512GB 才更像个人电脑里的安全线。


六、PGX 值不值得买?

要看你买它干什么。

如果你买 PGX 是为了专门跑 DeepSeek-V4-Flash

不建议。

它不适合拿来硬扛 284B 的 V4-Flash,更不适合 V4-Pro。

如果你买 PGX 是为了做企业 AI 工作站

可以考虑。

它更适合这些场景:

  • 本地跑 70B 级模型;

  • 跑 100B-200B 内模型;

  • 做企业知识库 RAG;

  • 跑 OpenClaw、小龙虾、Agent、Skills;

  • 做本地原型开发;

  • 做私有数据处理;

  • 做边缘 AI 推理测试;

  • 做小规模模型微调或评估。

也就是说,PGX 更像是:

企业 AI 开发机 / 本地智能体工作站 / 私有化原型验证机。

它不是:

单机版 DeepSeek-V4 服务器。


七、最现实的企业落地方案

如果你要做企业 AI 应用,我更推荐这个组合:

本地 PGX / Mac:
负责知识库、数据处理、RAG、Agent、Skills、本地文件、业务系统连接

DeepSeek-V4:
通过 API 提供大模型推理能力

这样好处很明显:

  • 本地数据可控;

  • 系统响应稳定;

  • 不硬扛超大模型部署;

  • 成本更可控;

  • 体验更接近真实生产;

  • 智能体、工作流、业务系统可以本地跑;

  • 大模型能力通过 API 补足。

DeepSeek 官方也已经提供 V4 API,并支持 OpenAI Chat Completions 与 Anthropic API 形式调用。(DeepSeek API Docs)


八、最终采购建议

如果你的目标是 本地跑 DeepSeek-V4-Flash

优先:Mac Studio M3 Ultra 高内存版本
其次:两台 PGX 互联做技术探索
不建议:单台 PGX 硬跑

如果你的目标是 企业 AI 落地、智能体演示、OpenClaw 工作流、RAG、Skills 自动化

PGX 可以买
但 DeepSeek-V4 建议走 API

如果你的目标是 稳定生产部署 DeepSeek-V4

直接上云 GPU / 专业多卡服务器
不要纠结个人电脑

九、一句话总结

联想 PGX 是一台不错的桌面 AI 工作站,但它不是 DeepSeek-V4-Flash 的最佳本地部署机器;Mac 顶配靠大统一内存更适合“把超大模型塞进去跑”,但真正企业落地,最稳的方案仍然是:本地跑业务系统和智能体,大模型走 API。