全球首发 · 面向个人电脑的首张持久认知 AI 卡。 查看技术规格 →
隆重推出 · PUNKY TIGER LABS

NYMPH S-Quantum。
面向个人电脑
首张持久认知 AI PCIe 卡。

荣获 CES 大奖的 DEEPX DX-M1M AI 加速器驱动。 包裹于 Punky Tiger Labs 专利申请中的持久认知架构之中—— 91 项以上 USPTO 专利申请,让消费级设备拥有 重启后依然留存的记忆。

插上它,你的 AI 不再遗忘。

31 TOPS 专用 AI DeepX DX-M1M + RK3588 NPU 双 M.2 扩展 KV-cache 与 VRAM 释放 ONNX · PyTorch · TensorFlow 8K 解码 + 多模态 无风扇半高 PCIe 100% 本地 + 云端增强
31TOPS
专用 AI · INT8
<20W
峰值 · 典型约 6W
31
TOPS 专用 AI
$590
预估零售价
芯片供应商
DeepX + Rockchip
在 NYMPH 技术栈下深度整合。
我们不造芯片——我们让它拥有记忆。DeepX DX-M1M(两项 CES 2026 创新奖得主)提供专用神经加速。Rockchip 的 RK3588 SoC 负责统筹整个系统。持久认知架构与整张产品均归属 Punky Tiger Labs。
问题所在

每个 AI 系统都会在会话结束的那一刻忘记一切。

每一段上下文都要从头重建,每一次对话都从零开始。 绝大多数算力——以及成本——都耗费在重新建立 系统早已掌握的内容上。

NYMPH 的诞生,就是为了终结这一切。

解决方案

认知状态驻留在卡上,而非提示词里。

NYMPH S-Quantum 将上下文管理、语音、视觉与推理卸载到 卡上的专用处理器,从而把 GPU 的 VRAM 完全释放出来, 专用于模型权重与渲染。

这张卡不会取代你的 GPU,而是与它互补。

架构

多处理器认知系统。面向未来而生。

五颗处理器,各自独享专用芯片。生而并行,互不争抢。

DX-M1M
25 TOPS
DeepX · M.2 插槽 1
KV Cache · LLM · 视觉 · 音频
DX-M2
2027
M.2 插槽 2
三星 2nm GAA · 可随时升级
RK3588 NPU
6 TOPS
Rockchip
系统统筹中枢
Mali-G610
GPU
Arm
卡上渲染
NAND 64GB
持久
NYMPH IP
状态存储

PCIe Gen3 x4 · <20W 峰值 · 典型约 6W · 无风扇散热片 · 半高规格 · 双 M.2 插槽(1 个已占用,1 个预留升级)

不止于加速器

NYMPH 不只是又一张加速卡。
它在硬件层面催生出全新形态的 AI。

01

能在重启后存活的持久记忆 AI 智能体

上下文跨越会话边界、应用重启乃至整机重启依然留存。热态恢复仅需数十毫秒。

目前没有任何消费级硬件能做到这一点。
02

上下文窗口扩大至最高 8 倍 · 生成速度提升 325%

KV cache 迁移到卡上专用内存,为模型权重腾出 GPU VRAM。长上下文的 token 生成大幅提速。

上下文最高 · 长上下文吞吐 +325%
03

语音 + 视觉 + LLM 流水线并行运行

语音、目标检测与语言建模在各自的专用处理器上同时运行。互不争抢,无需串行。

约 5W 下 3,523 FPS 分类 · DeepX 验证
04

约 6W 即可 7×24 全天候运行的自主智能体

常驻 AI,每月电费不到 2 美元。状态可跨越任何中断而留存。智能体在崩溃或重启后从精确状态继续运行。

典型 约 6W · <$2/月 · 7×24 运行
05

GPU 始终空闲,专注渲染、游戏与训练

在同一张 GPU 上运行更大的模型,而由 NYMPH 承担认知负载。能记住玩家的认知型 NPC。对 FPS 零影响。

对渲染 FPS 零影响
06

会记忆、会随时间演化的本地 AI

多个实时 AI 工作区同时缓存。毫秒级即时恢复上下文。知识在一次次会话、一周周、一月月间持续积累。

堪称认知版的"虚拟桌面"。
不止于本地 AI

为你的设备赋予一层认知。
而不仅仅是一个跑模型的地方。

认知层

一个统筹层将卡与你的 CPU、RAM 和 GPU 协调为一个整体系统。NYMPH 承担记忆、检索与感知——你的设备得以专注于自身的工作。

超级记忆

64 GB 持久状态,重启与断电后依然留存。你的 AI 永远不必从零开始——它记得你的项目、你的上下文和你的习惯,并随时间愈发敏锐。

无缝接入你已在使用的工具

让 Claude Code、OpenClaw、ChatGPT、Codex 或 Cursor 指向同一个 OpenAI 兼容 API 与原生 MCP 服务器,它们便获得持久记忆,并以私有、本地、离线的方式运行。

Claude Code · OpenClaw · ChatGPT · Codex · Cursor · LangChain · Open WebUI · 任何 OpenAI 兼容应用

规模

运行比你的显卡容量
大上数倍的 AI 模型。

大多数机器只能运行内存装得下的内容。NYMPH 改写了这条规则。它的统筹机制把你的 GPU、RAM、卡上内存和 SSD 视作一套协同的层级结构——把模型正在工作的部分放在最快的一层,其余部分则触手可及。整个模型分布在你的设备各处;只有正在工作的那部分在运行。

任何架构
稠密、混合专家(Mixture-of-Experts)或状态空间(Mamba/SSM)——语言、视觉与语音,各自运行于专用芯片之上。
它会读懂你
这张卡记得你实际使用模型的哪些部分,并预先加载——开机即就绪,而非从零冷启动。
$590 一卡 · 约 13 W · 本地运行
那些单凭你的 GPU 永远装不下的模型——在你自己的机器上私密运行,无需云端,没有按 token 计费的账单。

NYMPH 在快速内存中运行模型的活跃部分,并按需流式调取其余——从此模型大小不再受限于你的 GPU。

技术规格

技术细节。

AI 算力(V1)
31 TOPS(INT8) — DX-M1M 25 TOPS + RK3588 NPU 6 TOPS
活跃 AI 处理器
DX-M1M · RK3588 NPU · Mali-G610 GPU · 8 核 ARM CPU
M.2 扩展插槽
1× M.2 2280,预留 DX-M2(2027 升级)
量化引擎
DeepX IQ8 — INT8 格式下达到 FP32 级精度
卡上内存
4 GB LPDDR4X(DX-M1M)+ LPDDR5(RK3588)
持久存储
64 GB NAND — 认知状态可在重启后留存
主机接口
PCIe Gen3 x4
功耗
<20W 峰值 · 典型约 6W
散热方案
被动散热片 — 无风扇运行
外形规格
半高 PCIe 卡
视频处理
RK3588 VPU — 8K 解码,4K 编码
操作系统支持
Linux(Ubuntu)· Windows · Android AOSP
AI 框架
通过 DXNN SDK 支持 ONNX · PyTorch · TensorFlow
兼容性
任何带 PCIe 插槽的 x86 台式机/工作站
预估零售价
$590 USD
专利申请中的技术
KV-Pinning State Capsules SCMP TAPIM PNCA OCCS HCIS TOKENFLOW STREAMFLOW
实测成效

插上它,会带来哪些改变。

31TOPS
专用 AI
2027 可扩展
8×
更大的
上下文窗口
+325%
长上下文 token
生成更快
100%
上下文在重启后
依然留存
6W
常驻运行的
典型功耗

数据来自受控的内部测试。实际结果因配置而异。

对比

你今天的电脑 对比 你的电脑 + NYMPH。

场景
未配备 NYMPH
搭配 NYMPH
关闭会话后再回来
完整上下文丢失
即刻续接
重启电脑
所有 AI 状态被销毁
100% 留存于 NAND
在多个项目间切换
前一个被销毁
全部缓存,瞬间切换
连续 8 小时会话
逐渐劣化
从第 1 小时到第 8 小时始终稳定
LLM + 视觉 + 音频
一次只能跑一个
全部并行(各享专用资源)
通宵运行 AI 智能体
GPU 350W,电脑无法使用
NYMPH 仅 6W,电脑空闲可用
GPU 模型容量
受 VRAM 限制
大幅扩展
云端 AI token 成本
大部分花在重复计算上
显著降低
DeepX 验证 · DX-M1M · 约 5W

专用芯片上的吞吐表现。

所有负载均在 DX-M1M 上运行,主机 GPU 保持 100% 可用。

模型 / 任务
吞吐量
来源
MobileNetV2(分类)
3,523 FPS
已验证
ResNet50(分类)
1,186 FPS
已验证
YOLOv8L(检测)
366 FPS
已验证
DeepLabV3(分割)
223 FPS
已验证
姿态估计
200+ FPS
已验证

DeepX 基准数据来自其公开的 Model Zoo。

应用场景

为谁而造。

AI 开发者

持久记忆模型、有状态智能体

在私有数据上进行本地微调。任何 ONNX 模型都能获得云端级能力。开放 SDK。

进阶用户

更快的云端工作流,更低的成本

Claude Code、ChatGPT、Cursor,token 成本大幅降低。多个上下文同时缓存。语音、视觉、语言并行处理。

玩家与创作者

认知型 NPC、AI 游戏主持人

姿态检测 200+ FPS。SD/Flux + LLM 同时运行。对游戏 FPS 零影响。

主播

审核、字幕、叠加层——全部并行

AI 聊天审核、实时字幕、检测叠加层——全部在 NYMPH 上运行,GPU 则专注处理游戏与编码。

本地 AI 爱好者

更长的上下文,瞬间切换模型

Llama、Mistral、DeepSeek 都能拥有更长上下文。能跨会话记住你的模型。Ollama 瞬间切换。

隐私至上的用户

100% 本地 AI · 完全自主掌控

没有任何数据离开你的设备。彻底离线的完整认知系统。专利申请中的架构,数据只属于你。

开放 SDK

基于开放 SDK 构建。

NYMPH SDK 将以开源软件形式发布。硬件为专有,生态则免费开放。

01
持久记忆模型
能跨越数周乃至数月持续积累知识的 AI。用户自己拥有并掌控的硬件层状态。
02
实时多模态流水线
音频、视觉、语言运行于各自的专用处理器。同时进行,而非串行。总功耗低于 20W。
03
有状态自主智能体
能挺过崩溃、重启与断电。从中断的精确位置继续运行。约 6W 即可无限期运转。
04
在私有数据上本地微调
GPU 负责训练,NYMPH 负责推理与状态。私有数据永不离开本机。
05
任何 ONNX 兼容模型
Llama、Mistral、Phi、Qwen、DeepSeek——在台式机上即享云端级能力。
06
认知型游戏角色
持久记忆、不断演化的行为、对渲染零影响。一个全新的交互品类。
07
本地 AI 安防摄像头
RK3588 VPU 解码 8K,DX-M1M 运行检测。多路视频流,隐私全程无虞。
芯片合作伙伴

顶级芯片。
我们自己的认知架构。

NYMPH 不制造芯片。我们整合业界最优——并让它拥有记忆。 持久认知架构与这张卡本身 均为 Punky Tiger Labs 的知识产权。

DeepX
AI 芯片
DX-M1M 神经处理器 · 约 5W 下 25 TOPS INT8。专有的 IQ8 量化在 INT8 下实现 FP32 级精度。两项 CES 2026 创新奖得主
CES 2026 ×2 EE Times '24 年度产品 WEF MINDS '25 大奖
Rockchip
系统 SoC
RK3588 SoC · 8 核 ARM CPU + 6 TOPS NPU + Mali-G610 GPU + 8K VPU。统筹整条认知流水线的系统中枢。
8 核 ARM 8K 解码 Mali-G610
升级路径 · 2027

NYMPH V2:插上未来。

NYMPH S-Quantum 出厂即配备两个 M.2 2280 插槽。第一个装载 DX-M1M。 第二个则空置——为 DeepX 采用三星 2nm GAA(环绕栅极)制程节点的下一代 DX-M2 处理器预留。 当 DX-M2 上市,只需将它插入第二个插槽。无需换卡,无需新驱动,状态无一丢失。

DX-M2 制程节点
三星 2nm GAA(环绕栅极)
预计送样
2026 Q3
NYMPH V2 升级目标
2027
安装方式
将 DX-M2 插入现有卡的第二个 M.2 插槽
兼容性
完全向后兼容 — V1 SDK、State Capsules、NAND 数据
结果
DX-M1M + DX-M2 在同一张卡上并行运行

今天购入搭载一颗处理器的 NYMPH,明天即可加装下一代。你的状态、你的数据、你的模型——全部一并延续。

来自实验室

AI 不该每次会话都归零。
AI 应当记得。

这是 LLM 范式的一次演进——而非替代。硬件层面的持久状态, 让知识跨越一次次会话不断积累。一项专利申请中的架构覆盖整个技术栈。

为不一样的未来,造一款不一样的产品。
在那个未来里,AI 会记得。
就在数周之后

首款消费级 AI 硬件。
玩家、开发者硬核用户而造。

S-Quantum 距离上市仅有数周之遥。留下你的邮箱,一旦库存、 定价与供货确认,我们便会与你联系——绝无垃圾邮件,只有产品资讯。

预订 → →