Home
Edge AI Server Setup Guide

JETSON AGX ORIN
全天候 AI 服务器 落地方案

大模型推理 · Hermes Agent · ComfyUI / Stable Diffusion
CUDA 原生 · 统一内存 · 低功耗 24h 常驻 · 自媒体创作工作流
CUDA Native · Full ComfyUI
64GB Unified Memory
15~60W Always-On
Updated May 2026
@Miyazawa
// 目录导航
为什么 AGX Orin 32GB 不够用?
核心问题:32GB 统一内存在同时运行大模型 + ComfyUI 时会直接溢出。Jetson 的 CPU 与 GPU 共享同一块内存池,两个任务的内存需求相加后超出上限,系统会开始频繁 swap,性能断崖式下跌。
// 32GB 内存实际分配压力
Gemma 4 26B MoE
主力 LLM
~20GB
20 GB
SDXL(ComfyUI)
图像生成
~9GB
9 GB
系统 + Hermes
OS 开销
~4GB
4 GB
合计需求
⚠ 超出 32GB 上限
33 GB
直接结论:AGX Orin 32GB 只适合单模型场景——要么跑 LLM,要么跑 ComfyUI,无法稳定同时运行。作为全天候 AI 服务器主力机,32GB 是错误的选择。
Jetson 产品线完整对比
AGX Orin 32GB
内存 32GB
算力 200 TOPS
功耗 15~40W
存储 32GB eMMC
~$999
❌ 多任务内存不足
AGX Orin 64GB
内存 64GB 256-bit
带宽 204.8 GB/s
算力 275 TOPS
功耗 15~60W
$1,999
✅ LLM + ComfyUI 同时运行
AGX Thor T4000
内存 64GB LPDDR5X
带宽 273 GB/s
算力 1200 FP4 TFLOPS
功耗 40~70W
~$3,500
⚠ 对创作场景性价比极差
AGX Thor T5000
内存 128GB LPDDR5X
带宽
算力 2070 FP4 TFLOPS
功耗 60~130W
更高
机器人 / 物理 AI 专用
// 性能参数横向比较
设备内存LLM 推理速度ComfyUI 支持功耗定位
AGX Orin 32GB32GB~25 t/s(13B)单独运行15~40W单模型
AGX Orin 64GB64GB~40 t/s(20B)LLM 同时运行 ✓15~60W推荐
AGX Thor T400064GB~57 t/s(+42%)40~70W机器人 AI
AGX Thor T5000128GB极快60~130W100B+ 模型
⚠ 关于 AGX Thor 的真实情况:Thor 比 Orin 64GB 在 LLM 推理上快约 42%,主要来自内存带宽提升(273 vs 204.8 GB/s),而非 FP4 算力优势——因为当前 Ollama/llama.cpp 走 CUDA/cuBLAS 路径,Thor 的 Transformer Engine 并不完全激活。花 $1,500 多换来 42% 速度提升,对创作型工作流性价比极差。
Jetson AGX 的不可替代优势

Jetson AGX Orin 64GB 是目前市场上唯一同时满足以下三点的设备:

// 三重优势叠加
  • CUDA 原生 + ComfyUI 全节点:不像 Mac 只能走 MPS 残缺版,AGX Orin 有完整 CUDA 支持,ComfyUI 所有 Custom Nodes(ControlNet、AnimateDiff、IPAdapter 等)全部可用,是真正的 ComfyUI 主力机
  • 统一内存无 VRAM 瓶颈:不像 RTX 4090 受限于 24GB 独立显存,64GB 统一内存可让 LLM + ComfyUI 真正同时运行,不需要频繁卸载模型
  • 低功耗全天候常驻:15~60W 功耗,24 小时开机年电费约 ¥3,000~¥8,000(vs RTX 4090 整机约 ¥50,000+),适合作为永远在线的私有 AI 服务器
// 与其他方案对比
方案CUDA ComfyUILLM 同时跑功耗价格
RTX 4090 PC✓ 最快❌ VRAM 24GB 瓶颈~500W~¥500,000
Mac Studio M4 Max 64GB△ MPS 残缺✓ 统一内存~60W~¥350,000
AGX Orin 64GB✓ CUDA 全节点✓ 64GB 统一内存~60W~¥290,000
结论:AGX Orin 64GB 是三个方案里唯一同时具备 CUDA 全节点 ComfyUI 和统一内存 LLM 推理的选择,而且价格最低、功耗最小。这是它作为全天候 AI 服务器的核心理由。
64GB 内存分配方案
策略:LLM 推理(Ollama)与 ComfyUI 共享 64GB 统一内存池。通过分层模型策略,常驻小模型处理实时任务,大模型按需加载,预留充足 buffer 给 ComfyUI 图像生成。
// 内存分配可视化
Gemma 4 26B MoE
主力 LLM
20GB
20 GB
Gemma 4 E2B
快速分类
4G
4 GB
SDXL(ComfyUI)
高质量出图
9GB
9 GB
SD 1.5(ComfyUI)
批量快速
4G
4 GB
Hermes + 系统
OS 开销
4G
4 GB
剩余可用
Buffer
充裕
23 GB

注:SDXL 和 SD 1.5 不同时加载,按任务切换;大模型(26B)在图像生成密集期可卸载,E2B 常驻负责实时任务。

// 推荐模型组合
模型参数量内存推理速度用途
Gemma 4 26B MoE激活 3.8B~20GB~40 t/s脚本创作、内容生成 ⭐
Gemma 4 E2B2.3B~4GB~95 t/s实时字幕、消息分类
DeepSeek R1 8B(备选)8B~5GB~50 t/s强推理任务
软件安装步骤(JetPack 6.x)
⚠ 前提:确认系统为 JetPack 6.x(基于 Ubuntu 22.04),内核 5.15,预装 CUDA 12.x。运行 jetson_release 确认版本后再继续。
// Step 1 — 确认环境
# 查看 JetPack 版本 jetson_release # 确认 CUDA 可用 nvcc --version nvidia-smi # 确认内存(应显示约 64GB) free -h
// Step 2 — 安装 Ollama(ARM64 + CUDA 自动识别)
# 一键安装,自动识别 Jetson CUDA 环境 curl -fsSL https://ollama.com/install.sh | sh # 下载模型 ollama pull gemma4:e2b # 4GB 常驻快速层 ollama pull gemma4:26b-a4b # 20GB 主力生成层 ⭐ # 测试推理 ollama run gemma4:26b-a4b "你好,测试一下推理速度"
// Step 3 — ComfyUI(官方 Jetson Docker 镜像)
# 使用 dustynv 官方镜像,最省事,CUDA 全支持 sudo docker run --runtime nvidia \ --name comfyui \ -p 8188:8188 \ -v ~/comfyui-data:/data \ --restart unless-stopped \ dustynv/comfyui:r36.4.0 # 浏览器访问 # http://jetson-ip:8188 # 模型放置路径 # ~/comfyui-data/models/checkpoints/ ← checkpoint # ~/comfyui-data/models/loras/ ← LoRA
// Step 4 — Hermes Agent
# 安装依赖 pip3 install hermes-agent --break-system-packages # 配置连接本地 Ollama cat > ~/.hermes/config.yaml << 'EOF' llm: provider: "ollama" endpoint: "http://localhost:11434" model: "gemma4:26b-a4b" routing: fast: "gemma4:e2b" primary: "gemma4:26b-a4b" EOF # 后台常驻启动 hermes gateway start --daemon
// Step 5 — 开机自启(systemd)
# Ollama 已自动注册为 systemd 服务 sudo systemctl enable ollama sudo systemctl start ollama # ComfyUI Docker 设置为开机自启 sudo docker update --restart unless-stopped comfyui # Hermes 注册为服务(可选) sudo systemctl enable hermes
Claude Code + 本地模型工作流整合

Claude Code 通过 SSH 从 Mac 远程连接 Jetson,在 Jetson 本地执行任务。本地模型(Ollama)和 ComfyUI 作为 API 端点,被 Claude Code 编写的自动化脚本调用。

// 远程连接方式
# Mac 端:SSH 连接 Jetson ssh miyazawa@192.168.x.x # 或使用 VS Code Remote SSH 插件 # 连接后在 Jetson 上启动 Claude Code claude
// Hermes → Ollama → ComfyUI 联动示例
#!/usr/bin/env python3 # 自媒体内容自动化:脚本生成 → 配图生成 import requests, json # Step 1: 调用本地 Ollama 生成视频脚本关键画面描述 resp = requests.post("http://localhost:11434/api/generate", json={ "model": "gemma4:26b-a4b", "prompt": "为以下主题生成3个关键画面的英文描述: AI边缘计算", "stream": False }) descriptions = resp.json()["response"] # Step 2: 将描述传入 ComfyUI 触发图像生成 workflow = load_workflow("sdxl_base.json") workflow["prompt_node"]["inputs"]["text"] = descriptions comfy_resp = requests.post("http://localhost:8188/prompt", json={"prompt": workflow}) # Step 3: 等待生成完成,下载图片 job_id = comfy_resp.json()["prompt_id"] print(f"生成任务已提交: {job_id}")
// 典型自动化场景
  • 封面图批量生产:Hermes 接收标题列表 → Ollama 生成画面描述 → ComfyUI 批量出图 → 自动整理到素材库
  • 视频脚本 + 分镜图:Claude Code 调用 26B 模型生成完整脚本,同时触发 ComfyUI 为每个关键帧生成配图
  • 内容日历自动化:每天定时运行,拉取热点 → 生成 7 天发布计划 → 配套图片全部生成完毕
  • 直播素材准备:开播前 30 分钟,Hermes 自动生成当天话题卡片图、背景图各 5 套备用
  • LoRA 风格一键应用:自定义 LoRA 品牌风格已训练完毕,Claude Code 脚本一键调用生成统一视觉风格的系列图
完整系统架构图
AGX Orin 64GB(24小时常驻,~60W) ├── Ollama 服务 localhost:11434 │ ├── gemma4:e2b ● 常驻 ~4GB · 实时字幕/分类 │ └── gemma4:26b-a4b ● 按需 ~20GB · 脚本/内容生成 ├── ComfyUI localhost:8188(Docker·CUDA全节点) │ ├── SDXL checkpoint → 高质量封面图/宣传图 │ ├── SD 1.5 → 批量快速出图 │ ├── ControlNet → 构图精确控制 │ └── LoRA 品牌风格 → 统一视觉输出 ├── Hermes Agent ● 常驻守护进程 │ ├── 内容日历自动化(30天排期) │ ├── 多平台标题/hashtag 批量生成 │ └── ComfyUI API 联动触发出图 └── SSH 入口 Port 22 └── Mac 端 Claude Code 远程连接操作 Mac(创作主机) ├── Claude Code SSH → Jetson 远程执行 ├── Final Cut Pro 视频剪辑(Metal 加速) ├── Draw Things 快速本地出图(Metal 原生) └── Claude API(云端) 高质量长文/品牌策划
双机协作:Jetson 作为 24h AI 后台服务器(LLM + ComfyUI + Hermes),Mac 作为创作前台(视频剪辑 + 远程 Claude Code 操控 Jetson)。两者通过 SSH 和 API 协作,各司其职,覆盖完整的自媒体创作工作流。
最终建议与购买决策
// 选购路线对比
如果你的预算是…推荐方案核心理由
約 ¥290,000AGX Orin 64GB 单机LLM + ComfyUI 同时运行,CUDA 全节点,24h 低功耗
約 ¥600,000AGX Orin 64GB + Mac Studio M4 MaxJetson 做 AI 后台,Mac 做视频剪辑前台,覆盖最完整
約 ¥500,000RTX 4090 PCComfyUI 出图最快,但 LLM 受 VRAM 限制,功耗高
約 ¥500,000❌ AGX Thor T4000对创作工作流性价比极差,仅适合机器人研发
// 各场景能力对比
能力AGX Orin 64GBRTX 4090 PCMac Studio M4 Max
ComfyUI 全节点✓ CUDA✓ 最快△ 节点残缺
LLM + SD 同时运行✓ 64GB 统一❌ 24GB 瓶颈✓ 统一内存
24h 低功耗常驻✓ ~60W❌ ~500W✓ ~60W
视频剪辑(FCP)❌ 无△ Windows✓ 原生最优
出图速度(SDXL)~15 秒~5~8 秒~16 秒(Draw Things)
最终推荐:AGX Orin 64GB($1,999)

这是目前唯一在同等价位内同时拥有 CUDA 全节点 ComfyUI 和 64GB 统一内存 LLM 推理的选择。作为自媒体创作的全天候 AI 后台服务器,它能稳定运行大模型 + Hermes + ComfyUI 三套系统,年电费仅约 ¥3,000~¥8,000,是性价比和能力覆盖最均衡的方案。

如果后续想进一步提升,最优升级路径是增加 Mac Studio 作为创作前台,而不是升级到 AGX Thor——两机协作比单台 Thor 更实用,总成本相当,但覆盖视频剪辑、Draw Things 等 Mac 专属生态。