AGX Orin × 全天候 AI 服务器

⚠

为什么 AGX Orin 32GB 不够用？ ▾

核心问题：32GB 统一内存在同时运行大模型 + ComfyUI 时会直接溢出。Jetson 的 CPU 与 GPU 共享同一块内存池，两个任务的内存需求相加后超出上限，系统会开始频繁 swap，性能断崖式下跌。

// 32GB 内存实际分配压力

Gemma 4 26B MoE
主力 LLM

~20GB

20 GB

SDXL（ComfyUI）
图像生成

~9GB

9 GB

系统 + Hermes
OS 开销

~4GB

4 GB

合计需求

⚠ 超出 32GB 上限

33 GB

直接结论：AGX Orin 32GB 只适合单模型场景——要么跑 LLM，要么跑 ComfyUI，无法稳定同时运行。作为全天候 AI 服务器主力机，32GB 是错误的选择。

◈

Jetson 产品线完整对比 ▾

AGX Orin 32GB

内存 32GB
算力 200 TOPS
功耗 15~40W
存储 32GB eMMC

~$999

❌ 多任务内存不足

AGX Orin 64GB

内存 64GB 256-bit
带宽 204.8 GB/s
算力 275 TOPS
功耗 15~60W

$1,999

✅ LLM + ComfyUI 同时运行

AGX Thor T4000

内存 64GB LPDDR5X
带宽 273 GB/s
算力 1200 FP4 TFLOPS
功耗 40~70W

~$3,500

⚠ 对创作场景性价比极差

AGX Thor T5000

内存 128GB LPDDR5X
带宽高
算力 2070 FP4 TFLOPS
功耗 60~130W

更高

机器人 / 物理 AI 专用

// 性能参数横向比较

设备	内存	LLM 推理速度	ComfyUI 支持	功耗	定位
AGX Orin 32GB	32GB	~25 t/s（13B）	单独运行	15~40W	单模型
AGX Orin 64GB	64GB	~40 t/s（20B）	LLM 同时运行 ✓	15~60W	推荐
AGX Thor T4000	64GB	~57 t/s（+42%）	✓	40~70W	机器人 AI
AGX Thor T5000	128GB	极快	✓	60~130W	100B+ 模型

⚠ 关于 AGX Thor 的真实情况：Thor 比 Orin 64GB 在 LLM 推理上快约 42%，主要来自内存带宽提升（273 vs 204.8 GB/s），而非 FP4 算力优势——因为当前 Ollama/llama.cpp 走 CUDA/cuBLAS 路径，Thor 的 Transformer Engine 并不完全激活。花 $1,500 多换来 42% 速度提升，对创作型工作流性价比极差。

★

Jetson AGX 的不可替代优势 ▾

Jetson AGX Orin 64GB 是目前市场上唯一同时满足以下三点的设备：

// 三重优势叠加

CUDA 原生 + ComfyUI 全节点：不像 Mac 只能走 MPS 残缺版，AGX Orin 有完整 CUDA 支持，ComfyUI 所有 Custom Nodes（ControlNet、AnimateDiff、IPAdapter 等）全部可用，是真正的 ComfyUI 主力机
统一内存无 VRAM 瓶颈：不像 RTX 4090 受限于 24GB 独立显存，64GB 统一内存可让 LLM + ComfyUI 真正同时运行，不需要频繁卸载模型
低功耗全天候常驻：15~60W 功耗，24 小时开机年电费约 ¥3,000~¥8,000（vs RTX 4090 整机约 ¥50,000+），适合作为永远在线的私有 AI 服务器

// 与其他方案对比

方案	CUDA ComfyUI	LLM 同时跑	功耗	价格
RTX 4090 PC	✓ 最快	❌ VRAM 24GB 瓶颈	~500W	~¥500,000
Mac Studio M4 Max 64GB	△ MPS 残缺	✓ 统一内存	~60W	~¥350,000
AGX Orin 64GB	✓ CUDA 全节点	✓ 64GB 统一内存	~60W	~¥290,000

结论：AGX Orin 64GB 是三个方案里唯一同时具备 CUDA 全节点 ComfyUI 和统一内存 LLM 推理的选择，而且价格最低、功耗最小。这是它作为全天候 AI 服务器的核心理由。

▦

64GB 内存分配方案 ▾

策略：LLM 推理（Ollama）与 ComfyUI 共享 64GB 统一内存池。通过分层模型策略，常驻小模型处理实时任务，大模型按需加载，预留充足 buffer 给 ComfyUI 图像生成。

// 内存分配可视化

Gemma 4 26B MoE
主力 LLM

20GB

20 GB

Gemma 4 E2B
快速分类

4G

4 GB

SDXL（ComfyUI）
高质量出图

9GB

9 GB

SD 1.5（ComfyUI）
批量快速

4G

4 GB

Hermes + 系统
OS 开销

4G

4 GB

剩余可用
Buffer

充裕

23 GB

注：SDXL 和 SD 1.5 不同时加载，按任务切换；大模型（26B）在图像生成密集期可卸载，E2B 常驻负责实时任务。

// 推荐模型组合

模型	参数量	内存	推理速度	用途
Gemma 4 26B MoE	激活 3.8B	~20GB	~40 t/s	脚本创作、内容生成 ⭐
Gemma 4 E2B	2.3B	~4GB	~95 t/s	实时字幕、消息分类
DeepSeek R1 8B（备选）	8B	~5GB	~50 t/s	强推理任务

⚙

软件安装步骤（JetPack 6.x） ▾

⚠ 前提：确认系统为 JetPack 6.x（基于 Ubuntu 22.04），内核 5.15，预装 CUDA 12.x。运行 jetson_release 确认版本后再继续。

// Step 1 — 确认环境

# 查看 JetPack 版本 jetson_release # 确认 CUDA 可用 nvcc --version nvidia-smi # 确认内存（应显示约 64GB） free -h

// Step 2 — 安装 Ollama（ARM64 + CUDA 自动识别）

# 一键安装，自动识别 Jetson CUDA 环境 curl -fsSL https://ollama.com/install.sh | sh # 下载模型 ollama pull gemma4:e2b # 4GB 常驻快速层 ollama pull gemma4:26b-a4b # 20GB 主力生成层 ⭐ # 测试推理 ollama run gemma4:26b-a4b "你好，测试一下推理速度"

// Step 3 — ComfyUI（官方 Jetson Docker 镜像）

# 使用 dustynv 官方镜像，最省事，CUDA 全支持 sudo docker run --runtime nvidia \ --name comfyui \ -p 8188:8188 \ -v ~/comfyui-data:/data \ --restart unless-stopped \ dustynv/comfyui:r36.4.0 # 浏览器访问 # http://jetson-ip:8188 # 模型放置路径 # ~/comfyui-data/models/checkpoints/ ← checkpoint # ~/comfyui-data/models/loras/ ← LoRA

// Step 4 — Hermes Agent

# 安装依赖 pip3 install hermes-agent --break-system-packages # 配置连接本地 Ollama cat > ~/.hermes/config.yaml << 'EOF' llm: provider: "ollama" endpoint: "http://localhost:11434" model: "gemma4:26b-a4b" routing: fast: "gemma4:e2b" primary: "gemma4:26b-a4b" EOF # 后台常驻启动 hermes gateway start --daemon

// Step 5 — 开机自启（systemd）

# Ollama 已自动注册为 systemd 服务 sudo systemctl enable ollama sudo systemctl start ollama # ComfyUI Docker 设置为开机自启 sudo docker update --restart unless-stopped comfyui # Hermes 注册为服务（可选） sudo systemctl enable hermes

✦

Claude Code + 本地模型工作流整合 ▾

Claude Code 通过 SSH 从 Mac 远程连接 Jetson，在 Jetson 本地执行任务。本地模型（Ollama）和 ComfyUI 作为 API 端点，被 Claude Code 编写的自动化脚本调用。

// 远程连接方式

# Mac 端：SSH 连接 Jetson ssh miyazawa@192.168.x.x # 或使用 VS Code Remote SSH 插件 # 连接后在 Jetson 上启动 Claude Code claude

// Hermes → Ollama → ComfyUI 联动示例

#!/usr/bin/env python3 # 自媒体内容自动化：脚本生成 → 配图生成 import requests, json # Step 1: 调用本地 Ollama 生成视频脚本关键画面描述 resp = requests.post("http://localhost:11434/api/generate", json={ "model": "gemma4:26b-a4b", "prompt": "为以下主题生成3个关键画面的英文描述: AI边缘计算", "stream": False }) descriptions = resp.json()["response"] # Step 2: 将描述传入 ComfyUI 触发图像生成 workflow = load_workflow("sdxl_base.json") workflow["prompt_node"]["inputs"]["text"] = descriptions comfy_resp = requests.post("http://localhost:8188/prompt", json={"prompt": workflow}) # Step 3: 等待生成完成，下载图片 job_id = comfy_resp.json()["prompt_id"] print(f"生成任务已提交: {job_id}")

// 典型自动化场景

封面图批量生产：Hermes 接收标题列表 → Ollama 生成画面描述 → ComfyUI 批量出图 → 自动整理到素材库
视频脚本 + 分镜图：Claude Code 调用 26B 模型生成完整脚本，同时触发 ComfyUI 为每个关键帧生成配图
内容日历自动化：每天定时运行，拉取热点 → 生成 7 天发布计划 → 配套图片全部生成完毕
直播素材准备：开播前 30 分钟，Hermes 自动生成当天话题卡片图、背景图各 5 套备用
LoRA 风格一键应用：自定义 LoRA 品牌风格已训练完毕，Claude Code 脚本一键调用生成统一视觉风格的系列图

◉

完整系统架构图 ▾

AGX Orin 64GB（24小时常驻，~60W） │ ├── Ollama 服务 localhost:11434 │ ├── gemma4:e2b ● 常驻 ~4GB · 实时字幕/分类 │ └── gemma4:26b-a4b ● 按需 ~20GB · 脚本/内容生成 │ ├── ComfyUI localhost:8188（Docker·CUDA全节点） │ ├── SDXL checkpoint → 高质量封面图/宣传图 │ ├── SD 1.5 → 批量快速出图 │ ├── ControlNet → 构图精确控制 │ └── LoRA 品牌风格 → 统一视觉输出 │ ├── Hermes Agent ● 常驻守护进程 │ ├── 内容日历自动化（30天排期） │ ├── 多平台标题/hashtag 批量生成 │ └── ComfyUI API 联动触发出图 │ └── SSH 入口 Port 22 └── Mac 端 Claude Code 远程连接操作 Mac（创作主机） │ ├── Claude Code SSH → Jetson 远程执行 ├── Final Cut Pro 视频剪辑（Metal 加速） ├── Draw Things 快速本地出图（Metal 原生） └── Claude API（云端）高质量长文/品牌策划

双机协作：Jetson 作为 24h AI 后台服务器（LLM + ComfyUI + Hermes），Mac 作为创作前台（视频剪辑 + 远程 Claude Code 操控 Jetson）。两者通过 SSH 和 API 协作，各司其职，覆盖完整的自媒体创作工作流。

✓

最终建议与购买决策 ▾

// 选购路线对比

如果你的预算是…	推荐方案	核心理由
約 ¥290,000	AGX Orin 64GB 单机	LLM + ComfyUI 同时运行，CUDA 全节点，24h 低功耗
約 ¥600,000	AGX Orin 64GB + Mac Studio M4 Max	Jetson 做 AI 后台，Mac 做视频剪辑前台，覆盖最完整
約 ¥500,000	RTX 4090 PC	ComfyUI 出图最快，但 LLM 受 VRAM 限制，功耗高
約 ¥500,000	❌ AGX Thor T4000	对创作工作流性价比极差，仅适合机器人研发

// 各场景能力对比

能力	AGX Orin 64GB	RTX 4090 PC	Mac Studio M4 Max
ComfyUI 全节点	✓ CUDA	✓ 最快	△ 节点残缺
LLM + SD 同时运行	✓ 64GB 统一	❌ 24GB 瓶颈	✓ 统一内存
24h 低功耗常驻	✓ ~60W	❌ ~500W	✓ ~60W
视频剪辑（FCP）	❌ 无	△ Windows	✓ 原生最优
出图速度（SDXL）	~15 秒	~5~8 秒	~16 秒（Draw Things）

最终推荐：AGX Orin 64GB（$1,999）

这是目前唯一在同等价位内同时拥有 CUDA 全节点 ComfyUI 和 64GB 统一内存 LLM 推理的选择。作为自媒体创作的全天候 AI 后台服务器，它能稳定运行大模型 + Hermes + ComfyUI 三套系统，年电费仅约 ¥3,000~¥8,000，是性价比和能力覆盖最均衡的方案。

如果后续想进一步提升，最优升级路径是增加 Mac Studio 作为创作前台，而不是升级到 AGX Thor——两机协作比单台 Thor 更实用，总成本相当，但覆盖视频剪辑、Draw Things 等 Mac 专属生态。

JETSON AGX ORIN全天候 AI 服务器 落地方案

JETSON AGX ORIN
全天候 AI 服务器落地方案