功能概览
Hermes Agent 提供了远超基础聊天的一整套能力。从持久记忆、文件感知上下文,到浏览器自动化与语音对话,这些能力相互配合,使 Hermes 成为一个强大的自主助手。
核心能力
- Tools & Toolsets — 工具是扩展智能体能力的函数。它们按逻辑划分为多个工具集,可按平台启用或禁用,涵盖网页搜索、终端执行、文件编辑、记忆、委派等能力。
- 技能系统 — 智能体可在需要时按需加载的知识文档。技能采用渐进式披露模式以尽量减少 token 消耗,并兼容 agentskills.io 开放标准。
- Persistent Memory — 跨会话持久保留、受限且经过整理的记忆。Hermes 会通过
MEMORY.md和USER.md记住你的偏好、项目、环境,以及它学到的内容。 - Context Files — Hermes 会自动发现并加载项目上下文文件(
.hermes.md、AGENTS.md、CLAUDE.md、SOUL.md、.cursorrules),这些文件会影响它在项目中的行为方式。 - Context References — 输入
@加引用,可将文件、目录、git diff 和 URL 直接注入消息中。Hermes 会内联展开引用并自动附加内容。 - Checkpoints — Hermes 在修改文件前会自动为工作目录创建快照,在出现问题时你可以用
/rollback回退。
自动化
- Scheduled Tasks (Cron) — 使用自然语言或 cron 表达式安排任务自动运行。任务可附加技能,把结果投递到任意平台,并支持暂停、恢复和编辑。
- Subagent Delegation —
delegate_task工具会启动具有隔离上下文、受限工具集以及独立终端会话的子智能体实例。默认可并发运行 3 个子智能体(可配置),用于并行工作流。 - Code Execution —
execute_code工具允许智能体编写可编程调用 Hermes 工具的 Python 脚本,通过沙箱 RPC 执行把多步工作流压缩到单次 LLM 轮次中。 - Event Hooks — 在关键生命周期节点运行自定义代码。网关 hooks 可处理日志、告警和 webhook;插件 hooks 可处理工具拦截、指标采集和护栏逻辑。
- Batch Processing — 可在数百到数千条提示词上并行运行 Hermes Agent,生成结构化 ShareGPT 轨迹数据,用于训练数据生成或评估。
媒体与网页
- Voice Mode — 在 CLI 与消息平台上提供完整语音交互。你可以通过麦克风与智能体对话,收听语音回复,并在 Discord 语音频道中进行实时语音交流。
- Browser Automation — 提供多种后端的完整浏览器自动化:Browserbase 云、Browser Use 云、通过 CDP 连接本地 Chrome,或本地 Chromium。可导航网站、填写表单并提取信息。
- Vision & Image Paste — 多模态视觉支持。你可以把剪贴板中的图片粘贴到 CLI 中,并让智能体使用任意支持视觉的模型进行分析、描述或处理。
- Image Generation — 通过 FAL.ai 根据文本提示生成图片。内置支持 8 个模型(FLUX 2 Klein/Pro、GPT-Image 1.5、Nano Banana Pro、Ideogram V3、Recraft V4 Pro、Qwen、Z-Image Turbo);可通过
hermes tools选择。 - Voice & TTS — 在所有消息平台上提供文本转语音输出和语音消息转写,支持五类大模型提供商(provider)选项:Edge TTS(免费)、ElevenLabs、OpenAI TTS、MiniMax 和 NeuTTS。
集成
- MCP Integration — 通过 stdio 或 HTTP 传输连接任意 MCP 服务器。无需编写原生 Hermes 工具,即可接入 GitHub、数据库、文件系统和内部 API 的外部工具,并支持按服务器过滤工具及 sampling。
- Provider Routing — 细粒度控制由哪些 AI 提供商处理请求。可通过排序、白名单、黑名单和优先级顺序在成本、速度与质量之间优化。
- Fallback Providers — 当主模型出错时,自动切换到备用 LLM 大模型提供商(provider),同时也为视觉、压缩等辅助任务提供独立回退链路。
- Credential Pools — 在同一大模型提供商(provider)的多个密钥之间分配 API 调用,并在触发限流或失败时自动轮换。
- Memory Providers — 接入外部记忆后端(Honcho、OpenViking、Mem0、Hindsight、Holographic、RetainDB、ByteRover),在内置记忆系统之外提供跨会话用户建模与个性化能力。
- API Server — 将 Hermes 作为兼容 OpenAI 的 HTTP 端点暴露出来。任何使用 OpenAI 格式的前端都可连接,如 Open WebUI、LobeChat、LibreChat 等。
- IDE Integration (ACP) — 在 VS Code、Zed、JetBrains 等兼容 ACP 的编辑器中使用 Hermes。聊天、工具活动、文件 diff 和终端命令都可直接在编辑器中呈现。
- RL Training — 从智能体会话生成轨迹数据,用于强化学习和模型微调。
自定义
- Personality & SOUL.md — 完全可自定义的智能体人格。
SOUL.md是主要身份文件,也是系统提示中的第一部分;你还可以按会话切换内置或自定义的/personality预设。 - Skins & Themes — 自定义 CLI 的视觉呈现:横幅颜色、spinner 表情和动词、响应框标签、品牌文字,以及工具活动前缀。
- Plugins — 无需修改核心代码即可添加自定义工具、hooks 和集成。支持三类插件:通用插件(工具/hooks)、记忆大模型提供商(provider)(跨会话知识)和上下文引擎(替代上下文管理),统一通过
hermes plugins交互界面管理。