精简系统提示词成本优化架构零遥测 Office 集成专家委派跨会话记忆原生多协议

精准上下文。
极致低开销。

OmniContext CLI 是一个把上下文当作一等资源来管理的终端原生编程助手。精简系统提示词把开销降到最低。专家委派将苦力活路由给廉价模型，保持主上下文干净。零遥测意味着你的代码永远不会离开你的机器。还能扩展到 VS Code、Office、浏览器和 Figma。

$ npm install -g omni-context-cli && omx

阅读文档

Terminal

╔═╗┌┬┐┌┐┌┬  ╔═╗┌─┐┌┐┌┌┬┐┌─┐─┐ ┬┌┬┐  ╔═╗╦  ╦
║ ║│││││││  ║  │ ││││ │ ├┤ ┌┴┬┘ │   ║  ║  ║
╚═╝┴ ┴┘└┘┴  ╚═╝└─┘┘└┘ ┴ └─┘┴ └─ ┴   ╚═╝╩═╝╩

▸ Version: 0.0.70 ▸ Project: my-project ▸ Session: 1771152411043-cipsnmcqu

Omni Context CLI. Tell Omx what you want to do.

Anthropic: Claude Opus 4.6 (Thinking) | 0.0% (⇈ 0 ⇊ 0 ↺ 0) (Press ESC to enter the menu)

❯ Type your message...

工作原理

专家委派工作流：
更少轮次，更低成本

传统助手逐步调用基础工具，每一轮都重发完整上下文。 OmniContext CLI 将多步操作委托给运行在更便宜模型上的智能体子任务 -- 你的昂贵模型专注于推理，不做文件读写。

任务: "找到 handleAuth 的函数定义"

传统方式

R1 glob("src/**/*.ts")

返回 43 个文件

R2 grep("handleAuth", ...)

4 个文件中 7 处匹配

R3 read("src/middleware/auth.ts")

186 行 -- 找错文件

R4 read("src/routes/login.ts")

124 行 -- 还在找

R5 read("src/services/auth.ts", 40-90)

找到了 -- 又 50 行

5 轮, ~12K 上下文新增, 全部由主模型执行

专家模式

R1 pluck("handleAuth 函数定义")

子智能体 (廉价模型):

glob grep read 定位提取

auth.ts:42-78 -- 完整函数体

1 轮, ~1K 上下文新增, 苦力活由廉价模型完成

智能体工具

10 个自主思考的工具

每个工具作为独立的子智能体在更便宜的模型上运行。它在内部处理文件读写、错误恢复和重试 -- 中间输出不进入主上下文，token 账单也更低。小贴士：探索代码库时先用 glance 和 slice -- 比逐个文件搜索更快。

explore

勘查项目架构。理解目录布局、关键文件和代码组织方式。

spark

执行 shell 命令，自动检测错误并重试。处理构建失败和安装问题。

sculpt

精准编辑文件。定位正确位置，执行修改，验证结果。

weave

从头创建完整文件并自动验证。自动处理格式和结构。

sweep

按复杂条件查找文件。支持按名称、内容或结构在项目中搜索。

pluck

从任何文件中提取特定代码段。拉取你需要的函数、类或代码块。

ripple

在代码库中追踪符号引用。找到函数、变量或类型的每一处使用。

slice

回答有针对性的代码问题。只读取相关部分，给出精准回答。

quest

通过网络搜索研究任何主题。从互联网上查找文档、示例和解决方案。

glance

同时预览多个文件并生成简要摘要。快速了解你的工作内容。

工作流预设

一个助手，多种模式

一条命令切换 OmniContext CLI 的行为方式。每个预设会改变可用工具、系统提示和响应风格。

专家

默认

主模型负责推理，廉价代理模型负责执行。智能体工具确保廉价模型不参与决策。更少轮次，更干净的上下文，更低的成本。

探索者

研究优先模式。回答前先进行多次网络搜索。适合时事、文档和事实核查。

艺术家

视觉优先响应。当模型支持时优先生成图像。适合设计探索和原型制作。

助手

应用集成的个人助手。通过自然语言控制浏览器标签、Office 文档和 Figma 设计。

普通

基本工具手动编排。直接使用 read、write、edit 和 bash。完全控制，无抽象层。

原生多协议

四种 API 协议
零格式转换损失

大多数工具把所有请求塞进同一种 API 格式，然后祈祷不出问题。 OmniContext CLI 为每种协议单独实现了请求构建器和流式处理器。提示词缓存、深度思考、供应商特有功能全部按原始协议工作 -- 中间没有任何有损的格式转换层。

Anthropic

原生 Messages API，支持提示词缓存、深度思考和流式传输。通过自定义 TTL 实现 token 级缓存控制。

Claude Opus 4.6 / Claude Sonnet 4.6 / DeepSeek V3.2

OpenAI

原生 Chat Completions API。兼容任何 OpenAI 格式的端点 -- 智谱、MiniMax、本地模型均可直接使用。

GLM-5 / Minimax 2.5

Gemini / Vertex

原生 generateContent API，Gemini 专用流式处理。工具调用和函数声明使用 Gemini 自己的 schema，不经过 OpenAI 转换。

Gemini 3 Pro / Gemini 3 Pro Image

Responses API

OpenAI 新一代 Responses API，内置工具编排。与 Chat Completions 完全独立的处理路径，不是兼容性包装。

GPT-5.2 / GPT-5.2-Codex

成本优化

专家模式实打实地省钱

每次 API 调用都会重发完整的对话历史。更少的轮次意味着更少的缓存读取。更干净的上下文意味着更少的 token 写入。专家模式两头都省 -- 还把苦力活交给更便宜的模型。

更少的 API 轮次

传统工具需要 5 轮才能找到一个函数定义。专家模式 1 轮搞定。少了 4 次完整上下文重发 -- 每省一轮都在节省缓存读取费用。

更小的上下文增长

基础工具把约 10KB 的中间输出灌入对话。智能体工具只返回最终结果。上下文编辑还会自动裁剪旧的工具调用和思考过程，在长会话中保持上下文精简。

便宜模型做执行

子智能体跑在低成本模型上 (如 GLM-5)，你的主模型 (如 Claude Opus 4.6) 只负责规划和决策。昂贵模型永远不做文件读写。

1 小时缓存深度工作

默认 5 分钟的提示词缓存在你停下来思考时就过期了。调试、重构或研究时，在偏好设置中切换到 1 小时 -- 省去整个会话中反复重建缓存的开销。

模拟成本对比: "找到 handleAuth 的函数定义"

	传统方式	专家模式	节省
API 轮次	5	1	-4 轮
每轮缓存读取	~20K tokens x 5	~20K tokens x 1	-80K tokens
新增上下文	~10KB	~3KB	-70%
缓存写入 (新增 token)	~2.5K tokens	~1K tokens	-60%
执行模型	仅 Opus 4.6	Opus 4.6 + GLM-5	约省 30%

基于 20K token 对话中在 TypeScript 项目中查找函数的场景。实际节省取决于项目规模和模型定价。

模型供应商

一条命令
添加所有模型

OmniContext CLI 内置了供应商预设。选择一个，粘贴 API Key，该服务的所有模型立即可用。

Zenmux

DeepSeek

OpenRouter

Zhipu (GLM)

MiniMax

以 Zenmux 为例快速配置

# 列出可用的供应商
$ omx --list-providers

# 一条命令添加 Zenmux 的所有模型
$ omx --add-provider zenmux --api-key zmx-...
Added: Zenmux Anthropic (Claude Sonnet 4)
Added: Zenmux Anthropic (Claude Haiku)
Added: Zenmux Gemini (Gemini 2.5 Flash)
Added: Zenmux OpenAI (GPT-4o)
...

# 移除供应商同样简单
$ omx --remove-provider zenmux

跨会话记忆

它会在工作中学习

OmniContext CLI 会记住你的编码风格、项目模式和过去的错误。关键要点会随时间评分 -- 有用的洞察会保留，无关的会自然衰减。

智能体上下文工程 从每次对话中提取关键要点，并注入到未来的会话中

评分记忆 有用的要点加分 (+1)，有害的快速扣分 (-3)，未使用的自然衰减

按项目存储 每个项目有独立的记忆文件。你可以直接编辑它来完全控制。

memory.json +3

"该项目使用 TypeScript 严格模式，tsconfig 中配置了路径别名"

memory.json +2

"API 路由在 src/routes/ 中遵循 REST 规范，使用 Zod 验证"

memory.json -4

"使用 Webpack 进行打包" 正在衰减 -- 到 -5 时将被移除

集成

跟随你的工作无处不在

终端是大本营，但 OmniContext CLI 延伸到你使用的每个工具。一个 AI，一致的上下文，零切换成本。

VS Code 扩展

完整的 IDE 集成，包含文件上下文、诊断和差异视图。OmniContext CLI 看到你在编辑器中看到的一切。

当前文件感知选中文本上下文错误诊断内联差异

桌面应用

CLI 的图形界面。作为本地中枢连接 Office、浏览器和 Figma 扩展。

完整 CLI 功能模型管理服务模式连接中枢

Chrome 扩展

任意网页侧边栏。总结、提取数据、运行脚本、自动化浏览器任务。

Office 加载项

Word、Excel 和 PowerPoint 内的 AI 面板。创建预算、格式化文档、设计幻灯片。

Figma 插件

在聊天面板中检查布局、创建图形、修改节点和导出资产。

Zed 编辑器

通过 Agent Client Protocol 作为外部智能体工作。在 Zed 智能体面板中拥有完整工具访问权限。

Web 客户端

浏览器 UI，支持 LaTeX、Mermaid 图表、文件附件和拖放操作。

移动端访问

运行 omx --serve，从手机连接。在沙发上也能做代码审查。

可扩展性

在 OmniContext CLI 之上构建

自定义智能体、技能、斜杠命令和 MCP 服务器。一切都是 Markdown 文件或 JSON 配置。

自定义子智能体

写一个包含提示模板和工具权限的 Markdown 文件，它会立即成为一个新的智能体工具。添加 OMX-AGENTS.md 可设置全局智能体指令。

~/.omx/agents/review.md

自定义技能

教 OmniContext CLI 领域特定的知识和工作流。技能会将指令注入当前对话。

~/.omx/skills/code-style/SKILL.md

斜杠命令

为常用提示创建快捷方式。输入 /review，你的自定义提示就会通过 Handlebars 模板执行。

~/.omx/slash/review.md

MCP 服务器

通过 Model Context Protocol 连接外部工具和数据源。支持 stdio 和 HTTP 传输。

~/.omx/mcp.json

精心打造

细节决定一切

精简系统提示词

极简的指令和精炼的工具描述。你的 token 用在真正的工作上，而不是臃肿的框架开销。

零遥测

不追踪使用情况，不收集分析数据。你的代码和对话永远不会离开你的机器。

上下文编辑

自动裁剪旧的工具调用和思考过程。在长会话中保持 token 使用精简，不丢失近期上下文。

深度思考

为复杂任务启用深度推理。模型在响应前逐步思考，可配置预算上限。

兼容 CLAUDE.md

仓库里已经有 CLAUDE.md？OmniContext CLI 自动读取，与 OMX.md 并行。零摩擦迁移。

自动压缩

上下文达到 80% 时自动压缩对话、提取关键记忆，并在新会话中继续。也可以随时 /compact 手动触发。

原生提示词缓存

Anthropic 和 Gemini 的自动缓存控制。自定义 TTL（5 分钟或 1 小时）让常用上下文保持缓存，降低成本。

项目指令

在仓库根目录放置 OMX.md。团队每个人都获得相同的编码规范和上下文。也支持读取 CLAUDE.md，方便迁移。

精准上下文。 极致低开销。

专家委派工作流：更少轮次，更低成本