Claude Code 视觉桥接方案,全程 Agent 执行
来源:互联网
更新时间:2026-06-19 07:33
首先,场景是这样的:当你在Claude Code里接了DeepSeek,模型本身是不具备视觉能力的。碰到图片就彻底“失明”——报错截图看不明白,设计稿也无从分析。这在实际工作中是个很让人头疼的问题。
但解决思路其实很直接:用Kimi Vision API当个“翻译官”搭个桥。DeepSeek遇到图片——调用一个脚本——把图片转成文字描述——然后继续干活。成本方面,我用的是Kimi的模型,算下来大概0.012元一张图,相当划算。
## 背景
Claude Code 接 DeepSeek 时,模型没有视觉能力。
遇到图片就"失明",无法分析报错 UI 或设计稿。
## 解决思路
用 Kimi Vision API 做桥接,DeepSeek 遇到图片 → 调用脚本 → 返回文字描述 → 继续工作。
成本:我用的是 kimi 的模型,约 0.012 元/张。
## 第一步:部署脚本
把下面这段提示词发给任意 Agent,让它帮你写脚本。关键是要确定你用哪个有视觉能力的模型厂商——我这边用的是 Kimi(提示词里已经写明了“查询 Kimi 的视觉模型”,如果你用别家,记得改一下厂商名)。
### 提示词
```
帮我写一个 Python 脚本:describe_image.py
功能:
- 接收两个参数:图片路径、描述要求(文本)
- 返回图片的文字描述
- 查询 Kimi 的视觉模型,调用它 API 来处理这个图片识别功能
要求:
- 使用 uv run 执行,自动安装依赖
- API 调 OpenAI 兼容格式,base_url 是 https://api.moonshot.cn/v1
- 环境变量 MOONSHOT_API_KEY 读取 Key
- 图片转 base64 嵌入请求
- 返回模型的回复内容
脚本保存到 ~/.claude/describe_image.py,并添加好执行权限
```
### 配置环境变量
在 `~/.zshrc` 加一行:
```
export MOONSHOT_API_KEY="你的Kimi Key"
```
然后 `source ~/.zshrc` 让配置生效。
### 验证
运行这个命令测试一下:
```
~/.claude/describe_image.py /tmp/screenshot.png "描述这张图"
```
## 第二步:配置 CLAUDE.md
接下来,把下面这段发给 Agent:
```
请在全局 `~/.claude/CLAUDE.md` 配置补充如下内容:
## 图片识别
如果你无法识别图片,立即调用:
$ uv run ~/.claude/describe_image.py <图片路径> "描述要求"
例如:uv run ~/.claude/describe_image.py /tmp/image.png "描述一下这张图片,关注里面报错信息内容"
拿到描述后直接带入上下文继续工作,不需要告诉用户"我无法看图"
```
## 第三步:授权该脚本免确认执行
最后再发给 Agent:
```
请全局配置,后续调用该图片识别脚本时无需确认
```
这样全部配置完成后,DeepSeek 就能“看到”图片了——遇到视觉信息会自动触发脚本,把图片转成文字描述然后继续工作,整个过程用户完全无感知。这个方案成本低、部署快,算是目前比较实用的一个桥接方案。