来源:互联网 更新时间:2026-06-30 18:13
开源 AI Agent 项目 OpenSquilla 近日发布 0.4.0 版本,核心更新是推出编码工作流 coding模式,并首次为 AI 编码引入“自我验证”机制:AI 不再止步于“我改好了”的口头交付,而是在交回结果前,先用测试为自己跑出一份可复核的、证明“改对了”的证据。
这一机制指向 AI Coding 当前最棘手的瓶颈——信任。过去一年 AI 写代码能力突飞猛进,但“能写”不等于“能信”:多数编码 Agent 改完即交,对错仍要人逐行复核,这也是 AI 编码难以真正无人值守、规模化进入生产环境的关键障碍。把验证内化进 Agent 自身,意味着行业评判 AI 编码的标准,正从“它声称改对了”转向“它能否自证改对了”。
其做法是一条独立的“红绿回归证据链”:先写一个注定失败的测试给问题定性、证明它真能抓住 bug,再把功能做好让测试由红转绿,最后跑一遍项目原有测试确认没弄坏别处;三关全过才算交付,任一不过直接打回。配套还有默认的自动修复闭环——不通过就自动重改到通过为止,以及隔离施工——改动只在隔离副本里进行、验收合格才落回源码。
在官方的案例演示中,Coding模式为知名开源项目 micrograd,AI 教育圈顶流、Anthropic研究员Andrej Karpathy 的极简自动微分库,新增了“计算正确梯度”的功能——而梯度一旦算错,模型不报错也不崩溃,只会悄悄越学越偏,是最难靠肉眼发现的 bug。演示分两步:先由 AI 走完上述“红→绿→回归”三关、自交证据;再由人把 micrograd 的新功能与行业标准工具 PyTorch 在同一道题上并排比对,前向值与每一个梯度小数点后 10 位完全一致。换言之,不是“AI 自己说对”,而是“它和官方标准答案分毫不差”。这也是在Coding赛道上,团队继新一代基准claw-swe-bench之后,落地agent runtime的最新实践。
同期,OpenSquilla 还推出首个签名并公证的桌面安装包,macOS 与 Windows 均可双击安装、无需命令行。
OpenSquilla 主打“提升单位成本的 Agent 智能”,以Learnable Harness为切入点,目标打造性价比最高的Agent产品。在主流 Agent 框架普遍推高模型调用、token 成本攀升的背景下,它通过本地智能路由,按任务复杂度自动选模型、技能按需加载、记忆按需检索、工具结果预处理等方式,在“调用前”就压降成本。据硅星人此前报道,提供的数据显示,其智能路由相比通用网关 OpenRouter,路由精度高约 4.4 个百分点、成本低约 75%;与旗舰模型跑同类任务质量基本持平、成本相差约 9 倍。OpenSquilla 官网则称,常规场景内测综合成本可下降约 60–80%。
基元律动创始人王云鹤曾负责头部科技公司大模型研发,CTO 为韩凯。OpenSquilla 上线后数周内 GitHub star 增至数千量级;据公开报道,公司成立仅数月即完成首轮融资,是 Harness和Agent原生模型方向上为数不多的代表性玩家。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
腾讯元宝怎么用来分析股票基金的基本面信息?
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
wallpaper壁纸声音怎么开启
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
短剧《嫡女她是山大王》剧情介绍
问题:CIA币好不?Cia Protocol币今日上线:价格预测、代币经济学和未来潜力
看韩漫的APP推荐 2026免费韩漫阅读软件大全
OpenAI 调整手机端 ChatGPT,提示词可提前选 AI 响应档位
免费观看国外短视频的app有哪些 观看国外短视频的软件下载
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc