来源:互联网 更新时间:2026-07-03 12:49
上周GitHub上冒出一个让人眼前一亮的新项目:

上线不到一个月,GitHub Star已经冲到5000+。它的核心卖点听起来有些夸张——让AI写代码的时候,
说实话,AI编程一直存在一个老大难问题:不是“写不对”,而是“写了之后不知道对不对”。很多AI Coding工具改完即交,对错还得人逐行复核,这效率其实大打折扣。
OpenSquilla的思路完全不同:
传统AI编程的工作流是这样的:
这个流程的核心症结在于:
对于简单的函数,比如写一个排序算法,验证成本很低。但对于复杂的系统,比如实现一个分布式锁或复杂的状态机,验证成本会急剧上升——你得自己写测试用例、设计边界场景、运行回归测试,整个过程费时费力。
OpenSquilla的做法是:
它的工作流分成三步,环环相扣:
AI先写一个测试用例,这个测试用例用来验证“问题确实存在”。
举个例子,如果用户提的需求是“修复排序函数的边界情况bug”,AI会先写一个测试用例,验证“排序函数在某些输入下会返回错误结果”。
这个测试用例必须是
AI接着修复代码,让测试用例通过。
这时,如果测试从红变绿,就说明AI确实解决了问题。
AI运行项目原有的所有测试用例,确保没有引入新问题。
如果所有测试都通过,说明代码交付完成。
选了一个极具代表性的场景:给开源项目 micrograd(Karpathy的自动微分库)新增一个“计算正确梯度”的功能。
这个功能的特点是:
实测流程如下:
AI先写了一个测试用例,输入特定的梯度计算请求,预期输出是“梯度值在某个范围内”。结果测试失败——说明梯度计算确实有问题。
AI修改了梯度计算的代码,然后重新运行测试。这次测试通过了。
AI运行了micrograd原有的所有测试用例,确保没有破坏其他功能。所有测试通过。
最后,AI把新功能计算出的梯度值,和PyTorch计算出的标准答案进行了对比——前向值与每一个梯度小数点后10位完全一致。
实测完成之后,看到了几个有意思的点:
以前评价AI编程工具,看的是“它声称改对了没有”。现在有了自我验证,评价标准变成了“
这意味着,AI编程工具从“承诺制”变成了“举证制”。
传统TDD(测试驱动开发)是人写测试、人验证。OpenSquilla把验证环节自动化了,变成了
这并不意味着人可以躺平——人的角色变成了
以前让AI跑一个复杂任务(比如重构一个模块),不放心让它自己跑,必须盯着。现在有了自我验证机制,可以先让AI跑,跑完之后看它的“证据链”——三关全过,就信任它;任一不过,再介入。
OpenSquilla的核心架构分为三层:
负责理解用户需求,规划实现步骤,决定是否需要生成测试。
负责代码生成和修改。它有一个显著特点——每次修改都会自动生成对应的测试用例,而不是等用户问了才写。
负责执行测试、分析结果、决定是否继续。验证层有三种策略:
实测下来,OpenSquilla解决的不是“AI写代码”的问题,而是“
在AI编程工具刚出来的时候,大家关注的是“能不能写对”。现在关注点已经转向“
这是一个很重要的转变——它意味着AI编程从“能用”走向“可信”。
未来,评估一个AI编程工具好不好,不只是看它生成的代码对不对,还要看它有没有
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
俄罗斯最大yandex入口外贸日报直达链接
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
腾讯元宝怎么用来分析股票基金的基本面信息?
二次元男生网名可爱(精选100个)
wallpaper壁纸声音怎么开启
国际贵金属走低,现货黄金价格跌0.49%
问题:CIA币好不?Cia Protocol币今日上线:价格预测、代币经济学和未来潜力
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
短剧《嫡女她是山大王》剧情介绍
新浪人工智能热点小时报丨2026年06月20日02时_今日实时人工智能热点速递
Bubbly无法连接服务器修复方法
免费观看国外短视频的app有哪些 观看国外短视频的软件下载
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc