来源:互联网 更新时间:2026-06-10 14:28
BigSet到底是什么?简单来说,它是美国初创公司TinyFish推出的一个开源多智能体系统,采用AGPL-3.0协议。用户只需要用自然语言描述自己需要什么数据,系统就能自动推断表结构、派遣智能体从实时网络中抓取数据、去重验证,最终生成可直接导出的CSV或XLSX结构化数据集。更贴心的是,它还支持从30分钟到每周的定时刷新,让数据集始终保持实时更新。

git clone https://github.com/tinyfish-io/bigset.git 下载项目代码,并将 .env.example 复制为 .env 文件。.env 文件中填入TinyFish、OpenRouter、Clerk三类API密钥,确保服务具备数据采集、模型调用和身份认证的权限。make dev 命令,系统会自动安装依赖、启动Postgres和Convex数据库,完成服务部署。localhost:3500,注册并登录后,在输入框中用自然语言描述所需数据,系统就能自动生成结构化数据集。make seed-public-datasets 命令,可一键加载内置的9个精选公开数据集,快速体验核心功能。| 对比维度 | BigSet | Firecrawl |
|---|---|---|
产品定位 | 多智能体驱动的数据集生成平台,从自然语言描述到可导出的结构化数据集 | API-first 的网页抓取与爬取平台,将网站转换为 LLM-ready 的 Markdown 或结构化数据 |
输入方式 | 自然语言描述所需数据主题(如"AI 招聘公司信息") | 指定 URL 爬取,或通过 /agent 端点用自然语言描述需求(无需 URL) |
数据源发现 | AI 自动推断表结构并发现实体来源,无需人工提供任何链接 | /agent 可自主搜索导航,但常规模式需用户指定起始 URL 或站点地图 |
表结构定义 | LLM 自动推断 Schema(列名、数据类型、主键),生成关系型数据集 | 支持 JSON Schema 或自然语言提示定义提取结构,输出为 JSON 对象 |
采集范围 | 跨站点聚合多源数据,自动去重生成统一数据集 | 基于给定 URL 递归爬取或单页提取,聚焦已知站点的内容 |
自动化程度 | 编排器+子智能体闭环:发现→抓取→去重→验证→建表→导出,全流程自主 | 单链路或 Agent 模式执行抓取转换,需外部工具配合完成数据集管理 |
定时刷新 | 原生支持(30分钟/6小时/12小时/每日/每周) | 支持 Scheduled Jobs 定期执行,但需通过 API 或外部调度配置 |
输出格式 | CSV、XLSX(附带来源 URL,可直接用于 Excel/BI) | Markdown、JSON、HTML、截图、链接(面向 LLM/RAG 管道优化) |
数据去重 | 基于主键自动去重,确保数据集唯一性 | 需用户在下游自行处理去重逻辑 |
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
免费影视剧APP推荐
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
抖音最火沙雕男生网名(精选100个)
帅气继父网名女生可爱英文(精选100个)
网络热词聊污是什么意思
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
免费看电影的软件推荐
我的末日校园海斗手游上线时间是哪天
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
晨字沙雕网名大全女生(精选100个)
短剧《情绪超市》剧情介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc