来源:互联网 更新时间:2026-06-08 14:35
之前在《38.2k 的 AI 开发平台 Dify 教程三:将 Notion 和网站作为知识库》文章中,提到了 Dify 的「同步 Web 站点」功能,这个功能主要是通过今天要介绍的爬虫产品——

Firecrawl 是一款能把网站内容直接转成 Markdown 格式的爬虫工具。它主要提供 API 服务,不需要站点地图,只需要传入一个 URL,就能爬取该网站及所有可访问的子页面内容。
与传统爬虫相比,
需要注意的是,
/crawl/{task_id} 这个 API 才能获取实际的爬取数据。
可以直接访问 Firecrawl 官网(
点击「Start for free(500 credits)」进入演练场,三种功能如上所述,这里不再重复。注册登录后进入个人概览页面,可以看到
在 Usage 页面还能查看积分使用情况。
拿到 API Key 之后,就可以把它集成到 Dify、Langchain、LlamaIndex 等应用中。但要注意,
如果不想付费,也可以选择本地部署 Firecrawl。
访问 Firecrawl 的 GitHub(
该文件介绍了本地启动 Firecrawl 服务的步骤:
.env 文件(用于设置环境变量)三个服务都启动后,访问主服务进行测试(默认端口 3002):
curl -X GET http://localhost:3002/test
如果返回 "Hello, world!" 就说明本地 Firecrawl 启动成功。
不过部署流程依赖一些环境和工具(比如 Node.js、pnpm),每次启动还要跑三个服务,比较繁琐。推荐大家直接用 Docker Compose 进行部署。
项目根目录已经提供了 docker-compose.yaml 文件,只需要在 .env 文件中设置好环境变量,然后直接启动:
docker compose up -d
部署完成后,可以用 Postman 来测试一下:
单页爬取没有问题,再测试一下 crawl 和 map API:
crawl API 返回一个任务 ID,需要用这个 ID 查询最终结果:
爬取结果如下:
OK,完美。有需要的小伙伴可以在本地部署试试看,配合 AI 知识库效果非常不错。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
《Off Campus》第二季官宣:这对CP还在,但不再是主角
4D采矿者官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短剧《情绪超市》剧情介绍
人声接近真人!OpenAI一口气更新三款超强语音AI
短视频软件推荐
抖音最火沙雕男生网名(精选100个)
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
洛克王国世界S2赛季狂欢怪谈介绍
免费看电影的软件推荐
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
KuCoin基本面分析
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc