来源:互联网 更新时间:2026-06-26 12:57
做知识库都要用到RAG,之前的做法是先把网页、PDF、文档解析成文本,再切块、向量化、检索、交给大模型回答。这个流程对纯文本内容很有效,但一旦遇到表格、图表、版式、信息图、复杂网页布局,就很容易丢失关键信息。
人类理解网页时是看页面,为什么AI检索一定要先把页面拆成文本?PixelRAG把网页和文档渲染成截图,再基于图像内容进行检索,让模型保留页面原本的视觉结构。
PixelRAG是一个像素原生的开源视觉RAG项目,把网页、PDF、图片等文档渲染成截图切片,并直接对这些图像建立向量索引和检索,从而让大模型能够利用表格、图表、布局、信息图等传统文本解析容易丢失的信息来回答问题。
不仅按文本内容搜索文档,还能按文档看起来是什么样
PixelRAG的核心不是先把网页HTML或PDF解析成纯文本,而是把页面渲染成截图切片。这样可以最大程度保留页面原始的视觉信息,比如表格结构、图表位置、页面布局、字号层级和信息密度。
传统RAG在处理复杂表格、图表、论文截图、仪表盘、网页报告时,经常会因为解析失败或结构丢失而答错。PixelRAG通过视觉检索,让模型看到更接近人眼观察到的页面内容,特别适合处理视觉结构强的知识材料。
项目提供pixelshot命令,可以把网页、PDF、本地文件渲染成截图tiles。用户可以对单个网页截图,也可以把本地文档批量转成可检索的视觉数据。
PixelRAG不只是截图工具,还提供从文档渲染、切块、嵌入、构建FAISS索引到启动搜索API的完整流程。
使用经过网页截图数据LoRA微调的Qwen3-VL-Embedding模型,把页面截图嵌入到可检索的向量空间中。相比普通文本向量,这种方式更适合检索页面里的视觉内容。
PixelRAG提供pixelbrowse插件,让Claude Code可以通过截图方式查看网页,不是只读取网页HTML。这样AI就可以更好地理解网页里的图表、表格和页面排版。
为了展示像素原生检索的威力,官方做了个很牛的演示,来证明这套方案行得通。
直接截了2800多万张维基百科的图片。
比如搜元素周期表,只要2秒
说这个方案更好,但不一定是更便宜,因为这2800w张图片的向量化不是我去做的,我也不知道成本如何。
传统RAG的那种信息、样式丢失的感觉真的很不好。现在直接就可以搜出来有样式的内容,就非常好。
如果要对数据进行处理,就用视觉模型来做下一步了。
pixelbrowse插件后,Claude Code即可“看到”网页截图,适合需要AI理解网页设计、数据可视化的场景。https://github.com/StarTrail-org/PixelRAG
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
archiveofourown 实战指南:常见用法整理
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
作家助手如何上传自制封面 作家助手如何设置小说的封面
如何在夸克浏览器中开启网页视频的倍速播放功能?
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
美国市场:股票相对债券的风险溢价正在消失
有寓意的易经网名男生(精选100个)
电视剧《小欢喜》剧情介绍
全链网:黄金价格因美元的走强及利率担忧而下跌
618装机配置作业! 从入门到顶配 每一分钱都花在刀刃
电影《遁甲门之消失的公主》剧情介绍
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
动漫《柚木家的四兄弟》剧情介绍
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
植物娘大战僵尸电脑端与手机端存档转移的方法
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc