您的位置：首页 > > 教程攻略 > ai资讯 >Playwright 实战：轻松掌握 PDF 内容验证

Playwright 实战：轻松掌握 PDF 内容验证

来源:互联网 更新时间:2026-06-28 14:01

说起来啊，在自动化测试这个圈子里，PDF 内容的验证常常是个被忽略的角落。但真要较真起来，它的重要性一点都不比 UI 验证低——毕竟，发片、合同这些关键信息，往往都装在 PDF 文件里。今天我们就来聊聊，如何在 Playwright 的框架下，结合 pdf-parse 和 fs 模块，把这件“靠谱”的事给做实了。

先说说 Playwright 为什么值得选。它是一款成熟的开源自动化测试工具，支持多浏览器、多平台，生态很完备。美中不足的是，它没有内置 PDF 验证功能。不过别担心，思路其实不复杂：先下载，再解析，最后比对文本就行。下面一步一步展开。

准备工作

先把需要的依赖装上：

npm install playwright fs pdf-parse
npm init playwright@latest

实战步骤

1. 下载 PDF 文件

用 Playwright 模拟用户点击，触发下载并保存文件。关键是同时监听下载事件，防止页面跳转把下载请求弄丢：

const { test, expect } = require('@playwright/test');

test('下载 PDF 文件', async ({ page }) => {
  // 导航到包含 PDF 的页面
  await page.goto('https://pdfobject.com/pdf/sample.pdf');
  
  // 同时等待下载事件并触发下载
  const [download] = await Promise.all([
    page.waitForEvent('download'),
    page.getByRole('link', { name: 'A Simple PDF File' }).click()
  ]);
  
  // 保存文件到指定路径
  const filePath = 'ExportData/' + download.suggestedFilename();
  await download.sa veAs(filePath);
});

这段代码里，Promise.all 的作用是同时启动“等待下载”和“点击操作”，避免因异步时序错乱导致下载事件没捕获到——这是实际项目中很容易踩的坑。

2. 提取 PDF 内容

下载到本地之后，用 pdf-parse 这个利器把 PDF 里的文字扒下来。解析结果可以直接保存为文本文件，方便后续对比：

const fs = require('fs');
const pdf = require('pdf-parse');

async function extractPdfText(filePath) {
  try {
    // 读取 PDF 文件内容
    const dataBuffer = fs.readFileSync(filePath);
    // 解析 PDF 获取文本
    const data = await pdf(dataBuffer);
    // 将提取的文本保存到 actual.txt
    fs.writeFileSync('./ExportData/actual.txt', data.text);
  } catch (error) {
    // 处理解析失败的情况，比如 PDF 是纯图片格式
    console.error('PDF 解析失败:', error);
  }
}

// 调用函数提取文本
extractPdfText('./ExportData/sample.pdf');

注意 pdf-parse 对纯图片型 PDF 无能为力——那种情况下需要结合 OCR（如 Tesseract）来处理，这里不展开。

3. 验证内容

最后一步，把实际提取的文本和预期文本做对比。这一步用 Playwright 自带的 expect 断言就能搞定，非常干净：

test('验证 PDF 内容', async () => {
  // 读取预期和实际文本内容
  let expected = fs.readFileSync('./ExportData/expected.txt', 'utf-8');
  let actual = fs.readFileSync('./ExportData/actual.txt', 'utf-8');
  
  // 使用 Playwright 的 expect 断言内容一致
  expect(actual).toBe(expected);
});

如果两个文件内容不匹配，测试就会失败，这时可以查看报告或日志，定位具体差异。

项目目录结构

为了方便理解，整个项目的文件组织是这样的：

- ExportData
  - actual.txt    # 提取的实际文本
  - expected.txt  # 预期的文本
  - sample.pdf    # 下载的 PDF 文件
- node_modules    # 依赖包
- playwright-report  # 测试报告
- tests
  - example.spec.js  # 测试脚本
- package-lock.json
- package.json
- playwright.config.js

这种结构清晰、易维护，也方便在 CI/CD 中复用。