【问题标题】:Is it possible to use Puppeteer to convert PDF to HTML?是否可以使用 Puppeteer 将 PDF 转换为 HTML?
【发布时间】:2019-10-25 08:40:36
【问题描述】:
我知道可以换一种方式(HTML 转 PDF),但是可以换一种方式吗?
我没有找到任何关于此的文档。
【问题讨论】:
标签:
html
node.js
pdf
puppeteer
headless-browser
【解决方案1】:
不,Puppeteer 不能用于将 PDF 转换为 HTML。根据其网站:
Puppeteer 是一个 Node 库,它提供了一个高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium。
也就是说,Puppeteer 是一个无头 Chrome。由于 Chrome 无法将 PDF 转换为 HTML(如果我错了请纠正我),Puppeteer 也不能。
但是,您可以使用其他 npm 模块,例如 pdf-parse 来解析 PDF 的文本内容,并自己生成 HTML。或者,直接使用pdf2html等npm模块直接转换pdf。