pdf2htmlEX：效果相当好的一个PDF转HTML程序，和原始PDF几乎一模一样。

项目简介

这应该是效果相当好的一个PDF转HTML程序，生成的结果和原始PDF几乎一模一样。

其背后是利用的Chrome Headless，让Chrome渲染PDF，再导出成HTML，甚至图片都转成了 base64 字符，所以一个网页就可以包含完整的文本、字体和图片等内容

这是我的 pdf2htmlEX 分支，旨在允许开放协作以帮助保持项目活跃。来自其他分支的许多更改和改进已被纳入：

许多错误修复，大部分是边缘情况

集成最新的Cairo代码

超出源构建

重写了模糊/部分模糊文本的处理 - 现在更加准确

对透明文本的一些支持

改进 DPI 设置 - 限制 DPI 以确保输出图形不会太大

--correct-text-visibility 跟踪每个字符的 4 个采样点的可见性（当前为字符边界框的 4 个角，稍微插入）以确定可见性。它现在有两种模式。1 = 处理完全遮挡的文本（即不放入 HTML 层）。2 = 处理部分遮挡的文本。

现在默认值为“1”，因此完全遮挡的文本不应再显示出来。如果选择“2”，则如果角色被部分遮挡，它将被绘制在背景图层中。在这种情况下，页面的渲染 DPI 将自动增加到 --covered-text-dpi （默认值：300），以减少光栅化文本的影响。

为了获得最大的准确性，我强烈建议使用输出选项： --font-size-multiplier 1 --zoom 25 。这将避免网络浏览器内的舍入错误。然后，您必须使用适当的“缩放”转换来缩小生成的 HTML 页面。

如果您担心生成的 HTML 的文件大小，那么我建议修补 fontforge 以防止它将当前时间写入转储的字体中，然后对 pdf2htmlEX 数据进行后处理以删除重复的文件 - 通常会有许多重复的背景图像和字体。

pdf2htmlEX 利用现代 Web 技术以 HTML 格式呈现 PDF 文件。包含大量公式和数据的学术论文？排版复杂的杂志？没问题！

pdf2htmlEX 也是一个在线发布工具，可灵活用于许多不同的用例。

了解有关谁以及为什么应该使用 pdf2htmlEX 的更多信息。

具有精确字体和位置的原生 HTML 文本。

灵活的输出：一体化 HTML 或按需页面加载（需要 JavaScript）。

文件大小适中，有时甚至比 PDF 还要小。

支持链接、轮廓（书签）、打印、SVG 背景、Type 3 字体等等...

出自：https://mp.weixin.qq.com/s/WXmJSDd5ymR2vPi8tZb80w