项目简介
这应该是效果相当好的一个PDF转HTML程序,生成的结果和原始PDF几乎一模一样。
其背后是利用的Chrome
Headless,让Chrome渲染PDF,再导出成HTML,甚至图片都转成了 base64 字符,所以一个网页就可以包含完整的文本、字体和图片等内容
这是我的 pdf2htmlEX 分支,旨在允许开放协作以帮助保持项目活跃。来自其他分支的许多更改和改进已被纳入:
许多错误修复,大部分是边缘情况
集成最新的Cairo代码
超出源构建
重写了模糊/部分模糊文本的处理 - 现在更加准确
对透明文本的一些支持
改进 DPI 设置 - 限制 DPI 以确保输出图形不会太大
--correct-text-visibility
跟踪每个字符的 4 个采样点的可见性(当前为字符边界框的 4 个角,稍微插入)以确定可见性。它现在有两种模式。1 = 处理完全遮挡的文本(即不放入 HTML 层)。2 = 处理部分遮挡的文本。
现在默认值为“1”,因此完全遮挡的文本不应再显示出来。如果选择“2”,则如果角色被部分遮挡,它将被绘制在背景图层中。在这种情况下,页面的渲染 DPI 将自动增加到 --covered-text-dpi
(默认值:300),以减少光栅化文本的影响。
为了获得最大的准确性,我强烈建议使用输出选项: --font-size-multiplier 1 --zoom 25
。这将避免网络浏览器内的舍入错误。然后,您必须使用适当的“缩放”转换来缩小生成的 HTML 页面。
如果您担心生成的 HTML 的文件大小,那么我建议修补 fontforge 以防止它将当前时间写入转储的字体中,然后对
pdf2htmlEX 数据进行后处理以删除重复的文件 - 通常会有许多重复的背景图像和字体。
pdf2htmlEX 利用现代 Web 技术以 HTML 格式呈现
PDF 文件。包含大量公式和数据的学术论文?排版复杂的杂志?没问题!
pdf2htmlEX 也是一个在线发布工具,可灵活用于许多不同的用例。
了解有关谁以及为什么应该使用
pdf2htmlEX 的更多信息。
特征
具有精确字体和位置的原生 HTML 文本。
灵活的输出:一体化 HTML 或按需页面加载(需要 JavaScript)。
文件大小适中,有时甚至比 PDF 还要小。
支持链接、轮廓(书签)、打印、SVG 背景、Type 3 字体等等...
项目链接
https://github.com/pdf2htmlEX/pdf2htmlEX
出自:https://mp.weixin.qq.com/s/WXmJSDd5ymR2vPi8tZb80w