pdf2htmlEX:效果相当好的一个PDF转HTML程序,和原始PDF几乎一模一样。
AI魔法学院
2023-12-04
分享海报

项目简介

这应该是效果相当好的一个PDFHTML程序,生成的结果和原始PDF几乎一模一样。

其背后是利用的Chrome Headless,让Chrome渲染PDF,再导出成HTML,甚至图片都转成了 base64 字符,所以一个网页就可以包含完整的文本、字体和图片等内容

这是我的 pdf2htmlEX 分支,旨在允许开放协作以帮助保持项目活跃。来自其他分支的许多更改和改进已被纳入:

许多错误修复,大部分是边缘情况

集成最新的Cairo代码

超出源构建

重写了模糊/部分模糊文本的处理 - 现在更加准确

对透明文本的一些支持

改进 DPI 设置 - 限制 DPI 以确保输出图形不会太大


--correct-text-visibility跟踪每个字符的 4 个采样点的可见性(当前为字符边界框的 4 个角,稍微插入)以确定可见性。它现在有两种模式。1 = 处理完全遮挡的文本(即不放入 HTML 层)。2 = 处理部分遮挡的文本。

现在默认值为“1”,因此完全遮挡的文本不应再显示出来。如果选择“2”,则如果角色被部分遮挡,它将被绘制在背景图层中。在这种情况下,页面的渲染 DPI 将自动增加到--covered-text-dpi(默认值:300),以减少光栅化文本的影响。

为了获得最大的准确性,我强烈建议使用输出选项:--font-size-multiplier 1 --zoom 25。这将避免网络浏览器内的舍入错误。然后,您必须使用适当的“缩放”转换来缩小生成的 HTML 页面。

如果您担心生成的 HTML 的文件大小,那么我建议修补 fontforge 以防止它将当前时间写入转储的字体中,然后对 pdf2htmlEX 数据进行后处理以删除重复的文件 - 通常会有许多重复的背景图像和字体。

pdf2htmlEX 利用现代 Web 技术以 HTML 格式呈现 PDF 文件。包含大量公式和数据的学术论文?排版复杂的杂志?没问题!

pdf2htmlEX 也是一个在线发布工具,可灵活用于许多不同的用例。

了解有关谁以及为什么应该使用 pdf2htmlEX 的更多信息。

特征

具有精确字体和位置的原生 HTML 文本。

灵活的输出:一体化 HTML 或按需页面加载(需要 JavaScript)。

文件大小适中,有时甚至比 PDF 还要小。

支持链接、轮廓(书签)、打印、SVG 背景、Type 3 字体等等...

项目链接

https://github.com/pdf2htmlEX/pdf2htmlEX

出自:https://mp.weixin.qq.com/s/WXmJSDd5ymR2vPi8tZb80w

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip