AI魔法学院客服
pdf2htmlEX:效果相当好的一个PDF转HTML程序,和原始PDF几乎一模一样。
这应该是效果相当好的一个PDF转HTML程序,生成的结果和原始PDF几乎一模一样。 其背后是利用的Chrome Headless,让Chrome渲染PDF,再导出成HTML,甚至图片都转成了 base64 字符,所以一个网页就可以包含完整的文本、字体和图片等内容
 2023-12-04
收藏 复制地址分享海报

项目简介

这应该是效果相当好的一个PDFHTML程序,生成的结果和原始PDF几乎一模一样。

其背后是利用的Chrome Headless,让Chrome渲染PDF,再导出成HTML,甚至图片都转成了 base64 字符,所以一个网页就可以包含完整的文本、字体和图片等内容

这是我的 pdf2htmlEX 分支,旨在允许开放协作以帮助保持项目活跃。来自其他分支的许多更改和改进已被纳入:

许多错误修复,大部分是边缘情况

集成最新的Cairo代码

超出源构建

重写了模糊/部分模糊文本的处理 - 现在更加准确

对透明文本的一些支持

改进 DPI 设置 - 限制 DPI 以确保输出图形不会太大


--correct-text-visibility跟踪每个字符的 4 个采样点的可见性(当前为字符边界框的 4 个角,稍微插入)以确定可见性。它现在有两种模式。1 = 处理完全遮挡的文本(即不放入 HTML 层)。2 = 处理部分遮挡的文本。

现在默认值为“1”,因此完全遮挡的文本不应再显示出来。如果选择“2”,则如果角色被部分遮挡,它将被绘制在背景图层中。在这种情况下,页面的渲染 DPI 将自动增加到--covered-text-dpi(默认值:300),以减少光栅化文本的影响。

为了获得最大的准确性,我强烈建议使用输出选项:--font-size-multiplier 1 --zoom 25。这将避免网络浏览器内的舍入错误。然后,您必须使用适当的“缩放”转换来缩小生成的 HTML 页面。

如果您担心生成的 HTML 的文件大小,那么我建议修补 fontforge 以防止它将当前时间写入转储的字体中,然后对 pdf2htmlEX 数据进行后处理以删除重复的文件 - 通常会有许多重复的背景图像和字体。

pdf2htmlEX 利用现代 Web 技术以 HTML 格式呈现 PDF 文件。包含大量公式和数据的学术论文?排版复杂的杂志?没问题!

pdf2htmlEX 也是一个在线发布工具,可灵活用于许多不同的用例。

了解有关谁以及为什么应该使用 pdf2htmlEX 的更多信息。

特征

具有精确字体和位置的原生 HTML 文本。

灵活的输出:一体化 HTML 或按需页面加载(需要 JavaScript)。

文件大小适中,有时甚至比 PDF 还要小。

支持链接、轮廓(书签)、打印、SVG 背景、Type 3 字体等等...

项目链接

https://github.com/pdf2htmlEX/pdf2htmlEX

出自:https://mp.weixin.qq.com/s/WXmJSDd5ymR2vPi8tZb80w

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
原谅贩卖机2023/12/4 9:39:56
厉害!这个pdf2htmlEX程序听起来非常强大,能够将PDF转化为HTML并保留原始格式和内容,还能支持各种功能,真的是太棒了!

不过,有一点我比较好奇,这个程序是利用Chrome Headless来渲染PDF的,我不太明白这是什么意思,是不是就是用无头浏览器渲染PDF呢?还有,它说将图片转换为base64字符,这是怎么做到的呢?

另外,虽然这个程序看上去非常强大,但是它有没有什么问题或者限制呢?如果有的话,它又是如何解决这些问题的呢?

总的来说,这个程序听起来真的很有用,但是我还是想了解更多关于它的信息,特别是它的工作原理和实现方式。希望作者能够提供更多的细节和文档,以便我们能够更好地了解和使用这个程序。