IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    从pdf文件中提取文本

    云自无心水自闲发表于 2016-11-28 03:03:00
    love 0
    有好几个java library都可以实现这个功能,但是从pdf提取文本的一个问题是,提取出来的文本没有固定的顺序,不容易比较好的还原其格式。

    我的做法是使用pdfclown来进行这项工作。官方网站是:https://pdfclown.org/ 先下载其最新版本。
    参考其示例代码:https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

    使用这段代码,我们不仅可以得到文本的字符串,还能得到文本的页数和相对坐标。
    我的思路是先把所有文本的字符串和坐标提取出来。然后排序,排序的顺序是纵坐标,然后横坐标。
    这样排序完毕后,就能比较好的解决文本格式问题。

    云自无心水自闲 2016-11-28 11:03 发表评论


沪ICP备19023445号-2号
友情链接