-
350 votesanswersviews
用于将PDF转换为文本的Python模块[关闭]
哪些是将PDF文件转换为文本的最佳Python模块? -
15 votesanswersviews
刮掉跨越多个页面的大型pdf表
我想刮掉PDF tables which span across multiple pages . 我尝试了很多东西,但最好的似乎是 pdftotext -layout 为advised here . 问题是生成的文本文件不易使用,因为表格布局在页面之间不同,因此列不对齐 . 另请注意以"Solsonès"开头的行中缺少的值: TEMPERATURA MITJANA MENSU... -
12 votesanswersviews
使用R识别PDF表
我正在尝试从一些pdf报告中的表中提取数据 . 我已经看到一些使用pdftools和类似软件包的例子我成功获取了文本,但是,我只想提取表格 . 有没有办法使用R来识别和提取表格? -
-2 votesanswersviews
从PDF中提取表格[关闭]
我有一个包含 text, images and tables 的pdf文件 . 我想使用Python或R从该pdf文件中提取表格 .