首页 文章
  • 42 votes
     answers
     views

    PDF查明文本是否带下划线或表格单元格

    我一直在玩PdfBox和PDFTextStripperByArea方法 . 如果文本是 bold 或斜体,我能够提取信息,但我无法获得下划线信息 . 据我所知,在PDF中,下划线是通过绘制线条完成的 . 所以从理论上讲,我应该能够在文本的某处获得某些关于线条的信息 . 根据这些信息,我可以找出是否有下划线或表格 . 到目前为止,这是我的代码: List<TextPosition> te...
  • 0 votes
     answers
     views

    PDFBOX,逐行阅读pdf并提取文本属性

    我正在使用pdfbox从pdf文件中提取文本 . 我阅读pdf文件如下 PDFParser parser = null; String text = ""; PDFTextStripper stripper = null; PDDocument pdoc = null; COSDocument cdoc = null; File file...
  • 0 votes
     answers
     views

    使用pdfbox过滤掉页眉和页脚文本

    我正在尝试使用pdfbox从pdf文档中获取文本,问题是我也得到了页眉和页脚文本 . 有谁知道是否有办法过滤掉它?也许通过TextPosition中的一些设置?
  • 1 votes
     answers
     views

    在PDFBox中获取选定的文本位置

    我正在开发android中的翻译应用程序,我想使用PDFBox来操作pdf文件 . 我最挑剔的一个是: 我希望在用户阅读pdf书籍并选择特殊单词时获得选定的文本位置 . 之后我想在第一步的位置提取上创建一个注释 . 第二个问题是由我完成的 . 代码是: public static void setHighLightText(Integer i) { try { ...
  • 1 votes
     answers
     views

    使用Apache PDFBox解析PDF文件

    我正在尝试使用PDFBox修改PDF文档的内容 . 我原样使用this example,但观察到我的PDF文件的文本在字符级别(或更糟)被分割 . 例如,一个字符串 EM? what it is: 被拆分为: COSString{E} COSString{M?} COSString{ } COSString{w} COSString{hat } COSString{it } COSString{i...
  • 0 votes
     answers
     views

    Jsoup解析iso-8859-1文件

    我一直在网上寻找并试图理解 . 我正在解析一些在iso-8859-1中编码的html文件 . 一旦解析,我希望所有输出都是标准的java编码(utf-something) 我是这样做的: currentDocument = Jsoup.parse(new File("thing.htm", "ISO-8859-1"); Element elt = curre...
  • 2 votes
     answers
     views

    在JavaFx 2.2中截取场景或场景的一部分

    我已经成功使用了WritableImage WritableImage snapshot = obj.getScene() . snapshot(null); 现在我想在pdf文件上输出这个截图 . 我已经设法使用Apache pdfbox库使用以下代码将文本输出到pdf: PDDocument doc = null; PDPage page = null; try{ doc = n...
  • 1 votes
     answers
     views

    Java - PDFBox 1.8.9 unicode textfile到pdf

    我在SO上忽略了与此问题相关的所有问题,但无法找到并回答 . 我有一个textFile,其中包含unicode字符,如“ā”,“š”,“ī”等 . 问题是,当我将textFile写入PDF时,pdf文件无法正确显示 . 如何设置我的代码,所以我可以在我的PDF上写这些字符?也许更好的问题是:这甚至可能吗?由于我一直在寻找这个几个小时,无法找到解决方案 . 由于这个应用程序将是商业的,我不能使用iT...
  • 1 votes
     answers
     views

    PDFBox 2.0:克服字典键编码

    我使用Apache PDFBox 2.0.1从PDF表单中提取文本,提取AcroForm字段的详细信息 . 从单选按钮字段中我挖出了外观词典 . 我对/ N和/ D条目感兴趣(正常和“向下”外观) . 像这样(交互式Bean shell): field = form.getField(fieldName); widgets = field.getWidgets(); print("Fie...
  • 1 votes
     answers
     views

    ₹(印度卢比符号)符号打印为? (问号)pdf使用Apache PDFBOX

    我正在尝试使用apache pdfbox在我的pdf文件中编写一个字符串 . 我使用ISO-8859-1作为UTF-8编码 . 但仍然是打印问号 . 尝试了很多并在互联网上寻找解决方案(StackOverflow) . 请有人帮忙 . 提前致谢 public class TestClass { public static void main(String[] args) throws I...
  • 28 votes
     answers
     views

    如何确定文件是否为PDF文件?

    我在Java中使用PdfBox从PDF文件中提取文本 . 提供的某些输入文件无效,PDFTextStripper会暂停这些文件 . 是否有一种干净的方法来检查提供的文件是否确实是有效的PDF?
  • 126 votes
     answers
     views

    如何从PDF中提取文本? [关闭]

    任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息 . 我们希望以 xml 或 json 格式输出数据 . 我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议 . Are there alternatives (commercial ones or f...
  • 0 votes
     answers
     views

    在PDF提取时忽略表格

    我试图在Java中创建一个文本处理应用程序,它需要文本作为输入 . 现在我从用户指定的PDF文件中提取此输入 . 我正在使用PdfBox进行文本提取 . 我遇到的问题是PDF文件可能包含表格,方程式和特殊符号,因此PdfBox提取的文本在许多地方都包含垃圾 . 由于这个原因,我的文本处理应用程序无法提供最佳结果 . 我想知道PDF是否具有表的特定格式,以便我可以到达根级别并在提取时将其排除 . 此...
  • 1 votes
     answers
     views

    在markMatch上选择2 toUpperCase错误

    所以我一直在使用select2进行非ajax查询,到目前为止它非常有用 . 但是,我想使用其中一个下拉列表来获取ajax json响应 . 在整个单片文档中,几乎没有发现如何使用它的tid位 . 单片文件:http://ivaynberg.github.io/select2/ 除了正在编写的代码示例,几乎没有任何HTML代码或json示例,我现在正在亏损 . 所以这是我得到的一个json: [{“...
  • 5 votes
     answers
     views

    如何使IObjectContextAdapter从EF 6适应EF Core

    我正在尝试将此类移植到EF核心: https://github.com/mehdime/DbContextScope/blob/master/Mehdime.Entity/Implementations/DbContextScope.cs 但是我有这个问题: 错误CS0246:找不到类型或命名空间名称'IObjectContextAdapter'(您是否缺少using指令或程序集引用?)(CS0...
  • 2 votes
     answers
     views

    使用PDFBox 2.0.2从PDF中提取文本缺少类PDFTextStripper()

    我在java中使用PDFBox 1.8.10实现了简单的文本提取方法 . 由于某些原因我必须将库升级到PDFBox 2.0.2 . 可能删除PDFTextStripper()方法或在新版本中找到另一个包 . 有没有办法解决这个问题?或者你能建议另一种从PDF获取文本的方法吗? 这是我的代码: public String extractTextFromPdf() { File jInput...
  • 333 votes
     answers
     views

    我应该使用int还是Int32

    在C#中, int 和 Int32 是相同的,但我已多次阅读 int 优于 Int32 ,没有给出任何理由 . 有原因,我应该关心吗?
  • 2 votes
     answers
     views

    ushort等价

    我在C#中有一个应用程序,我正在尝试转换为java . C#app有一些ushort类型的变量 . java中有等价的吗? 谢谢
  • 2 votes
     answers
     views

    使用NHibernate进行SQLDateTime溢出不一致

    我们有一个非常奇怪的错误,当我们想要从WCF服务中保存一些东西时,有时我们会收到此错误 . 我们保存的对象包含NO无效的日期时间,我们在保存之前都会检查它们 . 当我们看到此错误时,数据库有时会挂起,并且WCF处于故障状态 . 当我重新启动数据库和托管WCF的IIS Web应用程序并尝试再次保存时 . 它有效..我们无能为力,所以如果有人有一些建议,请分享 以下是错误: 2010-03-05 10...
  • 9 votes
     answers
     views

    byte []到ushort []

    这是我的问题 . 请跟我说一点解释: 我正在读取tiff图像到缓冲区;我的tiff的每个像素由一个ushort(16位数据,非负数)表示 . 我的图像大小是64 * 64 = 4096.当我的tiff加载到缓冲区时,缓冲区长度因此是8192(两倍于4096) . 我想这是因为在我的缓冲区中,计算机使用2个字节来存储单个像素值 . 我想得到任何特定像素的值,在这种情况下,我应该将每2个字节组合为1个...
  • 4 votes
     answers
     views

    c#源数组不够长 . 检查srcIndex和length,以及Array.Copy的数组下限

    我已经实现了多个客户端和服务器 . 客户端以2分钟的固定间隔向服务器发送大小为238或564的tcp数据包 . 数据包的结构如下 1)数据包标头 - 44字节此标头大小不会更改,并随每个数据包一起提供 . 2)在报头出现多于1个数据包之后,这些数据包的大小为16或32字节 . 这些数据包的数量随着从客户端到服务器的每个数据包而变化,并且这些数据包的数量决定了数据包的总大小(238或512) ...
  • 1 votes
     answers
     views

    AppFabric缓存将大对象添加到远程服务器

    我正在为Windows Server 1.1使用AppFabric缓存 . 我正在尝试将80MB的对象添加到位于网络上另一台服务器上的缓存中 . 我收到以下错误: ErrorCode:SubStatus:暂时失败 . 请稍后重试 . (一个或多个指定的缓存服务器不可用,这可能是由繁忙的网络或服务器引起的 . 对于内部部署缓存集群,还要验证以下条件 . 确保已为此客户端帐户授予安全权限,并检查A...
  • 1 votes
     answers
     views

    NuGet相同版本的依赖关系

    我想在TeamCity构建服务器上自动生成nuget包 . 我们使用TeamCity AssemblyInfo Patcher使特定版本的所有dll具有相同的版本号 . 我们从项目中生成多个NuGet包 . 如何在依赖项字段中指定版本号,以便它使用与正在构建的包相同的编号 without hardcoding the number in the NuGet .spec file ? 例如, MyP...
  • 3 votes
     answers
     views

    将ushort []转换为byte []并返回

    我有一个ushort数组,需要转换成一个字节数组,通过网络传输 . 一旦到达目的地,我需要将其重新转换回与之相同的ushort阵列 . Ushort Array 是一个长度为217,088的数组(1D阵列的故障图像512乘424) . 它存储为16位无符号整数 . 每个元素是2个字节 . Byte Array 它需要转换为字节数组以用于网络目的 . 由于每个ushort元素值2个字节,我假设字节数...
  • 0 votes
     answers
     views

    连接字符串,转换为ushort,与ushort进行比较

    所以我有一些常量: const ushort _WIN32_WINNT_NT4 = 0x0400; const ushort _WIN32_WINNT_WIN2K = 0x0500; .... 然后我有一个主要的版本号,次要版本号和服务包号,当你将它们连接在一起时,它与上面的数字相同 - 除了其中2个是 int ,其中一个是 string . 我可以将它们全部变成这样的字符串: string ...
  • 0 votes
     answers
     views

    ng-include内联SVG <lineargradient>除Chrome中外不显示渐变

    我已经设置了一个NG-INCLUDE,它加载一个包含“hover_color_change”类的SVG文件,以便正确的多边形可以更新其fill属性: &lt;div class=&quot;prod-illustration-div col s12 m8&quot;&gt; &lt;div class=&quot;prod-svg-wrapper&quot; ng-include=&quot...
  • 195 votes
     answers
     views

    .NET数据结构:ArrayList,List,HashTable,Dictionary,SortedList,SortedDictionary - 速度,内存以及何时使用?

    .NET有很多复杂的数据结构 . 不幸的是,它们中的一些非常相似,我不总是确定何时使用一个以及何时使用另一个 . 我的大多数C#和Visual Basic书籍都在一定程度上谈论它们,但它们从未真正涉及任何真实的细节 . Array,ArrayList,List,Hashtable,Dictionary,SortedList和SortedDictionary之间有什么区别? 哪些是可枚举的(ILis...
  • 363 votes
     answers
     views

    首选:Nullable <> . HasValue或Nullable <>!= null?

    我总是使用(a) Nullable&lt;&gt;.HasValue 因为我喜欢语义 . 但是,最近我正在研究其他人的现有代码库,他们专门使用(b) Nullable&lt;&gt; != null 代替 . 是否有理由使用一个而不是另一个,还是纯粹的偏好? (一个) int? a; if (a.HasValue) ... (b)中 int? b; if (b != null) ...
  • 101 votes
     answers
     views

    字典和Hashtable之间的区别[重复]

    可能重复:为什么Dictionary优先于C#中的哈希表? Dictionary和Hashtable有什么区别 . 如何决定使用哪一个?
  • 254 votes
     answers
     views

    .NET HashTable与字典 - 字典能否同样快?

    我想弄清楚何时以及为什么要使用Dictionary或HashTable . 我在这里做了一些搜索,发现有人在谈论字典的一般优点,我完全赞同,这导致拳击和拆箱优势,以获得轻微的性能提升 . 但是我也读过字典并不总是按照它们插入的顺序返回对象,它被排序的东西 . 作为HashTable的地方 . 据我了解,这导致HashTable在某些情况下更快 . 我的问题是,这些情况可能是什么?我上面的假设我错了...

热门问题