-
42 votesanswersviews
PDF查明文本是否带下划线或表格单元格
我一直在玩PdfBox和PDFTextStripperByArea方法 . 如果文本是 bold 或斜体,我能够提取信息,但我无法获得下划线信息 . 据我所知,在PDF中,下划线是通过绘制线条完成的 . 所以从理论上讲,我应该能够在文本的某处获得某些关于线条的信息 . 根据这些信息,我可以找出是否有下划线或表格 . 到目前为止,这是我的代码: List<TextPosition> te... -
0 votesanswersviews
PDFBOX,逐行阅读pdf并提取文本属性
我正在使用pdfbox从pdf文件中提取文本 . 我阅读pdf文件如下 PDFParser parser = null; String text = ""; PDFTextStripper stripper = null; PDDocument pdoc = null; COSDocument cdoc = null; File file... -
0 votesanswersviews
使用pdfbox过滤掉页眉和页脚文本
我正在尝试使用pdfbox从pdf文档中获取文本,问题是我也得到了页眉和页脚文本 . 有谁知道是否有办法过滤掉它?也许通过TextPosition中的一些设置? -
1 votesanswersviews
在PDFBox中获取选定的文本位置
我正在开发android中的翻译应用程序,我想使用PDFBox来操作pdf文件 . 我最挑剔的一个是: 我希望在用户阅读pdf书籍并选择特殊单词时获得选定的文本位置 . 之后我想在第一步的位置提取上创建一个注释 . 第二个问题是由我完成的 . 代码是: public static void setHighLightText(Integer i) { try { ... -
1 votesanswersviews
使用Apache PDFBox解析PDF文件
我正在尝试使用PDFBox修改PDF文档的内容 . 我原样使用this example,但观察到我的PDF文件的文本在字符级别(或更糟)被分割 . 例如,一个字符串 EM? what it is: 被拆分为: COSString{E} COSString{M?} COSString{ } COSString{w} COSString{hat } COSString{it } COSString{i... -
0 votesanswersviews
Jsoup解析iso-8859-1文件
我一直在网上寻找并试图理解 . 我正在解析一些在iso-8859-1中编码的html文件 . 一旦解析,我希望所有输出都是标准的java编码(utf-something) 我是这样做的: currentDocument = Jsoup.parse(new File("thing.htm", "ISO-8859-1"); Element elt = curre... -
2 votesanswersviews
在JavaFx 2.2中截取场景或场景的一部分
我已经成功使用了WritableImage WritableImage snapshot = obj.getScene() . snapshot(null); 现在我想在pdf文件上输出这个截图 . 我已经设法使用Apache pdfbox库使用以下代码将文本输出到pdf: PDDocument doc = null; PDPage page = null; try{ doc = n... -
1 votesanswersviews
Java - PDFBox 1.8.9 unicode textfile到pdf
我在SO上忽略了与此问题相关的所有问题,但无法找到并回答 . 我有一个textFile,其中包含unicode字符,如“ā”,“š”,“ī”等 . 问题是,当我将textFile写入PDF时,pdf文件无法正确显示 . 如何设置我的代码,所以我可以在我的PDF上写这些字符?也许更好的问题是:这甚至可能吗?由于我一直在寻找这个几个小时,无法找到解决方案 . 由于这个应用程序将是商业的,我不能使用iT... -
1 votesanswersviews
PDFBox 2.0:克服字典键编码
我使用Apache PDFBox 2.0.1从PDF表单中提取文本,提取AcroForm字段的详细信息 . 从单选按钮字段中我挖出了外观词典 . 我对/ N和/ D条目感兴趣(正常和“向下”外观) . 像这样(交互式Bean shell): field = form.getField(fieldName); widgets = field.getWidgets(); print("Fie... -
1 votesanswersviews
₹(印度卢比符号)符号打印为? (问号)pdf使用Apache PDFBOX
我正在尝试使用apache pdfbox在我的pdf文件中编写一个字符串 . 我使用ISO-8859-1作为UTF-8编码 . 但仍然是打印问号 . 尝试了很多并在互联网上寻找解决方案(StackOverflow) . 请有人帮忙 . 提前致谢 public class TestClass { public static void main(String[] args) throws I... -
28 votesanswersviews
如何确定文件是否为PDF文件?
我在Java中使用PdfBox从PDF文件中提取文本 . 提供的某些输入文件无效,PDFTextStripper会暂停这些文件 . 是否有一种干净的方法来检查提供的文件是否确实是有效的PDF? -
126 votesanswersviews
如何从PDF中提取文本? [关闭]
任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息 . 我们希望以 xml 或 json 格式输出数据 . 我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议 . Are there alternatives (commercial ones or f... -
0 votesanswersviews
在PDF提取时忽略表格
我试图在Java中创建一个文本处理应用程序,它需要文本作为输入 . 现在我从用户指定的PDF文件中提取此输入 . 我正在使用PdfBox进行文本提取 . 我遇到的问题是PDF文件可能包含表格,方程式和特殊符号,因此PdfBox提取的文本在许多地方都包含垃圾 . 由于这个原因,我的文本处理应用程序无法提供最佳结果 . 我想知道PDF是否具有表的特定格式,以便我可以到达根级别并在提取时将其排除 . 此... -
1 votesanswersviews
在markMatch上选择2 toUpperCase错误
所以我一直在使用select2进行非ajax查询,到目前为止它非常有用 . 但是,我想使用其中一个下拉列表来获取ajax json响应 . 在整个单片文档中,几乎没有发现如何使用它的tid位 . 单片文件:http://ivaynberg.github.io/select2/ 除了正在编写的代码示例,几乎没有任何HTML代码或json示例,我现在正在亏损 . 所以这是我得到的一个json: [{“... -
5 votesanswersviews
如何使IObjectContextAdapter从EF 6适应EF Core
我正在尝试将此类移植到EF核心: https://github.com/mehdime/DbContextScope/blob/master/Mehdime.Entity/Implementations/DbContextScope.cs 但是我有这个问题: 错误CS0246:找不到类型或命名空间名称'IObjectContextAdapter'(您是否缺少using指令或程序集引用?)(CS0... -
2 votesanswersviews
使用PDFBox 2.0.2从PDF中提取文本缺少类PDFTextStripper()
我在java中使用PDFBox 1.8.10实现了简单的文本提取方法 . 由于某些原因我必须将库升级到PDFBox 2.0.2 . 可能删除PDFTextStripper()方法或在新版本中找到另一个包 . 有没有办法解决这个问题?或者你能建议另一种从PDF获取文本的方法吗? 这是我的代码: public String extractTextFromPdf() { File jInput... -
333 votesanswersviews
我应该使用int还是Int32
在C#中, int 和 Int32 是相同的,但我已多次阅读 int 优于 Int32 ,没有给出任何理由 . 有原因,我应该关心吗? -
2 votesanswersviews
ushort等价
我在C#中有一个应用程序,我正在尝试转换为java . C#app有一些ushort类型的变量 . java中有等价的吗? 谢谢 -
2 votesanswersviews
使用NHibernate进行SQLDateTime溢出不一致
我们有一个非常奇怪的错误,当我们想要从WCF服务中保存一些东西时,有时我们会收到此错误 . 我们保存的对象包含NO无效的日期时间,我们在保存之前都会检查它们 . 当我们看到此错误时,数据库有时会挂起,并且WCF处于故障状态 . 当我重新启动数据库和托管WCF的IIS Web应用程序并尝试再次保存时 . 它有效..我们无能为力,所以如果有人有一些建议,请分享 以下是错误: 2010-03-05 10... -
9 votesanswersviews
byte []到ushort []
这是我的问题 . 请跟我说一点解释: 我正在读取tiff图像到缓冲区;我的tiff的每个像素由一个ushort(16位数据,非负数)表示 . 我的图像大小是64 * 64 = 4096.当我的tiff加载到缓冲区时,缓冲区长度因此是8192(两倍于4096) . 我想这是因为在我的缓冲区中,计算机使用2个字节来存储单个像素值 . 我想得到任何特定像素的值,在这种情况下,我应该将每2个字节组合为1个... -
4 votesanswersviews
c#源数组不够长 . 检查srcIndex和length,以及Array.Copy的数组下限
我已经实现了多个客户端和服务器 . 客户端以2分钟的固定间隔向服务器发送大小为238或564的tcp数据包 . 数据包的结构如下 1)数据包标头 - 44字节此标头大小不会更改,并随每个数据包一起提供 . 2)在报头出现多于1个数据包之后,这些数据包的大小为16或32字节 . 这些数据包的数量随着从客户端到服务器的每个数据包而变化,并且这些数据包的数量决定了数据包的总大小(238或512) ... -
1 votesanswersviews
AppFabric缓存将大对象添加到远程服务器
我正在为Windows Server 1.1使用AppFabric缓存 . 我正在尝试将80MB的对象添加到位于网络上另一台服务器上的缓存中 . 我收到以下错误: ErrorCode:SubStatus:暂时失败 . 请稍后重试 . (一个或多个指定的缓存服务器不可用,这可能是由繁忙的网络或服务器引起的 . 对于内部部署缓存集群,还要验证以下条件 . 确保已为此客户端帐户授予安全权限,并检查A... -
1 votesanswersviews
NuGet相同版本的依赖关系
我想在TeamCity构建服务器上自动生成nuget包 . 我们使用TeamCity AssemblyInfo Patcher使特定版本的所有dll具有相同的版本号 . 我们从项目中生成多个NuGet包 . 如何在依赖项字段中指定版本号,以便它使用与正在构建的包相同的编号 without hardcoding the number in the NuGet .spec file ? 例如, MyP... -
3 votesanswersviews
将ushort []转换为byte []并返回
我有一个ushort数组,需要转换成一个字节数组,通过网络传输 . 一旦到达目的地,我需要将其重新转换回与之相同的ushort阵列 . Ushort Array 是一个长度为217,088的数组(1D阵列的故障图像512乘424) . 它存储为16位无符号整数 . 每个元素是2个字节 . Byte Array 它需要转换为字节数组以用于网络目的 . 由于每个ushort元素值2个字节,我假设字节数... -
0 votesanswersviews
连接字符串,转换为ushort,与ushort进行比较
所以我有一些常量: const ushort _WIN32_WINNT_NT4 = 0x0400; const ushort _WIN32_WINNT_WIN2K = 0x0500; .... 然后我有一个主要的版本号,次要版本号和服务包号,当你将它们连接在一起时,它与上面的数字相同 - 除了其中2个是 int ,其中一个是 string . 我可以将它们全部变成这样的字符串: string ... -
0 votesanswersviews
ng-include内联SVG <lineargradient>除Chrome中外不显示渐变
我已经设置了一个NG-INCLUDE,它加载一个包含“hover_color_change”类的SVG文件,以便正确的多边形可以更新其fill属性: <div class="prod-illustration-div col s12 m8"> <div class="prod-svg-wrapper" ng-include="... -
195 votesanswersviews
.NET数据结构:ArrayList,List,HashTable,Dictionary,SortedList,SortedDictionary - 速度,内存以及何时使用?
.NET有很多复杂的数据结构 . 不幸的是,它们中的一些非常相似,我不总是确定何时使用一个以及何时使用另一个 . 我的大多数C#和Visual Basic书籍都在一定程度上谈论它们,但它们从未真正涉及任何真实的细节 . Array,ArrayList,List,Hashtable,Dictionary,SortedList和SortedDictionary之间有什么区别? 哪些是可枚举的(ILis... -
363 votesanswersviews
首选:Nullable <> . HasValue或Nullable <>!= null?
我总是使用(a) Nullable<>.HasValue 因为我喜欢语义 . 但是,最近我正在研究其他人的现有代码库,他们专门使用(b) Nullable<> != null 代替 . 是否有理由使用一个而不是另一个,还是纯粹的偏好? (一个) int? a; if (a.HasValue) ... (b)中 int? b; if (b != null) ... -
101 votesanswersviews
字典和Hashtable之间的区别[重复]
可能重复:为什么Dictionary优先于C#中的哈希表? Dictionary和Hashtable有什么区别 . 如何决定使用哪一个? -
254 votesanswersviews
.NET HashTable与字典 - 字典能否同样快?
我想弄清楚何时以及为什么要使用Dictionary或HashTable . 我在这里做了一些搜索,发现有人在谈论字典的一般优点,我完全赞同,这导致拳击和拆箱优势,以获得轻微的性能提升 . 但是我也读过字典并不总是按照它们插入的顺序返回对象,它被排序的东西 . 作为HashTable的地方 . 据我了解,这导致HashTable在某些情况下更快 . 我的问题是,这些情况可能是什么?我上面的假设我错了...