法律文本的NLP？-Java 学习之路

我有几十万份法律文件（大部分来自欧盟） - 法律，评论，法庭文件等 . 我试图在算法上对它们有所了解 .

我已经建模了已知的关系（时间，这个 - 变化 - 等等） . 但在单文档级别上，我希望我有更好的工具来快速理解 . 我愿意接受各种想法，但这是一个更具体的问题：

例如：是否有NLP方法来确定文档的相关/有争议部分而不是样板文件？最近泄露的TTIP论文是数千页的数据表，但在那里的一个句子可能会破坏一个行业 .

我过去常常使用google的新版本 Parsey McParface 和其他NLP解决方案，但是虽然它们的工作效果非常好，但我不确定它们在隔离意义方面有多好 .

3 回答

2

我看到你有一个有趣的用例 . 你还提到了语料库的存在（这是一个非常好的加分） . 让我谈谈我为研究论文提取症结所勾勒出的解决方案 .

要理解文档，您需要触发器来告诉（或训练）计算机查找这些“触发器” . 您可以使用监督学习算法来解决这个问题，在最基本的层面上简单地实现文本分类问题 . 但这需要先前的工作，领域专家的帮助最初是为了从文本数据中辨别“触发器” . 有提取句子要点的工具 - 例如，在句子中取名词短语，根据共同出现分配权重并将它们表示为向量 . 这是您的训练数据 . 这可以是将NLP纳入您的域名的一个非常好的开始 .

回复于 2024-04-26T06:49:52+08:00
5

不要使用触发器 . 你需要的是一个词义消歧和领域适应 . 你想理解文档中的内容，即理解语义以弄清楚其含义 . 您可以在skos或json-ld格式中构建术语的法律本体，在知识图中将其表示为本体论，并将其与依赖解析（如tensorflow / parseymcparseface）一起使用 . 或者，您可以使用基于kappa的体系结构流式传输文档 - 类似于使用CoreNLP / Tensorflow / UIMA添加中间NLP层的kafka-flink-elasticsearch，使用redis缓存flink和elasticsearch之间的索引设置以加快进程 . 要了解相关性，您可以在搜索中应用特殊情况 . 此外，应用情绪分析来计算意图和真实性 . 您的用例是信息提取，摘要和语义Web /链接数据之一 . 由于欧盟拥有不同的法律体系，您需要首先概括什么是真正的法律文件，然后将其缩小到与主题或地区相关的特定法律概念 . 您还可以使用LDA或Word2Vec / Sense2Vec中的主题建模技术 . 此外，Lemon也可以帮助将词汇转换为语义和语义，即词汇，即NLP->本体 - >本体 - > NLP . 从本质上讲，将聚类提供给命名实体识别的分类 . 您还可以使用聚类来帮助您构建本体，或使用余弦相似性查看文档或文档集中的单词向量 . 但是，为了尽可能地将文档的稀疏性可视化 . 像常识推理深度学习这样的东西也可能对你的情况有所帮助 .

回复于 2024-04-26T06:49:52+08:00
0

为了理解文档，您需要执行某种语义分析 . 你有两个主要的可能性：

使用框架语义：http://www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标签（SRL）：http://cogcomp.org/page/demo_view/srl

一旦您能够从文档中提取信息，您就可以应用一些后处理来确定哪些信息是相关的 . 查找哪些信息是相关的，与任务相关，我认为您无法找到提取“相关”信息的通用工具 .

回复于 2024-04-26T06:49:52+08:00

法律文本的NLP？

3 回答

相关问题