首页 文章

法律文本的NLP?

提问于
浏览
9

我有几十万份法律文件(大部分来自欧盟) - 法律,评论,法庭文件等 . 我试图在算法上对它们有所了解 .

我已经建模了已知的关系(时间,这个 - 变化 - 等等) . 但在单文档级别上,我希望我有更好的工具来快速理解 . 我愿意接受各种想法,但这是一个更具体的问题:

例如:是否有NLP方法来确定文档的相关/有争议部分而不是样板文件?最近泄露的TTIP论文是数千页的数据表,但在那里的一个句子可能会破坏一个行业 .

我过去常常使用google的新版本 Parsey McParface 和其他NLP解决方案,但是虽然它们的工作效果非常好,但我不确定它们在隔离意义方面有多好 .

3 回答

  • 2

    我看到你有一个有趣的用例 . 你还提到了语料库的存在(这是一个非常好的加分) . 让我谈谈我为研究论文提取症结所勾勒出的解决方案 .

    要理解文档,您需要触发器来告诉(或训练)计算机查找这些“触发器” . 您可以使用监督学习算法来解决这个问题,在最基本的层面上简单地实现文本分类问题 . 但这需要先前的工作,领域专家的帮助最初是为了从文本数据中辨别“触发器” . 有提取句子要点的工具 - 例如,在句子中取名词短语,根据共同出现分配权重并将它们表示为向量 . 这是您的训练数据 . 这可以是将NLP纳入您的域名的一个非常好的开始 .

  • 5

    不要使用触发器 . 你需要的是一个词义消歧和领域适应 . 你想理解文档中的内容,即理解语义以弄清楚其含义 . 您可以在skos或json-ld格式中构建术语的法律本体,在知识图中将其表示为本体论,并将其与依赖解析(如tensorflow / parseymcparseface)一起使用 . 或者,您可以使用基于kappa的体系结构流式传输文档 - 类似于使用CoreNLP / Tensorflow / UIMA添加中间NLP层的kafka-flink-elasticsearch,使用redis缓存flink和elasticsearch之间的索引设置以加快进程 . 要了解相关性,您可以在搜索中应用特殊情况 . 此外,应用情绪分析来计算意图和真实性 . 您的用例是信息提取,摘要和语义Web /链接数据之一 . 由于欧盟拥有不同的法律体系,您需要首先概括什么是真正的法律文件,然后将其缩小到与主题或地区相关的特定法律概念 . 您还可以使用LDA或Word2Vec / Sense2Vec中的主题建模技术 . 此外,Lemon也可以帮助将词汇转换为语义和语义,即词汇,即NLP->本体 - >本体 - > NLP . 从本质上讲,将聚类提供给命名实体识别的分类 . 您还可以使用聚类来帮助您构建本体,或使用余弦相似性查看文档或文档集中的单词向量 . 但是,为了尽可能地将文档的稀疏性可视化 . 像常识推理深度学习这样的东西也可能对你的情况有所帮助 .

  • 0

    为了理解文档,您需要执行某种语义分析 . 你有两个主要的可能性:

    使用框架语义:http://www.cs.cmu.edu/~ark/SEMAFOR/

    使用语义角色标签(SRL):http://cogcomp.org/page/demo_view/srl

    一旦您能够从文档中提取信息,您就可以应用一些后处理来确定哪些信息是相关的 . 查找哪些信息是相关的,与任务相关,我认为您无法找到提取“相关”信息的通用工具 .

相关问题