首页 文章

从非结构化字符串中提取键值对的最佳方法?

提问于
浏览
0

避免特定模式的大多数硬编码规则 .

我目前正在开发与AWS Textract类似的项目,link here . 我试图弄清楚如何从这一堆信息中获取现有的Key-Value Pairs,并以最佳方式解决问题 .

例如,我们有这样的文字:

在本文档中,我们将找到不同的键和值,如id:1和那个国家:法国没有特定的标点符号,可能还在谈论我的 Health 状况有多好......

提取将是这样的:

id : 1
country : France
health : good

我真正知道的是,亚马逊使用“置信度”变量从这种场景中提取信息,我猜这涉及一些机器学习算法 . 就我而言,我没有那么大的数据库可供学习 .

我非常确定有一个更简单的解决方案,而且不太灵活 .

1 回答

  • 0

    我相信spaCy库可能是满足您需求的正确工具 . 查看GitHub上的描述来弄清楚 .

    它可以使用spacy-nlp包暴露给Node JS .

相关问题