从语料库构建词库

提问于 2024-05-04T18:56:11+08:00

浏览次

2

我正在研究自然语言处理应用程序 . 我有一个描述30个域名的文本 . 每个域都定义了一个简短的段落来解释它 . 我的目标是从这个文本构建一个词库，以便我可以从输入 string 确定哪些域有关 . 文本大约5000个单词，每个域由150个单词描述 . 我的问题是：

我是否有足够长的文本来创建词库？

我的构建同义词库的想法是合法的还是我应该只使用NLP库来分析我的语料库和输入字符串？

目前，我已经计算了按域分组的每个单词的出现次数，因为我首先想到的是索引方法 . 但我真的不确定哪种方法最好 . 有人在NLP和词库建设方面有经验吗？

2 回答

1

如果你的目标是 Build 一个词库，那么 Build 一个词库;如果你的目标不是 Build 一个词库，那么你最好使用那里的东西 .

更一般地说，对于NLP中的任何任务 - 从数据采集到机器翻译 - 你将面临许多问题（技术和理论），并且很容易偏离路径，因为这些问题是 - 大多数时候 - 引人入胜 .

无论任务是什么，使用现有资源构建系统 . 那你就得到了全局;那么你可以开始考虑改进组件A或B.

祝好运 .

回复于 2024-05-04T18:56:11+08:00
2

我认为你要找的是主题建模 . 给定一个单词，您希望获得该单词属于哪个域的概率 . 我建议使用实现LDA（Latent Dirichlet算法）的现成算法 . 或者，您可以访问David Blei's website . 他编写了一些很棒的软件来实现LDA，以及一般的主题建模 . 他还为初学者提供了几个主题建模教程 .

回复于 2024-05-04T18:56:11+08:00

相关问题