首页 文章

从语料库构建词库

提问于
浏览
2

我正在研究自然语言处理应用程序 . 我有一个描述30个域名的文本 . 每个域都定义了一个简短的段落来解释它 . 我的目标是从这个文本构建一个词库,以便我可以从输入 string 确定哪些域有关 . 文本大约5000个单词,每个域由150个单词描述 . 我的问题是:

我是否有足够长的文本来创建词库?

我的构建同义词库的想法是合法的还是我应该只使用NLP库来分析我的语料库和输入字符串?

目前,我已经计算了按域分组的每个单词的出现次数,因为我首先想到的是索引方法 . 但我真的不确定哪种方法最好 . 有人在NLP和词库建设方面有经验吗?

2 回答

  • 1

    如果你的目标是 Build 一个词库,那么 Build 一个词库;如果你的目标不是 Build 一个词库,那么你最好使用那里的东西 .

    更一般地说,对于NLP中的任何任务 - 从数据采集到机器翻译 - 你将面临许多问题(技术和理论),并且很容易偏离路径,因为这些问题是 - 大多数时候 - 引人入胜 .

    无论任务是什么,使用现有资源构建系统 . 那你就得到了全局;那么你可以开始考虑改进组件A或B.

    祝好运 .

  • 2

    我认为你要找的是主题建模 . 给定一个单词,您希望获得该单词属于哪个域的概率 . 我建议使用实现LDA(Latent Dirichlet算法)的现成算法 . 或者,您可以访问David Blei's website . 他编写了一些很棒的软件来实现LDA,以及一般的主题建模 . 他还为初学者提供了几个主题建模教程 .

相关问题