首页 文章

在哪里可以找到文本挖掘任务的特定于域的语料库?

提问于
浏览
0

我正在研究一个专注于计算机技术文档的文本挖掘项目 . 所以有很多术语 . 像词性标注这样的任务需要一些训练数据来构建pos-tagger . 我认为这个训练数据应该来自同一个域,正确标记“.NET,COM,JAVA”等字样 .

那我在哪里可以找到这样的语料库?或者有什么工作吗?或者我们可以调整现有的标记器来处理特定于域的任务吗?

2 回答

  • 1

    收集培训数据(和定义功能)将是这个问题最困难的一步 . 我确定那里有数据集 . 但另一种选择是识别一些专注于您感兴趣领域的期刊或新闻网站,并抓取它们并下拉文本,或者通过搜索关键字验证您下载的每篇文章 . 我之前已经做过这样的事情来开发一个专注于选举的语料库 .

  • 3

    不幸的是,它是 domain-specific ,你可以找到这样的语料库 .

    第二十二条军规 . 专业数据没有一般来源 .

    就像没有通用软件来解决特定领域的问题一样 .

相关问题