在哪里可以找到文本挖掘任务的特定于域的语料库？

提问于 2024-04-28T15:45:38+08:00

浏览次

0

我正在研究一个专注于计算机技术文档的文本挖掘项目 . 所以有很多术语 . 像词性标注这样的任务需要一些训练数据来构建pos-tagger . 我认为这个训练数据应该来自同一个域，正确标记“.NET，COM，JAVA”等字样 .

那我在哪里可以找到这样的语料库？或者有什么工作吗？或者我们可以调整现有的标记器来处理特定于域的任务吗？

2 回答

1

收集培训数据（和定义功能）将是这个问题最困难的一步 . 我确定那里有数据集 . 但另一种选择是识别一些专注于您感兴趣领域的期刊或新闻网站，并抓取它们并下拉文本，或者通过搜索关键字验证您下载的每篇文章 . 我之前已经做过这样的事情来开发一个专注于选举的语料库 .

回复于 2024-04-28T15:45:38+08:00
3

不幸的是，它是 domain-specific ，你可以找到这样的语料库 .

第二十二条军规 . 专业数据没有一般来源 .

就像没有通用软件来解决特定领域的问题一样 .

回复于 2024-04-28T15:45:38+08:00

相关问题