我正在研究一个专注于计算机技术文档的文本挖掘项目 . 所以有很多术语 . 像词性标注这样的任务需要一些训练数据来构建pos-tagger . 我认为这个训练数据应该来自同一个域,正确标记“.NET,COM,JAVA”等字样 .
那我在哪里可以找到这样的语料库?或者有什么工作吗?或者我们可以调整现有的标记器来处理特定于域的任务吗?
收集培训数据(和定义功能)将是这个问题最困难的一步 . 我确定那里有数据集 . 但另一种选择是识别一些专注于您感兴趣领域的期刊或新闻网站,并抓取它们并下拉文本,或者通过搜索关键字验证您下载的每篇文章 . 我之前已经做过这样的事情来开发一个专注于选举的语料库 .
不幸的是,它是 domain-specific ,你可以找到这样的语料库 .
第二十二条军规 . 专业数据没有一般来源 .
就像没有通用软件来解决特定领域的问题一样 .
2 回答
收集培训数据(和定义功能)将是这个问题最困难的一步 . 我确定那里有数据集 . 但另一种选择是识别一些专注于您感兴趣领域的期刊或新闻网站,并抓取它们并下拉文本,或者通过搜索关键字验证您下载的每篇文章 . 我之前已经做过这样的事情来开发一个专注于选举的语料库 .
不幸的是,它是 domain-specific ,你可以找到这样的语料库 .
第二十二条军规 . 专业数据没有一般来源 .
就像没有通用软件来解决特定领域的问题一样 .