首页 文章
  • -1 votes
     answers
     views

    斯坦福大学NLP:共同参与解决方案的语料库

    我只是想知道哪个语料库是斯坦福NLP的英语统计共指解析系统 . 如果用在小说上会有效吗?
  • 0 votes
     answers
     views

    当我使用hadoop流时,如何在HDFS中导入nltk语料库

    I got a little problem I want to use nltk corpus in hdfs,But failed.For example I want to load nltk.stopwords in my python code. I use this http://eigenjoy.com/2009/11/18/how-to-use-cascading-with-ha...
  • 0 votes
     answers
     views

    在哪里可以找到文本挖掘任务的特定于域的语料库?

    我正在研究一个专注于计算机技术文档的文本挖掘项目 . 所以有很多术语 . 像词性标注这样的任务需要一些训练数据来构建pos-tagger . 我认为这个训练数据应该来自同一个域,正确标记“.NET,COM,JAVA”等字样 . 那我在哪里可以找到这样的语料库?或者有什么工作吗?或者我们可以调整现有的标记器来处理特定于域的任务吗?
  • 0 votes
     answers
     views

    多标签分类,包括作为标签的数字范围

    我有一个分类问题,我的标签是等级,0 - 100,增量为1(例如1,2,3,4) . 我有一个数据集,其中每一行都有一个名称,文本语料库和一个评级(0 - 100) . 从文本语料库我试图提取我可以提供给我的分类器的功能,这将输出每行相应的评级(0 - 100) . 对于功能选择,我想从基本的单词包开始 . 然而,我的问题在于分类算法 . sci-kit中是否有分类算法学习支持这类问...
  • 2 votes
     answers
     views

    从语料库构建词库

    我正在研究自然语言处理应用程序 . 我有一个描述30个域名的文本 . 每个域都定义了一个简短的段落来解释它 . 我的目标是从这个文本构建一个词库,以便我可以从输入 string 确定哪些域有关 . 文本大约5000个单词,每个域由150个单词描述 . 我的问题是: 我是否有足够长的文本来创建词库? 我的构建同义词库的想法是合法的还是我应该只使用NLP库来分析我的语料库和输入字符串? 目前,我已经计...
  • 0 votes
     answers
     views

    拆分用R和Quanteda标记语料库

    我正在为NLP开展一个项目 . 我需要在.txt文件中获取一些博客,新闻和推文(您可能已经听说过这个顶点)并创建n-gram频率 . 我做了一些实验,将 txt 文件带到频率 data frame 进行分析: Read > Conver to corpus > Clean corpus > Tokenize > Convert to dfm > Convert to ...

热门问题