首页 文章

停用词和矢量制作

提问于
浏览
1

在text2vec中,我能找到的关于停用词的唯一功能是“create_vocabulary” . 但在文本挖掘任务中,我们通常需要消除资源文档中的停用词,然后构建语料库或其他进一步的过程 . 我们如何使用“stopword”来处理使用text2vec构建语料库,dtm和tcm的文档?

我以前用过tm进行文本挖掘 . 它具有分析PDF文档的功能,但它将一篇论文作为几个向量(一行,一个向量)读取,而不是像我期望的那样将每个文档作为向量读取 . 此外,tm中的格式交换功能在中文中存在乱码问题 . 如果使用text2vec来阅读文档,是否可以将一篇论文读入一个向量?(又称 . 向量的大小是否足以让一篇论文发表在期刊上?)否则,text2vec中内置的语料库和向量与内置的tm兼容?

1 回答

  • 1

    有两种方法可以创建文档术语矩阵:

    • 使用功能散列

    • 使用词汇

    有关详细信息,请参阅text-vectorization vignette .

    你很有兴趣2选择 . 这意味着您应该构建词汇表 - 将在所有下游任务中使用的单词/ ngram集 . create_vocabulary 创建词汇表对象,只有来自此对象的术语将用于后续步骤 . 因此,如果您将 stopwords 提供给 create_vocabulary ,它将从语料库中所有观察到的单词集中删除它们 . 如您所见,您应该只提供一次停用词 . 所有的下游任务都适用于词汇 .

    回答第二个问题 .

    text2vec 不提供用于阅读PDF文档的高级功能 . 但它允许用户提供自定义阅读器功能 . 您所需要的只是阅读带有一些功能的完整文章,并将它们重塑为字符向量,其中每个元素对应于所需的信息单元(完整文章,段落等) . 例如,您可以使用 paste() 函数轻松地将线条组合为单个元素 . 例如:

    article = c("sentence 1.", "sentence 2")
    full_article = paste(article, collapse = ' ')
    #  "sentence 1. sentence 2"
    

    希望这可以帮助 .

相关问题