在text2vec中,我能找到的关于停用词的唯一功能是“create_vocabulary” . 但在文本挖掘任务中,我们通常需要消除资源文档中的停用词,然后构建语料库或其他进一步的过程 . 我们如何使用“stopword”来处理使用text2vec构建语料库,dtm和tcm的文档?
我以前用过tm进行文本挖掘 . 它具有分析PDF文档的功能,但它将一篇论文作为几个向量(一行,一个向量)读取,而不是像我期望的那样将每个文档作为向量读取 . 此外,tm中的格式交换功能在中文中存在乱码问题 . 如果使用text2vec来阅读文档,是否可以将一篇论文读入一个向量?(又称 . 向量的大小是否足以让一篇论文发表在期刊上?)否则,text2vec中内置的语料库和向量与内置的tm兼容?
1 回答
有两种方法可以创建文档术语矩阵:
使用功能散列
使用词汇
有关详细信息,请参阅text-vectorization vignette .
你很有兴趣2选择 . 这意味着您应该构建词汇表 - 将在所有下游任务中使用的单词/ ngram集 .
create_vocabulary
创建词汇表对象,只有来自此对象的术语将用于后续步骤 . 因此,如果您将stopwords
提供给create_vocabulary
,它将从语料库中所有观察到的单词集中删除它们 . 如您所见,您应该只提供一次停用词 . 所有的下游任务都适用于词汇 .回答第二个问题 .
text2vec
不提供用于阅读PDF文档的高级功能 . 但它允许用户提供自定义阅读器功能 . 您所需要的只是阅读带有一些功能的完整文章,并将它们重塑为字符向量,其中每个元素对应于所需的信息单元(完整文章,段落等) . 例如,您可以使用paste()
函数轻松地将线条组合为单个元素 . 例如:希望这可以帮助 .