停用词和矢量制作-Java 学习之路

在text2vec中，我能找到的关于停用词的唯一功能是“create_vocabulary” . 但在文本挖掘任务中，我们通常需要消除资源文档中的停用词，然后构建语料库或其他进一步的过程 . 我们如何使用“stopword”来处理使用text2vec构建语料库，dtm和tcm的文档？

我以前用过tm进行文本挖掘 . 它具有分析PDF文档的功能，但它将一篇论文作为几个向量（一行，一个向量）读取，而不是像我期望的那样将每个文档作为向量读取 . 此外，tm中的格式交换功能在中文中存在乱码问题 . 如果使用text2vec来阅读文档，是否可以将一篇论文读入一个向量？（又称 . 向量的大小是否足以让一篇论文发表在期刊上？）否则，text2vec中内置的语料库和向量与内置的tm兼容？

1 回答

1
有两种方法可以创建文档术语矩阵：
- 使用功能散列
- 使用词汇
有关详细信息，请参阅text-vectorization vignette .

你很有兴趣2选择 . 这意味着您应该构建词汇表 - 将在所有下游任务中使用的单词/ ngram集 . create_vocabulary 创建词汇表对象，只有来自此对象的术语将用于后续步骤 . 因此，如果您将 stopwords 提供给 create_vocabulary ，它将从语料库中所有观察到的单词集中删除它们 . 如您所见，您应该只提供一次停用词 . 所有的下游任务都适用于词汇 .

回答第二个问题 .

text2vec 不提供用于阅读PDF文档的高级功能 . 但它允许用户提供自定义阅读器功能 . 您所需要的只是阅读带有一些功能的完整文章，并将它们重塑为字符向量，其中每个元素对应于所需的信息单元（完整文章，段落等） . 例如，您可以使用 paste() 函数轻松地将线条组合为单个元素 . 例如：
```
article = c("sentence 1.", "sentence 2")
full_article = paste(article, collapse = ' ')
#  "sentence 1. sentence 2"
```
希望这可以帮助 .
回复于 2024-04-29T11:52:11+08:00

停用词和矢量制作

1 回答

相关问题