-
0 votesanswersviews
使用gensim的短语获取三元组时出错
我想提取给定句子的所有bigrams和trigrams . from gensim.models import Phrases documents = ["the mayor of new york was there", "Human Computer Interaction is a great and new subject", "machi... -
1 votesanswersviews
.csv导入到R返回警告消息“在扫描中(文件=文件,什么=什么,sep = sep,quote = quote,dec = dec,:”
我正在尝试将描述数据拉入R以进行文本挖掘 . file <- read.csv ("file.csv", stringsAsFactors=FALSE) 返回以下内容: 警告消息在扫描中(file = file,what = what,sep = sep,quote = quote,dec = dec,:引用字符串中的EOF) 并减少90%的行数 我试过添加几件事: s... -
0 votesanswersviews
predict.svm函数R文本挖掘?
我有一个包含句子和标签的训练集(1 et -1) . 创建一个svm模型后 . 我想预测新数据的标签和分数 . 这是我的代码: library(tm); require(RcmdrPlugin.temis); library(RTextTools); require(e1071) news=read.csv("C:..polarity.csv",header=F,sep=';'... -
1 votesanswersviews
停用词和矢量制作
在text2vec中,我能找到的关于停用词的唯一功能是“create_vocabulary” . 但在文本挖掘任务中,我们通常需要消除资源文档中的停用词,然后构建语料库或其他进一步的过程 . 我们如何使用“stopword”来处理使用text2vec构建语料库,dtm和tcm的文档? 我以前用过tm进行文本挖掘 . 它具有分析PDF文档的功能,但它将一篇论文作为几个向量(一行,一个向量)读取,而不... -
1 votesanswersviews
虽然我的不是原子矢量,但我仍然得到错误:“$运算符对原子矢量无效”
我正在尝试在csv数据文件上执行文本挖掘 . 我所指的来源是在Twitter数据上执行的 . 但我想对存储在csv中的文本数据做类似的事情 . 我正在尝试以下代码: data <- read.csv("Joined_Tab.csv") dtweets <- data[1:30,] for(i in 1:20) { cat(paste("[ [&quo... -
0 votesanswersviews
使用跳过 - 否定抽样和带有情绪评分的词语进行情绪分析
我想使用skip-gram负抽样以无监督的学习方式对印尼语twitter消息进行情绪分析 . 这就是我打算这样做的方式: 得到推文 . 将所有这些文件放在一个文本文件中 . 执行学习过程以获得每个单词的向量表示 . 使用tf-idf获取文本中每个句子的句子向量 . 将已经具有情感值的单词(例如来自this list)与句子向量值组合以确定新(测试)推文的情绪 . 我的问题是:我可以用什么进一步的学... -
0 votesanswersviews
如何在 Lucene 索引中映射不同的 URL 对并查询这些 URL?
如何将 URL 映射添加到 Lucene 并读取它们? 存储如:url1 - url2。如果你发送查询url1 get url2。我使用PhraseQuery,TermQuery和FuzzyQuery但无法获得结果。 例如: http://www.w3.org/2004/02/skos/core#山 - http://www.w3.org/2004/02/skos/core#EVERST -
1 votesanswersviews
从多个文件夹中读取多个文本文件
我正在尝试读取子文件夹中的所有'* .txt'文件,但似乎循环中存在问题 . 基本上,文件夹的结构如下: branch1 branch 2 txt.file result I want 1 -------- 2002----------a---------------a ---------2003----------b---------------b+c ... -
6 votesanswersviews
是否可以向RTextTools包提供自定义停用词列表?
使用tm包我可以这样做: c0 <- Corpus(VectorSource(text)) c0 <- tm_map(c0, removeWords, c(stopwords("english"),mystopwords)) mystopwords 是我要删除的其他停用词的向量 . 但我找不到使用RTextTools包的等效方法 . 例如: dtm <- c... -
0 votesanswersviews
循环浏览Word / PDF文档并将特定文本提取到表R.
我有一个包含大约150个Word和PDF(相同文本)文档的文件夹 . 数据在这里:http://www.sicgen.pt/antigen_folder/data_sheet/AB0003_ERP57_AB_data_sheet2003.pdf 文本总是像(在加载pdftools之后): library(pdftools) u <- pdf_text("AB0003_ERP57_A... -
0 votesanswersviews
如何使用R将表从PDF提取到可用的tibble中
我正在尝试使用R从 .pdf 文件中提取表 . 我尝试使用 tabulizer 包将表提取到一个大的列表中 . 我想通过清理表(它们都是不同的)并将它们放入 tibble (或 data.frame )中,进一步采取两个步骤 . #incase you don't have the tabulizer package, the below is needed install.packages(&q... -
1 votesanswersviews
聚类python中的单词列表
我是文本挖掘的新手,这是我的情况 . 假设我有一个单词列表['car','dog','puppy','vehicle'],我想将单词分成k组,我希望输出为[['car','vehicle' ],['狗','小狗']] . 我首先计算每个成对词的相似性得分以获得4×4矩阵(在这种情况下)M,其中Mij是词i和j的相似性得分 . 在将单词转换为数字数据之后,我利用不同的聚类库(例如sklearn)或者... -
1 votesanswersviews
挖掘Twitter数据以查找有关用户的见解?
我开始的项目是通过他的推特 Profiles 分析用户的兴趣和参与度 . 通过分析他的推特数据可以获得什么样的指标?我觉得可以做的事情包括: 用户通过分析他的推文谈论最多(他的兴趣)的主题 . 他活跃的社区(通过分析哈希标签) 通过将推文分类为正/负的人的情绪 . 其他趋势可能包括他的外展以及他与之交往的人 . 是否有其他有趣的方面可以通过他的 Profiles 得出一个人? Tw... -
1 votesanswersviews
如何使用机器学习算法识别URL中的新模式(文本挖掘)
我在分析一些URL后尝试识别新模式 . 所以,假设我正在调查假设网站Yoohle.com,他们的网址具有以下结构 . domain = yoohle.com q =搜索短语 lan =使用的语言 pr = partner_id br = browser_id 所以示例网址将如下所示 www.yoohle.com/test_folder/test_page?q=hello+w... -
0 votesanswersviews
在哪里可以找到文本挖掘任务的特定于域的语料库?
我正在研究一个专注于计算机技术文档的文本挖掘项目 . 所以有很多术语 . 像词性标注这样的任务需要一些训练数据来构建pos-tagger . 我认为这个训练数据应该来自同一个域,正确标记“.NET,COM,JAVA”等字样 . 那我在哪里可以找到这样的语料库?或者有什么工作吗?或者我们可以调整现有的标记器来处理特定于域的任务吗? -
2 votesanswersviews
sample.int(m,k)中的错误:不能采用大于总体的样本
首先,让我说我是机器学习,kmeans和r的新手,这个项目是一个了解更多这方面的工具,并将这些数据呈现给我们的CIO,所以我可以用它来开发新的服务台系统 . 我有一个60K行文本文件 . 该文件包含教师在3年内输入的服务台门票的 Headers . 我想创建一个r程序来获取这些 Headers 并创建一组类别 . 例如,与打印问题相关的术语,或与投影仪灯泡相关的一组术语 . 我用r打开文本文档,... -
4 votesanswersviews
用于呈现文本挖掘结果的数据可视化技术
我正在使用文本挖掘来探索自然语言语料库中语音域的术语使用差异 . 该研究将主要关注关键术语的分布 . 有哪些适当且有效的方式可视化地呈现此类信息? -
-1 votesanswersviews
数据挖掘和文本挖掘有什么区别?
Data Mining 和 Text Mining 之间有什么区别?两者都指将非结构化数据提取到结构化数据 . 这两种形式都以同样的方式运作吗? -
4 votesanswersviews
Java - 在文本挖掘中实现机器学习方法
我有一些文本,我想通过使用Weka库在Java中实现 Machine Learning 方法来挖掘它们 . 为此目的,我已经做了一些事情,但由于整个代码太长,我只想展示一些关键方法,并了解如何训练和测试我的数据集,并解释结果等 . 仅供参考,我正在使用Twitter4J处理推文 . 首先,我获取了推文并保存在文本文件中(当然是ARFF格式) . 然后我手动标记他们的情绪(积极,中立,消极) . 基... -
-4 votesanswersviews
文本挖掘和机器学习[关闭]
我有一个单词和文本的数据集,我想制作聚类(通过K-means)或任何其他无监督/监督学习方法来区分单词,例如,单词'John'将被归类为名称(并将与其他人群集)人名),'brazil'作为一个地方等...是否有一个模型,我可以用来解决问题 . 我听说过N-gram,但我不知道如何在x,y图等上绘制Ngrams概率如果你有任何精彩的例子,请参阅 -
25 votesanswersviews
大型机器学习[关闭]
我需要在一个大数据集(10-100亿条记录)上运行各种机器学习技术 . 问题主要是文本挖掘/信息提取,包括各种内核技术但不限于它们(我们使用一些贝叶斯方法,自举,渐变提升,回归树 - 许多不同的问题和解决方法) 什么是最好的实施?我在ML方面经验丰富,但是对于大型数据集没有多少经验 . 是否有任何可扩展和可定制的机器学习库利用MapReduce基础设施强烈偏好c,但Java和python都可以使用... -
0 votesanswersviews
根据 Build 提及的位置/时间对文本进行分类
鉴于英文文本较长(>几段),是否有一种基于规则的NLP方法来对一组地点或时间发生的文本进行分类?例如: 爱丽丝去了伦敦 . 她在酒店遇到了鲍勃,他们出去吃饭 . 他们讨论过旧时光,结交新朋友 Cassandra . 在接下来的一周,... [更多段落的活动,隐含在伦敦]爱丽丝然后离开伦敦,然后回到马德里 . 她... 作为读者,我们可以说爱丽丝,鲍勃和 Cassandra 都在伦敦并在... -
-2 votesanswersviews
运行hadoop wordcount示例时出现错误消息
我用这个命令在Hadoop中运行wordcound示例 . hadoop jar /usr/local/Cellar/hadoop/3.0.0/libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount inputWiki/Wiki_data_100MB outputWiki0301 我收到如下错误信息... -
16 votesanswersviews
如何使用word2vec找到最接近向量的单词
我刚开始使用Word2vec,我想知道如何才能找到最接近向量的单词 . 我有这个向量,它是一组向量的平均向量: array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32) 是否有直接的方法在我的训练数据中找到与此向量最相似的单词? 或者唯一的解决方案是计算此向量与训练数据中每个单词的向量之间的余弦相似度,然后选择最接近的一个... -
4 votesanswersviews
为什么我们可以使用熵来衡量语言模型的质量?
我正在阅读<Foundations of Statistical Natural Language Processing> . 它有关于信息熵与语言模型之间关系的以下陈述: ......这里的关键点是,如果模型捕获更多的语言结构,那么模型的熵应该更低 . 换句话说,我们可以起诉熵作为我们模型质量的衡量标准...... 但是这个例子怎么样: 假设我们有一台机器一个接一个地吐出2个字符... -
0 votesanswersviews
GATE如何处理机器学习(文本分类)?
以下面的句子作为例子(来自GATE官方教程幻灯片:模块11 https://gate.ac.uk/sale/talks/gate-course-may10/track-3/module-11-ml-adv/): I was told the item was in stock and next day delivery. After a couple of days i chased them t... -
315 votesanswersviews
什么是“熵和信息增益”?
我正在读这本书(NLTK)而且令人困惑 . Entropy 是defined as: 熵是每个标签乘以同一标签的对数概率的概率之和 如何在文本挖掘方面应用熵和最大熵?有人可以给我一个简单,简单的例子(视觉)吗? -
0 votesanswersviews
无法使用ggplot2 [暂停]可视化字数统计图
我有一个整洁的文档术语矩阵,我已成功完成情绪分析,现在我试图通过使用ggplot2绘制单词来查看哪些词通常对正面或负面情绪有贡献 . 到目前为止我有这个: dtm_sentiments %>% count(sentiment, term, wt = count) %>% ungroup() %>% filter(n >= 200) %>% mutate... -
12 votesanswersviews
使用R识别PDF表
我正在尝试从一些pdf报告中的表中提取数据 . 我已经看到一些使用pdftools和类似软件包的例子我成功获取了文本,但是,我只想提取表格 . 有没有办法使用R来识别和提取表格? -
-2 votesanswersviews
是否有任何数据挖掘/文本挖掘/机器学习技术,以找到给定文档最合适的标签[关闭]
假设我在关系表中用列表示了大量文档 ID (unique identifier) Title (255 characters) Description (5000 characters) Category (predefined meta-data ) Additional Notes (1000 characters ) 我想为文档表中的每一行添加一个或多个标签...