-
7 votesanswersviews
将单词聚类成组
这是一个家庭作业问题 . 我有一个充满文字的巨大文件 . 我的挑战是将这些单词分类为充分代表单词的不同组/群 . 我处理它的策略是使用K-Means算法,如您所知,采用以下步骤 . 为整个组生成k随机方法 通过将每个单词与最近的平均值相关联来创建K个群集 计算每个集群的质心,这成为新的意思 重复步骤2和步骤3,直到达到某个基准/收敛 . 从理论上讲,我有点得到它,但并不完全 .... -
3 votesanswersviews
ValueError:找到样本数不一致的数组[6 1786]
这是我的代码: from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn.cross_validation import KFold from sklearn.feature_extraction.text import TfidfVectorizer from sklearn imp... -
4 votesanswersviews
计算单词之间的相关系数?
对于文本分析程序,我想分析文本中某些单词的共现 . 例如,我想看到,例如“巴拉克”和“奥巴马”这两个词比其他词更常出现(即具有正相关性) . 这似乎并不那么困难 . 但是,说实话,我只知道如何计算两个数字之间的相关性,而不是文本中两个单词之间的相关性 . 如何才能最好地解决这个问题? 如何计算单词之间的相关性? 我想过使用条件概率,例如巴拉克奥巴马比奥巴马巴拉克更有可能;然而,我试图解... -
19 votesanswersviews
如何从R中的ngram标记列表中有效地删除停用词
这是一种更好的方法,可以做一些我已经无法做到的事情: filter a series of n-gram tokens using "stop words" ,这样n-gram中任何停用词术语的出现都会触发删除 . 我非常希望有一个解决方案适用于unigrams和n-gram,虽然可以有两个版本,一个带有“固定”标志,另一个带有“正则表达式”标志 . 我将这个问题的两个方面放在... -
0 votesanswersviews
如何在概念上考虑标记化单词和单词嵌入之间的关系?
我一直在使用JJ Allaire的指南在神经网络模型中使用文字嵌入进行文本处理(https://jjallaire.github.io/deep-learning-with-r-notebooks/notebooks/6.1-using-word-embeddings.nb.html) . 我很困惑模型如何将标记化的单词序列(x_train)与使用整个数据集定义的单词嵌入(而不仅仅是训练数据)相关... -
0 votesanswersviews
我应该为我的Google Cloud VM选择什么磁盘映像,以便pandas可以像在Mac上一样工作?
我跟着handy tutorial设置了一个带有数据科学库和Debian GNU / Linux 9磁盘映像的Google Compute Engine VM实例 . 我在我的本地机器上运行了一个数据探索笔记本,发现 pandas.read_csv() 搞砸了我的训练数据的导入 . 正确导入,数据集是一个带有一列('text')的pandas数据框 . 该列中的3000个条目中的每一个都是来自生物... -
0 votesanswersviews
需要参考来理解/分析聊天机器人的句子而不使用现有的库
我试图搜索很多关于这个,但我能找到的只是NLP库和AIML或chatbot API的链接 . 我想从头开始并自己分析句子,以便我可以编写一个基本的聊天机器人,给人类响应 . 有人可以指点一些链接/研究论文/教程/视频吗?