Java 学习之路

7 votes

answers

views

将单词聚类成组

这是一个家庭作业问题 . 我有一个充满文字的巨大文件 . 我的挑战是将这些单词分类为充分代表单词的不同组/群 . 我处理它的策略是使用K-Means算法，如您所知，采用以下步骤 . 为整个组生成k随机方法通过将每个单词与最近的平均值相关联来创建K个群集计算每个集群的质心，这成为新的意思重复步骤2和步骤3，直到达到某个基准/收敛 . 从理论上讲，我有点得到它，但并不完全 ....

cluster-analysis k-means text-analysis
3 votes

answers

views

ValueError：找到样本数不一致的数组[6 1786]

这是我的代码： from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn.cross_validation import KFold from sklearn.feature_extraction.text import TfidfVectorizer from sklearn imp...

python machine-learning scikit-learn text-analysis
4 votes

answers

views

计算单词之间的相关系数？

对于文本分析程序，我想分析文本中某些单词的共现 . 例如，我想看到，例如“巴拉克”和“奥巴马”这两个词比其他词更常出现（即具有正相关性） . 这似乎并不那么困难 . 但是，说实话，我只知道如何计算两个数字之间的相关性，而不是文本中两个单词之间的相关性 . 如何才能最好地解决这个问题？如何计算单词之间的相关性？我想过使用条件概率，例如巴拉克奥巴马比奥巴马巴拉克更有可能;然而，我试图解...

math statistics correlation text-analysis
19 votes

answers

views

如何从R中的ngram标记列表中有效地删除停用词

这是一种更好的方法，可以做一些我已经无法做到的事情： filter a series of n-gram tokens using "stop words" ，这样n-gram中任何停用词术语的出现都会触发删除 . 我非常希望有一个解决方案适用于unigrams和n-gram，虽然可以有两个版本，一个带有“固定”标志，另一个带有“正则表达式”标志 . 我将这个问题的两个方面放在...

r performance n-gram stop-words text-analysis
0 votes

answers

views

如何在概念上考虑标记化单词和单词嵌入之间的关系？

我一直在使用JJ Allaire的指南在神经网络模型中使用文字嵌入进行文本处理（https://jjallaire.github.io/deep-learning-with-r-notebooks/notebooks/6.1-using-word-embeddings.nb.html） . 我很困惑模型如何将标记化的单词序列（x_train）与使用整个数据集定义的单词嵌入（而不仅仅是训练数据）相关...

r nlp keras text-analysis
0 votes

answers

views

我应该为我的Google Cloud VM选择什么磁盘映像，以便pandas可以像在Mac上一样工作？

我跟着handy tutorial设置了一个带有数据科学库和Debian GNU / Linux 9磁盘映像的Google Compute Engine VM实例 . 我在我的本地机器上运行了一个数据探索笔记本，发现 pandas.read_csv() 搞砸了我的训练数据的导入 . 正确导入，数据集是一个带有一列（'text'）的pandas数据框 . 该列中的3000个条目中的每一个都是来自生物...

pandas machine-learning google-cloud-platform google-compute-engine text-analysis
0 votes

answers

views

需要参考来理解/分析聊天机器人的句子而不使用现有的库

我试图搜索很多关于这个，但我能找到的只是NLP库和AIML或chatbot API的链接 . 我想从头开始并自己分析句子，以便我可以编写一个基本的聊天机器人，给人类响应 . 有人可以指点一些链接/研究论文/教程/视频吗？

nlp artificial-intelligence text-analysis

将单词聚类成组

ValueError：找到样本数不一致的数组[6 1786]

计算单词之间的相关系数？

如何从R中的ngram标记列表中有效地删除停用词

如何在概念上考虑标记化单词和单词嵌入之间的关系？

我应该为我的Google Cloud VM选择什么磁盘映像，以便pandas可以像在Mac上一样工作？

需要参考来理解/分析聊天机器人的句子而不使用现有的库

热门问题