首页 文章
  • -1 votes
     answers
     views

    jaccard_similarity_score引发ValueError:不支持连续多输出

    我想计算使用KMeans生成的集群之间的相似性,使用Jaccard索引(来自sklearn.metrics import jaccard_similarity_score) . 这些可以是包含特定值的矩阵:at [i,j]应该是簇i和j之间的相似性 . 我现在的代码: from sklearn import datasets from sklearn.cluster import KMeans f...
  • 0 votes
     answers
     views

    Streaming K-means Spark Scala:获取输入字符串的java.lang.NumberFormatException

    当我从包含双值的目录中读取CSV数据并在其上应用流式K-means模型时,如下所示, // CSV文件 40.729,-73.9422 40.7476,-73.9871 40.7424,-74.0044 40.751,-73.9869 40.7406,-73.9902 ..... // SBT依赖项: name:=“Application name”version:=“0.1”scalaVe...
  • 30 votes
     answers
     views

    Scikit Learn - K-Means - Elbow - 标准

    今天我正在尝试学习一些关于K-means的东西 . 我已经理解了算法,我知道它是如何工作的 . 现在我正在寻找正确的k ...我发现肘部标准作为检测正确k的方法,但我不明白如何使用它与scikit学习?!在scikit中学习我是以这种方式聚集事物 kmeans = KMeans(init='k-means++', n_clusters=n_clusters, n_init=10) kmeans....
  • 0 votes
     answers
     views

    流媒体Kmeans Spark JAVA

    嗨基本上我们想用KAFKA SPARK Streaming在我们的论文中捕捉Twitter垃圾邮件 . 我想使用streamingKmeans . 但我有一个非常新手和严肃的问题: 在这个Spark StreamingKmeans scala示例(https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apac...
  • -2 votes
     answers
     views

    通过机器学习共同主题对单词进行分组[暂停]

    我有一个关键字列表,我需要根据他们的主题分别分组(或群集) . 问题是我拥有的数据没有任何指标来表示这些单词之间的差异 . 例如,'足球'和'板球棒'应该分成不同的组,因为它们代表不同的运动 . 是否有机器学习或nlp库(或任何图书馆)已经保存了这样的主题和相关单词?
  • 1 votes
     answers
     views

    R- R中的连续K均值聚类操作

    假设我们在10个葡萄酒样本(行)上有一个包含5个化学测量值(例如,var1,var2,var3,var4,var5)的10x5数据集 . 我们希望使用k均值聚类基于化学测量对葡萄酒样品进行聚类 . 这样做很容易 . 但是,我想进行连续聚类,首先使用单个化学测量对葡萄酒样品进行聚类,然后使用var1,var2,var3,var4和var5(所有一元,二元,三元,四元和所有组合)的所有组合执行聚类操作...
  • 0 votes
     answers
     views

    libKMcuda我在安装libKMcuda时发现了这个错误

    为libKMCUDA运行setup.py install . 给我错误 命令的完整输出是: / home / hfahad / anaconda3 / bin / python -u -c“import setuptools,tokenize; file ='/ tmp / pip-build-6_fe7y4n / libKMCUDA / setup.py'; f = getattr(token...
  • 1 votes
     answers
     views

    K表示在MATLAB中进行聚类 - 输出图像

    执行K意味着使用k = 3(段)进行聚类 . 所以我: 1)将RGB img转换为灰度 2)将原始图像转换为n X 1列矩阵 3)idx = kmeans(column_matrix) 4)output = idx,返回到与原始图像相同的尺寸 . 我的问题是: A 当我做imshow(输出)时,我得到一个纯白色的图像 . 但是,当我进行imshow(输出[0 5])时,它会显示输出图像 . 我知道...
  • 2 votes
     answers
     views

    基于相似性聚类非结构化文本并计算最佳聚类数

    我是一名数据挖掘初学者,我正试图首先制定一种解决我正在解决的聚类问题的方法 . 假设我们有x个编写器,每个编写器都有一个特定的样式(使用独特的单词等) . 他们每个人都写了很多短文,比方说是ha句 . 我们从作者那里收集了数百个这样的haikus并尝试从haikus中理解,使用上下文分析,我们首先创作了多少作者(在一场大战之后,我们以某种方式丢失了有多少作者的记录!) 让我们假设我为每个haiku...
  • 1 votes
     answers
     views

    解释群集指标

    我在Scikit中通过k-means进行聚类 - 了解398个样本,306个特征 . 特征矩阵是稀疏的,簇的数量是4.为了改进聚类,我尝试了两种方法: 聚类后,我使用ExtraTreesClassifier()来分类和计算要素重要性(在聚类中标记的样本) 我使用PCA将要素尺寸减少到2.我计算了以下指标(SS, CH,SH) Method sum_o...
  • 0 votes
     answers
     views

    IDL中的K均值聚类

    我是IDL的初学者,我想知道我是否可以在IDL中获得一些关于群集的帮助 . 我在Harris Geospatial上找到了一个很好的例子来解释这个方法,然而,我对如何在我自己的数据(ASCII)上运行聚类来执行K均值分析感到困惑 . 如何使用我的数据而不是生成随机数的'random'函数以下是我在Harris上找到的代码: n = 50 c1 = RANDOMN(seed, 3, n) c1[0:...
  • -2 votes
     answers
     views

    绘制特定群集的结果

    我是R的新手,所以我不知道我的查询是否已经重复过 . 我在样本数据集上执行k-means聚类,k = 3,算法返回所需的聚类结果 . 现在我想绘制簇号2的结果,以查看簇2中的成员彼此间隔的距离 . 我该怎么办?谢谢 name <- sample(letters[1:25]) age<-sample(20:50, 25, replace=FALSE) salary <-sample...
  • 0 votes
     answers
     views

    群集后的群集分配问题

    我有一个问题,了解k-means聚类中的集群分配 . 具体来说,我知道该点被分配到最近的簇(到簇中心的最短距离),但我无法重现结果 . 详情如下 . 假设我有一个数据框 df1 : set.seed(16) df1 = data.frame(matrix(sample(1:50, replace = T), ncol=10, nrow=10000)) head(df1, n=4) X1 X2...
  • 0 votes
     answers
     views

    比较k均值聚类

    我有150张图片,每10个不同的人15张 . 所以基本上我知道哪个图像应该属于一起,如果是聚类的 . 这些图像具有73个维度(特征向量),我使用matlab中的kmeans函数将它们聚类为10个聚类 . 后来,我处理了这150个数据点,并将其尺寸从73减少到3,并对它们应用了相同的kmeans函数 . 我想通过应用相同的k-means函数来比较在这些数据集(已处理和未处理)上获得的结果,并希望知道...
  • 0 votes
     answers
     views

    如何在Spark中为kmeans映射MongoDB数据?

    我想在Spark中对MongoDB提供的数据运行k-means . 我有一个针对flatfile的工作示例: sc = SparkContext(appName="KMeansExample") # SparkContext data = sc.textFile("/home/mhoeller/kmeans_data.txt") parsedData = ...
  • 1 votes
     answers
     views

    是否可以在Python中的KMeans中集群非浮点数据(Scikit-Learn)?

    我试图在下面提到的数据上应用KMeans(Scikit-learn) . . 我已经看到了足够的示例,其中Float64值显示在集群中 . 我想知道的是,如果可以在列df [[Description]]上进行聚类,则将x和y轴设置为经度和纬度 . 我的代码看起来像这样 . from sklearn.cluster import KMeans import matplotlib.pyplot as ...
  • 7 votes
     answers
     views

    将单词聚类成组

    这是一个家庭作业问题 . 我有一个充满文字的巨大文件 . 我的挑战是将这些单词分类为充分代表单词的不同组/群 . 我处理它的策略是使用K-Means算法,如您所知,采用以下步骤 . 为整个组生成k随机方法 通过将每个单词与最近的平均值相关联来创建K个群集 计算每个集群的质心,这成为新的意思 重复步骤2和步骤3,直到达到某个基准/收敛 . 从理论上讲,我有点得到它,但并不完全 ....
  • 396 votes
     answers
     views

    R中的聚类分析:确定最佳聚类数

    作为R的新手,我不太确定如何选择最佳数量的聚类来进行k均值分析 . 绘制下面数据的子集后,适合多少个群集?如何进行聚类dendro分析? n = 1000 kk = 10 x1 = runif(kk) y1 = runif(kk) z1 = runif(kk) x4 = sample(x1,length(x1)) y4 = sample(y1,length(y1)) randOb...
  • 1 votes
     answers
     views

    主成分分析(PCA)假设

    我使用PCA减少了3个主要组件中的180维特征空间 . 然后我根据PCA的3个主要组件使用k均值聚类来聚类数据 . 我在维基百科中读到,如果数据集是联合正态分布的,则保证主成分是独立的 . 我没有计算我所有功能的共同分布(180)......这是一个问题吗? 哪些假设(如果有的话)或使用PCA降低维数的最佳实践?
  • 1 votes
     answers
     views

    给定一个单词列表,如何开发一种语法分组的算法方法?

    我正在使用Google Places API,它们包含97个不同位置的list . 我想将位置列表减少到较少数量的位置,因为其中许多位置是可分组的 . 例如, atm 和 bank 成 financial ; temple , church , mosque , synagogue 成 worship ; school , university 成 education ; subway_st...
  • 3 votes
     answers
     views

    如何在Python中相似性或重叠方面比较两个群集分组?

    我正在尝试做的简化示例: 假设我有3个数据点A,B和C.我在这个数据上运行KMeans聚类并获得2个聚类 [(A,B),(C)] . 然后我对这些数据运行MeanShift聚类并获得2个聚类 [(A),(B,C)] . 很明显,这两种聚类方法以不同的方式聚集了数据 . 我希望能够量化这种差异 . 换句话说,我可以使用什么度量来确定从两种算法中获得的两个聚类分组之间的百分比相似性/重叠?以下是可...
  • 23 votes
     answers
     views

    快速(<n ^ 2)聚类算法

    我有100万个5维点,我需要将其分组为k群集,其中k &lt;&lt; 100万 . 在每个簇中,没有两个点应该相距太远(例如,它们可以是具有指定半径的边界球) . 这意味着可能必须有许多大小为1的集群 . 但!我需要运行时间远低于n ^ 2 . n log n左右应该没问题 . 我正在进行这种聚类的原因是为了避免计算所有n个点的距离矩阵(这需要n ^ 2次或几个小时),而我只想计算簇之间的距离...
  • 2 votes
     answers
     views

    k表示聚类算法

    我想对一组10个数据点执行k均值聚类分析,每个数据点都有一个由4个数值组成的数组 . 我使用Pearson相关系数作为距离度量 . 我做了k均值聚类算法的前两步: 1)选择一组k个簇的初始中心 . [我随机选择了两个初始中心] 2)将每个对象分配给距离最近的中心的群集 . [我使用Pearson相关系数作为距离度量 - 见下文] 现在我需要帮助理解算法的第3步: 3)计算集群的新中心: 其...
  • 1 votes
     answers
     views

    容量k-means聚类?

    我是算法和优化的新手 .我正在尝试实现 capacitated k-means ,但到目前为止还没有得到解决和糟糕的结果 .这用作CVRP模拟(容量车辆路径问题)的一部分 .我很好奇,如果我解释引用的算法错误 . 参考:&quot;Improved K-Means Algorithm for Capacitated Clustering Problem&quot; (Geetha, Poontha...
  • 0 votes
     answers
     views

    无法获得集群输出Mahout

    我在Mahout中运行kmeans,作为输出,我得到文件夹clusters-x,clusters-x-final和clusteredPoints . 如果我理解得很好,cluster-x是每次迭代中的质心位置,cluster-x-final是最终的质心位置,clusteredPoints应该是聚类的簇,其中簇ID和权重代表属于簇的概率(取决于点与其质心之间的距离) . 另一方面,cluster-x...
  • 10 votes
     answers
     views

    如何计算质心和数据矩阵之间的距离(对于kmeans算法)

    我是聚类和R的学生 . 为了获得更好的两者的抓地力,我想计算每次迭代的质心和我的xy矩阵之间的距离,直到它“收敛” . 如何使用R解决第2步和第3步? library(fields) x &lt;- c(3,6,8,1,2,2,6,6,7,7,8,8) y &lt;- c(5,2,3,5,4,6,1,8,3,6,1,7) df &lt;- data.frame(x,y) initial matr...
  • -1 votes
     answers
     views

    k-means集群异质性在sklearn中

    如何在收敛期间计算sklearn中的聚类异质性?群集异质性由每个样本点相对于指定群集的欧几里德距离的总和给出 . 这为每个步骤提供了不同的值 .
  • 1 votes
     answers
     views

    K-means中的总距离总和是否必须总是在减少?

    我正在使用Java进行k-means聚类 . 我的代码中没有问题,看起来很好 . 但是,我不明白 . 第1步:选择N个中心 . (假设有N个簇) 步骤2:使用欧几里德距离将每个向量放入具有最近中心的聚类中 . (|| v1 - v2 ||) 第3步:找到每个群集的新均值(=中心) 步骤4:如果中心移动显着,请转到步骤2 然而,当我在每次迭代之后绘制总点数到中心距离的图时,我可以看到总数一直...
  • 2 votes
     answers
     views

    sample.int(m,k)中的错误:不能采用大于总体的样本

    首先,让我说我是机器学习,kmeans和r的新手,这个项目是一个了解更多这方面的工具,并将这些数据呈现给我们的CIO,所以我可以用它来开发新的服务台系统 . 我有一个60K行文本文件 . 该文件包含教师在3年内输入的服务台门票的 Headers . 我想创建一个r程序来获取这些 Headers 并创建一组类别 . 例如,与打印问题相关的术语,或与投影仪灯泡相关的一组术语 . 我用r打开文本文档,...
  • 1 votes
     answers
     views

    加权TF-IDF特征向量中的特定特征,用于k均值聚类和余弦相似性

    我有一组TF-IDF特征向量 . 我想使用两种方法在数组中找到类似的向量: 余弦相似度 k-means聚类 使用Scikit Learn,这个过程非常简单 . 现在我想对某些功能进行加权,以便它们比其他功能更能影响结果 . 例如,我可能想对TF-IDF向量的前100个元素进行加权,以使这些特征比其他特征更能表示相似性 . 如何有意义地加权我的特征向量中的某些特征?对于我上面列出的每个相...

热门问题