除了Levenshtein之外，对于有序字集和随后的聚类，更好的距离度量-Java 学习之路

我试图解决一个问题，包括比较大量的单词集，每个单词集包含一组单词（大约600，非常高维度！）的大量有序数量的单词，用于相似性，然后将它们聚类成不同的分组 . 解决方案需要尽可能无人监督 .

数据看起来像

[Apple，Banana，Orange ......]
[Apple，Banana，Grape ......]
[果冻，茴香，橘子......]
[草莓，香蕉，橙...]
...等等

每组中单词的顺序很重要（[Apple，Banana，Orange]与[Apple，Orange，Banana]截然不同

到目前为止我一直使用的方法是使用Levenshtein距离（受距离阈值限制）作为在Python脚本中计算的度量，每个单词都是唯一标识符，从距离生成相似度矩阵，并将该矩阵投入KNIME中的k-Mediods用于分组 .

我的问题是：

Levenshtein是最适合此问题的距离指标吗？
平均/ medoid原型聚类是进行分组的最佳方式吗？
我在群集中没有't yet put much thought into validating the choice for ' k' . 评估聚类的SSE曲线是最好的方法吗？
我的方法有什么缺陷吗？
作为未来解决方案的扩展，在给定培训数据的情况下，是否有人会碰巧有关于为群集分配分配概率的想法？例如，集合1有80％的机会进入集群1等 .

我希望我的问题看起来不是太愚蠢或答案非常明显，我对数据挖掘相对较新 .

谢谢！

2 回答