首页 文章
  • 5 votes
     answers
     views

    Spark中两个大数据集之间的模糊连接

    我需要根据两列字符串的相似性在两个大数据集之间进行模糊连接(假设每个数据集为30Gb) . 例如: 表格1: Key1 |Value1 ------------- 1 |qsdm fkq jmsk fqj msdk 表2: Key2 |Value2 ------------- 1 |qsdm fkqj mskf qjm sdk 我们的目的是计算value1的每一行与valu...
  • 3 votes
     answers
     views

    使用PHP在多个条目中查找剽窃的可能性

    我正在开发一个跟踪帮助台条目的Web应用程序 . 我们希望找到一种方法来阻止人们复制和粘贴关于常见问题的注释 - 我们希望为每次调用问题编写原始的帮助台条目 . 无论如何,我们有成千上万的条目,其中一些是相似的,我试图找到一种方法将它们全部比较,并指出任何与其他条目非常相似的条目,即80%可能是直接拷贝等 我已经研究过similar_text()和其他一些内置的PHP函数,但我很想听听其他人是否曾...
  • 0 votes
     answers
     views

    借助Latent Dirichlet分配(LDA)或命名实体确定文档的新颖性/相似性

    鉴于索引或数据库包含大量(短)文档(约100万),我正在尝试为每个新传入的文档进行某种新颖性检测 . 我知道我必须计算新文档与索引中每个文档的相似性 . 如果相似性低于某个阈值,则可以将该文档视为新颖的 . 一种常见的方法 - 我想做的 - 是使用向量空间模型并计算余弦相似度(例如,通过使用Apache Lucene) . 但是这种方法有两个缺点: 1) 它的计算成本很高,并且它没有分别包含文档和...
  • 9 votes
     answers
     views

    与php gd的图像比较

    用php和Graphic Draw (GD) Library比较两个图像的最佳方法是什么? 这是场景: alt text http://img262.imageshack.us/img262/4849/imagecomparison.jpg 我有一个图像,我想找到给定集合中哪个图像与它最相似 . 最相似的图像实际上是相同的图像,而不是像素完美匹配但是相同的图像 . 我把这两个图像之间的区别与示例中...
  • 115 votes
     answers
     views

    检查图像与OpenCV的相似性

    OpenCV是否支持两个图像的比较,返回一些值(可能是一个百分比),表明这些图像有多相似?例如 . 如果相同的图像被传递两次将返回100%,如果图像完全不同,将返回0% . 我已经在StackOverflow上阅读了很多类似的主题 . 我也做了一些谷歌搜索 . 可悲的是,我无法想出一个令人满意的答案 .
  • 1 votes
     answers
     views

    Scikit学习随机森林 - 单树的特征

    关于随机森林及其在scikit中的实现,我有一个非常具体的问题 . 我建造了一片森林,到目前为止预测工作得很好 . 但是,我需要知道在安装森林后哪些 particular 特征最终会出现在单树的叶子中 . 我已经理解了层次结构,其中随机森林构建了单个决策树,我可以通过"estimators_"属性访问它,并且在每个决策树都有一个"tree_"属性的路上 . ...
  • 4 votes
     answers
     views

    像这样的模糊和更像这样的区别?

    Lucene的MoreLikeThis(mlt)和FuzzyQuery(flt)有什么区别? 我正在通过Elasticsearch(ES)评估两种查询类型,我发现它们在概念上非常相似: mlt :将现有文档字段与其他文档的字段vs进行比较 flt :将字符串与其他文档的字段进行比较 但是, flt 性能似乎比 mlt 查询慢一个数量级 . 我正在使用最新的ES,后者又使用Lucene ...
  • 1 votes
     answers
     views

    给定一个单词列表,如何开发一种语法分组的算法方法?

    我正在使用Google Places API,它们包含97个不同位置的list . 我想将位置列表减少到较少数量的位置,因为其中许多位置是可分组的 . 例如, atm 和 bank 成 financial ; temple , church , mosque , synagogue 成 worship ; school , university 成 education ; subway_st...
  • 4 votes
     answers
     views

    MongoDB按搜索词相似性排序结果

    我有这个用户集合: { "_id" : ObjectId("501faa18a34feb05890004f2"), "username" : "joanarocha", } { "_id" : ObjectId("501faa19a34feb05890005d3&q...
  • -2 votes
     answers
     views

    如何更新Pyspark数据框's column according to similarities with another dataframe'列?

    我正在使用2个数据帧,让我们说'df1'和'df2',这是下一种: DF1: +--------+--------+ | Col1 | Col2 | +--------+--------+ | 'A' | 1 | +--------+--------+ | 'B' | 2 | +--------+--------+ | 'C' | 3 | +...
  • 3 votes
     answers
     views

    adist:不同的Levenshtein对齐取决于字符串的输入方式

    当使用R中的 adist 函数来计算字符串对之间的Levenshtein对齐时,我会得到不同的结果,这取决于我是为每对运行一次函数还是使用向量一次输入几对 . 这是为什么? Example: 字符串对的转换'knijpen' - 'kneifen','grijpen' - 'greifen'和'lopen' - 'laufen': attr(adist("knijpen&qu...
  • 0 votes
     answers
     views

    在r或python中查找多维数据集之间的相似性

    我有许多具有部分匹配列的多维数据集 . 有没有办法计算它们之间的相似之处?在谷歌和stackoverflow上进行了一些搜索,但我能找到的只是计算列或单维数据集之间相似性的帖子 . ex)找到Data1和2,Data1和3,Data2和3之间的相似性 . Data1 = b c e f h 1 3 2 3 1 3 2 1 3 2 ...
  • 3 votes
     answers
     views

    如何在Python中相似性或重叠方面比较两个群集分组?

    我正在尝试做的简化示例: 假设我有3个数据点A,B和C.我在这个数据上运行KMeans聚类并获得2个聚类 [(A,B),(C)] . 然后我对这些数据运行MeanShift聚类并获得2个聚类 [(A),(B,C)] . 很明显,这两种聚类方法以不同的方式聚集了数据 . 我希望能够量化这种差异 . 换句话说,我可以使用什么度量来确定从两种算法中获得的两个聚类分组之间的百分比相似性/重叠?以下是可...
  • 0 votes
     answers
     views

    比较文件 - 文件相似性

    我目前正在进行一个NLP / IR的java项目,对此我是相当新的 . 该项目由一个包含大约1000个文档的集合组成,每个文档大约有100个单词,结构为带有术语频率的单词包 . 我想根据文档(来自集合)找到类似的文档 . 使用TF-IDF,计算查询(给定文档)和集合中的每个其他文档的tf-idf,然后将这些值作为具有余弦相似性的向量进行比较 . 这可以对它们的相似性有所了解吗?或者它是不合理的,因...

热门问题