首页 文章
  • 11 votes
     answers
     views

    在python中通过它们的接近度聚类值(机器学习?)[重复]

    这个问题在这里已有答案: Cluster one-dimensional data optimally? [closed] 3个答案 1D Number Array Clustering [duplicate] 2个答案 我有一个在一组对象上运行的算法 . 该算法产生一个得分值,用于指示集合中元素之间的差异 . 排序后的输出是这样的: [1,1,5,6,1,5,10,22,23,23,...
  • -2 votes
     answers
     views

    是否有任何数据挖掘/文本挖掘/机器学习技术,以找到给定文档最合适的标签[关闭]

    假设我在关系表中用列表示了大量文档 ID (unique identifier) Title (255 characters) Description (5000 characters) Category (predefined meta-data ) Additional Notes (1000 characters ) 我想为文档表中的每一行添加一个或多个标签...
  • 1 votes
     answers
     views

    来自不同传感器的数据同步

    所以我们有一个系统可以检测人的活动,他有多个传感器(加速度计等),每个传感器都用机器学习算法单独学习 . 因此传感器可以发送:“我认为80%的人站在那里” . 目前我们已经使用数据集进行了同步,但在现实生活中,传感器是异步的,并且在不同的时间发送数据(每个传感器上的时钟都是不同的) . 所以问题是我们如何使数据集与具有空数据的数据集“同步” . 例子(每行50ms): 那么我怎么能用一个值来填充...
  • 148 votes
     answers
     views

    线性回归和逻辑回归有什么区别?

    当我们必须预测categorical(或离散)结果的值时,我们使用logistic regression . 我相信我们使用linear regression来预测输入值的结果值 . 那么,这两种方法有什么区别?
  • 0 votes
     answers
     views

    使用gensim的短语获取三元组时出错

    我想提取给定句子的所有bigrams和trigrams . from gensim.models import Phrases documents = ["the mayor of new york was there", "Human Computer Interaction is a great and new subject", "machi...
  • -1 votes
     answers
     views

    使用历史数据对未来销售进行预测分析

    我在销售各种产品的公司进行描述性分析和报告 . 我们记录销售交易,每次出售物品时,记录如下: Customer ID (each customer has a unique ID) Product ID (each product has a unique ID) Sale date (其他字段也被记录 - 购买地点,数量,付款方式等) 我们出售了一些大件物品,而我想知道的是,如果可以根据购买历...
  • 1 votes
     answers
     views

    R- R中的连续K均值聚类操作

    假设我们在10个葡萄酒样本(行)上有一个包含5个化学测量值(例如,var1,var2,var3,var4,var5)的10x5数据集 . 我们希望使用k均值聚类基于化学测量对葡萄酒样品进行聚类 . 这样做很容易 . 但是,我想进行连续聚类,首先使用单个化学测量对葡萄酒样品进行聚类,然后使用var1,var2,var3,var4和var5(所有一元,二元,三元,四元和所有组合)的所有组合执行聚类操作...
  • 5 votes
     answers
     views

    从Google财经获取超出API范围的财务数据

    Google的财务API不完整 - 页面上的许多数字如下: http://www.google.com/finance?fstype=ii&q=NYSE:GE 不能通过API获得 . 我需要这些数据来根据Greenblatt的公式对加拿大证券交易所的公司进行排名,可通过谷歌搜索“greenblatt index scans”获得 . 我的问题:在这些网页上访问和处理数据的最智能/最干净/最...
  • 1 votes
     answers
     views

    如何通过在Google上搜索来抓取指向特定域的链接?

    我有一组印度歌曲的歌词,需要用他们发布的年份来标记他们正在进行的实验 . 有一个网站(lyricsindia.net),这些歌词有多年的详尽数据库,但不幸的是,歌词无法在网站上搜索 . 相反,当我将部分歌词作为搜索字符串谷歌时,lyricsindia.net上歌曲的链接始终位于前10名结果中 . 现在,我想知道是否可以使用像scrapy这样的网络爬行框架来使用搜索字符串作为爬行的起点 . 每个Sc...
  • 19 votes
     answers
     views

    机器学习挑战:在java / groovy中诊断程序(数据挖掘,机器学习)

    我打算用Java开发程序来提供诊断 . 数据集分为两部分,一部分用于培训,另一部分用于测试 . 我的程序应该学习从训练数据中分类(BTW其中包含30个问题的答案,每个新栏目,新行中的每个记录最后一栏将被诊断为0或1,在数据诊断栏的测试部分将为空 - 数据集包含大约1000条记录),然后在测试部分数据时进行预测:/ 我从来没有做过任何类似的事情,所以我会感谢有关解决类似问题的任何建议或信息 . 我正...
  • 3 votes
     answers
     views

    除了Levenshtein之外,对于有序字集和随后的聚类,更好的距离度量

    我试图解决一个问题,包括比较大量的单词集,每个单词集包含一组单词(大约600,非常高维度!)的大量有序数量的单词,用于相似性,然后将它们聚类成不同的分组 . 解决方案需要尽可能无人监督 . 数据看起来像 [Apple,Banana,Orange ......][Apple,Banana,Grape ......][果冻,茴香,橘子......][草莓,香蕉,橙...]...等等 每组中单词的顺序很...
  • 23 votes
     answers
     views

    快速(<n ^ 2)聚类算法

    我有100万个5维点,我需要将其分组为k群集,其中k &lt;&lt; 100万 . 在每个簇中,没有两个点应该相距太远(例如,它们可以是具有指定半径的边界球) . 这意味着可能必须有许多大小为1的集群 . 但!我需要运行时间远低于n ^ 2 . n log n左右应该没问题 . 我正在进行这种聚类的原因是为了避免计算所有n个点的距离矩阵(这需要n ^ 2次或几个小时),而我只想计算簇之间的距离...
  • 2 votes
     answers
     views

    k表示聚类算法

    我想对一组10个数据点执行k均值聚类分析,每个数据点都有一个由4个数值组成的数组 . 我使用Pearson相关系数作为距离度量 . 我做了k均值聚类算法的前两步: 1)选择一组k个簇的初始中心 . [我随机选择了两个初始中心] 2)将每个对象分配给距离最近的中心的群集 . [我使用Pearson相关系数作为距离度量 - 见下文] 现在我需要帮助理解算法的第3步: 3)计算集群的新中心: 其...
  • 13 votes
     answers
     views

    Hadoop机器学习/数据挖掘项目的想法? [关闭]

    我是一名研究生CS学生(数据挖掘和机器学习),并且对核心Java(&gt; 4年)有很好的了解 . 我已经阅读了很多关于Hadoop和Map / Reduce的东西 我现在想做一个关于这个东西的项目(在我的科西嘉的空闲时间)以获得更好的理解 . 任何好的项目想法都会非常感激 . 我只是想做这个来学习,所以我真的不介意重新发明轮子 . 此外,与数据挖掘/机器学习相关的任何事情都将是一个额外的奖励(符...
  • 1 votes
     answers
     views

    统计,机器学习和数据挖掘

    我目前正在学习数据挖掘,我有以下问题 . 机器学习和数据挖掘之间有什么关系? 我发现很多数据挖掘技术与统计数据有关,而我的数据挖掘与机器学习有很多关系 . 所以我的问题是:机器学习与统计学密切相关吗? 如果它们没有密切关系,是否有这样的划分将数据挖掘分开,侧重于统计技术和侧重于机器学习技能的数据挖掘?因为我发现一些研究生院的统计部门开设数据挖掘课程 .
  • 1 votes
     answers
     views

    挖掘Twitter数据以查找有关用户的见解?

    我开始的项目是通过他的推特 Profiles 分析用户的兴趣和参与度 . 通过分析他的推特数据可以获得什么样的指标?我觉得可以做的事情包括: 用户通过分析他的推文谈论最多(他的兴趣)的主题 . 他活跃的社区(通过分析哈希标签) 通过将推文分类为正/负的人的情绪 . 其他趋势可能包括他的外展以及他与之交往的人 . 是否有其他有趣的方面可以通过他的 Profiles 得出一个人? Tw...
  • 1 votes
     answers
     views

    如何使用机器学习算法识别URL中的新模式(文本挖掘)

    我在分析一些URL后尝试识别新模式 . 所以,假设我正在调查假设网站Yoohle.com,他们的网址具有以下结构 . domain = yoohle.com q =搜索短语 lan =使用的语言 pr = partner_id br = browser_id 所以示例网址将如下所示 www.yoohle.com/test_folder/test_page?q=hello+w...
  • 0 votes
     answers
     views

    在哪里可以找到文本挖掘任务的特定于域的语料库?

    我正在研究一个专注于计算机技术文档的文本挖掘项目 . 所以有很多术语 . 像词性标注这样的任务需要一些训练数据来构建pos-tagger . 我认为这个训练数据应该来自同一个域,正确标记“.NET,COM,JAVA”等字样 . 那我在哪里可以找到这样的语料库?或者有什么工作吗?或者我们可以调整现有的标记器来处理特定于域的任务吗?
  • 2 votes
     answers
     views

    sample.int(m,k)中的错误:不能采用大于总体的样本

    首先,让我说我是机器学习,kmeans和r的新手,这个项目是一个了解更多这方面的工具,并将这些数据呈现给我们的CIO,所以我可以用它来开发新的服务台系统 . 我有一个60K行文本文件 . 该文件包含教师在3年内输入的服务台门票的 Headers . 我想创建一个r程序来获取这些 Headers 并创建一组类别 . 例如,与打印问题相关的术语,或与投影仪灯泡相关的一组术语 . 我用r打开文本文档,...
  • -1 votes
     answers
     views

    数据挖掘和文本挖掘有什么区别?

    Data Mining 和 Text Mining 之间有什么区别?两者都指将非结构化数据提取到结构化数据 . 这两种形式都以同样的方式运作吗?
  • 12 votes
     answers
     views

    分层聚类:确定最佳聚类数并统计描述聚类

    我可以对R中的方法使用一些建议来确定最佳簇数,然后用不同的统计标准描述簇 . 我是R的新手,具有关于聚类分析统计基础的基本知识 . Methods to determine the number of clusters: 在文献中,一种常用的方法是所谓的&quot;Elbow-criterion&quot;,它比较不同群集解决方案的平方差异和(SSD) . 因此,SSD在分析中针对Cluste...
  • 0 votes
     answers
     views

    scikit-learn解释整数变量

    经过多年对SAS / SPSS产品的数据挖掘,我才开始使用scikit-learn . 我对scikit-learn和pandas的能力感到惊讶,但有一件事我自己无法弄明白 . 让我们假设我的训练数据是由整数构建的,其中一些是编码分类值 . 有什么方法可以控制如何通过树或任何集合树(例如:ExtraTreesClassifier)algorihm来解释变量?正确的方法是将变量类型从int更改为ob...
  • 6 votes
     answers
     views

    概念上将类似文档聚类在一起?

    这更像是一个概念问题,而不是一个实际的实现,我希望有人可以澄清 . 我的目标如下:给定一组文档,我想对它们进行聚类,使属于同一个集群的文档具有相同的“概念” . 根据我的理解,Latent Semantic Analysis让我找到一个术语 - 文档矩阵的低秩近似,即给定矩阵 X ,它将分解 X 作为三个矩阵的乘积,其中一个是对角矩阵 Σ : 现在,我将继续选择低秩近似,即从 Σ 中仅选择前k个...
  • 2 votes
     answers
     views

    在python中有任何更好的预处理库或实现吗?

    我需要预处理一些文本文档,以便我可以应用分类技术,如fcm e.t.c和其他主题建模技术,如潜在的dirichlet分配e.t.c 为了详细说明预处理,我需要删除停用词,提取名词和关键词并执行词干 . 我用于此目的的代码是: #-------------------------------------------------------------------------- #Extracting...
  • 0 votes
     answers
     views

    从复杂网络/ SNA开始 . 将数据集转换为预期格式

    我刚刚开始掌握复杂网络和社交网络分析背后的想法和技术 . 我似乎总是绊倒并陷入数据准备阶段 . 我经常在Google Refine中有一个数据集,基本上是一堆以某种方式相关的行 . 例如,目前我有一个他们参加的组织和活动的列表(有些重复,因为组织可能已经向一个活动发送了多个代表) 所以我可以看到组织将是我的图上的节点,并且如果它们都参加了相同的事件,它们之间的关系就存在了,但是我不知道如何将这个...
  • 0 votes
     answers
     views

    如何找出R中属性之间的相关性

    我是R.的新人 我有一个大型数据集,其中包含许多数字和非数字列 . 我试图找出哪些列高度相关,这种相关性是否有意义 . 首先,我想找出数值和分类值之间的相关性 . 它应该彼此分开 . 我该怎么做才能找出相关性? 以及如何确定数据集中的错误或异常数据? 这只是一个示例数据集; &gt; df1 &lt;- LungCapData22 &gt; sapply(df1,class) LungCap ...
  • 37 votes
     answers
     views

    使用scikit-learn在Naive Bayes分类器中混合分类和连续数据

    我之前使用scikit很多,但我认为高斯朴素贝叶斯适用于连续数据,伯努利朴素贝叶斯可以用于分类数据 . 但是,由于我想在模型中使用 both 分类和连续数据,我真的不知道如何处理这个问题 . 任何想法将不胜感激!
  • 0 votes
     answers
     views

    比较k均值聚类

    我有150张图片,每10个不同的人15张 . 所以基本上我知道哪个图像应该属于一起,如果是聚类的 . 这些图像具有73个维度(特征向量),我使用matlab中的kmeans函数将它们聚类为10个聚类 . 后来,我处理了这150个数据点,并将其尺寸从73减少到3,并对它们应用了相同的kmeans函数 . 我想通过应用相同的k-means函数来比较在这些数据集(已处理和未处理)上获得的结果,并希望知道...
  • 4 votes
     answers
     views

    为什么我们可以使用熵来衡量语言模型的质量?

    我正在阅读&lt;Foundations of Statistical Natural Language Processing&gt; . 它有关于信息熵与语言模型之间关系的以下陈述: ......这里的关键点是,如果模型捕获更多的语言结构,那么模型的熵应该更低 . 换句话说,我们可以起诉熵作为我们模型质量的衡量标准...... 但是这个例子怎么样: 假设我们有一台机器一个接一个地吐出2个字符...
  • 3 votes
     answers
     views

    何时在R中的插入符包中使用train()的索引和种子参数

    主要问题: 在阅读文档和谷歌搜索后,我仍然难以确定预先定义重采样指数的情况,例如: resamples &lt;- createResample(classVector_training, times = 500, list=TRUE) 或预定义的种子,如: seeds &lt;- vector(mode = &quot;list&quot;, length = 501) #length is ...

热门问题