Java 学习之路

11 votes

answers

views

在python中通过它们的接近度聚类值（机器学习？）[重复]

这个问题在这里已有答案： Cluster one-dimensional data optimally? [closed] 3个答案 1D Number Array Clustering [duplicate] 2个答案我有一个在一组对象上运行的算法 . 该算法产生一个得分值，用于指示集合中元素之间的差异 . 排序后的输出是这样的： [1,1,5,6,1,5,10,22,23,23,...

python machine-learning cluster-analysis data-mining
-2 votes

answers

views

是否有任何数据挖掘/文本挖掘/机器学习技术，以找到给定文档最合适的标签[关闭]

假设我在关系表中用列表示了大量文档 ID (unique identifier) Title (255 characters) Description (5000 characters) Category (predefined meta-data ) Additional Notes (1000 characters ) 我想为文档表中的每一行添加一个或多个标签...

machine-learning nlp data-mining tagging text-mining
1 votes

answers

views

来自不同传感器的数据同步

所以我们有一个系统可以检测人的活动，他有多个传感器（加速度计等），每个传感器都用机器学习算法单独学习 . 因此传感器可以发送：“我认为80％的人站在那里” . 目前我们已经使用数据集进行了同步，但在现实生活中，传感器是异步的，并且在不同的时间发送数据（每个传感器上的时钟都是不同的） . 所以问题是我们如何使数据集与具有空数据的数据集“同步” . 例子（每行50ms）：那么我怎么能用一个值来填充...

synchronization dataset embedded data-mining
148 votes

answers

views

线性回归和逻辑回归有什么区别？

当我们必须预测categorical（或离散）结果的值时，我们使用logistic regression . 我相信我们使用linear regression来预测输入值的结果值 . 那么，这两种方法有什么区别？

machine-learning data-mining linear-regression
0 votes

answers

views

使用gensim的短语获取三元组时出错

我想提取给定句子的所有bigrams和trigrams . from gensim.models import Phrases documents = ["the mayor of new york was there", "Human Computer Interaction is a great and new subject", "machi...

python nlp data-mining text-mining gensim
-1 votes

answers

views

使用历史数据对未来销售进行预测分析

我在销售各种产品的公司进行描述性分析和报告 . 我们记录销售交易，每次出售物品时，记录如下： Customer ID (each customer has a unique ID) Product ID (each product has a unique ID) Sale date （其他字段也被记录 - 购买地点，数量，付款方式等）我们出售了一些大件物品，而我想知道的是，如果可以根据购买历...

sql-server machine-learning data-mining
1 votes

answers

views

R- R中的连续K均值聚类操作

假设我们在10个葡萄酒样本（行）上有一个包含5个化学测量值（例如，var1，var2，var3，var4，var5）的10x5数据集 . 我们希望使用k均值聚类基于化学测量对葡萄酒样品进行聚类 . 这样做很容易 . 但是，我想进行连续聚类，首先使用单个化学测量对葡萄酒样品进行聚类，然后使用var1，var2，var3，var4和var5（所有一元，二元，三元，四元和所有组合）的所有组合执行聚类操作...

r loops cluster-analysis data-mining k-means
5 votes

answers

views

从Google财经获取超出API范围的财务数据

Google的财务API不完整 - 页面上的许多数字如下： http://www.google.com/finance?fstype=ii&q=NYSE:GE 不能通过API获得 . 我需要这些数据来根据Greenblatt的公式对加拿大证券交易所的公司进行排名，可通过谷歌搜索“greenblatt index scans”获得 . 我的问题：在这些网页上访问和处理数据的最智能/最干净/最...

python api data-mining google-finance
1 votes

answers

views

如何通过在Google上搜索来抓取指向特定域的链接？

我有一组印度歌曲的歌词，需要用他们发布的年份来标记他们正在进行的实验 . 有一个网站（lyricsindia.net），这些歌词有多年的详尽数据库，但不幸的是，歌词无法在网站上搜索 . 相反，当我将部分歌词作为搜索字符串谷歌时，lyricsindia.net上歌曲的链接始终位于前10名结果中 . 现在，我想知道是否可以使用像scrapy这样的网络爬行框架来使用搜索字符串作为爬行的起点 . 每个Sc...

python web-crawler data-mining scrapy
19 votes

answers

views

机器学习挑战：在java / groovy中诊断程序（数据挖掘，机器学习）

我打算用Java开发程序来提供诊断 . 数据集分为两部分，一部分用于培训，另一部分用于测试 . 我的程序应该学习从训练数据中分类（BTW其中包含30个问题的答案，每个新栏目，新行中的每个记录最后一栏将被诊断为0或1，在数据诊断栏的测试部分将为空 - 数据集包含大约1000条记录），然后在测试部分数据时进行预测：/ 我从来没有做过任何类似的事情，所以我会感谢有关解决类似问题的任何建议或信息 . 我正...

java groovy artificial-intelligence machine-learning data-mining
3 votes

answers

views

除了Levenshtein之外，对于有序字集和随后的聚类，更好的距离度量

我试图解决一个问题，包括比较大量的单词集，每个单词集包含一组单词（大约600，非常高维度！）的大量有序数量的单词，用于相似性，然后将它们聚类成不同的分组 . 解决方案需要尽可能无人监督 . 数据看起来像 [Apple，Banana，Orange ......][Apple，Banana，Grape ......][果冻，茴香，橘子......][草莓，香蕉，橙...]...等等每组中单词的顺序很...

algorithm nlp cluster-analysis data-mining levenshtein-distance
23 votes

answers

views

快速（<n ^ 2）聚类算法

我有100万个5维点，我需要将其分组为k群集，其中k << 100万 . 在每个簇中，没有两个点应该相距太远（例如，它们可以是具有指定半径的边界球） . 这意味着可能必须有许多大小为1的集群 . 但！我需要运行时间远低于n ^ 2 . n log n左右应该没问题 . 我正在进行这种聚类的原因是为了避免计算所有n个点的距离矩阵（这需要n ^ 2次或几个小时），而我只想计算簇之间的距离...

algorithm machine-learning cluster-analysis data-mining k-means
2 votes

answers

views

k表示聚类算法

我想对一组10个数据点执行k均值聚类分析，每个数据点都有一个由4个数值组成的数组 . 我使用Pearson相关系数作为距离度量 . 我做了k均值聚类算法的前两步： 1）选择一组k个簇的初始中心 . [我随机选择了两个初始中心] 2）将每个对象分配给距离最近的中心的群集 . [我使用Pearson相关系数作为距离度量 - 见下文] 现在我需要帮助理解算法的第3步： 3）计算集群的新中心：其...

algorithm cluster-analysis data-mining k-means pearson
13 votes

answers

views

Hadoop机器学习/数据挖掘项目的想法？ [关闭]

我是一名研究生CS学生（数据挖掘和机器学习），并且对核心Java（> 4年）有很好的了解 . 我已经阅读了很多关于Hadoop和Map / Reduce的东西我现在想做一个关于这个东西的项目（在我的科西嘉的空闲时间）以获得更好的理解 . 任何好的项目想法都会非常感激 . 我只是想做这个来学习，所以我真的不介意重新发明轮子 . 此外，与数据挖掘/机器学习相关的任何事情都将是一个额外的奖励（符...

hadoop machine-learning data-mining
1 votes

answers

views

统计，机器学习和数据挖掘

我目前正在学习数据挖掘，我有以下问题 . 机器学习和数据挖掘之间有什么关系？我发现很多数据挖掘技术与统计数据有关，而我的数据挖掘与机器学习有很多关系 . 所以我的问题是：机器学习与统计学密切相关吗？如果它们没有密切关系，是否有这样的划分将数据挖掘分开，侧重于统计技术和侧重于机器学习技能的数据挖掘？因为我发现一些研究生院的统计部门开设数据挖掘课程 .

statistics machine-learning data-mining
1 votes

answers

views

挖掘Twitter数据以查找有关用户的见解？

我开始的项目是通过他的推特 Profiles 分析用户的兴趣和参与度 . 通过分析他的推特数据可以获得什么样的指标？我觉得可以做的事情包括：用户通过分析他的推文谈论最多（他的兴趣）的主题 . 他活跃的社区（通过分析哈希标签）通过将推文分类为正/负的人的情绪 . 其他趋势可能包括他的外展以及他与之交往的人 . 是否有其他有趣的方面可以通过他的 Profiles 得出一个人？ Tw...

twitter nlp data-mining text-mining
1 votes

answers

views

如何使用机器学习算法识别URL中的新模式（文本挖掘）

我在分析一些URL后尝试识别新模式 . 所以，假设我正在调查假设网站Yoohle.com，他们的网址具有以下结构 . domain = yoohle.com q =搜索短语 lan =使用的语言 pr = partner_id br = browser_id 所以示例网址将如下所示 www.yoohle.com/test_folder/test_page?q=hello+w...

algorithm machine-learning data-mining text-mining web-analytics
0 votes

answers

views

在哪里可以找到文本挖掘任务的特定于域的语料库？

我正在研究一个专注于计算机技术文档的文本挖掘项目 . 所以有很多术语 . 像词性标注这样的任务需要一些训练数据来构建pos-tagger . 我认为这个训练数据应该来自同一个域，正确标记“.NET，COM，JAVA”等字样 . 那我在哪里可以找到这样的语料库？或者有什么工作吗？或者我们可以调整现有的标记器来处理特定于域的任务吗？

machine-learning nlp data-mining text-mining corpus
2 votes

answers

views

sample.int（m，k）中的错误：不能采用大于总体的样本

首先，让我说我是机器学习，kmeans和r的新手，这个项目是一个了解更多这方面的工具，并将这些数据呈现给我们的CIO，所以我可以用它来开发新的服务台系统 . 我有一个60K行文本文件 . 该文件包含教师在3年内输入的服务台门票的 Headers . 我想创建一个r程序来获取这些 Headers 并创建一组类别 . 例如，与打印问题相关的术语，或与投影仪灯泡相关的一组术语 . 我用r打开文本文档，...

r machine-learning data-mining k-means text-mining
-1 votes

answers

views

数据挖掘和文本挖掘有什么区别？

Data Mining 和 Text Mining 之间有什么区别？两者都指将非结构化数据提取到结构化数据 . 这两种形式都以同样的方式运作吗？

nlp bigdata nltk data-mining text-mining
12 votes

answers

views

分层聚类：确定最佳聚类数并统计描述聚类

我可以对R中的方法使用一些建议来确定最佳簇数，然后用不同的统计标准描述簇 . 我是R的新手，具有关于聚类分析统计基础的基本知识 . Methods to determine the number of clusters: 在文献中，一种常用的方法是所谓的"Elbow-criterion"，它比较不同群集解决方案的平方差异和（SSD） . 因此，SSD在分析中针对Cluste...

r data-mining cluster-analysis
0 votes

answers

views

scikit-learn解释整数变量

经过多年对SAS / SPSS产品的数据挖掘，我才开始使用scikit-learn . 我对scikit-learn和pandas的能力感到惊讶，但有一件事我自己无法弄明白 . 让我们假设我的训练数据是由整数构建的，其中一些是编码分类值 . 有什么方法可以控制如何通过树或任何集合树（例如：ExtraTreesClassifier）algorihm来解释变量？正确的方法是将变量类型从int更改为ob...

data-mining scikit-learn decision-tree
6 votes

answers

views

概念上将类似文档聚类在一起？

这更像是一个概念问题，而不是一个实际的实现，我希望有人可以澄清 . 我的目标如下：给定一组文档，我想对它们进行聚类，使属于同一个集群的文档具有相同的“概念” . 根据我的理解，Latent Semantic Analysis让我找到一个术语 - 文档矩阵的低秩近似，即给定矩阵 X ，它将分解 X 作为三个矩阵的乘积，其中一个是对角矩阵 Σ ：现在，我将继续选择低秩近似，即从 Σ 中仅选择前k个...

python numpy nlp machine-learning data-mining
2 votes

answers

views

在python中有任何更好的预处理库或实现吗？

我需要预处理一些文本文档，以便我可以应用分类技术，如fcm e.t.c和其他主题建模技术，如潜在的dirichlet分配e.t.c 为了详细说明预处理，我需要删除停用词，提取名词和关键词并执行词干 . 我用于此目的的代码是： #-------------------------------------------------------------------------- #Extracting...

python preprocessor nlp data-mining web-mining
0 votes

answers

views

从复杂网络/ SNA开始 . 将数据集转换为预期格式

我刚刚开始掌握复杂网络和社交网络分析背后的想法和技术 . 我似乎总是绊倒并陷入数据准备阶段 . 我经常在Google Refine中有一个数据集，基本上是一堆以某种方式相关的行 . 例如，目前我有一个他们参加的组织和活动的列表（有些重复，因为组织可能已经向一个活动发送了多个代表）所以我可以看到组织将是我的图上的节点，并且如果它们都参加了相同的事件，它们之间的关系就存在了，但是我不知道如何将这个...

r data-mining complex-networks sna
0 votes

answers

views

如何找出R中属性之间的相关性

我是R.的新人我有一个大型数据集，其中包含许多数字和非数字列 . 我试图找出哪些列高度相关，这种相关性是否有意义 . 首先，我想找出数值和分类值之间的相关性 . 它应该彼此分开 . 我该怎么做才能找出相关性？以及如何确定数据集中的错误或异常数据？这只是一个示例数据集; > df1 <- LungCapData22 > sapply(df1,class) LungCap ...

r data-mining correlation
37 votes

answers

views

使用scikit-learn在Naive Bayes分类器中混合分类和连续数据

我之前使用scikit很多，但我认为高斯朴素贝叶斯适用于连续数据，伯努利朴素贝叶斯可以用于分类数据 . 但是，由于我想在模型中使用 both 分类和连续数据，我真的不知道如何处理这个问题 . 任何想法将不胜感激！

python machine-learning data-mining classification scikit-learn
0 votes

answers

views

比较k均值聚类

我有150张图片，每10个不同的人15张 . 所以基本上我知道哪个图像应该属于一起，如果是聚类的 . 这些图像具有73个维度（特征向量），我使用matlab中的kmeans函数将它们聚类为10个聚类 . 后来，我处理了这150个数据点，并将其尺寸从73减少到3，并对它们应用了相同的kmeans函数 . 我想通过应用相同的k-means函数来比较在这些数据集（已处理和未处理）上获得的结果，并希望知道...

matlab machine-learning cluster-analysis data-mining k-means
4 votes

answers

views

为什么我们可以使用熵来衡量语言模型的质量？

我正在阅读<Foundations of Statistical Natural Language Processing> . 它有关于信息熵与语言模型之间关系的以下陈述： ......这里的关键点是，如果模型捕获更多的语言结构，那么模型的熵应该更低 . 换句话说，我们可以起诉熵作为我们模型质量的衡量标准...... 但是这个例子怎么样：假设我们有一台机器一个接一个地吐出2个字符...

machine-learning nlp data-mining text-mining
3 votes

answers

views

何时在R中的插入符包中使用train（）的索引和种子参数

主要问题：在阅读文档和谷歌搜索后，我仍然难以确定预先定义重采样指数的情况，例如： resamples <- createResample(classVector_training, times = 500, list=TRUE) 或预定义的种子，如： seeds <- vector(mode = "list", length = 501) #length is ...

r parallel-processing machine-learning data-mining r-caret

热门问题