首页 文章
  • 0 votes
     answers
     views

    使用Vowpal Wabbit的一对一逻辑回归分类器

    我正在尝试一对一的逻辑回归,根据使用vowpal wabbit的文本按主题类别对编辑文章进行分类 . 当我尝试使用用于训练的相同数据对新文章进行预测时,我的结果很差,但是我会期望由于过度拟合而产生不切实际的好结果 . 在这种情况下,我实际上想要过度拟合,因为我想验证我正确使用vowpal wabbit . 我的模型正在接受关于这样的示例的训练,其中每个特征是文章中的单词,并且每个标签是类别的标识符...
  • 1 votes
     answers
     views

    python pandas循环追加数据帧

    我正在尝试创建一个循环来分析时间序列数据,并在单独的pandas数据帧中平均每天“数据” . 现在如果我编制一些假的时间序列数据来获得一个有效的程序: import pandas as pd import numpy as np time = pd.date_range('6/28/2013', periods=2000, freq='5min') data = pd.Series(np.ran...
  • 0 votes
     answers
     views

    将数据分组为训练和测试数据,保持比率

    我有虹膜数据集(可以在这里找到:https://www.kaggle.com/uciml/iris),我应该将其分成测试和训练集 . 但是,我需要拆分它,以便训练和测试集中的类分布与完整数据集中的类分布相同 . 我已经在这个问题中看到了最佳答案:how to split a dataset into training and validation set keeping ratio between...
  • 1 votes
     answers
     views

    基于列数据类型对spark数据帧(在sparklyr中)进行子集化的最佳方法是什么

    我正在将一堆列转换为虚拟变量 . 我想从数据框中删除原始分类变量 . 我正在努力弄清楚如何在闪闪发光中做到这一点 . 它在dplyr中很简单,但dplyr功能在sparklyr中不起作用 . 例如: 首先创建一个spark数据帧: ###create dummy data to figure out how model matrix formulas work in sparklyr v1 &lt...
  • 1 votes
     answers
     views

    未能忽略我的文件列表中的NA

    我的目录中有一个文件列表(从1到332) . file1对应于id1,file2对应于id2,依此类推 . 每个文件包含4列,我必须通过忽略NA来计算第2列的总和和长度(标记为“污染物”) . 我已经尝试了一切:!is.na(文件),na.rm = TRUE,省略...当我想要1:100或1:60(从值1到另一个值)的总和和长度时它起作用,但是从70:72开始它不起作用 . 我无法指出问题所在 ...
  • 0 votes
     answers
     views

    加入对大型数据集的操作

    如何在具有100k行的两个数据帧中应用内部联接操作? . 我有8 GB的计算机RAM并使用Dask但仍然我的计算机被挂起 . 什么是正确的解决方案? import pandas as pd import numpy as np import dask.dataframe as dd import time pool=...
  • 0 votes
     answers
     views

    Tensorflow中的循环卷积自动编码器

    我试图在Tensorflow中构建一个循环卷积自动编码器,但是我无法将卷积自动编码器与循环层连接起来 . 根据我的理解,Tensorflow RNNCell接受形状输入(batch_size,time_steps,info_vector),但我的1D卷积层的输出形状为(batch_size,info_vector) . 有没有办法让tensorflow存储以前的信息向量 . 或者,我是否需要使用2...
  • 2 votes
     answers
     views

    在Windows上安装MXNet for R

    我正在尝试在Windows上安装MXNet / MXNetR . 为此,我做了以下,在他们的网站上推荐(https://mxnet.incubator.apache.org/install/windows_setup.html) cran <- getOption("repos") cran["dmlc"] <- "https://ap...
  • 0 votes
     answers
     views

    Xgboost交叉验证模型访问

    有什么方法可以直接从 xgboost.cv 访问训练有素的 xgboost 模型吗?或者我是否需要手动循环折叠并在这种情况下执行拟合? xgb.cv(param, dtrain, num_round, nfold = 5, seed = 0, obj = logregobj, feval=evalerror)
  • 7 votes
     answers
     views

    GridSearchCV - XGBoost - 提前停止

    我试图在XGBoost上使用scikit-learn的GridSearchCV进行超级计量搜索 . 在网格搜索期间,我希望它能够提前停止,因为它可以大大减少搜索时间,并且(期望)在我的预测/回归任务上有更好的结果 . 我通过其Scikit-Learn API使用XGBoost . model = xgb.XGBRegressor() GridSearchCV(model, paramGri...
  • 2 votes
     answers
     views

    Keras LSTM - 验证损失从时代#1增加

    我目前正在进行我的第一个“真正的”DL项目(惊喜)预测股票走势 . 我知道我有1000:1做任何有用的东西,但我很享受它,并希望看到它,我在尝试这几周的过程中学到的东西比我在完成MOOC的前6个月里学到的要多 . 我正在使用Keras构建LSTM,目前正在预测下一步向前,并尝试将任务分类为(上/下/稳定),现在作为回归问题 . 两者都导致类似的障碍,因为我的验证损失从未从第1纪元改进 . 我可以让...
  • -1 votes
     answers
     views

    特征与树木森林的重要性

    我试图找出我的功能的重要性,并想了解树林如何运作?根据我的理解,它使决策树和条形图显示该特征解释了多少方差,这反过来显示了特征的重要性 . 我还想看看图表末尾的线条是什么意思? 链接到方法:http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html#sphx-glr-auto-examples...
  • 0 votes
     answers
     views

    使用现有的dataframe列pandas创建新的数据帧

    我在数据帧中有以下数据结构 . 我想创建一个新的数据帧,以某种方式表示 newDF将有列Year,DF1,DF2,DF3 列应包含W下的数据 我做了:pd.concat([DF1 ['W'],DF2 ['W'],DF3 ['W']],轴= 1,键= ['DF1','DF2','DF3'] ) 我得到了结果,但不知道如何才能得到年份数据 . DF1 Year Conf W L T...
  • -1 votes
     answers
     views

    ValueError:视图限制最小值0.0小于1并且是无效的Matplotlib日期值

    我已经获得了使用matplotlib的python脚本,在运行脚本时它会打开窗口并显示图形 . 它在我的笔记本电脑上完美运行但是当我在AWS elasticbeanstalk上传文件时会发生此错误 . 我成功地使用我的笔记本电脑重现了这个错误 import matplotlib matplotlib.use('agg') 引起的错误 File "/Library/Frameworks/...
  • 0 votes
     answers
     views

    使用机器学习模型(scikit或statsmodels)回答业务问题

    感谢您的帮助 . 这感觉就像一个愚蠢的问题,我可能会过于复杂化 . 一些背景信息 - 我最近刚刚学习了Python中的一些机器学习方法(scikit和一些statsmodels),例如线性回归,逻辑回归,KNN等 . 我可以在pandas数据框中准备数据并转换分类数据到0和1 . 我也可以将它们加载到模型中(比如scikit learn中的逻辑回归) . 我知道如何训练和测试它(使用CV等),以及...
  • -1 votes
     answers
     views

    通过anaconda提示安装keras时出现问题?

    我在anaconda提示"conda install -c conda-forge keras"上使用此操作安装了keras . 然而,当安装Keras时,anaconda提示关闭 . 现在,每当我尝试启动anaconda提示时,它会在1秒后关闭,并在短时间内显示短消息
  • 1 votes
     answers
     views

    在poLCA R包中找到最佳的LCA模型

    我正在使用PoLCA R软件包进行LCA分析,但分析结果自三天后才开始(它还没有找到最好的模型),偶尔会出现以下错误:“警告:迭代完成,最大可能没有找到” . 所以我在35个潜班上取消了这个过程 . 我正在分析16个变量(所有这些变量都是分类的)和36036行数据 . 当我在Boruta软件包中测试16个变量的变量重要性时,所有16个变量都很重要,因此我在使用poLCA的LCA分析中使用了所有16...
  • 0 votes
     answers
     views

    集群Scikit - 将业务数据转换为机器学习输入数据

    我是数据科学世界的新手,我正在努力理解关于ML结果的概念 . 我已经开始使用 scikit - clustering 示例了 . 使用scikit库随处可见 . 但是所有的例子都假设有现成的数值数据 . 现在,数据科学家如何将业务数据转换为机器学习数据 . 举一个例子,这里是我准备的客户和销售数据 . 第一张图显示了客户数据,其中一些参数具有整数,字符串和布尔值 第二张图显示了这些客户的历史销...
  • 4 votes
     answers
     views

    如何使用Python中的面向对象编程构建机器学习项目?

    我观察到静态和机器学习科学家在使用Python(或其他语言)时通常不会遵循ML /数据科学项目的OOPS . 主要是因为在开发用于 生产环境 的ML代码时,缺乏对oops中最佳软件工程实践的理解 . 因为他们大多来自数学和统计学教育背景而不是计算机科学 . ML科学家开发临时原型代码和另一个软件团队使其 生产环境 就绪的日子在业界已经结束 . Questions 我们如何使用OOPS为ML项...
  • 0 votes
     answers
     views

    现实世界的机器学习 生产环境 系统如何运行?

    亲爱的机器学习/ AI社区, 我只是一个崭露头角,有抱负的机器学习者,曾参与开放的在线数据集和一些为我的项目本地构建的POC . 我已经 Build 了一些模型并转换成了pickle对象,以避免重新训练 . 而这个问题总是困扰着我 . 真实的 生产环境 系统如何适用于ML算法? 说,我已经训练了我的ML算法有数百万的数据,我想将它移动到 生产环境 系统或在服务器上托管它 . 在现实世界中,它们会转...
  • 2 votes
     answers
     views

    python sklearn决策树分类器feature_importances_在使用连续值时具有特征名称

    我正在使用具有一些连续功能的sklearn决策树分类器 . 当我运行export_graphviz时,我在多个节点中看到相同的功能并具有不同的值 . 示例: 我想采取最重要的一些,并希望使用feature_importances_ . 问题是feature_importances_是数组而没有引用树节点 . 我有原始的功能,但由于每个人在树中可能不止一次,我不确定如何将重要性与节点联系起来 .
  • 0 votes
     answers
     views

    使用笔记本jupter处理大数据

    我的计算机硬盘中有一个大约10 GB的数据集,我必须进行欺诈分析,开发用于检测欺诈活动的模型 . 您可以成像,数据非常不 balancer . 我使用8GB内存的macBookPro . 我在python中使用jupter notebook编辑器 . 我的问题是1,数据集对于计算机而言太大了,因为计算机太慢而有时堆栈而我必须启动它 . 2,作为我对该领域和编辑的新手,是否有任何更简单的方法,以...
  • 3 votes
     answers
     views

    Python Pandas - 使用前一列的值向前填充整行

    熊猫开发的新手 . 如何使用之前看到的列中包含的值转发填充DataFrame? 自包含的例子: import pandas as pd import numpy as np O = [1, np.nan, 5, np.nan] H = [5, np.nan, 5, np.nan] L = [1, np.nan, 2, np.nan] C = [5, np.nan, 2, np.nan] times...
  • 0 votes
     answers
     views

    glm摘要没有给出系数值

    我试图在给定的数据集上应用glm,但 summary(model1) 没有给我正确的输出,它没有给 Estimate Std. Error z value Pr(>|z|) 等系数值,它只是给我 NA 作为单个属性元素的输出 . TEXT <- c('Learned a new concept today : metamorphic testing. t.co/0is1IUs3aW'...
  • 0 votes
     answers
     views

    多元线性回归处理NA

    我是统计世界的新手,所以一些简单的建议将被承认...... 我在R中有一个数据框 Ganeeshan Year General OBC SC ST VI VacancySC VacancyGen VacancyOBC Banks Participated VacancyST VacancyHI 1 2016 52.5 52.5 41.75 31.50 ...
  • 2 votes
     answers
     views

    R和Python中的线性回归 - 在同一问题上的结果不同

    我正在训练我在py中学习我的数据技能,这是我在R中学到的 . 虽然,我对一个简单的线性回归有疑问 气候变化数据:[link here] Python脚本 import os import pandas as pd import statsmodels.api as sm train = df[df.Year>=2006] X = train[['MEI', 'CO2', 'CH4',...
  • 2 votes
     answers
     views

    在scikit-learn中使用多标记随机森林进行无标签分配的样本

    我正在使用Scikit-Learn的RandomForestClassifier来预测多个文档标签 . 每个文档都有50个功能,没有任何文档缺少任何功能,每个文档至少有一个与之关联的标签 . clf = RandomForestClassifier(n_estimators=20).fit(X_train,y_train) preds = clf.predict(X_test) 但是,我注意到,...
  • 2 votes
     answers
     views

    完全在RAM磁盘上运行Google Compute Engine VM实例

    我正在尝试开发一个数据探索环境,用于重复处理“小数据”(10 - 30 GB) . 可靠性和稳定性不是这些轻量级环境的关注点(基本上只包含Jupyter,Julia,Python和R,以及一些软件包) . 相反,我希望最大限度地提高性能,而我正在使用的数据集足够小以适应内存 . 有没有办法可以将Linux映像直接启动到Google Compute Engine上的RAM中,完全绕过SSD? 谷...
  • 6 votes
     answers
     views

    机器学习的现实世界的例子? [关闭]

    最近我正在由Andrew Ng教授在Coursera学习机器学习课程 . 完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题: 我在哪里可以找到真实世界的机器学习用例? 工业/ 生产环境 机器中使用了哪些工具或框架学习项目? 如何在 生产环境 中使用或部署机器学习模型? 如何成为数据科学家?或者接下来我该怎么办? 任何建议,书籍,课程或教程链接将受到高度赞赏 .
  • 0 votes
     answers
     views

    Xgboost预测模型缺少假期

    我正在 Build 一个预测系统,以预测在给定时间点断开连接的有线电视用户数量 . 我正在使用Python,并且在我尝试的不同模型中,XGBoost表现最佳 . 我有一个自我参照系统,它以移动的窗口方式工作,例如,当我用完实际,我开始使用我的滞后预测数字 . 为了 Build 预测系统,我使用了前800天的滞后(一天断开连接),移动平均线,比率,季节性,年,月,日,周等指标 . 但是,假期,哪里有...

热门问题