首页 文章
  • 2 votes
     answers
     views

    如何在Keras中实现Sklearn Metric作为度量?

    尝试谷歌搜索,但无法找到如何在keras中实现像cohen kappa,roc,f1score这样的Sklearn指标作为不 balancer 数据的指标 . 如何在Keras中实现Sklearn Metric作为度量?
  • 1 votes
     answers
     views

    无法在Mac OSX上安装Sci-Kit学习包错误[复制]

    这个问题在这里已有答案: 'pip install' fails for every package (“Could not find a version that satisfies the requirement”) [duplicate] 2个答案 我正在运行最新的Python版本3.6.4 . 我通过https://pip.pypa.io/en/stable/installing/的这...
  • -3 votes
     answers
     views

    点击安装scikit-learn:找不到匹配的分配 . [重复]

    这个问题在这里已有答案: Not able to install Python packages [SSL: TLSV1_ALERT_PROTOCOL_VERSION] 13个答案 我正在尝试通过Mac OSX上的pip安装scikit-learn . 我已经更新了所有numpy,scipy和pip本身,但是当我输入时: “pip install scikit-learn -U” 我收到一...
  • 4 votes
     answers
     views

    t-SNE高维数据可视化

    我有一个twitter语料库,我用它来构建情绪分析应用程序 . 语料库有5k个推文,手写标记为 - 否定,中立或正面 为了表示文本 - 我正在使用gensim word2vec预训练向量 . 每个单词都映射到300个维度 . 对于推文,我添加所有单词向量以获得单个300暗淡向量 . 因此,每条推文都映射到300维的单个向量 . 我使用t-SNE(tsne python包)可视化我的数据 . 见附图...
  • 0 votes
     answers
     views

    关于Keras分类器的精确度,召回率和FMeasure的Sklearn度量标准

    我在尝试计算精度,召回和FMeasure时遇到问题,作为评估在Tensorflow上的Keras中实现的LSTM文本分类器的度量的一部分 . 我知道来自 Keras 2.02 metrics模块的these functions were removed . # create the model embedding_vector_length = 32 model = Sequential() #...
  • 0 votes
     answers
     views

    可视化神经网络目标预测与特征

    我有一个训练有素的神经网络,它有两个特征和一个表现很好的目标 . 但是,我感兴趣的是将预测目标值与测试目标值一起绘制在这些目标值的特征值上 . 在Keras有没有聪明的方法呢? # Feature: Wave Period and Wave Height feature = data.iloc[:, 1:4].values # Target: Sway Motion target = data....
  • 1 votes
     answers
     views

    如何在Pandas DataFrame上编写条件数组操作

    假设我有一个DataFrame,其中一列(我们称之为'power')保存从1到10000的整数值 . 我想生成一个numpy数组,对于每一行,都有一个值,指示是否DataFrame的相应行在'power'列中的值大于9000 . 我可以这样做: def categorize(frame): return np.array(frame['power']>9000) 这将给我一个布尔数...
  • 1 votes
     answers
     views

    Scikit Learn - 随机森林:如何处理连续特征?

    Random Forest接受数值数据 . 通常将具有文本数据的特征转换为数字类别,并且连续数字数据按原样馈送而不进行离散化 . RF如何处理连续数据以创建节点?它会在内部存储连续数值数据吗?或将每个数据视为离散级别 . 例如:我想将数据集(在对文本特征进行分类之后)提供给RF . RF如何处理连续数据?在喂食之前,是否建议将连续数据(在这种情况下为经度和纬度)进行离散化?或者这样做的信息丢失...
  • 1 votes
     answers
     views

    在随机森林回归器中处理缺失的分类特征值的指南

    在使用Random Forest Regressor(或任何集成学习者)时,处理缺失的分类特征值的一般准则是什么?我知道scikit learn具有估算缺失值(数值)的函数(如均值...策略或接近度) . 但是,如何处理缺失的分类 Value :像工业(石油,计算机,汽车, None ),专业(学士,硕士,博士, None ) . 任何建议表示赞赏 .
  • 3 votes
     answers
     views

    Jupyter Notebook ImportError:没有名为'sklearn'的模块

    我想在我的本地机器上运行 . 我得到一个错误ImportError:只有在jupyter笔记本中没有名为'sklearn'的模块当我使用命令行中的python并且carnd-term1 env被激活和停用时它工作正常 . 我用pip,apt-get和conda安装了sklearn . 还试过conda升级scikit-learn . env活动和停用都有 . (carnd-term1) mat...
  • 1 votes
     answers
     views

    得到错误:输入包含NaN,无穷大或dtype值太大('float64')

    ## Load the data ## train=pd.read_csv("../kagglehouse/train.csv") test=pd.read_csv("../kagglehouse/test.csv") all_data=pd.concat((train.loc[:,"MSSubClass":"SaleCond...
  • 2 votes
     answers
     views

    使用scikit学习字典学习中的内存错误

    我有50张大小为1028x1028的图片 . 我试图通过从50张图片中随机抽取一些补丁来制作字典 . 这是我的代码=> from os import listdir from time import time import matplotlib.pyplot as plt import numpy as np import scipy as sp from sklearn.decomposi...
  • 5 votes
     answers
     views

    用scikit学习时间序列预测

    我是基于SVM的预测的完全新手,所以在这里寻找一些指导 . 我正在尝试使用scikit-learn的SVM库来设置用于预测时间序列的python代码 . 我的数据包含过去24小时间隔30分钟的X值,我需要预测下一个时间戳的y值 . 这就是我设置的 - SVR(kernel='linear', C=1e3).fit(X, y).predict(X) 但是为了使这个预测起作用,我需要下一个时间戳的X...
  • 7 votes
     answers
     views

    GridSearchCV - XGBoost - 提前停止

    我试图在XGBoost上使用scikit-learn的GridSearchCV进行超级计量搜索 . 在网格搜索期间,我希望它能够提前停止,因为它可以大大减少搜索时间,并且(期望)在我的预测/回归任务上有更好的结果 . 我通过其Scikit-Learn API使用XGBoost . model = xgb.XGBRegressor() GridSearchCV(model, paramGri...
  • 5 votes
     answers
     views

    Python Scikit随机森林回归错误

    我正在尝试从csv加载训练和测试数据,在scikit / sklearn中运行随机森林回归器,然后预测测试文件的输出 . TrainLoanData.csv文件包含5列;第一列是输出,接下来的4列是功能 . TestLoanData.csv包含4列 - 功能 . 当我运行代码时,我收到错误: predicted_probs = ["%f" % x[1] for x in pr...
  • 11 votes
     answers
     views

    具有分类输入的回归树或随机森林回归量

    我一直试图在回归树(或随机森林回归器)中使用分类的inpust,但sklearn不断返回错误并要求输入数字 . import sklearn as sk MODEL = sk.ensemble.RandomForestRegressor(n_estimators=100) MODEL.fit([('a',1,2),('b',2,3),('a',3,2),('b',1,3)], [1,2.5,3,4...
  • 38 votes
     answers
     views

    sklearn随机森林可以直接处理分类功能?

    假设我有一个分类特征,颜色,它取值 ['red','blue','green','orange'], 我想用它来预测随机森林里的东西 . 如果我对它进行单热编码(即我将其更改为四个虚拟变量),我如何告诉sklearn这四个虚拟变量实际上是一个变量?具体来说,当sklearn随机选择要在不同节点使用的特征时,它应该包括红色,蓝色,绿色和橙色虚拟对象,或者它不应包括任何一个 . 我听说没有办法做到这一...
  • 4 votes
     answers
     views

    特征重要性结果在R和sklearn随机森林回归中有所不同

    我正在研究回归问题,并且一直在使用R randomForest包以及python sklearn random forest regression估算器 . R包可以通过两种不同的方式计算特征重要性分数: 第一个度量是根据置换OOB数据计算的:对于每个树,记录数据的袋外部分的预测误差(分类的错误率,回归的MSE) . 然后在置换每个预测变量之后完成相同的操作 . 然后将两者之间的差异在所有树上进...
  • 78 votes
     answers
     views

    如何将数据分成3组(训练,验证和测试)?

    我有一个熊猫数据帧,我希望把它分成3组 . 我知道从 sklearn.cross_validation 使用train_test_split,可以将数据分成两组(训练和测试) . 但是,我无法获得原始数据的索引 . 我知道解决方法是使用 train_test_split 两次并以某种方式调整索引 . 但有没有更标准/内置的方法将数据分成3组而不是2组?
  • 6 votes
     answers
     views

    SVM的自定义内核,何时应用它们?

    我是机器学习领域的新手,现在正试图掌握最常见的学习算法是如何工作的,并了解何时应用它们 . 目前,我正在学习支持向量机的工作原理,并对自定义内核函数有疑问 .关于SVM的更标准(线性,RBF,多项式)内核,Web上有大量信息 . 但是,我想了解何时使用自定义内核函数是合理的 . 我的问题是: 1)SVM的其他可能内核是什么?2)在哪种情况下会应用自定义内核?3)定制内核能否显着提高SVM的预测质量...
  • 3 votes
     answers
     views

    通过径向基函数(RBF)SVM进行分类

    我使用sklearn.svm.SVC(kernel ='rbf')来分类图像数据,这是非常好的工作 . 线性SVM通过在两个类之间放置超平面来对数据进行分类 . 在rbf SVM的情况下,平面将处于无限维度 . 对于任何测试点,我们可以使用预测来检查它属于哪个 . 在线性情况下,我们可以通过获得超平面的方程式来手动获得预测 . 我们如何在rbf SVM案例中做到这一点 . 在rbf SVM案例中如...
  • 0 votes
     answers
     views

    在SVM中使用带有卡方距离度量的RBF内核

    如何实现 Headers 提到的任务 . 我们在RBF内核中是否有任何参数将距离度量设置为卡方距离度量 . 我可以在sk-learn库中看到chi2_kernel . 下面是我写的代码 . import numpy as np from sklearn import datasets from sklearn import svm from sklearn.model_selection impo...
  • 5 votes
     answers
     views

    SVM内核的速度?线性与RBF对比

    我在Python中使用scikitlearn来创建一些SVM模型,同时尝试不同的内核 . 代码非常简单,遵循以下形式: from sklearn import svm clf = svm.SVC(kernel='rbf', C=1, gamma=0.1) clf = svm.SVC(kernel='linear', C=1, gamma=0.1) clf = svm.SVC(kernel='p...
  • 1 votes
     answers
     views

    SVM自定义RBF内核IndexError

    我想为我的非线性可分数据实现SVM RBF内核 . 我已将我的内核定义为: def rbf(va, vb): gamma = 0.7 return exp(-gamma * linalg.norm(va - vb) ** 2) clf = svm.SVC(kernel=rbf) clf.fit(va, vb) 它显示错误: 如果X.shape [0]!= X.shape [1]...
  • 2 votes
     answers
     views

    在SVM中练习内核技巧

    我正在阅读SVM理论 . 在内核技巧中,我理解的是,如果我们有一个在原始维度n中不是线性可分的数据,我们使用内核将数据映射到更高的空间以进行线性可分(我们必须根据需要选择正确的内核)关于数据集等) . 然而,当我观看安德鲁Kernel SVM的视频时,我所理解的是我们可以将原始数据映射到更小的空间,这让我感到困惑!?任何解释 . 你能解释一下RBF内核如何通过一个具体的例子将每个原始数据样本 x1...
  • 5 votes
     answers
     views

    在Sklearn中使用GridSearchCV的OneVsRestClassification

    当我尝试通过以下方式搜索rbf内核SVM中的最佳 C 和 gamma 时: params = dict(C = C_range, gamma = gamma_range) clf = GridSearchCV(OneVsRestClassifier(SVC()),params, cv = 5) 它返回错误,说 C 不是 OneVsRestClassifier 的参数 . 那么使用多类SVM实现参...
  • 1 votes
     answers
     views

    SVM中的epsilon和alpha参数范围以及超参数优化的弹性网络

    我想用大约500个数据点进行回归 . 为此,我想使用带有RBF内核的epsilon-SVM( sklearn.svm.SVR ) . 我想要预测的真实标签是从1到9的离散值 . epsilon-SVM具有参数epsilon,我想使用随机搜索进行优化 . 我应该为epsilon尝试什么样的值? 例如,对于参数C我使用 scipy.stats.expon(scale=100) 和伽马参数 scipy....
  • 0 votes
     answers
     views

    SVM:交叉验证参数搜索返回恒定精度

    我在SVM上使用参数搜索对469个训练样例和136个特征的数据集进行了标记{1,2,3,4},使用Scikit-Learn进行分类问题 . 我期望每个SVM实现的结果与它们各自的参数是唯一的,但是得到了不同的结果 . 结果如下:对于'rbf'内核,精度始终为27.5%,而'poly'内核的精度始终为90.8%,与参数无关 . Score: 0.27505330490405117 Paramete...
  • 1 votes
     answers
     views

    libsvm和scikit-learn.svc结果之间的不一致

    我有一个基于libsvm实现的SVM算法的项目 . 最近我决定尝试其他几种分类算法,这就是scikit-learn的图片 . 与scikit的连接非常简单,它通过 load_svmlight_file 例程支持libsvm格式 . Ans它的svm实现基于相同的libsvm . 当一切都完成后,我决定通过直接运行libsvm和scikit-learn来检查结果的一致性,结果是不同的 . 在学习曲...
  • 0 votes
     answers
     views

    与sklearn相比,Tensorflow的性能更差

    我在两个数据集上比较Tensorflow和sklearn的性能: 在sklearn中的toy dataset MNIST数据集 这是我的代码(Python): from __future__ import print_function # Import MNIST data from tensorflow.examples.tutorials.mnist import...

热门问题