-
0 votesanswersviews
将数值数组转换为稀疏时出错
我正在研究一个庞大的数据集,我有将数值数组转换为稀疏的问题 . import pandas as pd l = pd.read_csv('merge_from_ofoct.csv') l.drop('Unnamed: 12', axis=1, inplace=True) l.drop('CRS_ARR_TIME', axis=1, inplace=True) l.drop('CRS_DEP_TIM... -
0 votesanswersviews
将OneHotEncoder用于决策树分类器中的分类特征
我是Python的新手,对于如何使用分类变量实现决策树非常困惑,因为它们在 R 中由 party 和 ctree 自动编码 . 我想制作一个具有两个分类独立特征和一个依赖类的决策树 . 我使用的数据框如下所示: data title_overlap_quartile sales_rank_quartile rank_grp 0 Q4 ... -
0 votesanswersviews
如何在Keras中正确应用单热编码进行2D像素图像分类CNN?
我正在通过卷积神经网络(CNN)研究基于2D RGB像素的图像分类问题 . 我将充分描述我的问题,并提供尽可能多的细节 . 我将我的培训和验证分成如下: x_trn, x_val, y_trn, y_val = train_test_split(img, msk,test_size=0.2, random_state=42) 其中 img 是 (number_of_image_patches x... -
4 votesanswersviews
二进制Crossentropy惩罚单热矢量的所有分量
我知道二元交叉熵与两类的分类交叉熵相同 . 此外,我很清楚softmax是什么 .因此,我看到分类交叉熵只会惩罚应该为1的一个分量(概率) . 但是为什么,不能或不应该在单热矢量上使用二进制交叉熵? Normal Case for 1-Label-Multiclass-Mutual-exclusivity-classification: ################ pred ... -
0 votesanswersviews
给定稀疏矩阵时,Sklearn会抛出ValueError
当使用稀疏矩阵表示要素时,我的SVM分类器会抛出值错误,但如果使用密集矩阵表示要素,则不会出现错误 . 我的代码在我的功能集上执行One Hot Encoding,并将编码的输出添加到新的功能列表中 . 当使用.toarray()将One Hot Encoding的输出转换为密集数组时,我的SVM分类器运行正常 . 但是,使用密集阵列是不理想的,因为我有数千个数据点,而我的计算机很快耗尽了内存 .... -
-1 votesanswersviews
一个热编码中每行有多个值 - 这是推荐的吗?
我正在使用 mltools 中的 one_hot 函数将2变量熔融数据帧转换为宽数据框,其中每个变量(除了索引)都是因子级别 . 熔融框架中有25,000行,只有2个变量 - 一个是800级别的因子,另一个是索引,所以我可以在以后合并 . 我将使用各种机器学习包,因此需要以可接受的方式表示800因子水平 . 但是,当我使用 one_hot 时,我得到一个801列的帧,这是正确的(800因子级别1索... -
1 votesanswersviews
在Pandas中加入一个数据集和OneHotEncoder的结果
让我们从this example开始考虑房价的数据集 . 我将整个数据集存储在 housing 变量中: housing.shape (20640,10) 我也做了一个维度的OneHotEncoder编码并得到 housing_cat_1hot ,所以 housing_cat_1hot.toarray().shape (20640,5) My target is to join the... -
0 votesanswersviews
MultiClass Keras分类器预测输出含义
我有一个使用Scikit-Learn API的Keras包装器构建的Keras分类器 . 神经网络具有10个输出节点,并且训练数据全部使用单热编码来表示 . 根据Tensorflow documentation, predict 函数输出 (n_samples,) 的形状 . 当我拟合514541个样本时,该函数返回一个形状为 (514541, ) 的数组,并且该数组的每个条目的范围为0到9 . ... -
1 votesanswersviews
pandas get_dummies如何记住哪个值成为哪个新类别? [重复]
这个问题在这里已有答案: Dummy variables when not all categories are present 6个答案 使用get_dummies方法一次热编码多个分类变量似乎很容易,但是如何记住哪个是哪个,以便我的测试数据具有与我的训练数据相同的功能?例如: 我的训练数据集具有CATEGORICAL功能: X cat dog lion lion ... -
0 votesanswersviews
没有单热编码的Keras RNN实现
我有一个关于在Keras中实现RNN的初学者问题,但令人惊讶的是我无法在任何地方找到一个简单的解决方案: 我希望实现一个RNN,它在给定一系列输入向量的情况下预测一个新的向量 . 问题是我在网上找到的每个例子(例如,Keras博客上的this one)都使用了输入的单热编码表示 . 我的输入不使用固定的词汇表,所以我不能做一个热门的编码 . So my question is, can someo... -
-3 votesanswersviews
使用Scikit-learn,K-means对具有混合数据的数据集进行聚类
我正在尝试使用机器学习算法,并且拥有一个包含数字和分类数据的相当大的数据集 . 我在这里关注这篇文章:http://www.ritchieng.com/machinelearning-one-hot-encoding/将分类特征编码为数字: 我想尝试例如整个数据集的K-means聚类 . 我不知道如何使用我现在拥有的编码数据作为原始数据帧的一部分来运行机器学习算法 . 我真的很感激一个例子 .