-
0 votesanswersviews
Pandas标签编码列,其中包含无效行值的默认标签
对于数据框,我用一系列值替换了一列中的项目,如下所示: df['borough_num'] = df['Borough'].replace(regex=['MANHATTAN', 'BROOKLYN', 'QUEENS', 'STATEN ISLAND','BRONX'], value=[1, 2, 3, 4,5]) 我想要替换之前未提及的值为0的'Borough'中所有其余元素的问题我也需要使... -
2 votesanswersviews
如何将词汇文本文件传递给模型并在谷歌 Cloud 平台机器学习引擎上进行训练
我试图制作一个 DNNCLassifier ,它使用张量流来分类输入,以在Google Cloud 平台(GCP)上训练模型 . 我有一些分类功能列,我使用的是vocabulary.txt文件 . 例如: tf.feature_column.categorical_column_with_vocabulary_file( key = "feature_name"... -
-1 votesanswersviews
如何在Python中计算相关比率或Eta?
根据这个post的答案, 名义和间隔(“数字”)变量之间最经典的“相关”度量是Eta,也称为相关比率,等于单因子方差分析的根R平方(p值=方差分析) . Eta可以看作对称关联度量,如相关性,因为ANOVA的Eta(标称为独立,数字为依赖)等于Pillai的多元回归轨迹(数值为独立的虚拟变量集对应于名义上的依赖) . 如果你能让我知道如何在python中计算Eta,我将不胜感激 . 事实上,... -
-1 votesanswersviews
假人和赫克曼
我正在使用Heckman选择模型,它由两个方程组成 . 我使用Probit作为选择方程和多元回归作为结果方程 . 如何在这些方程式中加入虚拟变量?我们是否必须将变量变为logaritmic形式?如何使用stata创建logaritmic变量? 谢谢.. -
4 votesanswersviews
Anova表比较R中的组,输出到乳胶?
我主要使用观察数据,但我读了很多实验性的科学论文,以anova表的形式报告结果,字母表示组间差异的显着性,然后是f的p值 . -stat表示基本上是因子变量回归的联合意义 . 这是我从谷歌图片搜索中删除的example . 我认为这可能是一种有用的方法,可以在我继续尝试以各种方式控制它们之前,在观察数据集中提供关于组合差异(或缺乏)的汇总统计数据 . 我不确定这些字母通常代表什么样的测试(Tuk... -
2 votesanswersviews
将分类数据输入分类器
假设我有以下格式的数据集: col1 col2 col3 col4 col5 (to be predicted) 12 13 4 primary 12 1 15 2 secondary 13 5 7 8 primary ... -
1 votesanswersviews
使用pd.get_dummies后,根据整数列值获取原始的列车测试分割
我将我的火车和测试数据集结合起来,并将pandas中的get_dummies函数用于一个热编码分类数据 . 连接背后的原因是列车和测试集的分类数据中的级别数不同 . 如果我在单独的列车和测试集上使用get_dummies函数,那么我会得到一个不同维度的数据帧,所以我想把它们组合起来 . 我现在想再将它拆分成火车和测试装置 . 可能吗? 假设使用pd.get_dummies后得到的输出被命名为'da... -
1 votesanswersviews
在poLCA R包中找到最佳的LCA模型
我正在使用PoLCA R软件包进行LCA分析,但分析结果自三天后才开始(它还没有找到最好的模型),偶尔会出现以下错误:“警告:迭代完成,最大可能没有找到” . 所以我在35个潜班上取消了这个过程 . 我正在分析16个变量(所有这些变量都是分类的)和36036行数据 . 当我在Boruta软件包中测试16个变量的变量重要性时,所有16个变量都很重要,因此我在使用poLCA的LCA分析中使用了所有16... -
7 votesanswersviews
python中二进制单热(一K)编码的问题
二进制单热(也称为一个K)编码在于为分类变量的每个不同值创建一个二进制列 . 例如,如果有一个颜色列(分类变量)采用值“红色”,“蓝色”,“黄色”和“未知”,则二进制单热编码用二进制列替换颜色列'color =红色','颜色=蓝色'和'颜色=黄色' . 我从pandas数据框架中的数据开始,我想使用这些数据来训练带有scikit-learn的模型 . 我知道有两种方法可以进行二进制单热编码,但这些... -
3 votesanswersviews
pd.get_dummies()在较大的级别上变慢
我不确定这是否已经是最快的方法,或者我的效率是否低效 . 我想对具有27k可能级别的特定分类列进行热编码 . 该列在2个不同的数据集中具有不同的值,因此在使用get_dummies()之前我首先合并了这些级别 def hot_encode_column_in_both_datasets(column_name,df,df2,sparse=True): col1b = set(df2[col... -
2 votesanswersviews
如何在R轴的x轴上制作带有两个分类变量的散点图
我试图在R中制作一个散点图,在x轴上有两个分类变量 . 对于一个箱形图,我知道如何做到这一点(参见下面的代码的第一部分),但不知怎的,我不能让它为散点图工作 . 我尝试了几件事,但是当我绘制点时,它们总是重叠并且不再显示我的第二个分类变量 . 抖动不起作用,因为我希望我的类别聚类而不是随机扩散它们 . 有谁知道如何做到这一点?您可以在下面找到我尝试的一些示例数据和一些图表,包括评论 . 第一个图给... -
-3 votesanswersviews
使用Scikit-learn,K-means对具有混合数据的数据集进行聚类
我正在尝试使用机器学习算法,并且拥有一个包含数字和分类数据的相当大的数据集 . 我在这里关注这篇文章:http://www.ritchieng.com/machinelearning-one-hot-encoding/将分类特征编码为数字: 我想尝试例如整个数据集的K-means聚类 . 我不知道如何使用我现在拥有的编码数据作为原始数据帧的一部分来运行机器学习算法 . 我真的很感激一个例子 . -
3 votesanswersviews
使用分类变量使用sklearn进行线性回归
我试图使用sk-learn在Python中运行常规的线性回归,但是我有一些我不确切知道如何处理的分类数据,特别是因为我使用pandas read.csv() 导入数据并且我从之前的经验和读到Pandas和sk-learn相处得不好(还) . 我的数据如下所示: Salary AtBat Hits League EastDivision 475 315 81 ... -
0 votesanswersviews
将OneHotEncoder用于决策树分类器中的分类特征
我是Python的新手,对于如何使用分类变量实现决策树非常困惑,因为它们在 R 中由 party 和 ctree 自动编码 . 我想制作一个具有两个分类独立特征和一个依赖类的决策树 . 我使用的数据框如下所示: data title_overlap_quartile sales_rank_quartile rank_grp 0 Q4 ... -
0 votesanswersviews
spark ml管道处理看不见的标签
为了处理spark ml管道中新的和看不见的标签,我想使用最频繁的插补 . 如果管道包含3个步骤 预处理 学习最频繁的项目每个分类列的 stringIndexer 矢量汇编程序 估算器,例如随机森林 假设(1)和(2,3)和(4,5)构成单独的管道 我可以为火车和测试数据拟合和转换1 . 这意味着处理所有的纳米值,即估算 2,3将很好地适合4,5 然后我可以使用...