Java 学习之路

4 votes

answers

views

如何处理Spark中最新的随机森林中的分类功能？

在随机森林的Mllib版本中，有可能使用参数 categoricalFeaturesInfo 指定具有名义特征的列（数值但仍然是分类变量）？ML随机森林是什么？在使用VectorIndexer的用户指南there is an example中，也可以转换向量中的分类要素，但是它写的是"Automatically identify categorical features, and ind...

apache-spark apache-spark-mllib random-forest apache-spark-ml feature-engineering
0 votes

answers

views

从火车上复制pandas.get_dummies列以测试数据

我有两个数据帧， train 和 test . 它们都具有完全相同的列名，其中包含分类字符串功能 . 我正在尝试将这些特征映射到训练集中的虚拟变量，训练回归模型，然后对测试集执行相同的精确映射并将训练的模型应用于它 . 我遇到的问题是，由于 test 小于 train ，它碰巧不包含某些分类功能的所有可能值 . 由于 pandas.get_dummies() 似乎只是查看 data.Series...

python pandas dummy-variable train-test-split feature-engineering
0 votes

answers

views

Featuretools处理多个连接键

如何在featuretools中表示多个连接键的一对多关系？是否有一些集成方法 - 或者手动将连接键连接到一个列中？

python feature-extraction feature-engineering featuretools
2 votes

answers

views

使用Featuretools中的多个训练窗口计算相同的特征

Featuretools支持已经处理多个截止时间https://docs.featuretools.com/automated_feature_engineering/handling_time.html In [20]: temporal_cutoffs = ft.make_temporal_cutoffs(cutoffs['customer_id'], ....: ...

python pandas feature-extraction feature-engineering featuretools
4 votes

answers

views

PySpark中的慢速特征工程

我正在尝试使用pyspark进行数据准备，包括字符串索引，一个热编码和分位数离散等步骤 . 我的数据框有很多列（1000列，包括500个间隔列，250个分类和250个二进制），行数为100万行 . 我的观察是，一些数据转换比其他数据转换慢得多 . 如下面的摘要， some steps last even around 3 hours while others took just couple mi...

apache-spark pyspark apache-spark-ml feature-engineering
5 votes

answers

views

文本为scikit-learn中的分类算法提供输入格式

我开始使用scikit-learn做一些NLP . 我已经使用了NLTK的一些分类器，现在我想尝试在scikit-learn中实现的分类器 . 我的数据基本上是句子，我从这些句子的某些单词中提取特征来做一些分类任务 . 我的大多数功能都是名义上的：单词的词性（POS），左到右的单词，左到右的单词，右到右的单词，POS单词到单词 . - 正确的，句法关系从一个词到另一个词的路径等 . 当我使用NL...

python scikit-learn classification text-processing feature-engineering

如何处理Spark中最新的随机森林中的分类功能？

从火车上复制pandas.get_dummies列以测试数据

Featuretools处理多个连接键

使用Featuretools中的多个训练窗口计算相同的特征

PySpark中的慢速特征工程

文本为scikit-learn中的分类算法提供输入格式

热门问题