-
4 votesanswersviews
如何处理Spark中最新的随机森林中的分类功能?
在随机森林的Mllib版本中,有可能使用参数 categoricalFeaturesInfo 指定具有名义特征的列(数值但仍然是分类变量)?ML随机森林是什么?在使用VectorIndexer的用户指南there is an example中,也可以转换向量中的分类要素,但是它写的是"Automatically identify categorical features, and ind... -
0 votesanswersviews
从火车上复制pandas.get_dummies列以测试数据
我有两个数据帧, train 和 test . 它们都具有完全相同的列名,其中包含分类字符串功能 . 我正在尝试将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集执行相同的精确映射并将训练的模型应用于它 . 我遇到的问题是,由于 test 小于 train ,它碰巧不包含某些分类功能的所有可能值 . 由于 pandas.get_dummies() 似乎只是查看 data.Series... -
0 votesanswersviews
Featuretools处理多个连接键
如何在featuretools中表示多个连接键的一对多关系?是否有一些集成方法 - 或者手动将连接键连接到一个列中? -
2 votesanswersviews
使用Featuretools中的多个训练窗口计算相同的特征
Featuretools支持已经处理多个截止时间https://docs.featuretools.com/automated_feature_engineering/handling_time.html In [20]: temporal_cutoffs = ft.make_temporal_cutoffs(cutoffs['customer_id'], ....: ... -
4 votesanswersviews
PySpark中的慢速特征工程
我正在尝试使用pyspark进行数据准备,包括字符串索引,一个热编码和分位数离散等步骤 . 我的数据框有很多列(1000列,包括500个间隔列,250个分类和250个二进制),行数为100万行 . 我的观察是,一些数据转换比其他数据转换慢得多 . 如下面的摘要, some steps last even around 3 hours while others took just couple mi... -
5 votesanswersviews
文本为scikit-learn中的分类算法提供输入格式
我开始使用scikit-learn做一些NLP . 我已经使用了NLTK的一些分类器,现在我想尝试在scikit-learn中实现的分类器 . 我的数据基本上是句子,我从这些句子的某些单词中提取特征来做一些分类任务 . 我的大多数功能都是名义上的:单词的词性(POS),左到右的单词,左到右的单词,右到右的单词,POS单词到单词 . - 正确的,句法关系从一个词到另一个词的路径等 . 当我使用NL...