拟合线性回归挂起很长一段时间 - Dask-ML

我想知道我在这里做错了什么,我找不到任何解释使用Dask ML Build 线性回归的前提条件的文档 .

我有一个名为 Facts 的dask数据帧,

def train_model(facts, features_cols, target):
"""
Train linear regression model from fact table
 Parameters
---------
facts: Dask Dataframe 
    Set of data to be used for features and target
feature_cols: Array<column_names>
    Array of column names to be loaded as features
target: string<column_name>
    Name of column to be used as target

Returns
-------
model: Linear Regresssion
    Linear Regression model trained on features

"""
features = facts[features_cols].values
target = facts[[target]].values
model = LinearRegression()
model.fit(features, target)
return model

如果我在功能和目标上调用compute并使用sklearn中的 LinearRegression ,则会计算出预期的时间量 . 在Dask ML中,似乎将大量数据(比所有正在使用的数据的总和大一个数量级)加载到内存中 . 我'm a total noobie to this, so is there something I'失踪了?在将它们提交到线性回归之前,我是否必须计算值?

回答(0)