将训练实例插入到scikit-learn数据集中-Java 学习之路

我有svmlight数据集形式的15M训练实例的数据集 . 我使用sklearn.datasets.load_svmlight_file（）读取这些数据 . 数据本身并不稀疏，所以我不介意将其转换为任何其他密集表示（我更喜欢） .

在我的程序中的某些时刻，我需要向我的训练数据（随机位置）添加数百万个新数据记录（实例） . 我使用vstack并尝试转换为密集矩阵，但效率低或无法给出正确的结果（详情如下） . 有没有办法有效地完成这项任务？

我正在实现DAgger算法，并且在第一次迭代中它试图添加大约7M个新训练实例 . 我想在随机位置添加这些新实例 . 我尝试了vstack（鉴于我的数据是csr格式，我期望它至少不会太低效） . 然而，24小时后它还没有完成 .

我尝试在以svmlight格式加载数据之后将数据转换为numpy.matrix格式 . 抽样显示它可以帮助我加快速度，但有趣的是，我从转换数据集和原始数据集的训练得到的结果似乎不相互匹配 . 似乎sklearn不能像我想象的那样使用numpy矩阵 . 我在sklearn文档中找不到任何内容 .

我认为另一种方法是从头开始定义一个更大的数据集，以便它在内存中有足够的空间，但是当我将数据集索引到最后一个"true"记录时 . 通过这种方式，我认为，vstack不需要在内存中打开一个新的大空间，这可能会使整个操作花费更长的时间 . 有什么想法吗？

1 回答