如何从生成器对象中构建numpy数组?
让我来说明一下这个问题:
>>> import numpy
>>> def gimme():
... for x in xrange(10):
... yield x
...
>>> gimme()
<generator object at 0x28a1758>
>>> list(gimme())
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> numpy.array(xrange(10))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> numpy.array(gimme())
array(<generator object at 0x28a1758>, dtype=object)
>>> numpy.array(list(gimme()))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
在这个例子中,gimme()是我想要变成数组的输出的生成器 . 但是,数组构造函数不会迭代生成器,它只是存储生成器本身 . 我想要的行为来自numpy.array(list(gimme())),但我不想支付同时在内存中使用中间列表和最终数组的内存开销 . 有更节省空间的方式吗?
5 回答
这个stackoverflow结果背后的一个谷歌,我发现有一个numpy.fromiter(data, dtype, count) . 默认
count=-1
获取iterable中的所有元素 . 它需要明确设置dtype
. 就我而言,这有效:numpy.fromiter(something.generate(from_this_input), float)
与python列表不同,Numpy数组需要在创建时显式设置它们的长度 . 这是必要的,以便每个项目的空间可以在内存中连续分配 . 连续分配是numpy数组的关键特性:这与本机代码实现结合使用,对它们的操作比常规列表执行得快得多 .
记住这一点,技术上不可能采用生成器对象并将其转换为数组,除非您:
1 可能就是你要找的东西 . 2 空间效率低, 3 时间效率低(你必须经过两次发电机) .
虽然您可以使用
numpy.fromiter()
从生成器创建一维数组,但您可以使用numpy.stack
从生成器创建一个N-D数组:它也适用于一维数组:
请注意,
numpy.stack
在内部使用生成器并使用arrays = [asanyarray(arr) for arr in arrays]
创建中间列表 . 实施可以找到here .有点切向,但如果你的生成器是一个列表理解,你可以使用
numpy.where
更有效地得到你的结果(我看到这篇文章后在我自己的代码中发现了这个)vstack,hstack和dstack函数可以作为产生多维数组的输入生成器 .