In my previous question很多用户都希望我给玩具提供更多数据 . 所以我开始导出所有数据并用Python处理它,但后来我意识到:我在哪里留下所有这些数据?
好吧我决定把它们放在数据库中是最好的,所以至少我每次都没有to parse the raw files . 但由于我对数据库一无所知,因此结果令人困惑 . 我尝试了一些教程来创建一个sqlite数据库,添加一个表和字段并尝试插入我的numpy.arrays,但它无法让它工作 .
通常我的每只狗的结果如下所示:
所以我有35只不同的狗,每只狗有24个测量值 . 每个测量本身都有未知数量的联系人 . 每个测量由3D阵列(整个板的248帧[255x63])和2D阵列(板的每个传感器的最大值[255x63])组成 . 在数据库中存储一个值不是问题,但在那里获取我的2D数组似乎不起作用 .
所以我的问题是如何在数据库中订购并将数组插入其中?
6 回答
您可能希望从包含每只狗的所有扁平(非阵列)数据的
dogs
表开始,每只狗都有一个,比如姓名,性别和年龄:从那里,每只狗"has many"测量,所以你需要一个
dog_mesaurements
表来存储24个测量值:那么每当你进行测量时,你
INSERT INTO dog_measurements (dog_id,taken_at) VALUES (*?*, NOW());
哪里*? *是dogs
表中的狗的ID .然后,您需要表格来存储每个测量的实际帧,例如:
这样,对于250帧中的每一帧,您循环遍历63个传感器中的每一个,并将具有帧编号的该传感器的值存储到数据库中:
显然要替换measurement_id?,frame_number?,sensor_number ?, value?有实际 Value :-)
所以基本上,每个
dog_measurement_data
是给定帧的单个传感器值 . 这样,为了获得所有给定帧的所有传感器值,您将:这将为您提供该帧的所有行和列 .
Django有一个库,用于将所有数据库工作封装到Python类中,因此在必须做一些非常聪明的事情之前,您不必乱用原始SQL . 尽管Django是Web应用程序的框架,但您可以use the database ORM by itself .
Josh的模型在使用Django的Python中看起来像这样:
id
字段是自动创建的 .然后你可以做以下事情:
要进行测量:
最后,获得一个框架:
注意:这将返回元组列表(例如
[(1.5,), (1.8,), ... ]
),因为values_list()
可以一次检索多个字段 . 我想象一下将向量重映射到矩阵的函数's got a function similar to Matlab' sreshape
.我想你无法弄清楚如何将2D数据放入数据库 .
如果考虑2列之间的关系,可以将其视为2D数据,第1列为X轴数据,第2列为Y轴数据 . 同样适用于3D数据 .
最后你的db应该是这样的:
此外,您可能希望按顺序存储3D数据和2D数据 . 在这种情况下,您必须添加一列以在3D数据和2D数据表中存储该顺序
我要添加到Josh的唯一答案是,如果您不需要查询单个帧或传感器,只需将数组存储为dog_measurement_data表中的BLOB . 之前我已经使用大量的二进制传感器数据集完成了这项工作并且运行良好 . 您基本上在每次测量时查询2d和3d数组,并在代码而不是数据库中操作它们 .
我从_1180173中受益匪浅;它是一个对象关系映射器 . 这意味着您可以在对象和数据之间创建一个非常清晰明确的分离:
您可以创建表示不同名词的对象(狗,测量,板等) . 然后通过
sqlalchemy
构造创建一个表,该构造将包含要与之关联的所有数据,例如Dog
对象 . 最后,在Dog
对象和dog_table
之间创建mapper
.这很难理解没有例子,我不会在这里重现一个 . 相反,请先阅读this case study,然后研究this tutorial .
一旦你能够像在现实世界中那样想到你的
Dogs
和Measurements
(也就是对象本身),你就可以开始将构成它们的数据分解出来 .最后,尽量不要将数据与特定格式结合(正如您目前使用
numpy
数组所做的那样) . 相反,您可以考虑简单的数字,然后根据需要将它们转换为您当前应用程序所需的特定格式(沿着模型 - 视图 - 控制器范例的行) .祝好运!
根据您的描述,我强烈建议您查看PyTables . 它可能正在使用(例如查询),同时允许轻松存储大型,多维数据集及其属性 . 作为额外的奖励,它与numpy紧密结合 .