我有2个用例:
-
从Oracle / PostgreSQL / Redshift / S3 / CSV中提取,转换和加载到我自己的Redshift集群
-
安排作业每天/每周运行(最好是INSERT TABLE或INSERT NONE选项) .
我目前正在使用:
-
SQLAlchemy for extract(通常很好用) .
-
用于转换和加载的PETL(适用于较小的数据集,但对于约50米的行,它很慢并且与数据库的连接超时) .
-
调度组件的内部工具(它将转换存储在XML中,然后存储来自XML的加载,看起来相当漫长而复杂) .
我一直在寻找this link但欢迎其他建议 . 如果有一个"easier"进程我可以通过Python做任何事情(我只使用Redshift,因为它似乎是最好的选择),也欢迎导出到Spark或类似的东西 .
1 回答
怎么样
Python
熊猫
这就是我们用于ETL处理的内容 .