Python中最好的ETL包

提问于 2024-04-28T17:05:14+08:00

浏览次

1

我有2个用例：

从Oracle / PostgreSQL / Redshift / S3 / CSV中提取，转换和加载到我自己的Redshift集群
安排作业每天/每周运行（最好是INSERT TABLE或INSERT NONE选项） .

我目前正在使用：

SQLAlchemy for extract（通常很好用） .
用于转换和加载的PETL（适用于较小的数据集，但对于约50米的行，它很慢并且与数据库的连接超时） .
调度组件的内部工具（它将转换存储在XML中，然后存储来自XML的加载，看起来相当漫长而复杂） .

我一直在寻找this link但欢迎其他建议 . 如果有一个"easier"进程我可以通过Python做任何事情（我只使用Redshift，因为它似乎是最好的选择），也欢迎导出到Spark或类似的东西 .

1 回答

0
怎么样
- Python
- 熊猫
这就是我们用于ETL处理的内容 .
回复于 2024-04-28T17:05:14+08:00

相关问题