首页 文章

Python中最好的ETL包

提问于
浏览
1

我有2个用例:

  • 从Oracle / PostgreSQL / Redshift / S3 / CSV中提取,转换和加载到我自己的Redshift集群

  • 安排作业每天/每周运行(最好是INSERT TABLE或INSERT NONE选项) .

我目前正在使用:

  • SQLAlchemy for extract(通常很好用) .

  • 用于转换和加载的PETL(适用于较小的数据集,但对于约50米的行,它很慢并且与数据库的连接超时) .

  • 调度组件的内部工具(它将转换存储在XML中,然后存储来自XML的加载,看起来相当漫长而复杂) .

我一直在寻找this link但欢迎其他建议 . 如果有一个"easier"进程我可以通过Python做任何事情(我只使用Redshift,因为它似乎是最好的选择),也欢迎导出到Spark或类似的东西 .

1 回答

  • 0

    怎么样

    • Python

    • 熊猫

    这就是我们用于ETL处理的内容 .

相关问题