首页 文章

ETL测试数据集/框架

提问于
浏览
1

我正在尝试为我们的ETL过程创建合理的测试 .

我认为需要参考/测试摄取数据集 . 我不想使用客户端数据(这是另一种选择) .

然后,我将在此测试数据集上运行当前ETL以获取参考转换 . 这样,当源代码更改时,我们可以测试对ETL中当前生成的内容的引用,并确保没有创建回归 .

我不确定这是正确的做法 . 例如,如果在源代码中更改了转换,则与引用转换相比较的测试将正确失败 . 我们必须为该转换创建一个新的参考转换数据集 . 一旦开发团队开始对单独的转换进行更改,您就会发现这变得疯狂 .

最终,我需要一种方法来生成测试数据集和测试转换 . 有任何想法吗?

1 回答

  • 0

    创建一个测试数据集,每个可能的转换结果至少包含一行 . 您将使用此测试数据集作为每个ETL测试运行的源 . 当出现新的转换或错误时,请在测试数据集中添加其他行以覆盖这些转换 .

    在ETL目标中,创建用于验证源数据集转换的测试 . 您需要对每个转换结果进行测试,以确保完整的代码覆盖率 . 由于您的测试数据集是已知且一致的来源,因此测试应始终具有可预测的结果 .

    自动化ETL测试并不复杂,但它很复杂,设置起来可能非常耗时 . 它还需要一个训练有素的开发团队来维护 . 祝好运 .

相关问题