首页 文章

有哪些测试数据分析系统和ETL过程的方法?

提问于
浏览
2

我主要从事所谓的“大数据”工作; ETL和分析部分 . 我经常遇到的挑战之一就是找到一种“测试我的数据”的好方法 . 对于我的mapreduce和ETL脚本,我编写了可靠的单元测试覆盖率,但是如果数据本身存在意外的底层更改(来自多个应用程序系统),则代码不一定会引发明显的错误,这使我的数据不好/改变了不知道 .

是否有任何最佳实践可以帮助人们关注基础数据可能发生变化的方式/方式?

我们的技术堆栈是AWS EMR,Hive,Postgres和Python . 我们真的不想引入像Informatica这样的大型ETL框架 .

1 回答

  • 0

    您可以根据特定于您的系统的标准创建某种映射文件(可能是xml或其他),并在将其传入集群之前验证您的传入数据,或者可能在流程本身期间验证 . 我前一段时间遇到过类似的问题,最后这样做了 .

    我不知道它对您的数据和用例有多可行,但它对我们起了作用 . 我不得不创建一次xml文件(我知道它很枯燥乏味,但值得一试)现在每当我得到新文件时,我都会使用这些xml文件来验证数据,然后再将它放入我的集群中以检查数据是否是是否正确(按照标准定义) . 如果每次获得一些新数据时必须手动检查所有内容,这将节省大量时间和精力 .

相关问题