首页 文章

如何在ADLA中的U-SQL中添加多个文件中的列?

提问于
浏览
2

我在Azure Data Lake中有很多csv文件,包含各种类型的数据(例如,压力,温度,真/假) . 它们都带有时间戳,我需要根据时间戳将它们收集在一个文件中,以便进行机器学习 . 这在Java中很容易做到 - 启动文件流,在打开每个文件的文件夹上运行循环,比较时间戳以将相关值写入输出文件,启动新列(转到第一行的末尾)每个文件 . 虽然我已经解决了U-SQL中的时间戳问题,但是我在编写语法时遇到了麻烦,这将帮助我在整个文件夹上运行它 . 通配符语法{*}将所有文件视为同一文件集,而我需要运行某种循环以单独连接每个文件中的列 . 有没有办法做到这一点,也许使用虚拟列?

1 回答

  • 1

    首先,你必须考虑你的问题功能/声明,而不是基于程序范例,如循环 .

    让我试着改写一下你的问题,看看我是否可以提供帮助 . 您有许多csv文件,其中包含带时间戳的数据 . 不同的文件可以包含具有相同时间戳的行,并且您希望将相同时间戳(或时间戳范围)的所有行输出到特定文件?所以你基本上想重新分配数据?

    每个文件的格式是什么?它们都具有相同的架构或不同的架构吗?在后一种情况下,您如何区分它们?基于文件名?

    如果这是一个正确的陈述性重述和我的问题的答案,请在评论中告诉我,我将在下一步补充我的答案 .

相关问题