如何在ADLA中的U-SQL中添加多个文件中的列？-Java 学习之路

我在Azure Data Lake中有很多csv文件，包含各种类型的数据（例如，压力，温度，真/假） . 它们都带有时间戳，我需要根据时间戳将它们收集在一个文件中，以便进行机器学习 . 这在Java中很容易做到 - 启动文件流，在打开每个文件的文件夹上运行循环，比较时间戳以将相关值写入输出文件，启动新列（转到第一行的末尾）每个文件 . 虽然我已经解决了U-SQL中的时间戳问题，但是我在编写语法时遇到了麻烦，这将帮助我在整个文件夹上运行它 . 通配符语法{*}将所有文件视为同一文件集，而我需要运行某种循环以单独连接每个文件中的列 . 有没有办法做到这一点，也许使用虚拟列？

1 回答

1

首先，你必须考虑你的问题功能/声明，而不是基于程序范例，如循环 .

让我试着改写一下你的问题，看看我是否可以提供帮助 . 您有许多csv文件，其中包含带时间戳的数据 . 不同的文件可以包含具有相同时间戳的行，并且您希望将相同时间戳（或时间戳范围）的所有行输出到特定文件？所以你基本上想重新分配数据？

每个文件的格式是什么？它们都具有相同的架构或不同的架构吗？在后一种情况下，您如何区分它们？基于文件名？

如果这是一个正确的陈述性重述和我的问题的答案，请在评论中告诉我，我将在下一步补充我的答案 .

回复于 2024-04-26T13:16:05+08:00

如何在ADLA中的U-SQL中添加多个文件中的列？

1 回答

相关问题