有没有办法在Azure Data Factory中进行简单的字符串操作?
像我有一个带有制表符分隔文件的存储blob一样简单,我想把它移到存储表中...但是做一些
我想说,将标签转换为逗号,将第4列合并到最后一列
您可以使用Custom Activity执行此操作,但要记住的有关Azure数据工厂的事情是它主要用于编排(而不是转换) . 这意味着它本身并没有很大的变换能力 .
另一种方法是使用Azure Data Lake Analytics(ADLA),这可能是我的偏好,因为我现在正在使用它 . 如果您还没有ADLA帐户,虽然它可能看起来有点开销 .
我已经采用了一个示例文件,并使用此sample file使用U-SQL根据您的要求对其进行了转换:
DECLARE @inputFilepath string = "input/input67.tsv"; DECLARE @outputFilepath string = "output/output67.csv"; @input = EXTRACT rowId int, col1 int, col2 int, col3 int, col4 int FROM @inputFilepath USING Extractors.Tsv(skipFirstNRows : 1); // Concat the four columns @output = SELECT rowId, string.Concat(col1.ToString(), col2.ToString(), col3.ToString(), col4.ToString()) AS col5 FROM @input; // Export as csv OUTPUT @output TO @outputFilepath USING Outputters.Csv(quoting:false);
1 回答
您可以使用Custom Activity执行此操作,但要记住的有关Azure数据工厂的事情是它主要用于编排(而不是转换) . 这意味着它本身并没有很大的变换能力 .
另一种方法是使用Azure Data Lake Analytics(ADLA),这可能是我的偏好,因为我现在正在使用它 . 如果您还没有ADLA帐户,虽然它可能看起来有点开销 .
我已经采用了一个示例文件,并使用此sample file使用U-SQL根据您的要求对其进行了转换: