-
2 votesanswersviews
在Beam管道中以编程方式生成BigQuery模式
我有一个同类dicts的集合,如何在不知道架构的情况下将它们写入BigQuery? BigQuerySink要求我在构造架构时指定架构 . 但是,我不知道架构:它是由我正在尝试编写的词组的键来定义的 . 有没有办法让我的管道推断出架构,然后将它(作为侧面输入?)提供给接收器? 例如: # Create a PCollection of dicts, something like # {'field... -
0 votesanswersviews
Apache Beam:将具有对象列表的对象转换为多个TableRows以写入BigQuery
我正在处理一个梁管道来处理一个json并将它写入bigquery . JSON就是这样的 . { "message": [{ "name": "abc", "itemId": "2123", "itemName": "test" }... -
2 votesanswersviews
Apache Beam with Dataflow - 从BigQuery读取时为Nullpointer
我正在使用从BigQuery表和文件中读取的apache beam编写的google数据流运行 . 转换数据并将其写入其他BigQuery表 . 作业“通常”成功,但有时我从大查询表中读取并且我的作业失败时随机获取nullpointer异常: (288abb7678892196): java.lang.NullPointerException at org.apache.beam.sdk.io.g... -
0 votesanswersviews
使用连接从BigQuery读取批量数据
我有一个用例,我必须通过在20个不同的BQ表上应用左连接来读取BigQuery中的选定数据,对该数据应用转换,然后最终转储到最终的BQ表中 . 我有两种方法可以实现这一点,我尝试了样本数据(从20个表中共计10到12百万行)并获得如下结果: 方法1 - 为整个过程编写BQ兼容查询,并通过Apache Beam(使用BigQueryIO.readTableRows())触发相同的查询,最后将数据转... -
0 votesanswersviews
在GCP Shell中获取包“Apache beam”作为AttributeError的错误:'module' object没有属性'Pipeline'
我的名为'numers.csv'的csv文件的编号排列为 3,5,6 1,7,8 2,2,4 我的python文件有以下代码 #!/usr/bin/env python2 import apache_beam as beam import csv p = beam.Pipeline(options=PipelineOptions()) pipeline=beam.Pipeline('D... -
3 votesanswersviews
在BigQuery Client Libraries和Beam IO之间共享模式定义
背景:我们正在使用Beam 2.0中的 Cloud 数据流运行器将我们的数据ETL存入我们的BigQuery仓库 . 我们希望使用BigQuery客户端库(Beta)在光束管道填充数据之前创建数据仓库的模式 . (理由:完全控制表定义,例如分区,创建DW实例的简易性,即数据集,ETL逻辑与DW设计的分离以及代码模块化) 问题:Beam中的BigQury IO使用com.google.api.se... -
0 votesanswersviews
apache beam streaming管道来监视gcs文件正则表达式
我有一个流式光束管道,我尝试监控多个globs / regex模式 . 这些模式中很少有文件匹配,将来会生成很少的模式 . PCollection<String> fileGlobs = p.apply(Create.of(filePatterns)); PCollection<Metadata> f = fileGlobs.apply("MatchALL&qu... -
0 votesanswersviews
GroupByKey / Combine函数链和apache梁中的Windowing
以下是一些Apache Beam Windowing问题: 我有一个Beam Pipeline从Pub / Sub读取数据,并通过一组ParDo 's ,during the processing we do groupByKey and then do a couple of ParDo'处理事件,再一次处理GroupByKey / Combine . 我们设置了一个大小为5分钟的窗口,触发器... -
0 votesanswersviews
使用apache beam python sdk使用PubSub读取和编写transoforms的示例
我在这里看到了例如https://cloud.google.com/dataflow/model/pubsub-io#reading-with-pubsubio的Java示例,但是当我看到这里https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/gcp/pubsub.py时,它说: def reader(self... -
0 votesanswersviews
从pub / sub流入大查询python时出错
我通过插入以下两个来创建将pub / sub源连接到大型查询接收器的dataflowRunner作业时遇到问题: apache_beam.io.gcp.pubsub.PubSubSource apache_beam.io.gcp.bigquery.BigQuerySink 分别在github上的beam / sdks / python / apache_beam / examples / str... -
2 votesanswersviews
Apache Beam - BigQueryIO读取投影
我有一个从BigQuery表读取的Dataflow管道 . 但是,在读取数据时,除了使用read(SerializableFunction)或readTableRows()方法读取所有记录之外别无选择 . 我想知道,在使用这些方法时,是否可以选择提供类似列的投影(类似于HBaseIO Scan addColumn()过滤器) . 我知道在从BigQuery加载数据时可以选择执行查询(使用readT...