Java 学习之路

2 votes

answers

views

在Beam管道中以编程方式生成BigQuery模式

我有一个同类dicts的集合，如何在不知道架构的情况下将它们写入BigQuery？ BigQuerySink要求我在构造架构时指定架构 . 但是，我不知道架构：它是由我正在尝试编写的词组的键来定义的 . 有没有办法让我的管道推断出架构，然后将它（作为侧面输入？）提供给接收器？例如： # Create a PCollection of dicts, something like # {'field...

python google-bigquery apache-beam apache-beam-io
0 votes

answers

views

Apache Beam：将具有对象列表的对象转换为多个TableRows以写入BigQuery

我正在处理一个梁管道来处理一个json并将它写入bigquery . JSON就是这样的 . { "message": [{ "name": "abc", "itemId": "2123", "itemName": "test" }...

google-bigquery google-cloud-dataflow apache-beam apache-beam-io
2 votes

answers

views

Apache Beam with Dataflow - 从BigQuery读取时为Nullpointer

我正在使用从BigQuery表和文件中读取的apache beam编写的google数据流运行 . 转换数据并将其写入其他BigQuery表 . 作业“通常”成功，但有时我从大查询表中读取并且我的作业失败时随机获取nullpointer异常： (288abb7678892196): java.lang.NullPointerException at org.apache.beam.sdk.io.g...

google-cloud-dataflow apache-beam apache-beam-io
0 votes

answers

views

使用连接从BigQuery读取批量数据

我有一个用例，我必须通过在20个不同的BQ表上应用左连接来读取BigQuery中的选定数据，对该数据应用转换，然后最终转储到最终的BQ表中 . 我有两种方法可以实现这一点，我尝试了样本数据（从20个表中共计10到12百万行）并获得如下结果：方法1 - 为整个过程编写BQ兼容查询，并通过Apache Beam（使用BigQueryIO.readTableRows（））触发相同的查询，最后将数据转...

google-bigquery google-cloud-dataflow apache-beam apache-beam-io
0 votes

answers

views

在GCP Shell中获取包“Apache beam”作为AttributeError的错误：'module' object没有属性'Pipeline'

我的名为'numers.csv'的csv文件的编号排列为 3,5,6 1,7,8 2,2,4 我的python文件有以下代码 #!/usr/bin/env python2 import apache_beam as beam import csv p = beam.Pipeline(options=PipelineOptions()) pipeline=beam.Pipeline('D...

python-2.7 google-cloud-platform apache-beam google-cloud-shell apache-beam-io
3 votes

answers

views

在BigQuery Client Libraries和Beam IO之间共享模式定义

背景：我们正在使用Beam 2.0中的 Cloud 数据流运行器将我们的数据ETL存入我们的BigQuery仓库 . 我们希望使用BigQuery客户端库（Beta）在光束管道填充数据之前创建数据仓库的模式 . （理由：完全控制表定义，例如分区，创建DW实例的简易性，即数据集，ETL逻辑与DW设计的分离以及代码模块化）问题：Beam中的BigQury IO使用com.google.api.se...

google-bigquery google-cloud-dataflow apache-beam apache-beam-io
0 votes

answers

views

apache beam streaming管道来监视gcs文件正则表达式

我有一个流式光束管道，我尝试监控多个globs / regex模式 . 这些模式中很少有文件匹配，将来会生成很少的模式 . PCollection<String> fileGlobs = p.apply(Create.of(filePatterns)); PCollection<Metadata> f = fileGlobs.apply("MatchALL&qu...

google-cloud-platform google-cloud-storage google-cloud-dataflow apache-beam apache-beam-io
0 votes

answers

views

GroupByKey / Combine函数链和apache梁中的Windowing

以下是一些Apache Beam Windowing问题：我有一个Beam Pipeline从Pub / Sub读取数据，并通过一组ParDo 's ,during the processing we do groupByKey and then do a couple of ParDo'处理事件，再一次处理GroupByKey / Combine . 我们设置了一个大小为5分钟的窗口，触发器...

google-cloud-dataflow apache-beam apache-beam-io
0 votes

answers

views

使用apache beam python sdk使用PubSub读取和编写transoforms的示例

我在这里看到了例如https://cloud.google.com/dataflow/model/pubsub-io#reading-with-pubsubio的Java示例，但是当我看到这里https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/gcp/pubsub.py时，它说： def reader(self...

google-cloud-dataflow apache-beam apache-beam-io
0 votes

answers

views

从pub / sub流入大查询python时出错

我通过插入以下两个来创建将pub / sub源连接到大型查询接收器的dataflowRunner作业时遇到问题： apache_beam.io.gcp.pubsub.PubSubSource apache_beam.io.gcp.bigquery.BigQuerySink 分别在github上的beam / sdks / python / apache_beam / examples / str...

python google-bigquery google-cloud-pubsub apache-beam apache-beam-io
2 votes

answers

views

Apache Beam - BigQueryIO读取投影

我有一个从BigQuery表读取的Dataflow管道 . 但是，在读取数据时，除了使用read(SerializableFunction)或readTableRows()方法读取所有记录之外别无选择 . 我想知道，在使用这些方法时，是否可以选择提供类似列的投影（类似于HBaseIO Scan addColumn()过滤器） . 我知道在从BigQuery加载数据时可以选择执行查询（使用readT...

java google-bigquery apache-beam apache-beam-io

热门问题