首页 / PYTHON / Cloud Dataflow写入BigQuery Python错误

Cloud Dataflow写入BigQuery Python错误

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Cloud Dataflow写入BigQuery Python错误，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3327字，纯文字阅读大概需要5分钟。

内容图文

我正在编写一个简单的Beam作业来将数据从GCS存储桶复制到BigQuery.代码如下所示：

from apache_beam.options.pipeline_options import GoogleCloudOptions
import apache_beam as beam

pipeline_options = GoogleCloudOptions(flags=sys.argv[1:])
pipeline_options.project = PROJECT_ID
pipeline_options.region = 'us-west1'
pipeline_options.job_name = JOB_NAME
pipeline_options.staging_location = BUCKET + '/binaries'
pipeline_options.temp_location = BUCKET + '/temp'

schema = 'id:INTEGER,region:STRING,population:INTEGER,sex:STRING,age:INTEGER,education:STRING,income:FLOAT,statusquo:FLOAT,vote:STRING'
p = (beam.Pipeline(options = pipeline_options)
     | 'ReadFromGCS' >> beam.io.textio.ReadFromText('Chile.csv')
     | 'WriteToBigQuery' >> beam.io.WriteToBigQuery('project:tmp.dummy', schema = schema))

我们在项目项目中写入tmp.dummy表的位置.这导致以下堆栈跟踪：

Traceback (most recent call last):
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/runpy.py", line 151, in _run_module_as_main
    mod_name, loader, code, fname = _get_module_details(mod_name)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/runpy.py", line 101, in _get_module_details
    loader = get_loader(mod_name)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/pkgutil.py", line 464, in get_loader
    return find_loader(fullname)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/pkgutil.py", line 474, in find_loader
    for importer in iter_importers(fullname):
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/pkgutil.py", line 430, in iter_importers
    __import__(pkg)
  File "WriteToBigQuery.py", line 49, in <module>
    | 'WriteToBigQuery' >> beam.io.WriteToBigQuery(str(PROJECT_ID + ':' + pipeline_options.write_file), schema = schema))
  File "/Users/mayansalama/Documents/GCP/gcloud_env/lib/python2.7/site-packages/apache_beam/io/gcp/bigquery.py", line 1337, in __init__
    self.table_reference = _parse_table_reference(table, dataset, project)
  File "/Users/mayansalama/Documents/GCP/gcloud_env/lib/python2.7/site-packages/apache_beam/io/gcp/bigquery.py", line 309, in _parse_table_reference
    if isinstance(table, bigquery.TableReference):
AttributeError: 'module' object has no attribute 'TableReference'

看起来某些导入在某处出错了;是否可能是因为使用了GoogleCloudOptions管道选项？

解决方法:

我做了一些测试并且无法重现您的问题,数据集是否已经存在？以下代码段为我工作(我使用答案更好地格式化)：

import apache_beam as beam
import sys

PROJECT='PROJECT_ID'
BUCKET='BUCKET_NAME'
schema = 'id:INTEGER,region:STRING'

class Split(beam.DoFn):

    def process(self, element):
        id, region = element.split(",")

        return [{
            'id': int(id),
            'region': region,
        }]

def run():
   argv = [
      '--project={0}'.format(PROJECT),
      '--staging_location=gs://{0}/staging/'.format(BUCKET),
      '--temp_location=gs://{0}/staging/'.format(BUCKET),
      '--runner=DataflowRunner'
   ]

   p = beam.Pipeline(argv=argv)

   (p
      | 'ReadFromGCS' >> beam.io.textio.ReadFromText('gs://{0}/staging/dummy.csv'.format(BUCKET))
      | 'ParseCSV' >> beam.ParDo(Split())
      | 'WriteToBigQuery' >> beam.io.WriteToBigQuery('{0}:test.dummy'.format(PROJECT), schema=schema)
   )

   p.run()

if __name__ == '__main__':
   run()

其中dummy.csv包含：

$cat dummy.csv 
1,us-central1 
2,europe-west1

和BigQuery中的输出是：

使用了一些相关的依赖项：

apache-beam==2.4.0
google-cloud-bigquery==0.25.0
google-cloud-dataflow==2.4.0

内容总结

以上是互联网集市为您收集整理的Cloud Dataflow写入BigQuery Python错误全部内容，希望文章能够帮你解决Cloud Dataflow写入BigQuery Python错误所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/734875.html

来源：【匿名】

【上一篇】python – 从列表生成不同长度的数据帧【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Cloud Dataflow写入BigQuery Python错误】教程文章相关的互联网学习教程文章

python-是否可以编写BigQuery来检索PyPI下载随时间推移的分箱计数？【代码】

以下代码是针对Google的BigQuery的SQL查询,该查询计算最近30天内我的PyPI软件包已下载的次数.#standardSQL SELECT COUNT(*) AS num_downloads FROM `the-psf.pypi.downloads*` WHERE file.project = 'pycotools'-- Only query the last 30 days of historyAND _TABLE_SUFFIXBETWEEN FORMAT_DATE('%Y%m%d', DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY))AND FORMAT_DATE('%Y%m%d', CURRENT_DATE())是否可以修改此查询,以便自软件包上...

如何使用python API在bigquery中创建新视图？

我有一些代码会自动生成一堆不同的SQL查询,我想将这些查询插入到bigquery中以生成视图,尽管我遇到的一个问题是,由于自然界的变化,这些视图需要每天晚上动态生成数据.所以我想做的是使用python的google bigquery api进行查看.我知道如何使用“ bq”命令行工具来执行此操作,但是我希望能够直接将其内置到代码中,而不是使用shell运行bq.我已经玩过提供的代码 https://cloud.google.com/bigquery/bigquery-api-quickstart 我不明白如何...

python – 将Pandas DataFrame写入Google Cloud Storage或BigQuery【代码】

您好,感谢您的时间和考虑.我正在Google Cloud Platform / Datalab中开发一个Jupyter笔记本.我创建了一个Pandas DataFrame,并希望将此DataFrame写入Google云端存储(GCS)和/或BigQuery.我在GCS中有一个存储桶,并通过以下代码创建了以下对象：import gcp import gcp.storage as storage project = gcp.Context.default().project_id bucket_name = 'steve-temp' bucket_path = bucket_name bucket = storage.Bucke...

python – 流式传输不工作之前的BigQuery表截断【代码】

我们使用BigQuery Python API来运行一些分析.为此,我们创建了以下适配器：def stream_data(self, table, data, schema, how=None):r = self.connector.tables().list(projectId=self._project_id,datasetId='lbanor').execute()table_exists = [row['tableReference']['tableId'] for row inr['tables'] ifrow['tableReference']['tableId'] == table]if table_exists:if how == 'WRITE_TRUNCATE':self.connector.tables().delete(...

Cloud Dataflow写入BigQuery Python错误【代码】

我正在编写一个简单的Beam作业来将数据从GCS存储桶复制到BigQuery.代码如下所示：from apache_beam.options.pipeline_options import GoogleCloudOptions import apache_beam as beampipeline_options = GoogleCloudOptions(flags=sys.argv[1:]) pipeline_options.project = PROJECT_ID pipeline_options.region = 'us-west1' pipeline_options.job_name = JOB_NAME pipeline_options.staging_location = BUCKET + '/binaries' pip...

python – BigQuerySink的bigquery.TableSchema的JSON表模式【代码】

我有一个以JSON格式定义的非平凡的表模式(涉及嵌套和重复的字段)(具有名称,类型,模式属性)并存储在文件中.它已成功用于使用bq load命令填充bigquery表. 但是当我尝试使用Dataflow Python SDK和BigQuerySink做同样的事情时,schema参数需要是逗号分隔的’name’列表：’type’元素或bigquery.TableSchema对象. 有没有方便的方法将我的JSON模式提供给bigquery.TableSchema,还是我必须将其转换为名称：值列表？解决方法:目前,您无法直接...

尝试使用Python查询Google BigQuery时出现“需要登录”错误【代码】

我想用Python从本地Linux机器上访问BigQuery数据.来自Google帮助https://cloud.google.com/bigquery/authorization#service-accounts-server的代码可以很好地为我提供数据集列表.但是查询通过服务库发送SELECT id, name FROM [test_articles.countries] LIMIT 100失败并显示“需要登录”消息：googleapiclient.errors.HttpError: <HttpError 401 when requesting https://www.googleapis.com/bigquery/v2/projects/myproject/queri...

如何使用GCP Dataflow中的python管道代码读取BigQuery表【代码】

有人可以分享语法来读取/写入在python中为GCP Dataflow编写的管道中的bigquery表解决方法:在Dataflow上运行首先,使用以下选项构造一个Pipeline,以便在GCP DataFlow上运行：import apache_beam as beamoptions = {'project': <project>,'runner': 'DataflowRunner','region': <region>,'setup_file': <setup.py file>} pipeline_options = beam.pipeline.PipelineOptions(flags=[], **options) pipeline = beam.Pipeline(options =...

python – 使用pyspark脚本从bigquery加载表到spark集群【代码】

我有一个在bigquery中加载的数据表,我想通过pyspark .py文件在我的spark集群中导入它. 我在Dataproc + BigQuery examples – any available?中看到有一种方法可以使用scala在spark集群中加载一个bigquery表,但有没有办法在pyspark脚本中执行它？解决方法:这来自@MattJ在this question.这是一个连接到Spark中的BigQuery并执行字数统计的示例.import json import pyspark sc = pyspark.SparkContext()hadoopConf=sc._jsc.hadoopConfi...

python – 尝试将Google App Engine中的insertAll用于BigQuery时出现HTTP 501错误【代码】

解决：正如Felipe在评论中所建议的那样,我正在使用EU作为数据位置.流式传输在BigQuery的欧盟数据中心中无法使用,因此我不得不将数据迁移到美国数据中心,之后一切都按预期工作. 我的问题：我正在尝试使用Google App Engine(python版本)将数据推送到BigQuery.在实际插入发生之前,一切似乎都很好,之后我收到HTTP 501错误.谷歌的错误代码表将我称为“联系支持”. 错误回复： HttpError：https：//www.googleapis.com/bigquery/v2/pr...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Cloud Dataflow写入BigQuery Python错误

Cloud Dataflow写入BigQuery Python错误

内容导读

内容图文

内容总结

内容备注

内容手机端

【Cloud Dataflow写入BigQuery Python错误】教程文章相关的互联网学习教程文章

python-是否可以编写BigQuery来检索PyPI下载随时间推移的分箱计数？【代码】

如何使用python API在bigquery中创建新视图？

python – 将Pandas DataFrame写入Google Cloud Storage或BigQuery【代码】

python – 流式传输不工作之前的BigQuery表截断【代码】

Cloud Dataflow写入BigQuery Python错误【代码】

python – BigQuerySink的bigquery.TableSchema的JSON表模式【代码】

尝试使用Python查询Google BigQuery时出现“需要登录”错误【代码】

如何使用GCP Dataflow中的python管道代码读取BigQuery表【代码】

python – 使用pyspark脚本从bigquery加载表到spark集群【代码】

python – 尝试将Google App Engine中的insertAll用于BigQuery时出现HTTP 501错误【代码】

PYTHON - 相关标签

QUERY - 相关标签

DATA - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程