【python-是否可以编写BigQuery来检索PyPI下载随时间推移的分箱计数?】教程文章相关的互联网学习教程文章

python-是否可以编写BigQuery来检索PyPI下载随时间推移的分箱计数?【代码】

以下代码是针对Google的BigQuery的SQL查询,该查询计算最近30天内我的PyPI软件包已下载的次数.#standardSQL SELECT COUNT(*) AS num_downloads FROM `the-psf.pypi.downloads*` WHERE file.project = 'pycotools'-- Only query the last 30 days of historyAND _TABLE_SUFFIXBETWEEN FORMAT_DATE('%Y%m%d', DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY))AND FORMAT_DATE('%Y%m%d', CURRENT_DATE())是否可以修改此查询,以便自软件包上...

如何使用python API在bigquery中创建新视图?

我有一些代码会自动生成一堆不同的SQL查询,我想将这些查询插入到bigquery中以生成视图,尽管我遇到的一个问题是,由于自然界的变化,这些视图需要每天晚上动态生成数据.所以我想做的是使用python的google bigquery api进行查看.我知道如何使用“ bq”命令行工具来执行此操作,但是我希望能够直接将其内置到代码中,而不是使用shell运行bq.我已经玩过提供的代码 https://cloud.google.com/bigquery/bigquery-api-quickstart 我不明白如何...

python – 将Pandas DataFrame写入Google Cloud Storage或BigQuery【代码】

您好,感谢您的时间和考虑.我正在Google Cloud Platform / Datalab中开发一个Jupyter笔记本.我创建了一个Pandas DataFrame,并希望将此DataFrame写入Google云端存储(GCS)和/或BigQuery.我在GCS中有一个存储桶,并通过以下代码创建了以下对象:import gcp import gcp.storage as storage project = gcp.Context.default().project_id bucket_name = 'steve-temp' bucket_path = bucket_name bucket = storage.Bucke...

python – 流式传输不工作之前的BigQuery表截断【代码】

我们使用BigQuery Python API来运行一些分析.为此,我们创建了以下适配器:def stream_data(self, table, data, schema, how=None):r = self.connector.tables().list(projectId=self._project_id,datasetId='lbanor').execute()table_exists = [row['tableReference']['tableId'] for row inr['tables'] ifrow['tableReference']['tableId'] == table]if table_exists:if how == 'WRITE_TRUNCATE':self.connector.tables().delete(...

Cloud Dataflow写入BigQuery Python错误【代码】

我正在编写一个简单的Beam作业来将数据从GCS存储桶复制到BigQuery.代码如下所示:from apache_beam.options.pipeline_options import GoogleCloudOptions import apache_beam as beampipeline_options = GoogleCloudOptions(flags=sys.argv[1:]) pipeline_options.project = PROJECT_ID pipeline_options.region = 'us-west1' pipeline_options.job_name = JOB_NAME pipeline_options.staging_location = BUCKET + '/binaries' pip...

python – BigQuerySink的bigquery.TableSchema的JSON表模式【代码】

我有一个以JSON格式定义的非平凡的表模式(涉及嵌套和重复的字段)(具有名称,类型,模式属性)并存储在文件中.它已成功用于使用bq load命令填充bigquery表. 但是当我尝试使用Dataflow Python SDK和BigQuerySink做同样的事情时,schema参数需要是逗号分隔的’name’列表:’type’元素或bigquery.TableSchema对象. 有没有方便的方法将我的JSON模式提供给bigquery.TableSchema,还是我必须将其转换为名称:值列表?解决方法:目前,您无法直接...

尝试使用Python查询Google BigQuery时出现“需要登录”错误【代码】

我想用Python从本地Linux机器上访问BigQuery数据.来自Google帮助https://cloud.google.com/bigquery/authorization#service-accounts-server的代码可以很好地为我提供数据集列表.但是查询通过服务库发送SELECT id, name FROM [test_articles.countries] LIMIT 100失败并显示“需要登录”消息:googleapiclient.errors.HttpError: <HttpError 401 when requesting https://www.googleapis.com/bigquery/v2/projects/myproject/queri...

如何使用GCP Dataflow中的python管道代码读取BigQuery表【代码】

有人可以分享语法来读取/写入在python中为GCP Dataflow编写的管道中的bigquery表解决方法:在Dataflow上运行 首先,使用以下选项构造一个Pipeline,以便在GCP DataFlow上运行:import apache_beam as beamoptions = {'project': <project>,'runner': 'DataflowRunner','region': <region>,'setup_file': <setup.py file>} pipeline_options = beam.pipeline.PipelineOptions(flags=[], **options) pipeline = beam.Pipeline(options =...

python – 使用pyspark脚本从bigquery加载表到spark集群【代码】

我有一个在bigquery中加载的数据表,我想通过pyspark .py文件在我的spark集群中导入它. 我在Dataproc + BigQuery examples – any available?中看到有一种方法可以使用scala在spark集群中加载一个bigquery表,但有没有办法在pyspark脚本中执行它?解决方法:这来自@MattJ在this question.这是一个连接到Spark中的BigQuery并执行字数统计的示例.import json import pyspark sc = pyspark.SparkContext()hadoopConf=sc._jsc.hadoopConfi...

python – 尝试将Google App Engine中的insertAll用于BigQuery时出现HTTP 501错误【代码】

解决:正如Felipe在评论中所建议的那样,我正在使用EU作为数据位置.流式传输在BigQuery的欧盟数据中心中无法使用,因此我不得不将数据迁移到美国数据中心,之后一切都按预期工作. 我的问题:我正在尝试使用Google App Engine(python版本)将数据推送到BigQuery.在实际插入发生之前,一切似乎都很好,之后我收到HTTP 501错误.谷歌的错误代码表将我称为“联系支持”. 错误回复: HttpError:https://www.googleapis.com/bigquery/v2/pr...