首页 / MYSQL / mysql – 数据仓库：我如何查询每日快照？

mysql – 数据仓库：我如何查询每日快照？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了mysql – 数据仓库：我如何查询每日快照？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3373字，纯文字阅读大概需要5分钟。

内容图文

我有一些非时间序列的数据库快照.例如：

>快照第1天：

+----+---------------+------------+------------+        
| ID |     Title     |  Category  |    Date    |
+----+---------------+------------+------------+
| 1  | My First Post | helloworld | 2015-01-01 |
+----+---------------+------------+------------+

>快照第2天(今天增加了一个新帖子)：

+----+----------------+------------+------------+        
| ID |      Title     |  Category  |    Date    |
+----+----------------+------------+------------+
| 1  | My first post  | helloworld | 2015-01-01 |
| 2  | My second post | other      | 2015-01-02 |
+----+----------------+------------+------------+

>第3天快照(今天发布的帖子2)：

+----+---------------+------------+------------+        
| ID |     Title     |  Category  |    Date    |
+----+---------------+------------+------------+
| 1  | My First Post | helloworld | 2015-01-01 |
+----+---------------+------------+------------+

因此,在几天之间,表格的一行可能与否可能是不变的.现在,我需要能够使用这样的查询：

SELECT category, COUNT(*) from day1.My_table group by category

这是一天一桌.如果我们想在一个月内按类别计算帖子的每日平均值,我们应该执行以下操作：

SELECT category, SUM(cnt) / 30 
from ( 
    SELECT category, COUNT(*) as cnt 
    from day1.My_table 
    group by category 
        UNION ALL SELECT category, COUNT(*) as cnt 
                  from day2.My_table 
                  group by category 
        UNION ALL ... 
        UNION ALL SELECT category, COUNT(*) as cnt 
                  from day30.My_table 
                  group by category
) group by category

另一个例子,一个月内发布的帖子数量：

SELECT COUNT(distinct id) 
from ( 
    SELECT id 
    from day1.My_table 
    UNION ALL ... 
    UNION ALL SELECT id 
              from day30.My_table
)

基本上我们需要考虑一个重量.如果我们有day1.My_table和day5.My_table,那么第1天而不是第5天的每个帖子都会被计算在第2,3,4天.第1天和第5天的每个帖子都会计算在每月的每一天(=直到下一个快照).

因此,如果我想考虑每天的平均帖子数> = 6个月,我只有1个快照,我会为该快照分配30的权重.

因此,在一个月内发布的> = 6个月前的平均帖子是：

SELECT category, SUM(cnt) / 30 
from ( 
    SELECT category, COUNT(*)*30 as cnt 
    from day1.My_table 
    group by category --- Note: I'm not considering the range defined from the user in this example.
) group by category;

正如评论所述,我需要进行如下查询：

Select category, AVG(*) 
from [fromRange-toRange].MyTable;

对于一个极端的解决方案,我正在考虑实现一个元语言的想法,让未来的用户(例如marketng people)做这样的查询.

你觉得有没有办法在没有元语言的Drill中实现这个目的？我会使用递归UDF执行此操作但它们无法返回查询.

每个快照都是250GB大,我希望能够将这些数据集与其他外部数据进行比较(事先我不知道这些数据集的方案).

有适合Apache Drill的解决方案吗？或者是否有另一种解决方案？

此外,任何有关此问题的元语言或论文都表示赞赏.

编辑：
我们没有交易数据.我们的数据随时间变化,可以添加或删除;因此我们需要每天快照.此外,我们事先不知道将要执行的查询,因此我们无法知道要执行的聚合类型.
每行还有大约100列,每个快照有250GB(Mysql表).
我们还需要在每一天的每一行都对这些数据进行全文搜索.

搜索的一个例子可能是“关于sometopic的帖子有多少？”所以它必须在所有帖子中搜索sometopic关键字.每个快照可能有或没有相同的行.另外两个快照可能有相同的帖子,但略有修改.

解决方法:

所以我一直在寻找的是一种与Datawarehousing相关的新型系统：Data Lake System.

您可以在Wikipedia了解更多信息：

A data lake is a method of storing data within a system that
facilitates the colocation of data in variant schemas and structural
forms, usually object blobs or files. Hadoop and the AWS S3 platform
can be used to build data lake repositories.

内容总结

以上是互联网集市为您收集整理的mysql – 数据仓库：我如何查询每日快照？全部内容，希望文章能够帮你解决mysql – 数据仓库：我如何查询每日快照？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/896378.html

来源：【匿名】

【上一篇】如何检查磁盘上的mysql数据库大小【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【mysql – 数据仓库：我如何查询每日快照？】教程文章相关的互联网学习教程文章

lvm快照备份mysql【代码】

快照备份原理(从其他博客看的)：原理：通过lvm快照给lvm真身拍个照片，当lvm真身发送改变时，lvm快照把lvm真身改变之前的内容存放在快照上，这样在lvm快照有效的这段时间内，我们看到的lvm快照上的内容始终是lvm真身在创建lvm快照时内容，通过备份lvm快照即可达到在线备份lvm真身的目的。需要注意的是，当lvm快照比lvm真身小时，若lvm真身发生的改变大于lvm快照，则lvm快照将变得无法读取而失效; 若lvm快照大于等于lvm真身，则不会...

Redis灾备方案，除了rdb快照和M/S主从，aof日志，还有没有其他方

最近的项目用的是纯Redis数据库，数据量5G以上，每天定时rdb快照，1 - 2分钟拒绝服务，有点无法忍受。也没有做M/S主从的机器预算； AOF日志流，测试过也不大靠谱；之前看过wooga公司（www.wooga.com）的ppt，他们采用的方案是定时备份，过去10分钟内的活跃最近的项目用的是纯Redis数据库，数据量5G以上，每天定时rdb快照，1 - 2分钟拒绝服务，有点无法忍受。也没有做M/S主从的机器预算； AOF日志流，测试过也不大靠谱；之前看过...

Oracle通过视图和告警日志检查主库，物理和快照备库

Oracle通过视图和告警日志检查主库，物理和快照备库主库动作主库信息备库信息是否启用redo线程 alert log v$thread Oracle通过视图和告警日志检查主库，物理和快照备库主库动作主库信息备库信息是否启用redo线程alert log v$thread alert log 展示数据库角色，保护模式，保护级别，，切换状态，快速启用，失效转换信息 v$database v$database增删redo日志文件组alert log v$log v$logfile的status字段alert log 控制文件的创...

python – PyMySQL显然返回旧/快照值/不重新运行查询？【代码】

我正在使用pymysql.cursors和一个简单的代码示例,它从表中加载一行并每秒打印一次：#!/usr/bin/env python3 import pymysql.cursors import timeconn = pymysql.connect(host='localhost',# credentials etc.cursorclass=pymysql.cursors.DictCursor)while True:with conn.cursor() as cursor:cursor.execute("SELECT * FROM state limit 1;")vals = cursor.fetchone()print (vals)time.sleep(1)state是MariaDb数据库中具有单行的表...

lvm快照备份mysql【代码】

mysqldump 和基于快照的备份【代码】

mysqldump 和基于快照的备份mysqldump 和基于快照的备份Table of Contents mysqldump: 仅适用于数据集较小 lvm-snapshot: 基于 LVM 快照的备份相关阅读 mysqldump: 仅适用于数据集较小 mysqldump DB_NAME [tbname1] [tbname2]# mysqldump -uroot -pYOUR_PASSWORD DB_NAME > test.sql mysql> create database test2; mysqldump -uroot -pYOUR_PASSWORD test2 < test.sql备份所有的库mysqldump --all-databases > test.sql备份指定...

制作mysql数据快照【代码】

方法一：使用mysqldump工具创建一个你想要复制的所有数据库的一个dump。这是推荐使用的方法，特别是如果表的存储引擎都是innodb。具体操作方法：找到mysqldump（跟mysql启动程序同路径）把主上的数据制作快照 ./mysqldump -uroot -pabc -h127.0.0.1 --all-databases --master-data > dbdump.db注意：如果不使用—master-data参数，需要在一个独立的客户端会话里执行flush all tables with read lock，以保证制作数据镜像的时候没...

自动记录MySQL慢查询快照脚本

写这个脚本的初衷是在使用阿里云RDS的过程中，数据库出现异常，需要快速恢复。网上有许多类似的kill脚本，都是通过 mysqladmin 实现的。然而 Ali-RDS 环境有以下限制：不提供 SUPER 权限的用户，也就是用户只能 kill 自己的线程当连接数暴增时，外部用户无法登陆，包括控制台为了解决上午2大问题，该 python 脚本通过在db实例上，使用多线程的方式，为每个用户保留一个连接，并实时读取指令配置文件 mysqk.ini，发现有 kill 需求时...

Oracle数据库快照的使用

Oracle数据库快照的使用正在看的ORACLE教程是:Oracle数据库快照的使用。oracle数据库的快照是一个表，它包含有对一个本地或远程数据库上一个或多个表或视图的查询的结果。正因为快照是一个主表的查询子集，使用快照可以加快数据的查询速度;在保持不同数据库中的两个表的同步中，利用快照刷新，数据的更新性能也会有很大的改善。　　下面以我在开发襄樊市电信局170话费催缴系统中使用快照加快查询速度的实现过程为例来说明快照的使用...

oracle10g快照操作方法

本文将详细介绍oracle 10g 快照操作方法包括创建、刷新、修改等，需要了解的朋友可以参考下一不小心听说了oracle 数据库快照，这个词我当初一听就楞了，不知道这个是什么玩意，然后花了点时间研究了下，以下是我通过网络学习总结的快照主要是用于分布式数据库，我们有数据库A，A中有个表a,我们在数据库B中要使用数据库A中a表的数据，这时候我们就可以在数据库B中创建数据库A的快照，这样可以提高我们的效率。我理解快照就是对表的...

Mysql高性能备份方案解决数据不间断访问（LVM快照方式备份）

Mysql高性能备份方案解决数据不间断访问（LVM快照方式备份）www.rsyslog.orgmysqlLVM快照备份特点：1、在大多数情况下，这种方式几乎算得上是热备。它无需关闭服Mysql高性能备份方案解决数据不间断访问（LVM快照方式备份）mysql LVM快照备份特点： 1、在大多数情况下，这种方式几乎算得上是热备。它无需关闭服务，只需要设置只读或者类似这样的限制。 2、支持所有基于本地磁盘的存储引擎，比如MYISAM、InnoDB和BDB，还支持Solid、P...

ActiveDirectory快照管理【图】

ActiveDirectory快照管理通过ActiveDirectory快照功能，我们可以很轻松的在恢复AD信息之前看到原来AD中的信息，如，用户、组、OU等各种信息，下面我们就来做一下 Active Directory 快照管理通过Active Directory 快照功能，我们可以很轻松的在恢复AD信息之前看到原来AD中的信息，如，用户、组、OU等各种信息，下面我们就来做一下环境：操作系统：Windows Server 2012 域控制器：xiaohui.srv.com 目的：创建快照――删除testOU―...

首页 / MYSQL / mysql – 数据仓库：我如何查询每日快照？

mysql – 数据仓库：我如何查询每日快照？

内容导读

内容图文

内容总结

内容备注

内容手机端

【mysql – 数据仓库：我如何查询每日快照？】教程文章相关的互联网学习教程文章

lvm快照备份mysql【代码】

Redis灾备方案，除了rdb快照和M/S主从，aof日志，还有没有其他方

Oracle通过视图和告警日志检查主库，物理和快照备库

python – PyMySQL显然返回旧/快照值/不重新运行查询？【代码】

lvm快照备份mysql【代码】

mysqldump 和基于快照的备份【代码】

制作mysql数据快照【代码】

自动记录MySQL慢查询快照脚本

Oracle数据库快照的使用

oracle10g快照操作方法

Mysql高性能备份方案解决数据不间断访问（LVM快照方式备份）

ActiveDirectory快照管理【图】

使用LVM快照备份MYSQL

利用LVM快照备份mysql数据库

Oracle数据库ORA-01555快照过旧【图】

MYSQL - 相关标签

数据仓库 - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程