首页 / 大数据 / sql优化之大数据量分页查询（mysql）

sql优化之大数据量分页查询（mysql）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了sql优化之大数据量分页查询（mysql），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5757字，纯文字阅读大概需要9分钟。

内容图文

当需要从数据库查询的表有上万条记录的时候，一次性查询所有结果会变得很慢，特别是随着数据量的增加特别明显，这时就需要使用分页查询。对于数据库分页查询，也有很多种方法和优化的点。

谈优化前的准备工作

为了对下面列举的一些优化进行测试，需要使用已有的一张表作为实际例子。

表名：order_history。

描述：某个业务的订单历史表。

主要字段：unsigned int id，tinyint(4) int type。

字段情况：该表一共37个字段，不包含text等大型数据，最大为varchar(500)，id字段为索引，且为递增。

数据量：5百万+。

MySQL版本：5.7.16。

线下找一张百万级的测试表可不容易，如果需要自己测试的话，可以写shell脚本什么的插入数据进行测试。

一次查询出所有记录

不使用分页查询的情况下，一次查询出表中的所有记录，也就是全表扫描：

select count(*) from orders_history; -- 5094032

执行三次查询的时间分别是8023ms、8122ms和8329ms。

实际的项目当然是不可能进行全表扫描的一次性查询出所有记录的做法，这样会因为数据的响应、传输和装载过慢而影响页面渲染的性能，严重影响用户体验。

一般的分页查询

一般的分页查询使用简单的limit子句就可以实现。limit子句的声明如下：

select * from table limit [offset,] rows | rows offset offset

limit子句可以被用于指定select语句返回的记录数，以下是使用limit子句的注意事项：

1.第一个参数指定第一个返回记录行的偏移量，注意从0开始。

2.第二个参数指定返回记录行的最大数目。

3.如果只给定一个参数，这个参数表示返回的最大记录行数目。

4.如果第二个参数值为-1，那么就表示检索从某一个偏移量到记录集的结束所有的记录行。

5.初始记录行的偏移量是0，而不是1。

select * from orders_history where type = 8 limit 1000,10;

上面这条语句会从orders_history表中查询offset:1000开始之后的10条记录，也就是第1001条记录到第1010条记录的数据（1001<=记录行数<=1010）。

执行三次查询的时间分别是3022ms、3032ms和3019ms。

数据表中的记录默认使用主键（一般是id）排序，因此上面的查询相当于：

select * from orders_history where type = 8 order by id limit 1000,10;

针对这种查询方式，通过改变limit的第二个参数来测试查询记录量对查询时间的影响：

select * from orders_history where type = 8 limit 10000,1;
select * from orders_history where type = 8 limit 10000,10;
select * from orders_history where type = 8 limit 10000,100;
select * from orders_history where type = 8 limit 10000,1000;
select * from orders_history where type = 8 limit 10000,10000;

执行三处查询的时间分别如下：

查询1条记录：3072ms 3092ms 3002ms。

查询10条记录：3081ms 3077ms 3032ms。

查询100条记录：3118ms 3200ms 3128ms。

查询1000条记录：3412ms 3468ms 3394ms。

查询10000条记录：3749ms 3802ms 3696ms。

从查询结果（查询时间）上来看，基本上可以得出得出一个结论就是，在查询记录量小于100的时候，查询时间基本没有差距，但是随着查询记录量越来越大，所花费的时间就会越来越多（不明显）。

针对这种查询方式，通过改变limit的第一个参数来测试查询偏移量对查询时间的影响：

select * from orders_history where type = 8 limit 100,100;
select * from orders_history where type = 8 limit 1000,100;
select * from orders_history where type = 8 limit 10000,100;
select * from orders_history where type = 8 limit 100000,100;
select * from orders_history where type = 8 limit 1000000,100;

执行三次查询的时间分别如下：

查询100偏移：25ms 24ms 24ms

查询1000偏移：78ms 76ms 77ms

查询10000偏移：3092ms 3212ms 3128ms

查询100000偏移：3878ms 3812ms 3798ms

查询1000000偏移：14608ms 14062ms 14700ms

从查询结果（查询时间）来看，随着查询偏移量的增大，尤其查询偏移量大于10万之后，查询的时间明显增加。

因为这种分页查询方式会从数据库的第一条记录开始扫描，因此记录越往后，查询的速度就会越慢，而且查询的数据越多，也会拖慢整体的总查询速度。

使用子查询优化大数据量分页查询

这种方式的做法是先定位偏移位置的id，然后再往后查询，适用于id递增的情况。

select * from orders_history where type = 8 limit 100000,1;

select id from orders_history where type = 8 limit 100000,1;

select * from orders_history where type = 8 and id >= (
    select id from orders_history where type = 8 limit 100000,1
) limit 100;

select * from orders_history where type = 8 limit 100000,100;

上面4条语句的查询时间如下：

第1条语句：3674ms。

第2条语句：1315ms。

第3条语句：1327ms。

第4条语句：3710ms。

针对上面的查询需要注意：

1.比较第1条语句和第2条语句：使用select id代替select *速度增加了3倍。

2.比较第2条语句和第3条语句：速度相差几十毫秒。

3.比较第3条语句和第4条语句：得益于select id速度增加，第3条语句查询速度增加了3倍。

4.这种方式相较于原始一般的查询方法，将会增快数倍。

使用id限定优化大数据量分页查询

使用这种方式需要先假设数据表的id是连续递增的，我们根据查询的页数和查询的记录数可以算出查询的id的范围，可以使用 id between and 来查询：

select * 
from orders_history 
where type = 2
    and (id between 1000000 and 1000100)
limit 100;

执行三次查询的时间分别是15ms、12ms和10ms。

这种查询方式能够极大地优化查询速度，基本能够在几十毫秒之内完成。限制是只能使用于明确知道id的情况，不过一般建立表的时候，都会添加基本的id字段，这为分页查询带来很多便利。

还可以有另外一种写法：

select * from orders_history where id >= 1000001 limit 100;

当然了，也可以使用in的方式来进行查询，这种方式经常用在多表关联的情况下，使用其他表查询的id集合来进行查询：

select * from orders_history where id in (
    select order_id from trade where good_name = 'apple'
) limit 100;

但是使用这种in查询方式的时候要注意的是，某些MySQL版本并不支持在in子句中使用limit子句。

使用临时表优化大数据量分页查询

对于使用id限定优化中的问题，需要id是连续递增的，但是在一些场景下，比如使用历史表的时候，或者出现过数据缺失问题时，可以考虑使用临时存储的表来记录分页的id，使用分页的id来进行in查询。

这样能够极大的提高传统的分页查询速度，尤其是数据量上千万的时候。

关于数据表id的扩展说明

一般情况下，在数据库中建立表的时候，会强制为每一张表添加id递增字段，这样方便查询。

而如果像是订单库等数据量非常庞大，一般会进行分库分表。这个时候就不建议使用数据表的id作为唯一标识，而应该使用分布式的高并发唯一id生成器来生成，并在数据表中使用另外的字段来存储这个唯一标识。

查询的方法是先使用范围查询定位id（或者索引），然后再使用索引进行定位数据，就能够提高好几倍查询速度。即先select id，然后再select *。

"从前车马很慢，书信很远，一生只够爱一人。"

内容总结

以上是互联网集市为您收集整理的sql优化之大数据量分页查询（mysql）全部内容，希望文章能够帮你解决sql优化之大数据量分页查询（mysql）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/876283.html

来源：【匿名】

【上一篇】[大数据技术]Kettle报OPTION SQL_SELECT_LIMIT=DEFAULT错误的解决办法【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【sql优化之大数据量分页查询（mysql）】教程文章相关的互联网学习教程文章

大数据量时Mysql的优化要点【图】

一：查询优化 1：创建索引。最简单也是最常用的优化就是查询。因为对于CRUD操作，read操作是占据了绝大部分的比例，所以read的性能基本上决定了应用的性能。对于查询性能最常用的就是创建索引。经过测试，2000万条记录，每条记录200字节两列varchar类型的。当不使用索引的时候查询一条记录需要一分钟，而当创建了索引的时候查询时间可以忽略。但是，当你在已有数据上添加索引的时候，则需要耗费非常大的时间。我插入2000万...

（转）大数据量高并发的数据库优化与sql优化

为了保证数据库的一致性和完整性，在逻辑设计的时候往往会设计过多的表间关联，尽可能的降低数据的冗余。（例如用户表的地区，我们可以把地区另外存放到一个地区表中）如果数据冗余低，数据的完整性容易得到保证，提高了数据吞吐速度，保证了数据的完整性，清楚地表达数据元素之间的关系。而对于多表之间的关联查询（尤其是大数据表）时，其性能将会降低，同时也提高了客户端程序的编程难度，因此，物理设计需折衷考虑，根据业务规...

[转载] 单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构【图】

原文: http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=209406532&idx=1&sn=2e9b0cc02bdd4a02f7fd81fb2a7d78e3&scene=1&key=0acd51d81cb052bce4ec2a825666e97fe7d6e1072fb7d813361771645e9403309eb1af025691162c663b60ea990c3781&ascene=0&uin=Mjk1ODMyNTYyMg%3D%3D&devicetype=iMac+MacBookPro9%2C2+OSX+OSX+10.10.4+build(14E46)&version=11020113&pass_ticket=BMvgY%2FQsw1%2F03cUiNFxSaOqwIILVibsbo6ukY1byB7SBDXiekF%2...

【转】单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

【转】单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构标签：本文系统来源：http://www.cnblogs.com/vickygu2007/p/5069159.html

单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构(转)【图】

, 更多详细资料请参看原文此文是根据杨尚刚在【QCON高可用架构群】中，针对MySQL在单表海量记录等场景下，业界广泛关注的MySQL问题的经验分享整理而成，转发请注明出处。杨尚刚，美图公司数据库高级DBA，负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师，负责新浪微博核心数据库架构改造优化，以及数据库相关的服务器存储选型设计。前言 MySQL数据库大家应该都很熟悉，而且随着前几年的阿里的去IOE，MySQL逐渐引...

单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构【图】

015-08-09 杨尚刚高可用架构此文是根据杨尚刚在【QCON高可用架构群】中，针对MySQL在单表海量记录等场景下，业界广泛关注的MySQL问题的经验分享整理而成，转发请注明出处。杨尚刚，美图公司数据库高级DBA，负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师，负责新浪微博核心数据库架构改造优化，以及数据库相关的服务器存储选型设计。前言 MySQL数据库大家应该都很熟悉，而且随着前几年的阿里的去IOE，My...

大数据量高并发访问SQL优化方法

保证在实现功能的基础上，尽量减少对数据库的访问次数；通过搜索参数，尽量减少对表的访问行数,最小化结果集，从而减轻网络负担；能够分开的操作尽量分开处理，提高每次的响应速度；在数据窗口使用SQL时，尽量把使用的索引放在选择的首列；算法的结构尽量简单；在查询时，不要过多地使用通配符如SELECT * FROM T1语句，要用到几列就选择几列如：SELECT COL1,COL2 FROM T1；在可能的情况下尽量限制尽量结果集行数如：SELECT TOP 300...

大数据量数据库设计与优化方案(SQL优化)

转自：https://www.cnblogs.com/zuizui1204/p/9197248.html 一、数据库结构的设计如果不能设计一个合理的数据库模型，不仅会增加客户端和服务器段程序的编程和维护的难度，而且将会影响系统实际运行的性能。所以，在一个系统开始实施之前，完备的数据库模型的设计是必须的。在一个系统分析、设计阶段，因为数据量较小，负荷较低。我们往往只注意到功能的实现，而很难注意到性能的薄弱之处，等到系统投入实际运行...

【大数据课堂0008】会引起全表扫描的几种SQL 以及sql优化【代码】

查询语句的时候尽量避免全表扫描，使用全扫描，索引扫描！会引起全表扫描的几种SQL如下 1、模糊查询效率很低：原因：like本身效率就比较低，应该尽量避免查询条件使用like；对于like ‘%...%’（全模糊）这样的条件，是无法使用索引的，全表扫描自然效率很低；另外，由于匹配算法的关系，模糊查询的字段长度越大，模糊查询效率越低。解决办法：首先尽量避免模糊查询，如果因为业务需要一定要使用模糊查询，则至少保证不要使用全模糊...

sql优化之大数据量分页查询（mysql）【代码】

为了对下面列举的一些优化进行测试，需要使用已有的一张表作为实际例子。表名：order_history。描述：某个业务的订单历史表。主要字段：unsigned int id，tinyint(4) int type。字段情况：该表一共37个字段，不包含text等大型数据，最大为varchar(500)，id字段为索引，且为递增。数据量：5百万+。 MySQL版本：5.7.16。线下找一张百万级的测试表可不容易，如果需要自己测试的话，可以写shell脚本什么的插入数据进行测试。一次...

大数据量数据库设计与优化方案【sql优化等】

转自：http://blog.sina.com.cn/s/blog_6c0541d50102wxen.html 一、数据库结构的设计如果不能设计一个合理的数据库模型，不仅会增加客户端和服务器段程序的编程和维护的难度，而且将会影响系统实际运行的性能。所以，在一个系统开始实施之前，完备的数据库模型的设计是必须的。在一个系统分析、设计阶段，因为数据量较小，负荷较低。我们往往只注意到功能的实现，而很难注意到性能的薄弱之处，等到系统投入实际运...

Mysql优化-大数据量下的分页策略【图】

一。前言通常，我们分页时怎么实现呢？SELECT * FROM table ORDER BY id LIMIT 1000, 10;但是，数据量猛增以后呢？SELECT * FROM table ORDER BY id LIMIT 1000000, 10;如上第二条查询时很慢的，直接拖死。最关键的原因mysql查询机制的问题：不是先跳过，后查询；而是先查询，后跳过。(解释如下)什么意思？比如limit 100000,10,在找到需要的那10条时，先会轮询经过前10W条数据，先回行查询出前100000条的字段数据，然后发现没用舍弃...

大数据量时Mysql的优化要点_MySQL

bitsCN.com1、对查询进行优化、应尽量避免全表扫描、首先应考虑在 where 及 order by 涉及的列上建立索引。2、应尽量避免在 where 子句中对字段进行 null 值判断、否则将导致引擎放弃使用索引而进行全表扫描、如：select id from t where num is null;--可以在num上设置默认值0、确保表中num列没有null值、然后这样查询：select id from t where num=0;3、应尽量避免在 where 子句中使用!=或<>操作符、否则将引擎放弃使用索引而进行...

大数据量时Mysql的优化【图】

（转自网络）如今随着互联网的发展，数据的量级也是撑指数的增长，从GB到TB到PB。对数据的各种操作也是愈加的困难，传统的关系性数据库已经无法满足快速查询与插入数据的需求。这个时候NoSQL的出现暂时解决了这一危机。它通过降低数据的安全性，减少对事务的支持，减少对复杂查询的支持，来获取性能上的提升。但是，在有些场合NoSQL一些折衷是无法满足使用场景的，就比如有些使用场景是绝对要有事务与安全指标的。这个时候NoSQL肯定...

sql优化之大数据量分页查询（mysql）【代码】

当需要从数据库查询的表有上万条记录的时候，一次性查询所有结果会变得很慢，特别是随着数据量的增加特别明显，这时就需要使用分页查询。对于数据库分页查询，也有很多种方法和优化的点。谈优化前的准备工作为了对下面列举的一些优化进行测试，需要使用已有的一张表作为实际例子。表名：order_history。描述：某个业务的订单历史表。主要字段：unsigned int id，tinyint(4) int type。字段情况：该表一共37个字段，不包含tex...

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...

首页 / 大数据 / sql优化之大数据量分页查询（mysql）

sql优化之大数据量分页查询（mysql）

内容导读

内容图文

内容总结

内容备注

内容手机端

【sql优化之大数据量分页查询（mysql）】教程文章相关的互联网学习教程文章

大数据量时Mysql的优化要点【图】

（转）大数据量高并发的数据库优化与sql优化

[转载] 单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构【图】

【转】单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构(转)【图】

单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构【图】

大数据量高并发访问SQL优化方法

大数据量数据库设计与优化方案(SQL优化)

【大数据课堂0008】会引起全表扫描的几种SQL 以及sql优化【代码】

sql优化之大数据量分页查询（mysql）【代码】

大数据量数据库设计与优化方案【sql优化等】

Mysql优化-大数据量下的分页策略【图】

大数据量时Mysql的优化要点_MySQL

大数据量时Mysql的优化【图】

sql优化之大数据量分页查询（mysql）【代码】

MYSQL - 相关标签

大数据 - 相关标签

大数据 - 最新教程

大数据 - 最热教程