如何优化MySQL insert性能

Posted on

如何优化MySQL insert性能

您还未登录!|登录|注册|帮助

tigernorth的专栏

Beginning Linux Programming 笔记

如何优化MySQL insert性能

分类: MySQL 2012-10-20 23:50 2602人阅读 评论(14) 收藏 举报 insertmysql优化sql测试table

对于一些数据量较大的系统,面临的问题除了是查询效率低下,还有一个很重要的问题就是插入时间长。我们就有一个业务系统,每天的数据导入需要4-5个钟。这种费时的操作其实是很有风险的,假设程序出了问题,想重跑操作那是一件痛苦的事情。因此,提高大数据量系统的MySQL insert效率是很有必要的。

经过对MySQL的测试,发现一些可以提高insert效率的方法,供大家参考参考。

1. 一条SQL语句插入多条数据。 常用的插入语句如: [sql] view plaincopyprint?

  1. INSERT INTO insert_table (datetime, uid, content, type) VALUES ('0', 'userid_0', 'content_0', 0);
  2. INSERT INTO insert_table (datetime, uid, content, type) VALUES ('1', 'userid_1', 'content_1', 1);
    INSERT INTO insert_table (datetime, uid, content, type) VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO insert_table (datetime, uid, content, type) VALUES ('1', 'userid_1', 'content_1', 1);修改成: [sql] view plaincopyprint?

  3. INSERT INTO insert_table (datetime, uid, content, type) VALUES ('0', 'userid_0', 'content_0', 0), ('1', 'userid_1', 'content_1', 1);
    INSERT INTO insert_table (datetime, uid, content, type) VALUES ('0', 'userid_0', 'content_0', 0), ('1', 'userid_1', 'content_1', 1);

修改后的插入操作能够提高程序的插入效率。这里第二种SQL执行效率高的主要原因有两个,一是减少SQL语句解析的操作, 只需要解析一次就能进行数据的插入操作,二是SQL语句较短,可以减少网络传输的IO。

这里提供一些测试对比数据,分别是进行单条数据的导入与转化成一条SQL语句进行导入,分别测试1百、1千、1万条数据记录。 记录数 单条数据插入 多条数据插入 1百 0.149s 0.011s 1千 1.231s 0.047s 1万 11.678s 0.218s 2. 在事务中进行插入处理。 把插入修改成: [sql] view plaincopyprint?

  1. START TRANSACTION;
  2. INSERT INTO insert_table (datetime, uid, content, type) VALUES ('0', 'userid_0', 'content_0', 0);
  3. INSERT INTO insert_table (datetime, uid, content, type) VALUES ('1', 'userid_1', 'content_1', 1);
  4. ...
  5. COMMIT;
    START TRANSACTION; INSERT INTO insert_table (datetime, uid, content, type) VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO insert_table (datetime, uid, content, type) VALUES ('1', 'userid_1', 'content_1', 1); ... COMMIT;

使用事务可以提高数据的插入效率,这是因为进行一个INSERT操作时,MySQL内部会建立一个事务,在事务内进行真正插入处理。通过使用事务可以减少数据库执行插入语句时多次“创建事务,提交事务”的消耗,所有插入都在执行后才进行提交操作。

这里也提供了测试对比,分别是不使用事务与使用事务在记录数为1百、1千、1万的情况。 记录数 不使用事务 使用事务 1百 0.149s 0.033s 1千 1.231s 0.115s 1万 11.678s 1.050s 性能测试: 这里提供了同时使用上面两种方法进行INSERT效率优化的测试。即多条数据合并为同一个SQL,并且在事务中进行插入。 记录数 单条数据插入 合并数据+事务插入 1万 0m15.977s 0m0.309s 10万 1m52.204s 0m2.271s 100万 18m31.317s 0m23.332s

从测试结果可以看到,insert的效率大概有50倍的提高,这个一个很客观的数字。**

注意事项:

  1. SQL语句是有长度限制,在进行数据合并在同一SQL中务必不能超过SQL长度限制,通过max_allowed_packe配置可以修改,默认是1M。

  2. 事务需要控制大小,事务太大可能会影响执行的效率。MySQL有innodb_log_buffer_size配置项,超过这个值会日志会使用磁盘数据,这时,效率会有所下降。所以比较好的做法是,在事务大小达到配置项数据级前进行事务提交。

转载文章请注明来源: http://blog.csdn.net/tigernorth/article/details/8094277 分享到:

  1. 上一篇:MySQL锁的用法之行级锁
  2. 下一篇:MySQL 查询数据不一致 顶 7 踩 0 查看评论

7楼 kxxxxxxxb 2013-05-21 15:19发表 [回复] [引用] [举报]楼主请教下,我一条sql语句一次性插入30000行数据出错,报的错误是mysql server has gone away ,插入25000行就可以,难道一行sql插入的大小是有限制的?(我已经调高了max_allowed_packet=16M)6楼 huanggy001 2012-11-28 10:03发表 [回复] [引用] [举报]多谢分享!5楼 chunhaicao 2012-10-30 11:26发表 [回复] [引用] [举报]方法很好啊 只是我们大部分的备份数据都是“ INSERT INTO insert_table (datetime, uid, content, type) VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO insert_table (datetime, uid, content, type) VALUES ('1', 'userid_1', 'content_1', 1);” 类的,这个有什么好的方法可以快速的转为一条Sql语句吗?Re: tigernorth 2012-10-30 13:11发表 [回复] [引用] [举报]回复chunhaicao:使用mysqldump就能生成多行数据合并的sql的,用--extended-insert指定一个sql多条记录。4楼 Shellphon 2012-10-28 22:51发表 [回复] [引用] [举报]最后一句:“转载文章请注明来源: http://blog.csdn.net/tigernorth/article/details/8094277”是你写的么?Re: tigernorth 2012-10-29 12:57发表 [回复] [引用] [举报]回复dont27:在百度搜博文标题,基本都只看到转载网站的搜索结果,CSND有事还看不到,很是郁闷。。Re: Shellphon 2012-10-29 23:26发表 [回复] [引用] [举报]回复tigernorth:我勒个去,都是抓取的吧……话说那句话是你自己写的还是csdn自己加的?Re: tigernorth 2012-10-29 23:43发表 [回复] [引用] [举报]回复dont27:自己写的。Re: Shellphon 2012-10-30 21:28发表 [回复] [引用] [举报]回复tigernorth:之前百度一些技术的博客,貌似经常出现转载的情况,但都会留下最后“转载”的句子。我看那些抓取这文章的相当坑爹,都直接截取掉了……3楼 dongfangling 2012-10-23 22:45发表 [回复] [引用] [举报]事物?还是事务? 通过使用事物可以减少创建事物的消耗?Re: tigernorth 2012-10-24 12:55发表 [回复] [引用] [举报]回复dongfangling:是“事务”,写错了,多谢提醒哈。 是通过使用“事务”可以减少数据库插入数据时“创建事务,提交事务”的消耗,因为只需要开始创建一个事务,结束时提交即可。Re: dongfangling 2012-10-24 13:52发表 [回复] [引用] [举报]回复tigernorth:COOL2楼 特务苹果 2012-10-23 20:47发表 [回复] [引用] [举报]学习了。1楼 limingchuan123456789 2012-10-22 11:07发表 [回复] [引用] [举报]学习了。 您还没有登录,请[登录][注册]

/* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场 TOP

个人资料

tigernorth

  • 访问:16316次
  • 积分:430分
  • 排名:千里之外

  • 原创:21篇

  • 转载:1篇
  • 译文:0篇
  • 评论:24条

文章搜索

文章分类

展开

阅读排行

推荐文章 最新评论

kxxxxxxxb: 楼主请教下,我一条sql语句一次性插入30000行数据出错,报的错误是mysql server ha...

u010138411: good

huanggy001: 多谢分享!

Shellphon: @tigernorth:之前百度一些技术的博客,貌似经常出现转载的情况,但都会留下最后“转载”的句子...

tigernorth: @chunhaicao:使用mysqldump就能生成多行数据合并的sql的,用--extended...

chunhaicao: 方法很好啊只是我们大部分的备份数据都是“INSERT INTO insert_table (`d...

tigernorth: @dont27:自己写的。

Shellphon: @tigernorth:我勒个去,都是抓取的吧……话说那句话是你自己写的还是csdn自己加的?

tigernorth: @dont27:在百度搜博文标题,基本都只看到转载网站的搜索结果,CSND有事还看不到,很是郁闷。。

Shellphon: 最后一句:“转载文章请注明来源: http://blog.csdn.net/tigernorth/a...

公司简介|招贤纳士|广告服务|银行汇款帐号|联系方式|版权声明|法律顾问|问题报告QQ客服 微博客服 论坛反馈 联系邮箱:webmaster@csdn.net 服务热线:400-600-2320京 ICP 证 070598 号北京创新乐知信息技术有限公司 版权所有世纪乐知(北京)网络技术有限公司 提供技术支持江苏乐知网络技术有限公司 提供商务支持Copyright © 1999-2012, CSDN.NET, All Rights Reserved GongshangLogo

MySQL 语句级避免重复插入—— Insert Select Not Exist

Posted on

MySQL 语句级避免重复插入—— Insert Select Not Exist

想要插入一条数据,要避免重复插入,又不想折腾两回数据库连接操作,可以参考如下办法。 Sql代码 复制代码 收藏代码

  1. INSERT INTO table(column1,column2,column3 ...columnN)
  2. SELECT value1,value2,value3 ...valueN
  3. FROM dual
  4. WHERE NOT EXISTS(
  5. SELECT /*
  6. FROM table
  7. WHERE value = ?
  8. );

INSERT INTO table(column1,column2,column3 ...columnN)

SELECT value1,value2,value3 ...valueN FROM dual

WHERE NOT EXISTS( SELECT /*

  FROM table
  WHERE value = ?

); dual是为了构建查询语句而存在的表,Oracle中很常见,配合INSERT ... SELECT构建成我们需要的表,并指定了数据项. EXISTS通过这个判断是否存在的函数,就免去了我们做IF-ELSE的冗繁操作. 例: Sql代码 复制代码 收藏代码

  1. INSERT INTO content (
  2. detail,
  3. status,
  4. beginTime,
  5. endTime)
  6. SELECT
  7. @detail,
  8. 1,
  9. NULL,
  10. NULL
  11. FROM DUAL
  12. WHERE NOT EXISTS(
  13. SELECT contentId
  14. FROM content
  15. WHERE detail=@detail);

    INSERT INTO content (

     detail,
     status,
    
     beginTime,
     endTime)
    

    SELECT

     @detail,
    
     1,
     NULL,
    
     NULL
    

    FROM DUAL

    WHERE NOT EXISTS(

      SELECT contentId
    
      FROM content
      WHERE detail=@detail);
    

    @detail是要存入的内容,这里对内容进行了检索,如果要这么做,最好对该字段做唯一约束,或加索引。 省掉了IF-ELSE,在iBatis配置一下就ok了,哈! 还有个更坚决的办法——replace into: Sql代码 复制代码 收藏代码

  16. replace into blacklist(userInfoId,uid)

  17. select userInfoId,uid from user_info u where uid in(
  18. 'u303565440','u303566922','u303515112','u303559738');

replace into blacklist(userInfoId,uid)

select userInfoId,uid from user_info u where uid in( 'u303565440','u303566922','u303515112','u303559738');

MySQL索引背后的数据结构及算法原理

Posted on

MySQL索引背后的数据结构及算法原理

来源:张洋

摘要

本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MySQL时主要打交道的索引,至于哈希索引和全文索引本文暂不讨论。

文章主要内容分为三个部分。

第一部分主要从数据结构及算法理论层面讨论MySQL数据库索引的数理基础。

第二部分结合MySQL数据库中MyISAM和InnoDB数据存储引擎中索引的架构实现讨论聚集索引、非聚集索引及覆盖索引等话题。

第三部分根据上面的理论基础,讨论MySQL中高性能使用索引的策略。

数据结构及算法基础

索引的本质

MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。提取句子主干,就可以得到索引的本质:索引是数据结构。

我们知道,数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快,因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找(linear search),这种复杂度为O(n)的算法在数据量很大时显然是糟糕的,好在计算机科学的发展提供了很多更优秀的查找算法,例如二分查找(binary search)、二叉树查找(binary tree search)等。如果稍微分析一下会发现,每种查找算法都只能应用于特定的数据结构之上,例如二分查找要求被检索数据有序,而二叉树查找只能应用于二叉查找树上,但是数据本身的组织结构不可能完全满足各种数据结构(例如,理论上不可能同时将两列都按顺序进行组织),所以,在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引

看一个例子:

MySQL索引背后的数据结构及算法原理

图1

图1展示了一种可能的索引方式。左边是数据表,一共有两列七条记录,最左边的是数据记录的物理地址(注意逻辑上相邻的记录在磁盘上也并不是一定物理相邻的)。为了加快Col2的查找,可以维护一个右边所示的二叉查找树,每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针,这样就可以运用二叉查找在O(log2n)的复杂度内获取到相应数据。

虽然这是一个货真价实的索引,但是实际的数据库系统几乎没有使用二叉查找树或其进化品种红黑树(red-black tree)实现的,原因会在下文介绍。

B-Tree和B+Tree

目前大部分数据库系统及文件系统都采用B-Tree或其变种B+Tree作为索引结构,在本文的下一节会结合存储器原理及计算机存取原理讨论为什么B-Tree和B+Tree在被如此广泛用于索引,这一节先单纯从数据结构角度描述它们。

B-Tree

为了描述B-Tree,首先定义一条数据记录为一个二元组[key, data],key为记录的键值,对于不同数据记录,key是互不相同的;data为数据记录除key外的数据。那么B-Tree是满足下列条件的数据结构:

  1. d为大于1的一个正整数,称为B-Tree的度。

  2. h为一个正整数,称为B-Tree的高度。

  3. 每个非叶子节点由n-1个key和n个指针组成,其中d<=n<=2d。

  4. 每个叶子节点最少包含一个key和两个指针,最多包含2d-1个key和2d个指针,叶节点的指针均为null 。

  5. 所有叶节点具有相同的深度,等于树高h。

  6. key和指针互相间隔,节点两端是指针。

  7. 一个节点中的key从左到右非递减排列。

  8. 所有节点组成树结构。

  9. 每个指针要么为null,要么指向另外一个节点。

  10. 如果某个指针在节点node最左边且不为null,则其指向节点的所有key小于v(key1),其中v(key1)为node的第一个key的值。

  11. 如果某个指针在节点node最右边且不为null,则其指向节点的所有key大于v(keym),其中v(keym)为node的最后一个key的值。

  12. 如果某个指针在节点node的左右相邻key分别是keyi和keyi+1且不为null,则其指向节点的所有key小于v(keyi+1)且大于v(keyi)。

图2是一个d=2的B-Tree示意图。

MySQL索引背后的数据结构及算法原理

图2

由于B-Tree的特性,在B-Tree中按key检索数据的算法非常直观:首先从根节点进行二分查找,如果找到则返回对应节点的data,否则对相应区间的指针指向的节点递归进行查找,直到找到节点或找到null指针,前者查找成功,后者查找失败。B-Tree上查找算法的伪代码如下: 1

2 3

4 5

6 7

8 9

10 11

12 13

14 BTree_Search(node, key)

{

if

(node == null)

return

null;

foreach(node.key)

{

if

(node.key[i] == key)

return

node.data[i];

if

(node.key[i] > key)

return

BTree_Search(point[i]->node);

}

return

BTree_Search(point[i+1]->node);

}

data = BTree_Search(root, my_key);

关于B-Tree有一系列有趣的性质,例如一个度为d的B-Tree,设其索引N个key,则其树高h的上限为logd((N+1)/2),检索一个key,其查找节点个数的渐进复杂度为O(logdN)。从这点可以看出,B-Tree是一个非常有效率的索引数据结构。

另外,由于插入删除新的数据记录会破坏B-Tree的性质,因此在插入删除时,需要对树进行一个分裂、合并、转移等操作以保持B-Tree性质,本文不打算完整讨论B-Tree这些内容,因为已经有许多资料详细说明了B-Tree的数学性质及插入删除算法,有兴趣的朋友可以在本文末的参考文献一栏找到相应的资料进行阅读。

B+Tree

B-Tree有许多变种,其中最常见的是B+Tree,例如MySQL就普遍使用B+Tree实现其索引结构。

与B-Tree相比,B+Tree有以下不同点:

  1. 每个节点的指针上限为2d而不是2d+1。

  2. 内节点不存储data,只存储key;叶子节点不存储指针。

图3是一个简单的B+Tree示意。

MySQL索引背后的数据结构及算法原理

图3

由于并不是所有节点都具有相同的域,因此B+Tree中叶节点和内节点一般大小不同。这点与B-Tree不同,虽然B-Tree中不同节点存放的key和指针可能数量不一致,但是每个节点的域和上限是一致的,所以在实现中B-Tree往往对每个节点申请同等大小的空间。

一般来说,B+Tree比B-Tree更适合实现外存储索引结构,具体原因与外存储器原理及计算机存取原理有关,将在下面讨论。

带有顺序访问指针的B+Tree

一般在数据库系统或文件系统中使用的B+Tree结构都在经典B+Tree的基础上进行了优化,增加了顺序访问指针。

MySQL索引背后的数据结构及算法原理

图4

如图4所示,在B+Tree的每个叶子节点增加一个指向相邻叶子节点的指针,就形成了带有顺序访问指针的B+Tree。做这个优化的目的是为了提高区间访问的性能,例如图4中如果要查询key为从18到49的所有数据记录,当找到18后,只需顺着节点和指针顺序遍历就可以一次性访问到所有数据节点,极大提到了区间查询效率。

这一节对B-Tree和B+Tree进行了一个简单的介绍,下一节结合存储器存取原理介绍为什么目前B+Tree是数据库系统实现索引的首选数据结构。

为什么使用B-Tree(B+Tree)

上文说过,红黑树等数据结构也可以用来实现索引,但是文件系统及数据库系统普遍采用B-/+Tree作为索引结构,这一节将结合计算机组成原理相关知识讨论B-/+Tree作为索引的理论基础。

一般来说,索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储的磁盘上。这样的话,索引查找过程中就要产生磁盘I/O消耗,相对于内存存取,I/O存取的消耗要高几个数量级,所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。换句话说,索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。下面先介绍内存和磁盘存取原理,然后再结合这些原理分析B-/+Tree作为索引的效率。

主存存取原理

目前计算机使用的主存基本都是随机读写存储器(RAM),现代RAM的结构和存取原理比较复杂,这里本文抛却具体差别,抽象出一个十分简单的存取模型来说明RAM的工作原理。

MySQL索引背后的数据结构及算法原理

图5

从抽象角度看,主存是一系列的存储单元组成的矩阵,每个存储单元存储固定大小的数据。每个存储单元有唯一的地址,现代主存的编址规则比较复杂,这里将其简化成一个二维地址:通过一个行地址和一个列地址可以唯一定位到一个存储单元。图5展示了一个4 x 4的主存模型。

主存的存取过程如下:

当系统需要读取主存时,则将地址信号放到地址总线上传给主存,主存读到地址信号后,解析信号并定位到指定存储单元,然后将此存储单元数据放到数据总线上,供其它部件读取。

写主存的过程类似,系统将要写入单元地址和数据分别放在地址总线和数据总线上,主存读取两个总线的内容,做相应的写操作。

这里可以看出,主存存取的时间仅与存取次数呈线性关系,因为不存在机械操作,两次存取的数据的“距离”不会对时间有任何影响,例如,先取A0再取A1和先取A0再取D3的时间消耗是一样的。

磁盘存取原理

上文说过,索引一般以文件形式存储在磁盘上,索引检索需要磁盘I/O操作。与主存不同,磁盘I/O存在机械运动耗费,因此磁盘I/O的时间消耗是巨大的。

图6是磁盘的整体结构示意图。

MySQL索引背后的数据结构及算法原理

图6

一个磁盘由大小相同且同轴的圆形盘片组成,磁盘可以转动(各个磁盘必须同步转动)。在磁盘的一侧有磁头支架,磁头支架固定了一组磁头,每个磁头负责存取一个磁盘的内容。磁头不能转动,但是可以沿磁盘半径方向运动(实际是斜切向运动),每个磁头同一时刻也必须是同轴的,即从正上方向下看,所有磁头任何时候都是重叠的(不过目前已经有多磁头独立技术,可不受此限制)。

图7是磁盘结构的示意图。

MySQL索引背后的数据结构及算法原理

图7

盘片被划分成一系列同心环,圆心是盘片中心,每个同心环叫做一个磁道,所有半径相同的磁道组成一个柱面。磁道被沿半径线划分成一个个小的段,每个段叫做一个扇区,每个扇区是磁盘的最小存储单元。为了简单起见,我们下面假设磁盘只有一个盘片和一个磁头。

当需要从磁盘读取数据时,系统会将数据逻辑地址传给磁盘,磁盘的控制电路按照寻址逻辑将逻辑地址翻译成物理地址,即确定要读的数据在哪个磁道,哪个扇区。为了读取这个扇区的数据,需要将磁头放到这个扇区上方,为了实现这一点,磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间,然后磁盘旋转将目标扇区旋转到磁头下,这个过程耗费的时间叫做旋转时间。

局部性原理与磁盘预读

由于存储介质的特性,磁盘本身存取就比主存慢很多,再加上机械运动耗费,磁盘的存取速度往往是主存的几百分分之一,因此为了提高效率,要尽量减少磁盘I/O。为了达到这个目的,磁盘往往不是严格按需读取,而是每次都会预读,即使只需要一个字节,磁盘也会从这个位置开始,顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理:

当一个数据被用到时,其附近的数据也通常会马上被使用。

程序运行期间所需要的数据通常比较集中。

由于磁盘顺序读取的效率很高(不需要寻道时间,只需很少的旋转时间),因此对于具有局部性的程序来说,预读可以提高I/O效率。

预读的长度一般为页(page)的整倍数。页是计算机管理存储器的逻辑块,硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块,每个存储块称为一页(在许多操作系统中,页得大小通常为4k),主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时,会触发一个缺页异常,此时系统会向磁盘发出读盘信号,磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中,然后异常返回,程序继续运行。

B-/+Tree索引的性能分析

到这里终于可以分析B-/+Tree索引的性能了。

上文说过一般使用磁盘I/O次数评价索引结构的优劣。先从B-Tree分析,根据B-Tree的定义,可知检索一次最多需要访问h个节点。数据库系统的设计者巧妙利用了磁盘预读原理,将一个节点的大小设为等于一个页,这样每个节点只需要一次I/O就可以完全载入。为了达到这个目的,在实际实现B-Tree还需要使用如下技巧:

每次新建节点时,直接申请一个页的空间,这样就保证一个节点物理上也存储在一个页里,加之计算机存储分配都是按页对齐的,就实现了一个node只需一次I/O。

B-Tree中一次检索最多需要h-1次I/O(根节点常驻内存),渐进复杂度为O(h)=O(logdN)。一般实际应用中,出度d是非常大的数字,通常超过100,因此h非常小(通常不超过3)。

综上所述,用B-Tree作为索引结构效率是非常高的。

而红黑树这种结构,h明显要深的多。由于逻辑上很近的节点(父子)物理上可能很远,无法利用局部性,所以红黑树的I/O渐进复杂度也为O(h),效率明显比B-Tree差很多。

上文还说过,B+Tree更适合外存索引,原因和内节点出度d有关。从上面分析可以看到,d越大索引的性能越好,而出度的上限取决于节点内key和data的大小:

dmax = floor(pagesize / (keysize + datasize + pointsize)) (pagesize – dmax >= pointsize)

dmax = floor(pagesize / (keysize + datasize + pointsize)) – 1 (pagesize – dmax < pointsize)

floor表示向下取整。由于B+Tree内节点去掉了data域,因此可以拥有更大的出度,拥有更好的性能。

这一章从理论角度讨论了与索引相关的数据结构与算法问题,下一章将讨论B+Tree是如何具体实现为MySQL中索引,同时将结合MyISAM和InnDB存储引擎介绍非聚集索引和聚集索引两种不同的索引实现形式。

MySQL索引实现

在MySQL中,索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的,本文主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式。

MyISAM索引实现

MyISAM引擎使用B+Tree作为索引结构,叶节点的data域存放的是数据记录的地址。下图是MyISAM索引的原理图:

MySQL索引背后的数据结构及算法原理

图8

这里设表一共有三列,假设我们以Col1为主键,则图8是一个MyISAM表的主索引(Primary key)示意。可以看出MyISAM的索引文件仅仅保存数据记录的地址。在MyISAM中,主索引和辅助索引(Secondary key)在结构上没有任何区别,只是主索引要求key是唯一的,而辅助索引的key可以重复。如果我们在Col2上建立一个辅助索引,则此索引的结构如下图所示:

MySQL索引背后的数据结构及算法原理

图9

同样也是一颗B+Tree,data域保存数据记录的地址。因此,MyISAM中索引检索的算法为首先按照B+Tree搜索算法搜索索引,如果指定的Key存在,则取出其data域的值,然后以data域的值为地址,读取相应数据记录。

MyISAM的索引方式也叫做“非聚集”的,之所以这么称呼是为了与InnoDB的聚集索引区分。

InnoDB索引实现

虽然InnoDB也使用B+Tree作为索引结构,但具体实现方式却与MyISAM截然不同。

第一个重大区别是InnoDB的数据文件本身就是索引文件。从上文知道,MyISAM索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。而在InnoDB中,表数据文件本身就是按B+Tree组织的一个索引结构,这棵树的叶节点data域保存了完整的数据记录。这个索引的key是数据表的主键,因此InnoDB表数据文件本身就是主索引。

MySQL索引背后的数据结构及算法原理

图10

图10是InnoDB主索引(同时也是数据文件)的示意图,可以看到叶节点包含了完整的数据记录。这种索引叫做聚集索引。因为InnoDB的数据文件本身要按主键聚集,所以InnoDB要求表必须有主键(MyISAM可以没有),如果没有显式指定,则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键,如果不存在这种列,则MySQL自动为InnoDB表生成一个隐含字段作为主键,这个字段长度为6个字节,类型为长整形。

第二个与MyISAM索引的不同是InnoDB的辅助索引data域存储相应记录主键的值而不是地址。换句话说,InnoDB的所有辅助索引都引用主键作为data域。例如,图11为定义在Col3上的一个辅助索引:

MySQL索引背后的数据结构及算法原理

图11

这里以英文字符的ASCII码作为比较准则。聚集索引这种实现方式使得按主键的搜索十分高效,但是辅助索引搜索需要检索两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。

了解不同存储引擎的索引实现方式对于正确使用和优化索引都非常有帮助,例如知道了InnoDB的索引实现后,就很容易明白为什么不建议使用过长的字段作为主键,因为所有辅助索引都引用主索引,过长的主索引会令辅助索引变得过大。再例如,用非单调的字段作为主键在InnoDB中不是个好主意,因为InnoDB数据文件本身是一颗B+Tree,非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整,十分低效,而使用自增字段作为主键则是一个很好的选择。

下一章将具体讨论这些与索引有关的优化策略。

索引使用策略及优化

MySQL的优化主要分为结构优化(Scheme optimization)和查询优化(Query optimization)。本章讨论的高性能索引策略主要属于结构优化范畴。本章的内容完全基于上文的理论基础,实际上一旦理解了索引背后的机制,那么选择高性能的策略就变成了纯粹的推理,并且可以理解这些策略背后的逻辑。

示例数据库

为了讨论索引策略,需要一个数据量不算小的数据库作为示例。本文选用MySQL官方文档中提供的示例数据库之一:employees。这个数据库关系复杂度适中,且数据量较大。下图是这个数据库的E-R关系图(引用自MySQL官方手册):

MySQL索引背后的数据结构及算法原理

图12

MySQL官方文档中关于此数据库的页面为http://dev.mysql.com/doc/employee/en/employee.html。里面详细介绍了此数据库,并提供了下载地址和导入方法,如果有兴趣导入此数据库到自己的MySQL可以参考文中内容。

最左前缀原理与相关优化

高效使用索引的首要条件是知道什么样的查询会使用到索引,这个问题和B+Tree中的“最左前缀原理”有关,下面通过例子说明最左前缀原理。

这里先说一下联合索引的概念。在上文中,我们都是假设索引只引用了单个的列,实际上,MySQL中的索引可以以一定顺序引用多个列,这种索引叫做联合索引,一般的,一个联合索引是一个有序元组,其中各个元素均为数据表的一列,实际上要严格定义索引需要用到关系代数,但是这里我不想讨论太多关系代数的话题,因为那样会显得很枯燥,所以这里就不再做严格定义。另外,单列索引可以看成联合索引元素数为1的特例。

以employees.titles表为例,下面先查看其上都有哪些索引: 1

2 3

4 5

6 7

8 9SHOW

INDEX

FROM

employees.titles;

+

--------+------------+----------+--------------+-------------+-----------+-------------+------+------------+ |

Table

| Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality |

Null

| Index_type |

+

--------+------------+----------+--------------+-------------+-----------+-------------+------+------------+ | titles | 0 |

PRIMARY

| 1 | emp_no | A |

NULL

| | BTREE |

| titles | 0 |

PRIMARY

| 2 | title | A |

NULL

| | BTREE | | titles | 0 |

PRIMARY

| 3 | from_date | A | 443308 | | BTREE |

| titles | 1 | emp_no | 1 | emp_no | A | 443308 | | BTREE | +

--------+------------+----------+--------------+-------------+-----------+-------------+------+------------+

从结果中可以到titles表的主索引为,还有一个辅助索引。为了避免多个索引使事情变复杂(MySQL的SQL优化器在多索引时行为比较复杂),这里我们将辅助索引drop掉:

1ALTER

TABLE

employees.titles

DROP

INDEX

emp_no;

这样就可以专心分析索引PRIMARY的行为了。

情况一:全列匹配。 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001'

AND

title=

'Senior Engineer'

AND

from_date=

'1986-06-26'

;

+

----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ | 1 | SIMPLE | titles | const |

PRIMARY

|

PRIMARY

| 59 | const,const,const | 1 | |

+

----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+

很明显,当按照索引中所有列进行精确匹配(这里精确匹配指“=”或“IN”匹配)时,索引可以被用到。这里有一点需要注意,理论上索引对顺序是敏感的,但是由于MySQL的查询优化器会自动调整where子句的条件顺序以使用适合的索引,例如我们将where中的条件顺序颠倒:

1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

from_date=

'1986-06-26'

AND

emp_no=

'10001'

AND

title=

'Senior Engineer'

;

+

----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ | 1 | SIMPLE | titles | const |

PRIMARY

|

PRIMARY

| 59 | const,const,const | 1 | |

+

----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+

效果是一样的。

情况二:最左前缀匹配。 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001'

;

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------+ | 1 | SIMPLE | titles | ref |

PRIMARY

|

PRIMARY

| 4 | const | 1 | |

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------+

当查询条件精确匹配索引的左边连续一个或几个列时,如,所以可以被用到,但是只能用到一部分,即条件所组成的最左前缀。上面的查询从分析结果看用到了PRIMARY索引,但是key_len为4,说明只用到了索引的第一列前缀。

情况三:查询条件用到了索引中列的精确匹配,但是中间某个条件未提供。 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001'

AND

from_date=

'1986-06-26'

;

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ | 1 | SIMPLE | titles | ref |

PRIMARY

|

PRIMARY

| 4 | const | 1 | Using

where

|

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+

此时索引使用情况和情况二相同,因为title未提供,所以查询只用到了索引的第一列,而后面的from_date虽然也在索引中,但是由于title不存在而无法和左前缀连接,因此需要对结果进行扫描过滤from_date(这里由于emp_no唯一,所以不存在扫描)。如果想让from_date也使用索引而不是where过滤,可以增加一个辅助索引,此时上面的查询会使用这个索引。除此之外,还可以使用一种称之为“隔离列”的优化方法,将emp_no与from_date之间的“坑”填上。

首先我们看下title一共有几种不同的值: 1

2 3

4 5

6 7

8 9

10 11

12 SELECT

DISTINCT

(title)

FROM

employees.titles;

+

--------------------+ | title |

+

--------------------+ | Senior Engineer |

| Staff | | Engineer |

| Senior Staff | | Assistant Engineer |

| Technique Leader | | Manager |

+

--------------------+

只有7种。在这种成为“坑”的列值比较少的情况下,可以考虑用“IN”来填补这个“坑”从而形成最左前缀:

1

2 3

4 5

6 7

8 9EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001' AND

title

IN

(

'Senior Engineer'

,

'Staff'

,

'Engineer'

,

'Senior Staff'

,

'Assistant Engineer'

,

'Technique Leader'

,

'Manager'

)

AND

from_date=

'1986-06-26'

; +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

| id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra | +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

| 1 | SIMPLE | titles | range |

PRIMARY

|

PRIMARY

| 59 |

NULL

| 7 | Using

where

| +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

这次key_len为59,说明索引被用全了,但是从type和rows看出IN实际上执行了一个range查询,这里检查了7个key。看下两种查询的性能比较:

1

2 3

4 5

6 7SHOW PROFILES;

+

----------+------------+-------------------------------------------------------------------------------+ | Query_ID | Duration | Query |

+

----------+------------+-------------------------------------------------------------------------------+ | 10 | 0.00058000 |

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001'

AND

from_date=

'1986-06-26'

|

| 11 | 0.00052500 |

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001'

AND

title

IN

... | +

----------+------------+-------------------------------------------------------------------------------+

“填坑”后性能提升了一点。如果经过emp_no筛选后余下很多数据,则后者性能优势会更加明显。当然,如果title的值很多,用填坑就不合适了,必须建立辅助索引。

情况四:查询条件没有指定索引第一列。 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

from_date=

'1986-06-26'

;

+

----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ | 1 | SIMPLE | titles |

ALL

|

NULL

|

NULL

|

NULL

|

NULL

| 443308 | Using

where

|

+

----+-------------+--------+------+---------------+------+---------+------+--------+-------------+

由于不是最左前缀,索引这样的查询显然用不到索引。

情况五:匹配某列的前缀字符串。 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001'

AND

title

LIKE

'Senior%'

;

+

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ | 1 | SIMPLE | titles | range |

PRIMARY

|

PRIMARY

| 56 |

NULL

| 1 | Using

where

|

+

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

此时可以用到索引,但是如果通配符不是只出现在末尾,则无法使用索引。(原文表述有误,如果通配符%不出现在开头,则可以用到索引,但根据具体情况不同可能只会用其中一个前缀)

情况六:范围查询。 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no <

'10010'

and

title=

'Senior Engineer'

;

+

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ | 1 | SIMPLE | titles | range |

PRIMARY

|

PRIMARY

| 4 |

NULL

| 16 | Using

where

|

+

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

范围列可以用到索引(必须是最左前缀),但是范围列后面的列无法用到索引。同时,索引最多用于一个范围列,因此如果查询条件中有两个范围列则无法全用到索引。

1

2 3

4 5

6 7

8 9EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no < 10010

' AND title='

Senior Engineer

'

AND from_date BETWEEN '

1986-01-01

' AND '

1986-12-31'; +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

| id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra | +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

| 1 | SIMPLE | titles | range |

PRIMARY

|

PRIMARY

| 4 |

NULL

| 16 | Using

where

| +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

可以看到索引对第二个范围索引无能为力。这里特别要说明MySQL一个有意思的地方,那就是仅用explain可能无法区分范围索引和多值匹配,因为在type中这两者都显示为range。同时,用了“between”并不意味着就是范围查询,例如下面的查询:

1

2 3

4 5

6 7

8 9EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no

BETWEEN

'10001'

AND

'10010' AND

title=

'Senior Engineer'

AND

from_date

BETWEEN

'1986-01-01'

AND

'1986-12-31'

; +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

| id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra | +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

| 1 | SIMPLE | titles | range |

PRIMARY

|

PRIMARY

| 59 |

NULL

| 16 | Using

where

| +

----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

看起来是用了两个范围查询,但作用于emp_no上的“BETWEEN”实际上相当于“IN”,也就是说emp_no实际是多值精确匹配。可以看到这个查询用到了索引全部三个列。因此在MySQL中要谨慎地区分多值匹配和范围匹配,否则会对MySQL的行为产生困惑。

情况七:查询条件中含有函数或表达式。

很不幸,如果查询条件中含有函数或表达式,则MySQL不会为这列使用索引(虽然某些在数学意义上可以使用)。例如: 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no=

'10001'

AND

left

(title, 6)=

'Senior'

;

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ | 1 | SIMPLE | titles | ref |

PRIMARY

|

PRIMARY

| 4 | const | 1 | Using

where

|

+

----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+

虽然这个查询和情况五中功能相同,但是由于使用了函数left,则无法为title列应用索引,而情况五中用LIKE则可以。再如:

1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.titles

WHERE

emp_no - 1=

'10000'

;

+

----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ | 1 | SIMPLE | titles |

ALL

|

NULL

|

NULL

|

NULL

|

NULL

| 443308 | Using

where

|

+

----+-------------+--------+------+---------------+------+---------+------+--------+-------------+

显然这个查询等价于查询emp_no为10001的函数,但是由于查询条件是一个表达式,MySQL无法为其使用索引。看来MySQL还没有智能到自动优化常量表达式的程度,因此在写查询语句时尽量避免表达式出现在查询中,而是先手工私下代数运算,转换为无表达式的查询语句。

索引选择性与前缀索引

既然索引可以加快查询速度,那么是不是只要是查询语句需要,就建上索引?答案是否定的。因为索引虽然加快了查询速度,但索引也是有代价的:索引文件本身要消耗存储空间,同时索引会加重插入、删除和修改记录时的负担,另外,MySQL在运行时也要消耗资源维护索引,因此索引并不是越多越好。一般两种情况下不建议建索引。

第一种情况是表记录比较少,例如一两千条甚至只有几百条记录的表,没必要建索引,让查询做全表扫描就好了。至于多少条记录才算多,这个个人有个人的看法,我个人的经验是以2000作为分界线,记录数不超过 2000可以考虑不建索引,超过2000条可以酌情考虑索引。

另一种不建议建索引的情况是索引的选择性较低。所谓索引的选择性(Selectivity),是指不重复的索引值(也叫基数,Cardinality)与表记录数(/#T)的比值:

Index Selectivity = Cardinality / /#T

显然选择性的取值范围为(0, 1],选择性越高的索引价值越大,这是由B+Tree的性质决定的。例如,上文用到的employees.titles表,如果title字段经常被单独查询,是否需要建索引,我们看一下它的选择性: 1

2 3

4 5

6 SELECT

count

(

DISTINCT

(title))/

count

(/*)

AS

Selectivity

FROM

employees.titles;

+

-------------+ | Selectivity |

+

-------------+ | 0.0000 |

+

-------------+

title的选择性不足0.0001(精确值为0.00001579),所以实在没有什么必要为其单独建索引。

有一种与索引选择性有关的索引优化策略叫做前缀索引,就是用列的前缀代替整个列作为索引key,当前缀长度合适时,可以做到既使得前缀索引的选择性接近全列索引,同时因为索引key变短而减少了索引文件的大小和维护开销。下面以employees.employees表为例介绍前缀索引的选择和使用。

从图12可以看到employees表只有一个索引,那么如果我们想按名字搜索一个人,就只能全表扫描了: 1

2 3

4 5

6 EXPLAIN

SELECT

/*

FROM

employees.employees

WHERE

first_name=

'Eric'

AND

last_name=

'Anido'

;

+

----+-------------+-----------+------+---------------+------+---------+------+--------+-------------+ | id | select_type |

table

| type | possible_keys |

key

| key_len | ref |

rows

| Extra |

+

----+-------------+-----------+------+---------------+------+---------+------+--------+-------------+ | 1 | SIMPLE | employees |

ALL

|

NULL

|

NULL

|

NULL

|

NULL

| 300024 | Using

where

|

+

----+-------------+-----------+------+---------------+------+---------+------+--------+-------------+

如果频繁按名字搜索员工,这样显然效率很低,因此我们可以考虑建索引。有两种选择,建,看下两个索引的选择性:

1

2 3

4 5

6 7

8 9

10 11

12 13SELECT

count

(

DISTINCT

(first_name))/

count

(/*)

AS

Selectivity

FROM

employees.employees;

+

-------------+ | Selectivity |

+

-------------+ | 0.0042 |

+

-------------+

SELECT

count

(

DISTINCT

(concat(first_name, last_name)))/

count

(/*)

AS

Selectivity

FROM

employees.employees; +

-------------+

| Selectivity | +

-------------+

| 0.9313 | +

-------------+

显然选择性太低,选择性很好,但是first_name和last_name加起来长度为30,有没有兼顾长度和选择性的办法?可以考虑用first_name和last_name的前几个字符建立索引,例如,看看其选择性:

1

2 3

4 5

6 SELECT

count

(

DISTINCT

(concat(first_name,

left

(last_name, 3))))/

count

(/*)

AS

Selectivity

FROM

employees.employees;

+

-------------+ | Selectivity |

+

-------------+ | 0.7879 |

+

-------------+

选择性还不错,但离0.9313还是有点距离,那么把last_name前缀加到4:

1

2 3

4 5

6 SELECT

count

(

DISTINCT

(concat(first_name,

left

(last_name, 4))))/

count

(/*)

AS

Selectivity

FROM

employees.employees;

+

-------------+ | Selectivity |

+

-------------+ | 0.9007 |

+

-------------+

这时选择性已经很理想了,而这个索引的长度只有18,比短了接近一半,我们把这个前缀索引 建上:

1

2 ALTER

TABLE

employees.employees

ADD

INDEX

first_name_last_name4 (first_name, last_name(4));

此时再执行一遍按名字查询,比较分析一下与建索引前的结果:

1

2 3

4 5

6 7SHOW PROFILES;

+

----------+------------+---------------------------------------------------------------------------------+ | Query_ID | Duration | Query |

+

----------+------------+---------------------------------------------------------------------------------+ | 87 | 0.11941700 |

SELECT

/*

FROM

employees.employees

WHERE

first_name=

'Eric'

AND

last_name=

'Anido'

|

| 90 | 0.00092400 |

SELECT

/*

FROM

employees.employees

WHERE

first_name=

'Eric'

AND

last_name=

'Anido'

| +

----------+------------+---------------------------------------------------------------------------------+

性能的提升是显著的,查询速度提高了120多倍。

前缀索引兼顾索引大小和查询速度,但是其缺点是不能用于ORDER BY和GROUP BY操作,也不能用于Covering index(即当索引本身包含查询所需全部数据时,不再访问数据文件本身)。

InnoDB的主键选择与插入优化

在使用InnoDB存储引擎时,如果没有特别的需要,请永远使用一个与业务无关的自增字段作为主键。

经常看到有帖子或博客讨论主键选择问题,有人建议使用业务无关的自增主键,有人觉得没有必要,完全可以使用如学号或身份证号这种唯一字段作为主键。不论支持哪种论点,大多数论据都是业务层面的。如果从数据库索引优化角度看,使用InnoDB引擎而不使用自增主键绝对是一个糟糕的主意。

上文讨论过InnoDB的索引实现,InnoDB使用聚集索引,数据记录本身被存于主索引(一颗B+Tree)的叶子节点上。这就要求同一个叶子节点内(大小为一个内存页或磁盘页)的各条数据记录按主键顺序存放,因此每当有一条新的记录插入时,MySQL会根据其主键将其插入适当的节点和位置,如果页面达到装载因子(InnoDB默认为15/16),则开辟一个新的页(节点)。

如果表使用自增主键,那么每次插入新的记录,记录就会顺序添加到当前索引节点的后续位置,当一页写满,就会自动开辟一个新的页。如下图所示:

MySQL索引背后的数据结构及算法原理

图13

这样就会形成一个紧凑的索引结构,近似顺序填满。由于每次插入时也不需要移动已有数据,因此效率很高,也不会增加很多开销在维护索引上。

如果使用非自增主键(如果身份证号或学号等),由于每次插入主键的值近似于随机,因此每次新纪录都要被插到现有索引页得中间某个位置:

MySQL索引背后的数据结构及算法原理

图14

此时MySQL不得不为了将新记录插到合适位置而移动数据,甚至目标页面可能已经被回写到磁盘上而从缓存中清掉,此时又要从磁盘上读回来,这增加了很多开销,同时频繁的移动、分页操作造成了大量的碎片,得到了不够紧凑的索引结构,后续不得不通过OPTIMIZE TABLE来重建表并优化填充页面。

因此,只要可以,请尽量在InnoDB上采用自增字段做主键。

后记

这篇文章断断续续写了半个月,主要内容就是上面这些了。不可否认,这篇文章在一定程度上有纸上谈兵之嫌,因为我本人对MySQL的使用属于菜鸟级别,更没有太多数据库调优的经验,在这里大谈数据库索引调优有点大言不惭。就当是我个人的一篇学习笔记了。

其实数据库索引调优是一项技术活,不能仅仅靠理论,因为实际情况千变万化,而且MySQL本身存在很复杂的机制,如查询优化策略和各种引擎的实现差异等都会使情况变得更加复杂。但同时这些理论是索引调优的基础,只有在明白理论的基础上,才能对调优策略进行合理推断并了解其背后的机制,然后结合实践中不断的实验和摸索,从而真正达到高效使用MySQL索引的目的。

另外,MySQL索引及其优化涵盖范围非常广,本文只是涉及到其中一部分。如与排序(ORDER BY)相关的索引优化及覆盖索引(Covering index)的话题本文并未涉及,同时除B-Tree索引外MySQL还根据不同引擎支持的哈希索引、全文索引等等本文也并未涉及。如果有机会,希望再对本文未涉及的部分进行补充吧。

参考文献

[1] Baron Scbwartz等 著,王小东等 译;高性能MySQL(High Performance MySQL);电子工业出版社,2010

[2] Michael Kofler 著,杨晓云等 译;MySQL5权威指南(The Definitive Guide to MySQL5);人民邮电出版社,2006

[3] 姜承尧 著;MySQL技术内幕-InnoDB存储引擎;机械工业出版社,2011

[4] D Comer, Ubiquitous B-tree; ACM Computing Surveys (CSUR), 1979

[5] Codd, E. F. (1970). “A relational model of data for large shared data banks”. Communications of the ACM, , Vol. 13, No. 6, pp. 377-387

[6] MySQL5.1参考手册 – http://dev.mysql.com/doc/refman/5.1/zh/index.html

3 votes, average: 5.00 out of 53 votes, average: 5.00 out of 53 votes, average: 5.00 out of 53 votes, average: 5.00 out of 53 votes, average: 5.00 out of 5 (*3 个评分,平均: 5.00*)

Loading ... Loading ...

WordPress上传插件提示 需要访问您网页服务器的权限。 如果您忘记了您的登录凭据(如用户名、密

Posted on

WordPress上传插件提示 需要访问您网页服务器的权限。 如果您忘记了您的登录凭据(如用户名、密码),请联系您的网站托管商。 - Halcyon的日志 - 网易博客

网易

新闻 微博 邮箱 相册 阅读 有道 摄影 爱拍 优惠券 云笔记 闪电邮 手机邮 印像派 网易识字

更多

博客

手机博客 博客搬家 博客VIP服务

LiveWriter写博 word写博 邮件写博 短信写博

群博客 博客油菜地 博客话题 博客热点 博客圈子 找朋友 发现

小组 风格

网易真人搭配社区iStyle

网易LOFTER-Android版下载> 网易LOFTER-Android版下载>

创建博客 登录

加关注

显示下一条 | 关闭

温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》 | 关闭

Halcyon

我爱我家,分分秒秒,生生世世

导航

日志

Halcyon

从此要200%的努力 加博友 关注她

她的网易微博

被推荐日志

最新日志

该作者的其他文章

博主推荐

相关日志

随机阅读

首页推荐

libmysql.dll与php.ini是否真的要拷贝到c:\windows目录下呢

如何编辑WordPress的po和mo文件

WordPress上传插件提示 需要访问您网页服务器的权限。 如果您忘记了您的登录凭据(如用户名、密码),请联系您的网站托管商。

2011-06-13 17:58:29| 分类: web开发 | 标签: |字号大中小 订阅

在上传文件的时候,或者在后台安装主题和安装插件的时候。你遇到过以下这样的问题吗?很明显我遇到了好多次了。可能是由于我使用了他人提供的免费虚拟空间,限制很多。

刚开始时候提示根本无法将文件移至uploads文件夹。通过修改权限为777后。就跳出这样的提示了:

要执行请求的操作,WordPress 需要访问您网页服务器的权限。 如果您忘记了您的登录凭据(如用户名、密码),请联系您的网站托管商。

需要你输入主机、账号、密码。那就输入吧,可是更恼人的是即便你输入正确的信息。照样返回错误:

错误:无法连接到服务器,请确认设置是否有误。

看图:

WordPress上传插件提示 需要访问您网页服务器的权限。 如果您忘记了您的登录凭据(如用户名、密码),请联系您的网站托管商。 - Halcyon - Halcyon

而事实上我们用ftp软件连接的时候是完全没有问题的。也可以上传东西到需要的地方。

所以肯定是某处设置欠妥当。

从网络搜集到的资料如下:(此处如果你和我同样情况请只看第二点以后内容)【

执行请求动作,连接信息必需提供。 主机名 用户名 密码 连接类型 用wordpress建站的朋友,在过去的使用过程中,有没有被上面这样的情况所困扰呢? 一、WordPress提示:执行请求动作,连接信息必需提供。(在wordpress后台自动升级以及更新删除主题或者插件的时候。)需要输入FTP账户信息。 百度Google找了一些资料。据说这个填写FTP信息界面,只会出现在PHP进程不是以用户身份来运行的主机上,也就是网站服务器运行PHP的用户和wordpress文件夹的所有者不一样,目的就是为了安全,wordpress在升级时会创建一个临时文件看看owner是不是和当前运行的php是否一样,如果不一样,就会出现这个界面。 遇到这种情况有两种解决办法: 1、填写连接信息。 如果为了以后更新方便的话可以在 wp-config.php 中加入一下代码: // // FTP SETTINGS FOR AUTO-UPDATE // // define(‘FTP_HOST’, ‘localhost’); define(‘FTP_USER’, ‘ftp帐号’); define(‘FTP_PASS’, ‘ftp密码’); 这样无论升级 wordpress 或者插件的时候就都不会有那个FTP提示了。 2、修改文件的权限和用户组。 首先修改Wordpress 的权限,需要有写的权限: chmod -R 755 /var/www/wordpress 解释:chmod是修改文件(夹)权限的命令,这里加了一个R参数,就是把/var/www/wordpress文件夹内的所有文件(夹)的权限都修改为755 chown -R www /var/www/wordpress 解释: chown是修改文件(夹)用户组的命令,参数R的作用和 chmod 的一样,不过执行此命令需要有root权限。 这样假设服务器的PHP的用户组是www,修改完以后再去尝试wordpress的自动升级,一键升级就能顺利进行了。 二、正确输入FTP主机用户名和密码等连接信息后,仍然无法完成更新或者升级等操作,怎么办? 据说这个是服务器端的权限设置问题。为了以后遇到此类问题不再到处求助,遂把几位朋友的问题最终之解决办法记录整理与下: 办法1、修改FTP相关信息之后,复制下面这段代码到wp-config.php文件中的?>之前: ///added ftp login credentials to avoid the annoying prompt asking for login info every time I wanted to upgrade a plugin/ define(‘FTP_HOST’, ‘ftp.yoursite.com’); define(‘FTP_USER’, ‘Your_FTP_Username’); define(‘FTP_PASS’, ‘Your_FTP_password’); ///If you can use a SSL connection set this to true/ define(‘FTP_SSL’, true); 办法2、复制下面这段代码到wp-config.php文件中的?>之前: /// ftp theme and plugins/// define(‘FTP_BASE’, ‘/path/to/wordpress/’); define(‘FTP_CONTENT_DIR’, ‘/path/to/wordpress/wp-content/’); define(‘FTP_PLUGIN_DIR’, ‘/path/to/wordpress/wp-content/plugins/’); define(‘FTP_USER’, ‘Your_FTP_Username’); define(‘FTP_PASS’, ‘Your_FTP_password’); define(‘FTP_HOST’, ‘ftp.yoursite.com’); define(‘FTP_SSL’, false); 方法3、复制下面这段代码到wp-config.php文件中的?>之前: /// Override default file permissions /*/ if(is_admin()) { add_filter(‘filesystem_method’, create_function(‘$a’, ‘return “direct” ;’ )); define( ‘FS_CHMOD_DIR’, 0751 ); } 注意:复制粘贴上面的代码后,确认标点均为英文状态下的符号格式。

有现成的解决方法了。当然是否都能成功有待验证。我为了一劳永逸。想要选择一个方便快捷的方法,这里经过观察使用了最后一个方法即上文中的方法3,其中要注意最好手动修改其单双引号以及分号。并注意,其他两个代码中有些地方需要修改为你自己的数据库的信息,如your_ftp_username等 评论这张

转发至微博 转发至微博

0人 | 分享到:

阅读(801)| 评论(0)| 转载 (0) |举报

libmysql.dll与php.ini是否真的要拷贝到c:\windows目录下呢

如何编辑WordPress的po和mo文件

历史上的今天

相关文章

登录后,您可以在此留下足迹。

scnu_ds

scnu_ds sealseal007@126

sealseal

Neysa

Neysa fbcha

fbcha

王潇云

王潇云 fuyun365

fuyun365

声儿

声儿 可乐先生

可乐先生

评论

点击登录|昵称:

取消

验证码:换一张

上一页 1 ... -1 -1 -1 -1 -1 -1 -1 ... -1 下一页

页脚

公司简介 - 联系方法 - 招聘信息 - 客户服务 - 隐私政策 - 博客风格 - 手机博客 - VIP博客 - 订阅此博客

网易公司版权所有 1997-2013

×

登录网易通行证

欢迎通过百度搜索来到Halcyon的博客!

注册登录后,你也可以拥有自己的个人博客,还可以和博友更好的交流。

网易博客欢迎你的加入

请输入登录信息 用户名:

密  码:

UML中的6大关系(关联、依赖、聚合、组合、继承、实现) 对应JAVA代码

Posted on

UML中的6大关系(关联、依赖、聚合、组合、继承、实现) 对应JAVA代码

UML中的6大关系(关联、依赖、聚合、组合、继承、实现) 对应JAVA代码

2012-05-15 16:57:10| 分类: UML | 标签: |字号大中小 订阅

依赖(Dependency)

实体之间一个“使用”关系暗示一个实体的规范发生变化后,可能影响依赖于它的其他实例(图D)。 更具体地说,它可转换为对不在实例作用域内的一个类或对象的任何类型的引用。其中包括一个局部变量,对通过方法调用而获得的一个对象的引用(如下例所 示),或者对一个类的静态方法的引用(同时不存在那个类的一个实例)。也可利用“依赖”来表示包和包之间的关系。由于包中含有类,所以你可根据那些包中的 各个类之间的关系,表示出包和包的关系。

图D

关联(Association)

实体之间的一个结构化关系表明对象是相互连接的。箭头是可选的,它用于指定导航能力。如果没有箭头,暗示是一种双向的导航能力。在Java中,关联(图E) 转换为一个实例作用域的变量,就像图E的“Java”区域所展示的代码那样。可为一个关联附加其他修饰符。多重性(Multiplicity)修饰符暗示 着实例之间的关系。在示范代码中,Employee可以有0个或更多的TimeCard对象。但是,每个TimeCard只从属于单独一个 Employee。

图E

聚合(Aggregation)

聚合(图F)是关联的一种形式,代表两个类之间的整体/局部关系。聚合暗示着整体在概念上处于比局部更高的一个级别,而关联暗示两个类在概念上位于相同的级别。聚合也转换成Java中的一个实例作用域变量。 关联和聚合的区别纯粹是概念上的,而且严格反映在语义上。聚合还暗示着实例图中不存在回路。换言之,只能是一种单向关系。

图F

组合(Composition)

组合 (图G) 是聚合的一种特殊形式,暗示“局部”在“整体”内部的生存期职责。合成也是非共享的。所以,虽然局部不一定要随整体的销毁而被销毁,但整体要么负责保持局 部的存活状态,要么负责将其销毁。局部不可与其他整体共享。但是,整体可将所有权转交给另一个对象,后者随即将承担生存期职责。

Employee和TimeCard的关系或许更适合表示成“合成”,而不是表示成“关联”。

图G

泛化(Generalization)

泛化(图H)表示一个更泛化的元素和一个更具体的元素之间的关系。泛化是用于对继承进行建模的UML元素。在Java中,用extends关键字来直接表示这种关系。

图H

实现(Realization)

实例(图I)关系指定两个实体之间的一个合同。换言之,一个实体定义一个合同,而另一个实体保证履行该合同。对Java应用程序进行建模时,实现关系可直接用implements关键字来表示。

图I

来源: [http://falconmen2009.blog.163.com/blog/static/167696905201241545710956/](http://falconmen2009.blog.163.com/blog/static/167696905201241545710956/)