大数据量表分表后如何实现关系查询

Posted on feb. 2 2014

大数据量表分表后如何实现关系查询

收藏不显示删除回复显示所有回复显示星级回复显示得分回复大数据量表分表后如何实现关系查询？[问题点数:20分，结帖人:berg369]

berg369
等　级：
结帖率：99.12%
楼主发表于：2009-01-17 17:16:12 大数据量的表似乎只能水平分表吧，但分表后如何实现关系查询呢？例如淘宝的商品查询，能够以各种条件查到任何商品，它的商品库非常庞大，肯定不是一个表，但可通过各种条件查询，通常这些条件会是商品表的外键，如果分表，怎么进行关系查询呢？ * 对我有用[0]
丢个板砖[0]
引用
举报
管理
TOP 回复次数：15 *
ACMAIN_CHM
(acmain) *
等　级：
5

3 更多勋章 /#1楼得分：0回复于：2009-01-17 18:38:06 如果a,b表结构相同可以通过union来联接 select / from a union all select / from b 但对大表很少这样处理。一般是采取分区表.而不是分为多个表。 * 对我有用[0]

丢个板砖[0]
引用
举报
管理
TOP *
berg369
等　级：
/#2楼得分：0回复于：2009-01-18 00:56:12 分区表的话就只能放在一台服务器的一个库中了吧？分区表能够正常使用SQL关联查询吗？ * 对我有用[0]
丢个板砖[0]
引用
举报
管理
TOP *
ACMAIN_CHM
(acmain) *
等　级：
5

3 更多勋章 /#3楼得分：0回复于：2009-01-18 09:22:05 MySQL中的分区概述 SQL标准在数据存储的物理方面没有提供太多的指南。SQL语言的使用独立于它所使用的任何数据结构或图表、表、行或列下的介质。但是，大部分高级数据库管理系统已经开发了一些根据文件系统、硬件或者这两者来确定将要用于存储特定数据块物理位置的方法。在MySQL中，InnoDB存储引擎长期支持表空间的概念，并且MySQL服务器甚至在分区引入之前，就能配置为存储不同的数据库使用不同的物理路径. 分区又把这个概念推进了一步，它允许根据可以设置为任意大小的规则，跨文件系统分配单个表的多个部分。实际上，表的不同部分在不同的位置被存储为单独的表。用户所选择的、实现数据分割的规则被称为分区函数，这在MySQL中它可以是模数，或者是简单的匹配一个连续的数值区间或数值列表，或者是一个内部HASH函数，或一个线性HASH函数。函数根据用户指定的分区类型来选择，把用户提供的表达式的值作为参数。该表达式可以是一个整数列值，或一个作用在一个或多个列值上并返回一个整数的函数。这个表达式的值传递给分区函数，分区函数返回一个表示那个特定记录应该保存在哪个分区的序号。这个函数不能是常数，也不能是任意数。它不能包含任何查询，但是实际上可以使用MySQL 中任何可用的SQL表达式，只要该表达式返回一个小于MAXVALUE（最大可能的正整数）的正数值。可以通过使用用来创建分区表的CREATE TABLE语句的PARTITION子句的DATA DIRECTORY（数据路径）和INDEX DIRECTORY（索引路径）选项，为每个分区的数据和索引指定特定的路径。此外，MAX_ROWS和MIN_ROWS选项可以用来设定最大和最小的行数，它们可以各自保存在每个分区里。分区的一些优点包括： · 与单个磁盘或文件系统分区相比，可以存储更多的数据。 · 对于那些已经失去保存意义的数据，通常可以通过删除与那些数据有关的分区，很容易地删除那些数据。相反地，在某些情况下，添加新数据的过程又可以通过为那些新数据专门增加一个新的分区，来很方便地实现。通常和分区有关的其他优点包括下面列出的这些。MySQL 分区中的这些功能目前还没有实现，但是在我们的优先级列表中，具有高的优先级；我们希望在5.1的生产版本中，能包括这些功能。 · 一些查询可以得到极大的优化，这主要是借助于满足一个给定WHERE 语句的数据可以只保存在一个或多个分区内，这样在查找时就不用查找其他剩余的分区。因为分区可以在创建了分区表后进行修改，所以在第一次配置分区方案时还不曾这么做时，可以重新组织数据，来提高那些常用查询的效率。 · 涉及到例如SUM() 和 COUNT()这样聚合函数的查询，可以很容易地进行并行处理。这种查询的一个简单例子如 “SELECT salesperson_id, COUNT(orders) as order_total FROM sales GROUP BY salesperson_id；”。通过“并行”，这意味着该查询可以在每个分区上同时进行，最终结果只需通过总计所有分区得到的结果。 · 通过跨多个磁盘来分散数据查询，来获得更大的查询吞吐量。 * 对我有用[0]

丢个板砖[0]
引用
举报
管理
TOP *
ACMAIN_CHM
(acmain) *
等　级：
5

3 更多勋章 /#4楼得分：5回复于：2009-01-18 09:22:57 分区类型 · RANGE 分区：基于属于一个给定连续区间的列值，把多行分配给分区。 · LIST 分区：类似于按RANGE分区，区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。 · HASH分区：基于用户定义的表达式的返回值来进行选择的分区，该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。 · KEY 分区：类似于按HASH分区，区别在于KEY分区只支持计算一列或多列，且MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值。无论使用何种类型的分区，分区总是在创建时就自动的顺序编号，且从0开始记录，记住这一点非常重要。当有一新行插入到一个分区表中时，就是使用这些分区编号来识别正确的分区。例如，如果你的表使用4个分区，那么这些分区就编号为0, 1, 2, 和3。对于RANGE和LIST分区类型，确认每个分区编号都定义了一个分区，很有必要。对HASH分区，使用的用户函数必须返回一个大于0的整数值。对于KEY分区，这个问题通过MySQL服务器内部使用的哈希函数自动进行处理。分区的名字基本上遵循其他MySQL 标识符应当遵循的原则，例如用于表和数据库名字的标识符。但是应当注意，分区的名字是不区分大小写的。 * 对我有用[0]

丢个板砖[0]
引用
举报
管理
TOP *
berg369
等　级：
/#5楼得分：0回复于：2009-01-18 11:24:39 是否可以这样理解： 1、表分区后，sql查询将在多个分区并行，并把结果返回，sum或count操作，则在多个分区分别处理后汇总？是以这种原理提高性能吗？ 2、表分区后，不需要修改原单表中的任何sql语句？ 3、表分区后，各种关系操作不受影响，如某个表引用该表主键作为外键，即使分区，也不受影响 * 对我有用[0]
丢个板砖[0]
引用
举报
管理
TOP *
ljf_ljf
(Mark Liang) *
等　级：
/#6楼得分：5回复于：2009-01-18 11:43:23 数据量增多始终都是一个无地洞来的，而数据库资源总是有限的，现在一般处理方法都是减少每次查询消耗资源。无论是分区或者分表都是这样做法。所以，大数据量表一般都是按时间来进行分区，而在关系其他表查询时候就需要进行减少大表数据记录。说真的方法都是那些，没有什么新技术只是要看你产品具体使用量才能提出一些更加有效的方法。 * 对我有用[0]
丢个板砖[0]
引用
举报
管理
TOP *
berg369
等　级：
/#7楼得分：0回复于：2009-01-18 11:54:49 不太明白6楼的意思啊，举例说我就想做个淘宝吧，通常会设计商家表、商品表、分类表等，然后通过外键关联起来，未来的数据量可能接近于淘宝，能够做到像淘宝一样快速的多条件查询，应该注意哪些方法呢？ * 对我有用[0]
丢个板砖[0]
引用
举报
管理
TOP *
ACMAIN_CHM
(acmain) *
等　级：
5

3 更多勋章 /#8楼得分：5回复于：2009-01-18 11:54:54 是否可以这样理解： 1、表分区后，sql查询将在多个分区并行，并把结果返回，sum或count操作，则在多个分区分别处理后汇总？是以这种原理提高性能吗？ 应该不是这样，全表扫描不会有什么显著的效率提高。否则就不是有什么数据仓库之说了。建议你GOOGLE中找一下数据仓库。这个OLTP不是一个概念。分区能够得到提高的是当你仅查2004看的时候，它只要访问2004这个分区就行了。如6楼所说。 2、表分区后，不需要修改原单表中的任何sql语句？ 对用户来说是透明的。不需要修改原单表中的任何sql语句. 3、表分区后，各种关系操作不受影响，如某个表引用该表主键作为外键，即使分区，也不受影响 不受影响 * 对我有用[0]