第三篇：系统篇

第三篇：系统篇

授课教师：王哲

复习上节课内容

嵌入式 SQL

游标的使用声明、打开、读取、关闭及删除

存储过程的使用创建、执行、查看、修改及删除

ODBC 编程工作原理及工作流程

本篇讲解数据库管理系统中查询处理和事务管理的基本概念和基本知识。第九章关系查询处理和查询优化，介绍查询处理和查询优化

的基本概念、方法和技术；第十章数据库恢复技术，介绍事务的基本概念和事务的性质

，讲解数据库系统遇到故障后进行恢复技术及方法；第十一章并发控制，介绍并发操作可能造成数据不一致的问

题，讲解并发控制的基本概念和最常用的封锁技术 ;

第九章关系查询处理和查询优化

授课教师：王哲

本章学习内容

索引的创建及管理关系数据库系统的查询处理

关系数据库系统的查询优化

代数优化

物理优化

一、索引的创建及管理

问题 1：表上必须建立索引么？答案：否；没有建立索引的数据库和表可以正常工作；问题 2：什么时候需要在表上建立索引？举例 1 ：到一座大厦找人

逐个房间去找；利用楼层分布图快速找到要去的房间；（楼层分布图 = 索引）

举例 2 ：看一部小说逐个查看每页找到指定的内容；通过翻阅目录快速浏览指定内容；（目录 = 索引）

可把数据表理解为大厦和图书，那么索引就好比是大厦的楼层分布图和图书的目录，作用是提供对数据的快速定位功能；

数据库中的索引是一个表中所包含的值（一列或者若干列）的列表，其中注明了这些值的记录在数据表中的存储位置的物理地址；

在数据库中，索引使数据库程序无须对整个表进行扫描，就可以在其中找到所需数据；尤其是当表的数据很多，而 SELECT

查询又非常频繁时，建立索引和不建立索引在查询数据时会有很大差异。

问题 3：为什么索引可以加快查询速度？索引也是由记录组成，每行记录包括表中的一列或者多列值的

集合，而不是表中所有数据，相应地指向表中物理地址的逻辑指针（房间号）；

这样，当我们要查询数据时，就可以快速比较列值，然后只接到物理数据页中提取数据，所以可以大大加快速度；

问题 4：创建的索引一定会被使用么？索引是否建立由用户需要决定，而索引是否使用有数据库引擎

中的查询优化器决定；执行查询时，查询优化器会自动评估能够用于检索数据的每个方法，然后选择最有效的方法。

索引相关内容：创建索引的必要性索引的类型建立索引查看索引删除索引

1 、创建索引的必要性

考虑创建索引的情况：定义有主关键字和外部关键字的列；需在指定范围中快速或频繁查询的列；需要按排序顺序快速或频繁检索的列；在集合过程中需要快速或频繁组合到一起的列；

考虑不创建索引的情况：只有较少行数的表没必要建索引；在查询中几乎不涉及的列；很少有唯一值的列如记录“性别”的列；由 text,ntext 或 image 数据类型定义的列；

2 、索引的类型

聚集索引与非聚集索引是从索引数据存储的角度来区分的；而唯一索引是从索引取值来区分的；

1）聚集索引（ Clustered Index）聚集索引确定表中数据的物理顺序，索引存储值的顺序和数据物理顺

序一致；建立索引时，系统将对表的物理数据页中的数据按列排序，然后再重新存储到磁盘上，即聚集索引与数据是混为一体的，它的叶节点中存储是实际数据；

我们把正文本身就是一种按照一定规则排列的索引称为”聚集索引“。

一个表只能建立一个聚集索引，因为数据只能按照一种方法进行排序

2）非聚集索引（ Nonclustered Index）非聚集索引中的数据排列顺序和表中数据排列顺序不同；查询速度慢，维护代价小；

3）惟一索引（ Unique Index）指索引值必须是惟一的；建立了主键， SQL 会自动默认建立一个惟一索引；

惟一索引和非惟一索引即可以是聚集索引，也可以是非聚集索引；

3 、建立索引（ P89 ）

建立不能被 SQL Server 所采用的索引只会增加系统的负担，降低检索的速度；

若用索引查询的速度不如扫描法速度快，系统仍会采用表扫描法进行检索；

SQL Server 只选用那些能加快数据的查询速度的索引，可利用性是建立索引的首要条件；

使用 T-SQL 命令创建索引语法格式：CREATE [UNIQUE] [ clustered | nonclustered] ]

INDEX index_name

ON [[database.]ower.] {table_name|view_name}

(column1 [asc | desc] [, column2 …])

UNIQUE ：索引关键字字段上不允许有相同内容的记录；

备注：系统会在增加主键时自动创建一个聚集索引，除非你给它指

定一个非聚集索引。当删除 PRIMARY KEY 约束或UNIQUE 约束时，这些列上创建的聚集索引也会被自动删除；

每张表只能存在一个聚集索引；若在表中存在重复值的列上创建唯一索引 , CREATE INDEX

语句将失败并返回错误信息；不仅可以为表中的单个列建立索引，也可以为表中的一组列

建立索引，即复合索引；

例 1：在 stu数据库中的 student表的 SName列上创建聚集索引 SnoIndex；USE stu

GO

CREATE CLUSTERED INDEX SnameIndex

ON student(Sname)

例 2：在 stu数据库中的 Course表的 cno列上创建唯一索引cnoIndex；CREATE UNIQUE INDEX cnoIndex

ON course (cno)

例 3：在 stu数据库中的 sc表的 sno列和 cno列上创建复合索引 scindex，其中按照 sno升序 cno降序排列；CREATE INDEX scindex

ON sc (sno ， cno desc)

4 、查看并删除索引

查看索引定义文本： EXEC sp_helptext index_name

查看表中索引： EXEC sp_helpindex table_name

查看库中索引： SELECT name from sysindex

更改索引名称： EXEC sp_rename OldName, NewName

5 、删除索引

如果数据增删改频繁，系统需花很多时间来维护索引，降低了查询效率，这时，可以删除一些不必要的索引；

删除索引： DROP INDEX index_name

二、关系数据库系统的查询处理查询处理的任务：

把用户提交给 RDBMS 的查询语句转换为高效的执行计划；查询处理步骤

查询分析查询检查查询优化查询执行

1 、查询处理步骤

1 ）查询分析

对查询语句进行扫描、词法分析和语法分析；从查询语句中识别出语言符号（如 SQL 关键字、属性名

和关系名等）；进行语法检查和语法分析，判断查询语句是否符合 SQL

语法规则；

2 ）查询检查

根据数据字典对合法的查询语句进行语义检查；根据数据字典中的用户权限和完整性约束定义对用户的存

取权限进行检查；检查通过后把 SQL 查询语句转换成等价的关系代数表达式

RDBMS 一般都用查询树 (语法分析树 ) 来表示扩展的关系代数表达式；

还需要把数据库对象的外部名称转换为内部表示；

3 ）查询优化（ Query optimization ）

查询优化：选择一个高效执行的查询处理策略；查询优化分类：

代数优化：指关系代数表达式的优化物理优化：指存取路径和底层操作算法的选择

查询优化方法选择的依据：基于规则 (rule based)

基于代价 (cost based)

基于语义 (semantic based)

SELECT 语句是非程序性的，它不规定数据库服务器检索请求的数据的确切步骤。这意味着数据库服务器必须分析语句，以决定提取所请求数据的最有效方法。这称之为“优化 SELECT 语句”。

处理此过程的组件称为“查询优化器”。优化器的输入包括查询、数据库方案（表和索引的定义）以及数据库统计信息。优化器的输出称为“查询执行计划”，有时也称为“查询计划”或直接称为“计划”。

4 ）查询执行

依据优化器得到的执行策略生成查询计划；代码生成器 (code generator)生成执行查询计划的代码

；

2 、实现查询操作的算法示例

1 ）选择操作的实现例 1 ： Select * from student where <条件表达

式 > ；

考虑 <条件表达式 > 的几种情况： C1：无条件；

C2 ： Sno ＝ '200215121' ； C3 ： Sage>20 ； C4 ： Sdept ＝ 'CS' AND Sage>20 ；

选择操作典型实现方法： 1. 简单的全表扫描方法

对查询的基本表顺序扫描，逐一检查每个元组是否满足选择条件，把满足条件的元组作为结果输出；

适合小表，不适合大表 2. 索引 ( 或散列 ) 扫描方法

适合选择条件中的属性上有索引 (例如 B+ 树索引或 Hash 索引 )

通过索引先找到满足条件的元组主码或元组指针，再通过元组指针直接在查询的基本表中找到元组

以 C2 为例， Sno＝‘ 200215121’ ，并且 Sno 上有索引使用索引 ( 或散列 )得到 Sno 为‘ 200215121’ 元组的指针通过元组指针在 student 表中检索到该学生；

以 C3 为例， Sage>20 ，并且 Sage 上有 B+树索引使用 B+树索引找到 Sage ＝ 20 的索引项，以此为入口点在

B+树的顺序集上得到 Sage>20 的所有元组指针；通过这些元组指针到 student 表中检索到所有年龄大于 20

的学生。

B+树结构： B+树（ Balanced树，平衡多叉树）

以 C4 为例， Sdept＝‘ CS’ AND Sage>20 ，如果Sdept 和 Sage 上都有索引：算法一：分别用上面两种方法分别找到 Sdept＝‘ CS’ 的一

组元组指针和 Sage>20 的另一组元组指针；求这 2 组指针的交集到 student 表中检索得到计算机系年龄大于 20 的学生

算法二：找到 Sdept＝‘ CS’ 的一组元组指针；通过这些元组指针到 student 表中检索对得到的元组检查另一些选择条件 ( 如 Sage>20) 是否满足把满足条件的元组作为结果输出。

2 ）连接操作的实现

连接操作是查询处理中最耗时的操作之一；本节只讨论等值连接 ( 或自然连接 ) 最常用的实现算法；例： SELECT * FROM Student ， SC WHERE

Student.Sno=SC.Sno ；1. 嵌套循环方法 (nested loop)

2. 排序 - 合并方法 (sort-merge join 或 merge join)

3. 索引连接 (index join) 方法

1 、嵌套循环方法 (nested loop)

对外层循环 (Student) 的每一个元组 (s) ，检索内层循环(SC) 中的每一个元组 (sc) ；

检查这两个元组在连接属性 (sno) 上是否相等；如果满足连接条件，则串接后作为结果输出，直到外层循环

表中的元组处理完为止；

2. 排序 - 合并方法 (sort-merge join 或 merge join) 适合连接的诸表已经排好序的情况；排序－合并连接方法的步骤：

如果连接的表没有排好序，先对 Student 表和 SC 表按连接属性 Sno 排序；

取 Student 表中第一个 Sno ，依次扫描 SC 表中具有相同 Sno的元组；

当扫描到 Sno 不相同的第一个 SC元组时，返回 Student 表扫描它的下一个元组，再扫描 SC 表中具有相同 Sno 的元组，把它们连接起来；

重复上述步骤直到 Student 表扫描完；

200215121

200215122

200215123

200215124...

200215121 1 92

200215121 2 85

200215121 3 88

200215122 2 90

200215122 3 80...

排序 -合并连接方法示意图

Student 表和 SC 表都只要扫描一遍如果 2 个表原来无序，执行时间要加上对两个表的排序时

间对于 2 个大表，先排序后使用 sort-merge join 方法执行连

接，总的时间一般仍会大大减少

3. 索引连接 (index join)方法步骤：① 在 SC 表上建立属性 Sno 的索引，如果原来没有该索引；

② 对 Student 中每一个元组，由 Sno 值通过 SC 的索引查找相应的 SC元组；

③ 把这些 SC元组和 Student元组连接起来；

循环执行②③，直到 Student 表中的元组处理完为止。

小结

管理索引相关操作

RDBMS 查询处理查询步骤查询算法

第三篇：系统篇

Documents