想要写出高质量, 高性能的 SQL 查询语句:
一, 首先要搞明白什么叫执行计划?
执行计划是数据库根据 SQL 语句和相关表的统计信息作出的一个查询方案, 这个方案是由查询优化器自动分析产生的, 比如一条 SQL 语句如果用来从一个 10 万条记录的表中查 1 条记录, 那查询优化器会选择 "索引查找" 方式, 如果该表进行了归档, 当前只剩下 5000 条记录了, 那查询优化器就会改变方案, 采用 "全表扫描" 方式.
可见, 执行计划并不是固定的, 它是 "个性化的". 产生一个正确的 "执行计划" 有两点很重要:
(1)SQL 语句是否清晰地告诉查询优化器它想干什么?
(2)查询优化器得到的数据库统计信息是否是最新的, 正确的?
二, 统一 SQL 语句的写法
对于以下两句 SQL 语句, 程序员认为是相同的, 数据库查询优化器认为是不同的.
- select*from dual
- select*From dual
其实就是大小写不同, 查询分析器就认为是两句不同的 SQL 语句, 必须进行两次解析. 生成 2 个执行计划. 所以作为程序员, 应该保证相同的查询语句在任何地方都一致, 多一个空格都不行!
三, SQL 语句编写注意问题
下面就某些 SQL 语句编写注意问题做一下详细的介绍. 在这些 where 子句中, 即使某些列存在索引, 但是由于编写了劣质的 SQL, 系统在运行该 SQL 语句时也不能使用该索引, 而同样使用全表扫描, 这就造成了响应速度的极大降低.
1.IS NULL 与 IS NOT NULL
不能用 null 作索引, 任何包含 null 值的列都将不会被包含在索引中. 即使索引有多列这样的情况下, 只要这些列中有一列含有 null, 该列就会从索引中排除. 也就是说如果某列存在空值, 即使对该列建索引也不会提高性能.
任何在 where 子句中使用 is null 或 is not null 的语句优化器是不允许使用索引的.
2. 避免使用不兼容的数据类型.
不兼容的数据类型代表着全表检索数据的类型转换, 访问将变为全表扫描
select * from employee where last_name = 100; 注 last_name 为 varchar 类型
3. 联接列
对于有联接的列, 即使最后的联接值为一个静态值, 优化器是不会使用索引的. 我们一起来看一个例子, 假定有一个职工表 (employee), 对于 一个职工的姓和名分成两列存放(FIRST_NAME 和 LAST_NAME), 现在要查询一个叫比尔. 克林顿(Bill Cliton) 的职工.
下面是一个采用联接查询的 SQL 语句,
select * from employss where first_name||''||last_name ='Beill Cliton';
上面这条语句完全可以查询出是否有 Bill Cliton 这个员工, 但是这里需要注意, 系统优化器对基于 last_name 创建的索引没有使用.
当采用下面这种 SQL 语句的编写, Oracle 系统就可以采用基于 last_name 创建的索引.
*** where first_name ='Beill' and last_name ='Cliton';
4. 通配符 (%) 开头的 like 语句
目前的需求是这样的, 要求在职工表中查询名字中包含 cliton 的人. 可以采用如下的查询 SQL 语句:
select * from employee where last_name like '%cliton%'这里由于通配符 (%) 在搜寻词首出现, 所以 Oracle 系统不使用 last_name 的索引. 然而当通配符出现在字符串其他位置时, 优化器就能利用索引. 在下面的查询中索引得到了使用:
select * from employee where last_name like 'c%'
5. 索引字段上进行运算会使索引失效.
尽量避免在 WHERE 子句中对字段进行函数或表达式操作, 这将导致引擎放弃使用索引而进行全表扫描.
eg:SELECT * FROM T1 WHERE F1/2=100 应改为: SELECT * FROM T1 WHERE F1=100*2
6. Order by 语句
ORDER BY 语句决定了 Oracle 如何将返回的查询结果排序. Order by 语句对要排序的列没有什么特别的限制, 也可以将函数加入列中(象联接或者附加等). 任何在 Order by 语句的非索引项或者有计算表达式都将降低查询速度.
仔细检查 order by 语句以找出非索引项或者表达式, 它们会降低性能. 解决这个问题的办法就是重写 order by 语句以使用索引, 也可以为所使用的列建立另外一个索引, 同时应绝对避免在 order by 子句中使用表达式.
7. NOT
我们在查询时经常在 where 子句使用一些逻辑表达式, 如大于, 小于, 等于以及不等于等等, 也可以使用 and(与),or(或)以及 not(非).NOT 可用来对任何逻辑运算符号取反. 下面是一个 NOT 子句的例子:
... where not (status ='VALID')
如果要使用 NOT, 则应在取反的短语前面加上括号, 并在短语前面加上 NOT 运算符. NOT 运算符包含在另外一个逻辑运算符中, 这就是不等于 (<>) 运算符. 换句话说, 即使不在查询 where 子句中显式地加入 NOT 词, NOT 仍在运算符中, 见下例:
... where status <>'INVALID';
对这个查询, 可以改写为不使用 NOT:
select * from employee where salary<3000 or salary>3000;
虽然这两种查询的结果一样, 但是第二种查询方案会比第一种查询方案更快些. 第二种查询允许 Oracle 对 salary 列使用索引, 而第一种查询则不能使用索引.
8. IN 和 EXISTS
有时候会将一列和一系列值相比较. 最简单的办法就是在 where 子句中使用子查询. 在 where 子句中可以使用两种格式的子查询.
第一种格式是使用 IN 操作符:
... where column in(select * from ... where ...);
第二种格式是使用 EXIST 操作符:
... where exists (select 'X' from ...where ...);
我相信绝大多数人会使用第一种格式, 因为它比较容易编写, 而实际上第二种格式要远比第一种格式的效率高. 在 Oracle 中可以几乎将所有的 IN 操作符子查询改写为使用 EXISTS 的子查询.
第二种格式中, 子查询以'select'X'开始. 运用 EXISTS 子句不管子查询从表中抽取什么数据它只查看 where 子句. 这样优化器就不必遍历整个表而仅根据索引就可完成工作(这里假定在 where 语句中使用的列存在索引). 相对于 IN 子句来说, EXISTS 使用相连子查询, 构造起来要比 IN 子查询困难一些.
通过使用 EXIST,Oracle 系统会首先检查主查询, 然后运行子查询直到它找到第一个匹配项, 这就节省了时间. Oracle 系统在执行 IN 子查询时, 首先执行子查询, 并将获得的结果列表存放在一个加了索引的临时表中. 在执行子查询之前, 系统先将主查询挂起, 待子查询执行完毕, 存放在临时表中以后再执行主查询. 这也就是使用 EXISTS 比使用 IN 通常查询速度快的原因.
同时应尽可能使用 NOT EXISTS 来代替 NOT IN, 尽管二者都使用了 NOT(不能使用索引而降低速度),NOT EXISTS 要比 NOT IN 查询效率更高.
9. 应尽量避免在 where 子句中使用 or 来连接条件 , 否则将导致引擎放弃使用索引而进行全表扫描,
如: select id from employee where num=10 or num=20
可以这样查询: select id from employee where num=10 union all select id from employeewhere num=20
10. 应尽量避免在 where 子句中对字段进行表达式操作
这将导致引擎放弃使用索引而进行全表扫描. 如: select id from t where num/2=100 应改为: select id from t where num=100*2
11. 应尽量避免在 where 子句中对字段进行函数操作
这将导致引擎放弃使用索引而进行全表扫描. 如: select id from t where substring(name,1,3)='abc' ,name 以 abc 开头的 id 应改为:
select id from t where name like 'abc%'
12. 不要在 where 子句中的 "=" 左边进行函数, 算术运算或其他表达式运算 , 否则系统将可能无法正确使用索引.
13. 在使用索引字段作为条件时 , 如果该索引是复合索引, 那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引, 否则该索引将不会被使用, 并且应尽可能的让字段顺序与索引顺序相一致.
14. 索引并不是越多越好
索引固然可以提高相应的 select 的效率, 但同时也降低了 insert 及 update 的效率, 因为 insert 或 update 时有可能会重建索引, 所以怎样建索引需要慎重考虑, 视具体情况而定. 一个表的索引数最好不要超过 6 个, 若太多则应考虑一些不常使用到的列上建的索引是否有必要.
15. 尽量使用数字型字段 , 若只含数值信息的字段尽量不要设计为字符型, 这会降低查询和连接的性能, 并会增加存储开销. 这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符, 而对于数字型而言只需要比较一次就够了.
16. 尽可能的使用 varchar/nvarchar 代替 char/nchar , 因为首先变长字段存储空间小, 可以节省存储空间, 其次对于查询来说, 在一个相对较小的字段内搜索效率显然要高些.
17. 任何地方都不要使用 select * fromt , 用具体的字段列表代替 "*", 不要返回用不到的任何字段.
四, 总结:
通过这些查询优化方法, 我们设法将查询从 8 秒降低到 2 秒, 并且将查询次数从 4 次减少到 1 次. 需要说明的是, 这些查询时间是在我们开发环境运行时记录的, 生产环境速度会更快.
这对追踪查询缓慢及其修复等问题是一个有用的指南. 优化查询看起来可能像一个可怕的任务, 但只要你尝试一下, 并取得一些初步的胜利, 你就会开始找到错误, 并希望做出进一步改善.
来源: http://www.tuicool.com/articles/nMRze2m