1. SQL 总体执行流程图
通过上面图, 可以从全局上了解 SQL 语句执行流程以及与其他模块交互
1.1 SQL 查询执行流程
2. 语法解析
2.1 编程语言知识回顾
在介绍具体的 MySQL 数据库解析 SQL 之前, 先来回归一下编程语言的知识点
形式语言(Formal language)
形式语言是用精确的数学或机器可处理的公式定义的语言, 个人理解形式语言就是符号化的语言, 比如编程语言(C C++ JAVA PYTHON), 都是定义一组符号来描述映射人的思维逻辑的, 符号化的语言的好处就是能够准确表达, 不会产生二义性.
文法(grammar)
当我们要描述一种语言时, 需要给出这种语言的所有句子, 当句子的数目是有限可数时, 就要都列出来; 当句子是一个无穷集, 也就是无限不可数时, 就要给出可以表示它们的结构的描述方法或者说, 句子的组成规则. 这种规则就是文法. 即从形式上用于描述和规定结构的称为文法(或者说语法), 也可以理解为指怎么由一堆符号组成一个有含义的句子的规则和协议
上下文无关文法(context-free grammar)(数学描述)
一个四元数组 G=(VN,VT,S,P):
VN: 非空有限的非终结符集合 VT: 非空有限的终结符集
S: 开始符号 P: 产生式集合
其中, VN∩VT=,S∈VN
P 中产生式一般形式为 A→α|β, 其中 A∈VN,α,β∈(VN∪VT)*
大写字母表示非终结符, 小写字母表示终结符,α,β,γ等代表由 终结符和非终结符号的并集的闭包 中的元素 组成的符号串
上下文无关文法取名为 "上下文无关" 的原因就是因为字符 A 总可以被字串α或β自由替换, 而无需考虑字符 A 出现的上下文
终结符(terminal symbol )
终结符是一个形式语言的基本符号. 就是说, 它们能在一个形式语法的推导规则的输入或输出字符串存在, 而且它们不能被分解成更小的单位. 可以理解为产生式推导到什么时候停止呢, 推导到终止符为止.
非终结符(nonterminal symbol)
非终结符是可以被取代的符号. 一个形式文法中必须有一个起始符号; 这个起始符号属于非终结符的集合. 在上下文无关文法中, 每个推导规则的左边只能有一个非终结符而不能有两个以上的非终结符或终结符.
巴科斯范式(BNF: Backus-Naur Form)
以美国人巴科斯 (Backus) 和丹麦人诺尔 (Naur) 的名字命名的一种形式化的语法表示方法, 用来描述语法的一种形式体系, 是一种典型的元语言. 又称巴科斯 - 诺尔形式(Backus-Naur form). 它不仅能严格地表示语法规则, 而且所描述的语法是与上下文无关的. 它具有语法简单, 表示明确, 便于语法分析和编译的特点.
编程语言的文法除了数学化的描述, 还需要在在实际生产中易于描述的符号化语言, BNF 就是用来描述上下文无关文法的符号化的语言.
2.2 概念与 bison
2.1 章节说明的概念跟 bison 又是一种什么关系呢?
bison 是属于 GNU 项目的一个语法分析器生成器.
bison 能够将上下文无文法解释成语法分析表, 由于兼容 yacc, 而 yacc 是 BNF 进行描述文法规则的, 所以可以理解为 bison 能够解析以 BNF 描述上下文无关文法的语法分析器生成器.
2.3 MySQL 与 bison
MySQL 使用 bison 作为其解析 SQL 语句的语法分析器.
2.4 SQL 解析相关文件及关联
(1) 相关文件
SQL 词法解析文件:
- sql/sql_lex.h,sql/lex_token.h,sql/lex.h,sql/lex_symbol.h
- sql/gen_lex_token.cc,sql/sql_lex.cc
SQL 语法解析文件:
sql/sql_yacc.yy,sql/sql_yacc.cc,sql/sql_yacc.h
SQL 语句的 hint 语法解析文件:
sql/sql_hints.yy,sql/sql_hints.yy.cc
(2) 语法解析
3. sql/sql_yacc.yy
3.1 sql_yacc.yy 描述
sql_yacc.cc 规定了 SQL 语句语法规则, 定义了 SQL 语句的关键字.
3.2 sql_yacc.yy 文件结构
- %{
- Prologue
- %
- }
- Bison declarations
- %%
- Grammar rules
- %%
- Epilogue
Prologue 部分包括宏定义和在语法规则动作中使用的函数和变量的声明. 这些将复制到分析器文件的开头以便先于 yyparse 的定义. 你可以使用
#include'来从头文件获取声明. 如果你不需要任何的 C 声明, 可以省略这个部分的括号分隔符
%{'和 `%}', 这部分被 BISON 原封不动地复制到输出的. C 文件中
Bison declatations 部分包含了定义终结符和非终结符的声明, 优先级等等
Grammar Rules 部分包含了一个或多个 Bison 语法规则, 在这里至少应该有一个语法规则, 并且第一个 %%, 绝对不能省略, 解释它在文件的最开头.
就像 Prologue 部分被复制到开头一样, Epilogue 部分被逐字地复制到分析器文件的结尾. 如果你想放一些代码却没必要放在 yyparse 的定义之前, 这里是最方便的地方. 如果最后一部分为空, 你可以省略分隔它的分隔符 %%.
3.2 sql_yacc.yy 文件解析
3.2.1 Prologue 部分
该部分包含了 C 语言的头文件, 宏定义, 该部分主要声明和定义了 2 个关键函数, 如下:
int yylex(void yylval, voidyythd); 词法解析函数的声明
void MYSQLerror(YYLTYPE , THDthd, const char *s); 语法分析错误函数的定义.
3.2.2 Bison declatations 部分
本部分与 prologue 部分使用 %% 进行分隔
3.2.3 Grammar Rules 部分
本部分与 Bison declatations 部分, 使用 %% 进行分隔
例子分析:
Bison 产生式: result: components...;
下面的例子就是一个产生式
query 是产生式的左端, 冒号后面是产生式的右端, | 代表或的意思, {}当 query 产生式推出右端情况的时候所执行的动作, 一个产生式结束要是 ;
其中, query verb_clause 都是非终止符, END_OF_INPUT 是终止符, 也就是说产生式推导到终止符就停止推导.
即 query->END_OF_INPUT | verb_clause | verb_clause END_OF_INPUT
- query:
- END_OF_INPUT
- {
- THD *thd= YYTHD;
- if (!thd->Bootstrap &&!thd->m_parser_state->has_comment())
- {
- my_message(ER_EMPTY_QUERY, ER(ER_EMPTY_QUERY), MYF(0));
- MYSQL_YYABORT;
- }
- thd->lex->sql_command= SQLCOM_EMPTY_QUERY;
- YYLIP->found_semicolon= NULL;
- }
- | verb_clause
- {
- Lex_input_stream *lip = YYLIP;
- if (YYTHD->get_protocol()->has_client_capability(CLIENT_MULTI_QUERIE S)&& lip->multi_statements && !lip->eof())
- {
- lip->next_state= MY_LEX_END;
- lip->found_semicolon= lip->get_ptr();
- }
- else
- {
- lip->found_semicolon= NULL;
- }
- }
- ';'
- opt_end_of_input
- |verb_clause END_OF_INPUT
- {
- YYLIP->found_semicolon= NULL;
- }
来源: http://blog.51cto.com/wangwei007/2300217