上一篇博文对 nginx 最常用功能的 server 及 location 的匹配规则进行了讲解, 这也是 nginx 实现控制访问和反向代理的基础. 掌握请求的匹配规则算是对 nginx 有了入门, 但是这些往往还是不能满足实际的需求场景, 例如请求 url 重写, 重定向等等, 这都需要对请求的 path 进行修改操作的, 匹配规则是不能独自完成实际需求的, 这就需要掌握 nginx 的另一个常用功能 rewrite, 下面就来说说这个常用功能.
Rewrite 规则
rewrite 功能就是, 使用 nginx 提供的全局变量或自己设置的变量, 结合正则表达式和标志位实现 url 重写以及重定向.
rewrite 只能放在 server{}, location{}, if{} 中, 并且只能对域名后边传递的参数外的字符串起作用, 例如 http://baidu.com/a/we/index.php?id=1&u=str 只对 / a/we/index.PHP 重写. 语法:
rewrite regex replacement [flag];
如果相对域名或参数字符串起作用, 可以使用全局变量匹配, 也可以使用 proxy_pass 反向代理.
表面上看 rewrite 和 location 功能有点像, 都能实现跳转, 主要区别在于 rewrite 是在同一域名内更改获取资源的路径, 而 location 是对一类路径做控制访问或反向代理, 可以 proxy_pass 到其他机器. 很多情况下 rewrite 也会写在 location 里, 它们的执行顺序是:
执行 server 块的 rewrite 指令
执行 location 匹配
执行选定的 location 中的 rewrite 指令
如果其中某步 URI 被重写, 则重新循环执行 1-3, 直到找到真实存在的文件; 循环超过 10 次, 则返回 500 Internal Server Error 错误.
2.1 flag 标志位
last : 停止执行当前
ngx_http_rewrite_module
的指令集, 但是会继续走一遍请求匹配对应 server 或者 location;
break : 停止执行当前
ngx_http_rewrite_module
的指令集, 请求就此完成.
redirect : 返回 302 临时重定向, 地址栏会显示跳转后的地址
permanent : 返回 301 永久重定向, 地址栏会显示跳转后的地址
因为 301 和 302 不能简单的只返回状态码, 还必须有重定向的 URL, 这就是 return 指令无法返回 301,302 的原因了.
对于上面的 flag, 有几点需要强调一下:
last 与 break 对 url 的重写不会改变地址栏的地址
也就是说, nginx 虽然对请求 url 进行了重写, 但是地址栏不会有任何明显的改变, 仍然显示 nginx 重写前的地址; 这与 redirect 和 permanent 不同.
last 与 break 的处理策略不同
二者都会终止当前 ngx_http_rewrite_module 的指令集的执行, 但是 last 立即发起新一轮的 请求匹配 而 break 则不会.
redirect 和 permanent 会终止后续 nginx 指令的执行
nginx 在 rewrite 遇到 flag 是二者时, 后续的指令是不会执行的.
- server {
- listen 8080;
- location = /test {
- break;
- return 200 $request_uri;
- proxy_pass http://127.0.0.1:8080/other;
- }
- location / {
- return 200 $request_uri;
- }
- }
上面例子中, 我们访问 curl 127.0.0.1:8080/test, 会发现, return 200 $request_uri 语句没有执行, 而 proxy_pass 指令被执行了. 这是因为:
return 指令属于 ngx_http_proxy_module 模块, 它会被 break 终止掉; 而 rewrite 模块它是 ngx_http_proxy_module 的指令, 不会被 break 给中断掉.
2.2 if 指令与全局变量
if 判断指令
语法为 if(condition){...} , 对给定的条件 condition 进行判断. 如果为真, 大括号内的 rewrite 指令将被执行, if 条件 (conditon) 可以是如下任何内容:
当表达式只是一个变量时, 如果值为空或任何以 0 开头的字符串都会当做 false
直接比较变量和内容时, 使用 = 或!=
~ 正则表达式匹配,~* 不区分大小写的匹配,!~ 区分大小写的不匹配
-f 和!-f 用来判断是否存在文件
-d 和!-d 用来判断是否存在目录
-e 和!-e 用来判断是否存在文件或目录
-x 和!-x 用来判断文件是否可执行
例如:
- if ($http_user_agent ~ MSIE) {
- rewrite ^(.*)$ /msie/$1 break;
- } // 如果 UA 包含 "MSIE",rewrite 请求到 / msid / 目录下
- if ($http_cookie ~* "id=([^;]+)(?:;|$)") {
- set $id $1;
- } // 如果 cookie 匹配正则, 设置变量 $id 等于正则引用部分
- if ($request_method = POST) {
- return 405;
- } // 如果提交方法为 POST, 则返回状态 405(Method not allowed).return 不能返回 301,302
- if ($slow) {
- limit_rate 10k;
- } // 限速,$slow 可以通过 set 指令设置
- if (!-f $request_filename){
- break;
- proxy_pass http://127.0.0.1;
- } // 如果请求的文件名不存在, 则反向代理到 localhost . 这里的 break 也是停止 rewrite 检查
- if ($args ~ post=140){
- rewrite ^ http://example.com/ permanent;
- } // 如果 query string 中包含 "post=140", 永久重定向到 example.com
- location ~* \.(gif|jpg|PNG|swf|flv)$ {
- valid_referers none blocked www.jefflei.com www.leizhenfang.com;
- if ($invalid_referer) {
- return 404;
- } // 防盗链
- }
全局变量
下面是可以用作 if 判断的全局变量:
$args : #这个变量等于请求行中的参数, 同 $query_string
$content_length : 请求头中的 Content-length 字段.
$content_type : 请求头中的 Content-Type 字段.
$document_root : 当前请求在 root 指令中指定的值.
$host : 请求主机头字段, 否则为服务器名称.
$http_user_agent : 客户端 agent 信息
$http_cookie : 客户端 cookie 信息
$limit_rate : 这个变量可以限制连接速率.
$request_method : 客户端请求的动作, 通常为 GET 或 POST.
$remote_addr : 客户端的 IP 地址.
$remote_port : 客户端的端口.
$remote_user : 已经经过 Auth Basic Module 验证的用户名.
$request_filename : 当前请求的文件路径, 由 root 或 alias 指令与 URI 请求生成.
$scheme : HTTP 方法(如 http,https).
$server_protocol : 请求使用的协议, 通常是 HTTP/1.0 或 HTTP/1.1.
$server_addr : 服务器地址, 在完成一次系统调用后可以确定这个值.
$server_name : 服务器名称.
$server_port : 请求到达服务器的端口号.
$request_uri : 包含请求参数的原始 URI, 不包含主机名, 如:"/foo/bar.php?arg=baz".
$uri : 不带请求参数的当前 URI,$uri 不包含主机名, 如 "/foo/bar.html".
$document_uri : 与 $uri 相同.
例如:
例: http://localhost:88/test1/test2/test.PHP
- $host:localhost
- $server_port:88
- $request_uri:http://localhost:88/test1/test2/test.PHP
- $document_uri:/test1/test2/test.PHP
- $document_root:/var/www/HTML
- $request_filename:/var/www/HTML/test1/test2/test.PHP
2.3 常用正则
. : 匹配除换行符以外的任意字符
? : 重复 0 次或 1 次
+ : 重复 1 次或更多次
* : 重复 0 次或更多次
\d : 匹配数字
^ : 匹配字符串的开始
$ : 匹配字符串的结束
{n} : 重复 n 次
{n,} : 重复 n 次或更多次
[c] : 匹配单个字符 c
[a-z] : 匹配 a-z 小写字母的任意一个
小括号 () 之间匹配的内容, 可以在后面通过 $1 来引用,$2 表示的是前面第二个 () 里的内容. 正则里面容易让人困惑的是 \ 转义特殊字符.
2.4 rewrite 实例
例 1:
- http {
- # 定义 image 日志格式
- log_format imagelog '[$time_local]' $image_file '' $image_type' '$body_bytes_sent' ' $status;
- # 开启重写日志
- rewrite_log on;
- server {
- root /home/www;
- location / {
- # 重写规则信息
- error_log logs/rewrite.log notice;
- # 注意这里要用''单引号引起来, 避免{}
- rewrite '^/images/([a-z]{2})/([a-z0-9]{5})/(.*)\.(png|jpg|gif)$' /data?file=$3.$4;
- # 注意不能在上面这条规则后面加上 "last" 参数, 否则下面的 set 指令不会执行
- set $image_file $3;
- set $image_type $4;
- }
- location /data {
- # 指定针对图片的日志格式, 来分析图片类型和大小
- access_log logs/images.log mian;
- root /data/images;
- # 应用前面定义的变量. 判断首先文件在不在, 不在再判断目录在不在, 如果还不在就跳转到最后一个 url 里
- try_files /$arg_file /image404.HTML;
- }
- location = /image404.HTML {
- # 图片不存在返回特定的信息
- return 404 "image not found\n";
- }
- }
对形如 / images/ef/uh7b3/test.PNG 的请求, 重写到 / data?file=test.PNG, 于是匹配到 location /data, 先看 / data/images/test.PNG 文件存不存在, 如果存在则正常响应, 如果不存在则重写 tryfiles 到新的 image404 location, 直接返回 404 状态码.
例 2:
rewrite ^/images/(.*)_(\d+)x(\d+)\.(PNG|jpg|gif)$ /resizer/$1.$4?width=$2&height=$3? last;
对形如 / images/bla_500x400.jpg 的文件请求, 重写到 / resizer/bla.jpg?width=500&height=400 地址, 并会继续尝试匹配 location.
例 3:
见 ssl 部分页面加密 http://seanlook.com/2015/05/28/nginx-ssl/ .
2.5 rewrite 需要注意的问题
上面说过, rewrite 的指令规则为: rewrite regex replacement [flag];
rewrite 指令用指定的 regex 来匹配请求的 uri, 若匹配成功则用 replacement 来重写请求 uri. 这里需要注意的 replacement 字符串的内容:
1, 若 replacement 以 http://,https:// 或者 $scheme 开头, 则告诉 nginx 这是重定向操作(flag 默认为 redirect),nginx 则停止处理后续内容, 并直接重定向返回给客户端.
- location / {
- # 当匹配 正则表达式 /test/(.*)时 请求将被临时重定向到 http://www.baidu.com/$1
- # flag 默认为 redirect
- rewrite /test/(.*) https://www.baidu.com/$1;
- return 200 'ok'; # 此处没有机会执行
- }
2,replacement 非以上三种情况开头, 则就是简单的 url 重写
- location / {
- # 当匹配 正则表达式 /test/(.*)时 请求将被临时重定向到 www.baidu.com/$1
- # flag 无值则 rewrite 会顺序执行
- rewrite /test/(.*) www.baidu.com/$1;
- return 200 'ok'; # 此处因为 rewrite 顺序执行而得到执行机会
- }
对于上面两种情况, 还需要特别留意一个 redirect 端口的问题, 先上一个例子:
- ## server.com 机器上 nginx 的配置如下:
- server {
- listen 8000;
- location /test1/ {
- rewrite /test1/index.HTML http://server1.com/demo/test1 redirect;
- }
- location /test2/ {
- rewrite /test2/index.HTML /demo/test2 redirect;
- proxy_pass http://192.168.1.3:8000;
- }
- }
当访问 http://server.com/test1/index.html 时, 会命中 / test1 的 location 规则, 访问 server1.com 对应内容一直失败, 发现重定向后响应头的 Location 字段值为 http://server1.com:8000/demo/test1, 带有 8000 端口, 我们并没有配置, 表现的比较诡异?
访问 http://server.com/test2/index.html 时, 命中 / test2 的 location 规则, 同样访问失败, 但是访问的重定向后响应头 Location 字段值为 http://server.com:8000/demo/test2, 其带有 server.com 的 server_name 和 8000 的端口, 更加诡异?
看到上面的现象, 疑惑重重; 其实这跟 nginx 的和指令有关:
在绝对路径中, server_name_in_redirect 和 port_in_redirect 指令表示是否将 server 块中的 server_name 和 listen 的端口作为 redirect 用, 重定向的完整 url 地址根据 $scheme 跟 server_name_in_redirect 和 port_in_redirect 来确定的.
在绝对路径中, server_name_in_redirect 默认是禁用的, 而 port_in_redirect 是默认启用的. 对于带有 $scheme 重定向的绝对路径, nginx 会从 replacement 中获取指定的 server_name 和 port 来进行重定向:
第一种, 若 replacement 带请求协议 http(s), 而其中没有指定 port 的话, nginx 会默认取当前 server 的 listen 端口作为重定向的端口. 这是上面访问 http://server.com/test1/index.html 时重定向到 http://server.com:8000/demo/test2 时会携带 8000 的原因.
第二种, 若 replacement 不带请求协议 http(s), 而是相对本地服务器的绝对地址的话, 如上面访问 http://server.com/test2/index.html 的情况, 此时 server_name_in_redirect 由于禁用它会去请求的 host 来作为 server_name, 取当前 server 的 listen 端口作为重定向的端口, 最终重定向到 http://server.com:8000/demo/test2.
或许你会问, 访问 http://server.com/test2/index.html 为什么不会重定向到 http://192.168.1.3:8000/demo/test2 上? 这是因为 rewrite 的 redirect flag 会终止后续指令的执行, 所以其后的 proxy_pass 指令不会执行.
参考
- http://www.nginx.cn/216.html
- https://segmentfault.com/a/1190000008102599
来源: http://www.bubuko.com/infodetail-2947219.html