传统关系型数据库的分布式开发通常需要自己做,不仅耗时耗力而且效果不是很理想,当想快速搭建时,最初想到的是看有没有第三方,网上牛人还是很多的,做得比较好的其中之一 Mycat,它是开源的分布式数据库系统,解决数据库的负载均衡,主备复制,读写分离,简单来说就是你只管直接与 mycat 通讯,至于分离什么的交给它里面自己做,其它啥都不用操心。
至于什么是 MyCat 有什么优势,可以看看官网介绍 。
上图是 MyCat 架构图。
MyCat 可以与 HAProxy 使用实现高可用数据库集群,更深入的内容自己去查,本章只详讲从 0 开始使用 MyCat 基础篇,至少能先跑起来。
本次运行环境为 windows,Linux 下更好吧,然后数据库用 mysql,需要 java 环境,下载 jdk8
jdk 安装配置
1. 首先去 oracle 官网下载并安装 jdk8, 添加环境变量,JAVA_HOME 设置为 D:\Java\jdk1.8
2. CLASSPATH 设置为.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
3. path 系统变量追加 %JAVA_HOME%\bin;
安装 Mysql,需要注意的是数据库,表,字段的编码都采用 utf8 吧,否则插入的中文显示为乱码,具体解决方法网上查一查,去试一试。
下载 MyCat,http://dl.mycat.io/ 选择最新的版本下载。(下图可以看到还有其它前面需要的资源都可以从这里下载)
下载解压后就要先配置 MyCat 了,(这里不是 exe 文件,没有安装,配置好后直接运行 startup_nowrap.bat)
打开 mycat\conf 里面的 startup_nowrap.bat 为了降低资源占用,mycat 的 jvm 设置在 startup_nowrap.bat 可以清楚看到如下配置:
"%JAVA_CMD%" -server -Xms1G -Xmx2G -XX:MaxPermSize=64M -XX:+AggressiveOpts -XX:MaxDirectMemorySize=1G -DMYCAT_HOME=%MYCAT_HOME% -cp "..\conf;..\lib*" io.mycat.MycatStartup
这里将 - Xms1G 改成 - Xms512M,-Xmx2G 改成 - Xmx1024M,保存后重新启动即可。
添加 Windows 环境变量,MYCAT_HOME 设置为安装目录 D:\MycatServer1.5
修改 wrapper.conf 文件里的改成 wrapper.java.command=D:\jdk1.8\bin\java.exe
Mycat 绑定 MySQL 启动的配置
conf 配置文件存放配置文件:
- --server.xml:是Mycat服务器参数调整和用户授权的配置文件。
- --schema.xml:是逻辑库定义和表以及分片定义的配置文件。
- --rule.xml: 是分片规则的配置文件,分片规则的具体一些参数信息单独存放为文件,也在这个目录下,配置文件修改需要重启MyCAT。
- --log4j.xml: 日志存放在logs/log中,每天一个文件,日志的配置是在conf/log4j.xml中,根据自己的需要可以调整输出级别为debug debug级别下,会输出更多的信息,方便排查问题。
- --autopartition-long.txt,partition-hash-int.txt,sequence_conf.properties, sequence_db_conf.properties 分片相关的id分片规则配置文件
- --lib MyCAT自身的jar包或依赖的jar包的存放目录。
- --logs MyCAT日志的存放目录。日志存放在logs/log中,每天一个文件
具体什么意思后面慢慢看。
先解决主配置,server.xml 配置文件配置访问用户及权限, 修改高亮处信息,其中 mycat、user 为访问 mycat 的用户,TESTDB 为 mycat 虚拟的数据库,供上层应用访问。
- <user name="mycat">
- <property name="password">
- 123456
- </property>
- <property name="schemas">
- TESTDB
- </property>
- <!-- 表级 DML 权限设置 -->
- <!-- <privileges check="false">
- <schema name="TESTDB" dml="0110" >
- <table name="tb01" dml="0000"></table>
- <table name="tb02" dml="1111"></table>
- </schema>
- </privileges>
- -->
- </user>
- <user name="user">
- <property name="password">
- 123456
- </property>
- <property name="schemas">
- TESTDB
- </property>
- <property name="readOnly">
- true
- </property>
- </user>
mycat 的数据库配置是在 schema.xml 中配置, 这部分不太好理解,精简了一下,主要分 schema、dataNode、dataHost 三个主要配置。
<scheme> 节点定义了 mycat 的虚拟数据库为 TESTDB,下面借用园友的说明:
- <?xml version="1.0"?>
- <!DOCTYPE mycat:schema SYSTEM "schema.dtd">
- <mycat:schema xmlns:mycat="http://org.opencloudb/" >
- <!--在这一行参数里面,schema name定义了可以在MyCAT前端显示的逻辑数据库的名字,checkSQLschema这个参数为False的时候,表明MyCAT会自动忽略掉表名前的数据库名,比如说mydatabase1.test1,会被当做test1;sqlMaxLimit指定了SQL语句返回的行数限制-->
- <schema name="TESTDB" checkSQLschema="false" sqlMaxLimit="100">
- <!-- 主键范围规则 -->
- <!-- 这一行代表在MyCAT前端会显示哪些表名,类似几行都代表一样的意思,这里强调的是表,而MyCAT并不会在配置文件里面定义表结构,如果在前端使用show create table ,MyCAT会显示正常的表结构信息,观察Debug日志,可以看到,MyCAT把命令分发给了dn1代表的数据库,然后把dn1的查询结果返回给了前端 可以判断,类似的数据库级别的一些查询指令,有可能是单独分发给某个节点,然后再把某个节点的信息返回给前端。
- dataNode的意义很简单,这个逻辑表的数据存储在后端的哪几个数据库里面rule代表的是这个逻辑表students的具体切分策略,目前MyCAT只支持按照某一个特殊列,遵循一些特殊的规则来切分,如取模,枚举等,具体的留给之后细说
- -->
- <table name="travelrecord" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" />
- <table name="company" primaryKey="ID" dataNode="dn3,dn2,dn1" rule="mod-long"/>
- <table name="goods" primaryKey="ID" type="global" dataNode="dn1,dn2" />
- <!--求模分片随机规则 -->
- <table name="hotnews" primaryKey="ID" dataNode="dn1,dn2,dn3"
- rule="mod-long" />
- <table name="employee" primaryKey="ID" dataNode="dn1,dn2"
- rule="sharding-by-intfile" />
- <table name="customer" primaryKey="ID" dataNode="dn1,dn2"
- rule="sharding-by-intfile">
- <!--
- childtable我在测试中并没有实际用起来不过在MyCAT的设计文档里面有提到,childtable是一种依赖于父表的结构,
- 这意味着,childtable的joinkey会按照父表的parentKey的策略一起切分,当父表与子表进行连接,
- 且连接条件是childtable.joinKey=parenttable.parentKey时,不会进行跨库的连接.
- -->
- <childTable name="orders" primaryKey="ID" joinKey="customer_id"
- parentKey="id">
- <childTable name="order_items" joinKey="order_id"
- parentKey="id" />
- </childTable>
- <childTable name="customer_addr" primaryKey="ID" joinKey="customer_id"
- parentKey="id" />
- </table>
- <!-- 全局表是自动克隆到所有定义的数据节点,这样可以与拆分节点的任何表连接查询,是在同一个数据节点-->
- <table name="news_table" primaryKey="ID" type="global" dataNode="dn1,dn2,dn3" />
- </schema>
- <dataNode name="dn1" dataHost="localhost1" database="TESTDB1" />
- <dataNode name="dn2" dataHost="localhost1" database="TESTDB2" />
- <dataNode name="dn3" dataHost="localhost1" database="TESTDB3" />
- <!--
- dataHost配置的是实际的后端数据库集群,大部分参数简单易懂,这里就不一个个介绍了,只介绍比较重要的两个参数,writeType和balance.
- -->
- <!-- writeType和balance是用来控制后端集群的读写分离的关键参数,这里我用了双主双从的集群配置
- 这里的测试过程比较麻烦,所以直接贴结论:
- 1.balance=0时,读操作都在localhost上(localhost失败时,后端直接失败)
- 2.balance=1时,读操作会随机分散在localhost1和两个readhost上面(localhost失败时,写操作会在localhost1,如果localhost1再失败,则无法进行写操作)
- 3.balance=2时,写操作会在localhost上,读操作会随机分散在localhost1,localhost1和两个readhost上面(同上)
- 4.writeType=0时,写操作会在localhost上,如果localhost失败,会自动切换到localhost1,localhost恢复以后并不会切换回localhost进行写操作
- 5.writeType=1时,写操作会随机分布在localhost和localhost1上,单点失败并不会影响集群的写操作,但是后端的从库会无法从挂掉的主库获取更新,会在读数据的时候出现数据不一致
- 举例:localhost失败了,写操作会在localhost1上面进行,localhost1的主从正常运行,但是localhost的从库无法从localhost获取更新,localhost的从库于其他库出现数据不一致
- -->
- <dataHost name="localhost1" maxCon="1000" minCon="10" balance="0"
- writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
- <heartbeat>select user()</heartbeat>
- <!-- can have multi write hosts -->
- <writeHost host="hostM1" url="localhost:3306" user="root"
- password="123456">
- <!-- can have multi read hosts -->
- <!--<readHost host="hostS2" url="192.168.1.200:3306" user="root" password="xxx" />-->
- </writeHost>
- </dataHost>
- </mycat:schema>
以上配置注意高亮部分,配置的是每个 dn 对应哪个实体服务器里面哪个实体库(此处只有本机,所以都绑定到本机 localhost,再添加 3 个不同的数据库 TESTDB1\TESTDB2\TESTDB3,手动都添加要测试的表,若有多余的服务器可以将 ip 替换掉测试),详细的内容参考文中的注释。
经过实验 goods 表:在 mycat 的 TESTDB 的虚拟表 goods 中添加一行记录会在 TESTDB1 和 TESTDB2 中的表 goods 同步添加一行记录。
hotnews 表:在 mycat 的 TESTDB 的虚拟表 hotnews 中添加的一行记录会随机插入 TESTDB1、TESTDB2、TESTDB3 的其中一个库中的 hotnews 表。
其它表的测试你们自己试试。
这就是分片,靠的是分片规则,下面就来看 rule。
(每个数据库中相同的表要手工提前生成表结构,否则会提示找不到此表,操作 mycat 时它并不能自动同步实体数据库生成,可能有方法,现在还没深入了解)
rule.xml 配置文件,可以先不管。
- <?xml version="1.0" encoding="UTF-8" ?>
- <!-- - - Licensed under the Apache License, Version 2.0 (the "License");
- - you may not use this file except in compliance with the License. - You
- may obtain a copy of the License at - - http://www.apache.org/licenses/LICENSE-2.0
- - - Unless required by applicable law or agreed to in writing, software
- - distributed under the License is distributed on an "AS IS" BASIS, - WITHOUT
- WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. - See
- the License for the specific language governing permissions and - limitations
- under the License. -->
- <!DOCTYPE mycat:rule SYSTEM "rule.dtd">
- <mycat:rule xmlns:mycat="http://org.opencloudb/">
- <tableRule name="rule1">
- <rule>
- <columns>
- id
- </columns>
- <algorithm>
- func1
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="rule2">
- <rule>
- <columns>
- user_id
- </columns>
- <algorithm>
- func1
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="sharding-by-intfile">
- <rule>
- <columns>
- sharding_id
- </columns>
- <algorithm>
- hash-int
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="auto-sharding-long">
- <rule>
- <columns>
- id
- </columns>
- <algorithm>
- rang-long
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="mod-long">
- <rule>
- <columns>
- id
- </columns>
- <algorithm>
- mod-long
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="sharding-by-murmur">
- <rule>
- <columns>
- id
- </columns>
- <algorithm>
- murmur
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="sharding-by-month">
- <rule>
- <columns>
- create_date
- </columns>
- <algorithm>
- partbymonth
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="latest-month-calldate">
- <rule>
- <columns>
- calldate
- </columns>
- <algorithm>
- latestMonth
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="auto-sharding-rang-mod">
- <rule>
- <columns>
- id
- </columns>
- <algorithm>
- rang-mod
- </algorithm>
- </rule>
- </tableRule>
- <tableRule name="jch">
- <rule>
- <columns>
- id
- </columns>
- <algorithm>
- jump-consistent-hash
- </algorithm>
- </rule>
- </tableRule>
- <function name="murmur" class="org.opencloudb.route.function.PartitionByMurmurHash">
- <property name="seed">
- 0
- </property>
- <!-- 默认是0 -->
- <property name="count">
- 2
- </property>
- <!-- 要分片的数据库节点数量,必须指定,否则没法分片 -->
- <property name="virtualBucketTimes">
- 160
- </property>
- <!-- 一个实际的数据库节点被映射为这么多虚拟节点,默认是160倍,也就是虚拟节点数是物理节点数的160倍 -->
- <!-- <property name="weightMapFile">weightMapFile</property> 节点的权重,没有指定权重的节点默认是1。以properties文件的格式填写,以从0开始到count-1的整数值也就是节点索引为key,以节点权重值为值。所有权重值必须是正整数,否则以1代替 -->
- <!-- <property name="bucketMapPath">/etc/mycat/bucketMapPath</property>
- 用于测试时观察各物理节点与虚拟节点的分布情况,如果指定了这个属性,会把虚拟节点的murmur hash值与物理节点的映射按行输出到这个文件,没有默认值,如果不指定,就不会输出任何东西 -->
- </function>
- <function name="hash-int" class="org.opencloudb.route.function.PartitionByFileMap">
- <property name="mapFile">
- partition-hash-int.txt
- </property>
- </function>
- <function name="rang-long" class="org.opencloudb.route.function.AutoPartitionByLong">
- <property name="mapFile">
- autopartition-long.txt
- </property>
- </function>
- <function name="mod-long" class="org.opencloudb.route.function.PartitionByMod">
- <!-- how many data nodes -->
- <property name="count">
- 3
- </property>
- </function>
- <function name="func1" class="org.opencloudb.route.function.PartitionByLong">
- <property name="partitionCount">
- 8
- </property>
- <property name="partitionLength">
- 128
- </property>
- </function>
- <function name="latestMonth" class="org.opencloudb.route.function.LatestMonthPartion">
- <property name="splitOneDay">
- 24
- </property>
- </function>
- <function name="partbymonth" class="org.opencloudb.route.function.PartitionByMonth">
- <property name="dateFormat">
- yyyy-MM-dd
- </property>
- <property name="sBeginDate">
- 2015-01-01
- </property>
- </function>
- <function name="rang-mod" class="org.opencloudb.route.function.PartitionByRangeMod">
- <property name="mapFile">
- partition-range-mod.txt
- </property>
- </function>
- <function name="jump-consistent-hash" class="org.opencloudb.route.function.PartitionByJumpConsistentHash">
- <property name="totalBuckets">
- 3
- </property>
- </function>
- </mycat:rule>
用管理员权限运行 startup_nowrap.bat 启动 MyCat。
若出现上面的问题,检查 java 的环境是否正确和 mycat 的环境配置。
启动成功后会出现:
#如果启动失败,请修改 D:\mycat\bin\startup_nowrap.bat 文件中的以下参数。默认占用内存为 2G
D:\dev-bin\mycat\bin>"C:\Program Files (x86)\Java\jdk1.7.0_13/bin/java" -server -Xms512m -Xmx512m -XX:MaxPermSize=64M -XX:+AggressiveOpts -XX:MaxDirectMemorySize=768m -DMYCAT_HOME=D:\
p "..\conf;..\lib\*" io.mycat.MycatStartup
然后 dos 中会不停的出现心跳检测,有错误信息可去 mycat\logs 中查看日志。
注意:如日志中出现 192.168.xxx not connected 等信息,请允许对应的 mysql 远程访问,且先提前独自检查 mysql 都能正确访问。
使用 navicat 连接 mycat,操作方式和连接物理 mysql 库一致,用户 mycat,密码 123456,端口 8066
连接成功后,将看到 TESTDB 数据库和 hotnews 等数据表
在 hotnews 表中添加一些数据,保存
执行 select * from hotnews 查看操作,然后去 TESTDB1、TESTDB2、TESTDB3 中查询 hotnews 表
MyCat 中 TESTDB 是中间件逻辑数据库,MySQL 中的 testdb、testdb2、testdb3 是真实的数据库。
在 mycat 中添加数据时若提示 testdb2.hotnews 不存在,则要手动在 testdb2 中添加相同表结构。
添加完后,可以看到 hotnews 记录在三个 testdb、testdb2、testdb3 中是均衡随机插入的。
而 goods 在 testdb、testdb2 中是一样的。
来源: http://www.cnblogs.com/zhangs1986/p/6408981.html