活动介绍
本会议由Alibaba MaxCompute Optimizer团队组织,讨论大数据查询优化技术的深耕之路。
活动详情
主办单位:Alibaba MaxCompute Optimizer Team
支持媒体:云栖社区
时间:2017年9月25日 14:00~18:15
地点:浙江省杭州市阿里巴巴西溪园区访客中心-204-N东林书院
议程
14:00~15:00 题目待定 演讲人:林伟
15:00~16:00 OceanBase 1.0的SQL查询优化实践 演讲人:酒满
16:00~16:15 茶歇时间
16:15~17:15 Cost-based Optimizer Framework for Spark SQL 王振华
17:15~18:15 TiDB 基于代价的查询优化器简介 韩飞
邀请嘉宾
分享嘉宾:林伟 阿里巴巴 计算平台事业部 研究员
分享嘉宾:酒满 阿里巴巴 OceanBase 资深技术专家
摘要:OceanBase 于2015年发布1.0第一个正式版本;到2017年,蚂蚁金服的全部核心链路都已经运行在1.0版本之上。在该版本的开发中,我们对OceanBase的SQL模块做了一次全面功能升级,在兼容MySQL的语法、语义的同时,增加了基于代价的SQL查询优化、分布式执行引擎、计划缓存等一系列重要的功能,极大地增强了服务业务的能力。在业务迁移的过程中,SQL模块以不需要用户修改一条SQL、不增加一条hint为原则,最大化地降低了用户迁移的成本,提高了系统的稳定性。本次分享将结合OB在蚂蚁业务中的应用,重点介绍我们在SQL查询优化方面遇到的挑战和工程实践。
分享嘉宾:王振华
华为公司研究工程师,致力于构建高性能大数据查询分析平台。在此之前,毕业于浙江大学计算机科学与技术学院,研究方向涉及空间数据库,信息检索,数据挖掘。
摘要:在Spark SQL的Catalyst优化器中,许多基于规则的优化技术已经实现,但优化器本身仍然有很大的改进空间。例如,没有关于数据分布的详细列统计信息,因此难以精确地估计过滤(filter)、连接(join)等数据库操作符的输出大小和基数 (cardinality)。由于不准确的估计,它经常导致优化器产生次优的查询执行计划。
在Spark 2.2中,在Spark SQL引擎内添加了一个基于成本的优化器框架,此框架计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算,能够在这些领域做出好的决定:选择散列连接(hash join)操作的正确构建端(build side),选择正确的连接算法(如broadcast hash join与 shuffled hash join),调整连接的顺序等等。在这次分享中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。
分享嘉宾:韩飞
现PingCAP研发工程师,负责TiDB SQL Optimizer ,原阿里云 ODPS 研发工程师。主要专注于 SQL 优化技术。
摘要: TiDB 的 SQL 查询优化算法,统计信息的收集与维护算法
欢迎加入讨论群
来源: https://yq.aliyun.com/event/150