Optimizer技术研讨会

活动介绍

活动介绍
本会议由Alibaba MaxCompute Optimizer团队组织，讨论大数据查询优化技术的深耕之路。

活动详情
主办单位：Alibaba MaxCompute Optimizer Team
支持媒体：云栖社区
时间：2017年9月25日 14:00~18:15
地点：浙江省杭州市阿里巴巴西溪园区访客中心-204-N东林书院

议程
14:00~15:00 题目待定演讲人：林伟
15:00~16:00 OceanBase 1.0的SQL查询优化实践演讲人：酒满
16:00~16:15 茶歇时间
16:15~17:15 Cost-based Optimizer Framework for Spark SQL 王振华
17:15~18:15 TiDB 基于代价的查询优化器简介韩飞

邀请嘉宾

分享嘉宾：林伟阿里巴巴计算平台事业部研究员

分享嘉宾：酒满阿里巴巴 OceanBase 资深技术专家
摘要：OceanBase 于2015年发布1.0第一个正式版本；到2017年，蚂蚁金服的全部核心链路都已经运行在1.0版本之上。在该版本的开发中，我们对OceanBase的SQL模块做了一次全面功能升级，在兼容MySQL的语法、语义的同时，增加了基于代价的SQL查询优化、分布式执行引擎、计划缓存等一系列重要的功能，极大地增强了服务业务的能力。在业务迁移的过程中，SQL模块以不需要用户修改一条SQL、不增加一条hint为原则，最大化地降低了用户迁移的成本，提高了系统的稳定性。本次分享将结合OB在蚂蚁业务中的应用，重点介绍我们在SQL查询优化方面遇到的挑战和工程实践。

分享嘉宾：王振华
华为公司研究工程师，致力于构建高性能大数据查询分析平台。在此之前，毕业于浙江大学计算机科学与技术学院，研究方向涉及空间数据库，信息检索，数据挖掘。
摘要：在Spark SQL的Catalyst优化器中，许多基于规则的优化技术已经实现，但优化器本身仍然有很大的改进空间。例如，没有关于数据分布的详细列统计信息，因此难以精确地估计过滤（filter）、连接（join）等数据库操作符的输出大小和基数 (cardinality)。由于不准确的估计，它经常导致优化器产生次优的查询执行计划。
在Spark 2.2中，在Spark SQL引擎内添加了一个基于成本的优化器框架，此框架计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算，能够在这些领域做出好的决定：选择散列连接（hash join）操作的正确构建端（build side），选择正确的连接算法（如broadcast hash join与 shuffled hash join），调整连接的顺序等等。在这次分享中，我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。

分享嘉宾：韩飞
现PingCAP研发工程师，负责TiDB SQL Optimizer ，原阿里云 ODPS 研发工程师。主要专注于 SQL 优化技术。
摘要： TiDB 的 SQL 查询优化算法，统计信息的收集与维护算法

欢迎加入讨论群

来源: https://yq.aliyun.com/event/150

与本文相关文章

暂无,快来抢沙发吧！