3 研究挑战与展望
3.1 研究挑战
虽然新型硬件环境为数据管理与分析提供了新的设计维度, 但是不论从个体的新型硬件发展前景抑或从整体的与现有体系的整合方式来看, 都具有较大的不确定性这些新型硬件能否给上层软件系统带来期望的性能收益取决于如何发掘新型硬件的性能提升空间以及准确界定硬件自身的局限性, 洞察他们蕴含的假设条件以及对于系统设计平衡点的影响, 这些都是数据管理与分析领域必须面对的挑战:
1) 首先, 要在系统层面洞察新型存储器件和环境可能引入的新瓶颈: 新型硬件及其环境对现有技术的影响是系统性的, 在消除既有性能瓶颈的同时可能会引入新的性能瓶颈, 需要站在更高层的系统上下文中对其影响进行审视在新型处理器和加速器构建的异构计算环境下, 虽然大规模并行能力的瓶颈得以缓解, 但是传统的内存墙冯. 诺依曼体系结构瓶颈功耗墙等问题在新的异构并行计算环境下甚至可能更加严重, 而异构处理单元之间的通信延迟有限的缓存容量非一致存储访问代价都可能成为新的性能瓶颈; 在新型非易失存储环境下, 数据访问的 I/O 栈中面向磁盘的 I/O 瓶颈能够被消除, 但是新型非易失 I/O 栈将显著地放大传统存储体系下通常被忽略的软件开销, 重新设计软件栈以减少其开销比例成为比以往更重要的设计原则; 在高性能网络体系中, 虽然网络 I/O 延迟不再是系统设计时的主要瓶颈, 但处理器缓存和本地内存的利用效率则变得更为重要
2) 其次, 新型硬件环境下算法和数据结构的设计思路需要改变: 将传统算法和数据结构进行直接迁移或部分调优的方式无法充分挖掘新型硬件及环境的特性在处理器层面上, 适合 x86 架构处理器的数据结构及以 cache 为中心的算法设计并不能与以计算为中心的众核协处理器硬件特性相匹配, 很多数据库成熟的查询处理技术在众核处理器平台上面临优化技术失效的风险, 而且数据库软件长期以来以串行及小规模并行处理为主的程序设计思想, 使得传统的查询处理算法难以很好地转换为大规模并行处理模式; 在存储层面上, 虽然新型非易失存储具有内外存双重优势, 但是现阶段非易失存储器仍然存在 I/O 读写性能不对称读写功耗不对称写耐受性差等特征, 这些特征与以往算法和数据结构对于底层存储环境的基本设计假设具有显著差异, 因此传统的以优化低速 I/O 为主要目标的磁盘访问技术基于块访问的闪存访问技术读写对称的内存访问技术虽然能够提供很好的借鉴作用, 但是都无法在非易失存储环境下获得理想的效果; 在网络层面上, 由于 RDMA 集群环境既不是简单的消息传递架构也不是共享内存架构而是一种新型的混合式架构, 因此不能将非一致内存访问架构下的技术直接应用到 RDMA 集群环境中
3) 再者, 新型硬件及环境对数据管理与分析技术的影响是全面深度且交叉的: 新型硬件环境所具有的新特征不能通过简单的对数据管理软件的既有功能进行裁剪来适配新的硬件环境在新型处理器和加速器构建的异构计算环境下, 并行处理能力获得极大的提升, 但是更加丰富的硬件上下文也给数据管理与分析技术在保持高吞吐性能和维护数据一致性等需求上带来了更严峻的挑战; 新型存储器的非易失性对日志技术的影响将根本性地改变事务关键路径的长度和执行代价, 事务提交时间的减少会进一步加剧锁竞争, 进而影响整个系统的并发能力和吞吐性能; 低延迟高带宽的高性能网络会改变系统对于分布式事务难以扩展的基本假设以及分布式算法设计时面向最小化网络延迟的优化目标, 多核架构下的缓存利用成为新的优化重点; 此外, 部分既有的数据管理部件本身具有复合型的功能, 新型硬件对其影响也具有较强的关联性例如既有的缓冲区不但用于缓解整个系统的 I/O 瓶颈, 也是减少故障恢复机制开销的重要环节; 更加复杂的是, 新型硬件与环境之间也存在相互的交叉影响, 例如高性能处理器的乱序指令执行技术会导致缓存数据无法按应用逻辑次序存取和执行, 如果用单一的 NVM 简化传统存储层级, 就必须要解决 NVM 上数据的有序化问题
4) 最后, 软硬件的协同设计和协调发展是新型硬件环境下数据管理与分析技术发展的必然途径: 新硬件技术有其固有的优势和不足, 并不能完全取代原有的硬件体系结构和设备, 在相当长的时间内必然是传统硬件与新硬件并存的格局, 在提供多样化的硬件选择的同时也导致系统设计更加复杂, 优化技术更加不透明, 系统整体性能调优难度增加等问题在异构计算环境下, 采用 co-processor 还是 co-placement 实现定制化的数据处理加速对系统架构和技术设计具有显著差异, 更加严重的是由于并行编程的门槛越来越高, 软硬件之间的鸿沟也越来越大, 数据管理与分析软件技术的发展滞后于硬件技术的发展, 在很多实际应用中, 硬件的实际利用率远低于性能上限 [129]; 而新型存储器件具有显著的差异化和多样化, 如何利用新型非易失存储器构成非易失存储环境具有极大的灵活性和不确定性, 构成成分是单纯还是混合, 构成地位是对等还是层次都存在可能性, 未定型的构成体系也给上层数据管理与分析技术带来了极大的挑战和研究在高性能网络体系下, 虽然 InfiniBand 从设计之初就考虑了 RDMA, 但传统的以太网也提出了基于 RDMA 的解决方案, 最终哪种方案能形成完整的产业生态目前也无法给出确切的答案, 因此更需要尽早开展前沿性研究, 探索适合高性能网络环境的数据管理新架构
3.2 研究展望
从数据管理与分析软件的发展历史来看, 近半个世纪以来, 作为最主要的数据管理软件, 数据库从磁盘数据库闪存数据库内存数据库的发展轨迹充分反映出数据管理软件随底层存储介质一致变化的明显趋势相似的, Shore-MTMapD 等系统的出现也反映出数据管理与分析技术随处理器共同演化的必要性由高性能处理器和硬件加速器新型非易失存储器高速互联设备催生的异构计算架构混合存储环境和高性能互联网络等新型硬件环境, 必将改变传统的数据管理与分析系统的底层载体支撑, 为数据管理与分析系统和关键技术带来重大的发展机遇, 未来的研究可以从以下几个方面着手展开:
1) 轻耦合的系统架构与协同设计策略: 新型硬件构建的计算存储以及网络环境具有异构性多样性和混合性, 不同的环境构成对上层数据管理系统架构的设计具有显著影响如何将新型硬件无缝化地融入数据管理栈是数据管理技术能够有效利用新型硬件能力的重要基础性研究问题为兼容多样性的硬件环境以及减少与特定硬件高耦合优化技术的失效风险, 必须对异质异构混合的硬件环境进行有效的抽象和虚拟化抽象化技术可以提取硬件共有的特征, 在确保硬件感知的同时减少低级的过度耦合, 为上层技术提供灵活的定制化和服务化的支持; 同时, 数据处理中不同操作的执行代价以及相互的比例关系在新硬件环境下必然发生变化, 系统的瓶颈也在发生迁移, 传统软件栈中以往可以忽略不计的开销会被显著的放大因此, 需要在此基础上发现并优化新的性能瓶颈, 重新设计合理的软件栈, 降低新型硬件环境下的软件开销; 此外, 新型硬件环境具有的低延迟高容量高带宽高速读写等显著优势为整合 OLTP 与 OLAP 系统功能, 实现融合的 OLTAP 系统架构设计带来了新的发展机遇, 有必要在新硬件环境下探索面向混合应用负载的融合支持技术;
2) 支持混合异构硬件环境的存储与索引管理技术: 新型非易失存储器由于兼具内外存双重能力, 模糊了原有存储之间清晰的边界, 也为新型非易失存储环境的构成和数据存储方式提供了相当大的自由度, 同时配合高效的索引技术以及加速器的优化, 能够为加速上层数据处理提供有力的保证虽然, 新型非易失存储环境的高速 I/O 能力为提高数据访问性能带来了机遇, 但是, NVM 仅在器件层保证了数据的非易失性, 系统层面的缓存机制还可能会引入不一致性的问题, 因此未来需要从架构策略实现等不同层面研究协同存储技术; 此外, 作为专用加速硬件, FPGA 在加速数据处理方面有其特有的优势, 特别是结合非易失存储的特征可以进一步提高其对于数据处理的效率, 因此, 数据存储引擎的优化与重构技术以及 FPGA 存储侧的数据访存加速及数据过滤技术, 能有效的完成对原始数据的部分预处理工作, 减少实际所需传输的数据量, 进而缓解大规模数据处理时数据访问的瓶颈; 再者, NVM 非易失存储环境具有更丰富的存储层级, 而另一方面新型处理器技术也为索引提供了额外的数据处理资源, 因此面向多层级的 processor-conscious 的索引技术也是未来研究的方向;
3) 硬件感知的查询处理与性能优化: 查询处理是数据分析中最核心的操作, 其涉及数据提取过程中一系列复杂的活动异构计算架构提供的高度并行能力和可定制能力, 以及非易失存储环境全新的 I/O 特征都使得以往的查询处理和优化机制难以适用未来研究可能集中在两个方面, 一是非易失存储环境下的查询优化技术: NVM 的高速读写字节可寻址以及非对称读写等特征对于传统查询操作, 如连接排序和聚集等都将产生显著影响同时 NVM 改变了传统存储层级的构成, 也影响了传统的以磁盘存储代价来估算查询代价的度量假设, 因此未来有必要研究非易失存储环境下的代价模型, 以及 Write-limited 算法和数据结构的设计与优化, 尽可能地降低 NVM 写操作产生的负面影响; 另一方面是异构处理器平台下的查询优化技术: 由于, 新型处理器的引入增加了异构计算平台的维度, 导致查询优化技术的复杂度进一步提升, 对查询优化器的设计提出巨大的挑战面对新型异构处理器平台, 数据库需要能够提供核心查询处理的技术平台迁移面向异构处理器平台的协同查询处理技术面向异构处理器平台的分析型查询优化技术以及混合查询执行计划生成技术等都是全面提高异构计算平台下的查询效率的可能途径;
4) 新型硬件使能的事务处理技术: 并发控制和故障恢复是数据管理系统确保事务隔离性和持久性的核心功能, 其设计和实现与底层计算和存储环境的关系非常紧密同时, 高性能网络环境也对以往难以扩展的分布式事务处理提供了新的机遇首先, NVM 非易失存储环境中存储层次的架构与不同层次间存储介质的读写特征对事务恢复技术而言都有最直接的影响, 需要根据 NVM 的优异特性优化数据库恢复技术面向 NVM 内存环境的恢复技术 NVM 混合非易失环境下的划分技术以及 NVM 感知的事务并发控制技术都是亟待开展的研究内容其次, 事务处理通常涉及多种类型操作及其之间的同步, 而通用处理器和专用加速器具备不同的数据处理模式, 为此将传统方式中由通用处理器 CPU 完成的事务处理负载进行分离, 将部分负载迁移至专用加速处理器, 可以达到有效提高事务处理性能的目的, 因此研究针对事务处理加速的负载均衡和 IO 优化技术, 是有效解决事务处理性能瓶颈的可能途径; 再者, RDMA 使能的高性能网络环境下, 严格控制或者不使用分布式事务以及使用弱一致性的分布式事务系统设计桎梏将不复存在 RDMA 使能的分布式提交协议以及面向 RDMA 的悲观与乐观并发控制方法可能都是需要研究的内容
4 结束语
新型硬件及其构建的环境将深度影响整个计算体系的架构模式, 并改变上层软件既往的设计假设, 在提供更高物理性能的同时, 也要求数据管理与分析的软件架构和相关技术能够感知并适应新型硬件的特点新型硬件环境使得数据管理与分析系统的设计空间的权衡变得更加复杂, 带来了多维度的研究挑战在未来的研究中, 迫切需要打破原有数据管理与分析软件架构的封闭性, 依据硬件环境的特征以及数据管理与分析系统的核心功能, 自底向上探索与研究全新的数据处理模式架构策略与技术
来源: http://blog.csdn.net/idevede/article/details/79421117