8 月 8 日消息, 昨日腾讯云再发声明, 盘复了 "前沿数控" 文件系统元数据损坏的技术原因, 腾讯称该故障缘起于因磁盘静默错误导致的单副本数据错误, 再加上数据迁移过程中的两次不规范的操作, 导致云盘的三副本安全机制失效, 并最终导致数据完整性受损.
腾讯云称, 对其业务所受影响表示诚挚歉意. 同时希望用户开启免费的快照功能, 可对重要数据进行定期备份.
8 月 6 日, 腾讯云表示, 提出了 "赔偿 + 补偿" 总金额达到 136,469 元的解决方案, 是该用户在腾讯云平台中用云金额的 37 倍."前沿数控" 基于自身评估就此次故障对腾讯云提出了 11,016,000 元的索赔要求. 腾讯云称, 这远远高于其能够提供的方案, 双方目前未能达成一致.
以下是声明全文
[关于客户 "前沿数控" 数据完整性受损的技术复盘]
近日, 腾讯云客户北京清博数控科技有限公司所属 "前沿数控" 平台一块操作系统云盘发生故障, 导致该客户的文件系统元数据损坏, 我们对客户业务所受影响表示诚挚歉意. 同时, 我们也对此次故障过程进行了深入的技术复盘.
复盘发现, 该故障缘起于因磁盘静默错误导致的单副本数据错误, 再加上数据迁移过程中的两次不规范的操作, 导致云盘的三副本安全机制失效, 并最终导致客户数据完整性受损.
痛定思痛, 腾讯云希望在尽力帮助客户解决本次问题的同时, 也通过相关机制的优化避免类似情况的再度发生.
故障过程复盘
当天上午 11:57, 我们的运维人员收到仓库 空间使用率过高告警, 准备发起搬迁扩容; 在 14:05 时, 运维人员从仓库 选择了一批云盘搬迁至新仓库 , 为了加速搬迁, 手动关闭了迁移过程中的数据校验; 在 20:27 搬迁完成之后, 运维人员将客户的云盘访问切至仓库 , 同时为了释放空间, 对仓库 中的源数据发起了回收操作; 到 20:30 监控发现仓库 部分云盘出现 IO 异常.
故障原因复盘
本次事故起源自因磁盘静默错误导致的单副本数据错误, 再由于数据迁移过程中的不规范操作, 导致异常数据扩散至三副本, 进而导致客户数据完整性受损.
数据搬迁过程中的违规操作主要如下两点:
第一是正常数据搬迁流程默认开启数据校验, 开启之后可以有效发现并规避源端数据异常, 保障搬迁数据正确性, 但是运维人员为了加速完成搬迁任务, 违规关闭了数据校验;
第二是正常数据搬迁完成之后, 源仓库数据应保留 24 小时, 用于搬迁异常情况下的数据恢复, 但是运维人员为了尽快降低仓库使用率, 违规对源仓库进行了数据回收.
因这些错误操作的连续影响, 导致该客户数据完整性受损, 给客户的正常业务运行造成影响, 腾讯云对此再次表示最诚恳的歉意.
改进措施:
经过技术复盘, 腾讯云技术团队深入到每个环节, 通过责任到人与流程闭环的双管齐下, 相应作出如下的加强和改进措施:
首先, 我们将全面审视所有的数据流程, 涉及数据安全的流程自动化闭环, 进一步提升我们常规运维自动化和流程化, 降低人工干预. 同时把全流程的数据安全校验作为系统的常开功能, 不允许被关闭.
其次, 针对物理硬盘静默数据错误, 在当前用户访问路径数据校验自愈的基础上, 我们优化现有巡检机制, 通过优先巡检主副本数据块, 跳过近期用户访问过的正确数据块等方法, 加速发现该类错误, 进行数据修复.
进一步建议:
腾讯云自 2016 年 3 月以来一直在提供免费的快照功能, 可以对重要数据进行定期备份. 同时出于对客户数据隐私性和安全性的考虑, 客户可以自由选择开启或者不开启这一免费功能. 腾讯云在这里也呼吁客户开启这一功能, 进一步提升自身数据的安全性.
未来, 本着对客户数据最大的敬畏, 腾讯云将继续探索更科学的机制, 避免类似事件再次发生.
腾讯云
2018 年 08 月 07 日
来源: http://www.mzh.ren/tencent-cloud-data-lost.html