[译] 使用 Spark SQL 运行大规模基因组工作流

精简版

云栖社区>博客>正文

新燕刀 2019-10-15 15:45:16 浏览 602

专项阿里云基因组学行业标签

展开阅读全文

编译:

诚历, 阿里巴巴计算平台事业部 EMR 技术专家, Apache Sentry PMC,Apache Commons Committer, 目前从事开源大数据存储和优化方面的工作.

使用 Spark SQL 运行大规模基因组工作流

在过去十年中, 随着基因组测序价格下降, 可用基因组数据的数量逐渐激增. 研究人员现在已经能够从英国生物银行等项目的数十万人群中探测遗传变异和疾病之间的关联. 这些分析将使人们更深入地了解疾病的根本原因, 从而治疗当今一些主要的疾病问题. 但是, 目前用来分析这些数据集的工具还没有跟上数据增长的步伐.

许多用户习惯于使用命令行工具 (如 plink 或单节点 Python 和 R 脚本) 来处理基因组数据. 但是, 单节点工具暂时还不足以达到 TB 级甚至更高级别的程度. 目前 Broad 研究所的 Hail 项目建立在 Spark 之上, 可以将计算分配到多个

来源: https://yq.aliyun.com/articles/720894

与本文相关文章

暂无,快来抢沙发吧！