精简版
0
0
0
云栖社区 > 阿里云 E-MapReduce(EMR)> 博客 > 正文
[译] 使用 Spark SQL 运行大规模基因组工作流
EMR 2019-07-15 10:29:41 浏览 163
nginx
编程语言
移动开发与客户端
网络与数据通信
python
大数据
- SQL
- Image
- spark
- DataFrame
存储
数据类型
数组
工作流
安全问道
展开阅读全文
https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html
编译:
诚历, 阿里巴巴计算平台事业部 EMR 技术专家, Apache Sentry PMC,Apache Commons Committer, 目前从事开源大数据存储和优化方面的工作.
在过去十年中, 随着基因组测序价格下降, 可用基因组数据的数量逐渐激增. 研究人员现在已经能够从英国生物银行等项目的数十万人群中探测遗传变异和疾病之间的关联. 这些分析将使人们更深入地了解疾病的根本原因, 从而治疗当今一些主要的疾病问题. 但是, 目前用来分析这些数据集的工具还没有跟上数据增长的步伐.
许多用
本文由用户为个人学习及研究之目的自行翻译发表, 如发现侵犯原作者的版权, 请与社区联系处理 yqgroup@service.aliyun.com
来源: https://yq.aliyun.com/articles/708921