本文主要介绍如何在 ACK 上基于工作流引擎进行大规模基因测序工作. 阿里云工作流引擎基于开源项目 Argo 实现, 支持并发, 循环, 重试等多种执行策略.
实验步骤:
依赖配置:
1. 创建集群
2. 安装 AGS 插件;
3. 配置 argo-ui;
4. 创建 NAS 共享存储卷
实验:
任务解析;
试验一: 单任务执行;
试验二: 多任务执行;
1. 创建集群:
拿到集群测试域名; c84e9207b8f6b49968cb5570aff4e6581.cn-beijing.alicontainer.com
2. 安装 AGS 插件;
3. 配置 argo-ui:
- apiVersion: extensions/v1beta1
- kind: Ingress
- metadata:
- name: workflow-ingress
- namespace: argo
- spec:
- rules:
- - host: workflow.c84e9207b8f6b49968cb5570aff4e6581.cn-beijing.alicontainer.com
- http:
- paths:
- - path: /
- backend:
- serviceName: argo-ui
- servicePort: 80
通过界面登陆 argo-ui: workflow.c84e9207b8f6b49968cb5570aff4e6581.cn-beijing.alicontainer.com
4. 创建 NAS 卷
登陆 NAS 控制台:
创建 NAS 盘后, 添加挂载点:
获取挂载点地址:
Mapping 步骤介绍:
数据准备:
- wget reference;
- wget fastq1;
- wget fastq2;
- gzip -d subset_assembly.fa.gz;
- gunzip -c SRR1976948_1.fastq.gz | head -800000> SRR1976948.1;
- gunzip -c SRR1976948_2.fastq.gz | head -800000> SRR1976948.2;
- bwa index subset_assembly.fa;
比对到参考序列 sai:
- bwa aln subset_assembly.fa SRR1976948.1> SRR1976948_1.untrimmed.sai;
- bwa aln subset_assembly.fa SRR1976948.2> SRR1976948_2.untrimmed.sai;
生成 sam,bam 文件:
- bwa sampe subset_assembly.fa SRR1976948_1.untrimmed.sai SRR1976948_2.untrimmed.sai SRR1976948.1 SRR1976948.2> SRR1976948.untrimmed.sam;
- samtools import subset_assembly.fa SRR1976948.untrimmed.sam SRR1976948.untrimmed.sam.bam;
- samtools sort SRR1976948.untrimmed.sam.bam -o SRR1976948.untrimmed.sam.bam.sorted.bam;
- samtools index SRR1976948.untrimmed.sam.bam.sorted.bam;
5. 试验一:
不使用共享存储, 通过单一 pod 实现, 挂载主机目录, 运行完成可以从日志查看结果;
到 Argo-UI 上看运行拓扑图:
5. 试验二:
使用多个任务完成, 并使用共享 nas 存储, 运行完成可以从日志查看结果;
到 Argo-UI 界面查看:
来源: https://yq.aliyun.com/articles/705929