Aspera
- 简介:Aspera是一款高速传输软件,不受文件大小,网络条件等影响,速度比HTP和FTTP协议快数百倍。Windows和Linux系统均可下载使用。
1.Windows下载:浏览器直接搜索Aspera-connect下载浏览器插件。
2.Ubuntu下载:
1.下载Aspera-connec:wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
2.解压缩:tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
3.运行:sh aspera-connect-3.6.2.117442-linux-64.sh
(此时在home目录下会生成 `.aspera` 的隐藏文件,使用 ls -a 命令可查看)
4.添加环境变量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >>~/.bashrc #正确的添加应该是 vim ~/.bashrc ,然后在最后加上export PATH=“~/.aspera/connect/bin:$PATH”,
最后 source ~/.bashrc
5.使其生效:source ~/.bashrc
6.拷贝秘钥文件:cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
7.拷贝协议文件:sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/
-
Aspera命令行工具的使用:
ascp [参数] 目标文件 目的地址
-
ascp常用参数:
- -T ---- 取消加密。若不添加此参数,可能会下载不了。
- -i ---- 输入私钥,一般不要少。安装 aspera 后在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
- -l string ----- 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。 若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。
- -k ---- 断点续传 ,一般设置为1
- -v ---- 可以实时知道程序在做什么,方便查错
- -Q --- 一般加上吧
- --host=string --- ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为 fasp.sra.ebi.ac.uk。
- --user=string --- 用户名,NCBI的为anonftp,EBI的为era-fasp。
- --mode=string --- 选择模式,上传为 send,下载为 recv。
- --file-list --- 批量下载SRA文件的路径
二,在SRA数据库中下载数据
- 简介:SRA数据库是用于存储二代测序的原始数据的数据库。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。
根据SRA数据产生的特点,将SRA数据分为四类:
Studies-- 研究课题,用前缀ERP或SRP表示
Experiments-- 实验设计,用前缀SRS表示Runs-- 测序结果集,用前缀SRX表示 Illumina的测bai序仪是以flowcell进行测序的,一般的一张flowcell是一个run,像Hiseq2500的话是2张flowcell,也就是一次运行的测序量。每张flowcell上通常都有多个通道,每个通道可以单独测不同的样品,这样的通道就是lane。Hiseq2500的一张flowcell有8条通道,也就是8个lane。如果上机前使用cbot的话可以每条lane都跑不同的样品,互不干扰,如果直接上机进行快速模式的话就无法区分不同样本了 lane表示测序芯片上的一条流通槽,测序文库与试剂均在里面,测序信号的扫描也是按照一条lane上的一个tile进行。
Samples-- 样品信息。用前缀SRR表示
- SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs
1、使用Aspera获取单个SRA数据:
- 首先知道SRA数据库数据的存放地址是
ftp-private.ncbi.nlm.nih.gov
,使用时加上ftp://
或者http://
,SRA在Aspera的用户名是anonftp
- 通过输入上述链接(这是已知accession no.的情况下可以直接查找,不知道accession no.的可以去SRA主页查找)然后逐步定位到需要查找的accession no,获得链接。
- 以 SRR6208854为例,可以得到链接
ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
将ftp://ftp.ncbi.nlm.nih.gov
改为anonftp@ftp-private.ncbi.nlm.nih.gov:/
注意不要少了: - 完整代码如下:
ascp -v -i ~/.aspera/connect/etc/asperaweb_id _dsa.openssh -T -k 1 -l 200m anonftp@ftp-private.
作者:Lillian李李安
链接:https://www.jianshu.com/p/ba996eb39ab4
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。