本文照搬整合了博主:@生信start_site和@Brickvstar的简书帖子,只为记录自己作为零基础小白分析RNA-seq数据的过程。非常感谢两位博主的详细书帖,学到了非常多。
一、购买云服务器
阿里云服务器ECS中 https://ecs.console.aliyun.com/,选择左边“实例与镜像”中的“实例” - “创建实例”。
1、付费类型:按量付费/包年包月。地域:选离自己最近的。网络及可用区:默认。
2、实例与镜像:vCPU=核心数。内存最好>32G。镜像:选默认。
3、存储:高效云盘,容量100GiB。
4、带宽和安全组:公网IP✔分配公网IPv4地址。
5、管理设置:登录凭证:密钥对。登录名:root。密钥对:创建密钥对后,选择密钥对。
6、下单下单!
二、下载软件:Xshell(远程链接云服务器),xftp(上传文件至服务器)
1、登录Xshell及xftp:新建会话:“主机”:复制云服务器中的公网IP。
“连接”。显示“[xxxxxx]#”说明连上了。
2、在xftp中,找个地方新建一个data文件夹,把测序原始数据拽进去,等它上传完成。
三、搭建环境
1、下载miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
2、安装miniconda
bash Miniconda3-latest-Linux-x86_64.sh
3、激活配置
source ~/.bashrc
4、用清华镜像加快下载速度
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
四、测序数据质量评估--FastQC
1、安装
conda install fastqc
2、运行
fastqc 路径/文件名1 路径/文件名2 #文件之间用空格分开,可批量处理数据
运行结果.html直接从xftp中拖到桌面,用网页打开。
结果分析:https://zhuanlan.zhihu.com/p/47722164
若其中“adapter content”显示有接头,则要用trimmomatic去掉接头。
五、序列比对Mapping--STAR
准备工作:下载物种基因组注释文件:https://zhuanlan.zhihu.com/p/79631226
需要拿到的文件:fasta+gtf格式
1、安装
conda install STAR
2、建立比对用的索引
STAR --runThreadN 25 \ #设置线程
--runMode genomeGenerate \ #star运行模式为建立index
--genomeDir /data/output \ #索引文件输出的路径,要提前建好文件夹
--genomeFastaFiles /data/genomic.fna \ #基因组fasta文件
--sjdbGTFfile /data/genomic.gtf \ #基因组注释文件gtf
--limitGenomeGenerateRAM 16000000000 #提高可使用的内存
--sjdbOverhang 99 #reads长度的最大值减一,默认100。若测序时为PE100,则此处填99。
3、和索引比对(mapping)
STAR
--runThreadN 25 \ #设置线程数
--runMode alignReads \ #设置工作模式为比对
--readFilesCommand zcat \ #因导入的文件为.gz压缩格式,所以要解压
--quantMode TranscriptomeSAM GeneCounts \ #定量分析每个基因上的reads数
--twopassMode Basic \ #先按索引进行第一次比对,而后把第一次比对发现的新剪切位点信息加入到索引中进行第二次比对。这个参数可以保证更精准的比对情况,但是费时也费内存。
--outSAMtype BAM Unsorted \
--outSAMunmapped None \
--genomeDir 索引所在的路径 \
--readFilesIn 路径/正向测序的文件1 路径/反向测序的文件2 \ #双端测序,所以一个样品有两个文件
--outFileNamePrefix #导出的文件前缀