RNA-seq. 环境配置

我们在前面的教程已经完成了Linux的安装，目前我们的linux可以理解成一个空壳，里面大概什么都没有，于是我们需要安装一些RNA-seq上游分析所必要的包。

1. 环境要求

1.1 Linux环境

对于Linux环境，我们安装的系统为Ubuntu18.04，满足此系统即可。

1.2 Window环境

对于Windows操作系统，我们首先安装WSL即可

2. 软件安装

2.1 miniconda安装

conda是一个开源的软件包管理系统和环境管理系统，可用于安装多个版本的软件包及其依赖关系，并且可以任意切换（安装conda的目的是为了防止软件版本与包之间互相干扰。）（e.g. 有些软件只能在Python3.6上运行，再新的版本会出现bug，这时就需要用conda来解决这个问题）

我们在这里选择安装miniconda，这是一个轻量级的conda框架，相较于Anaconda的臃肿而言，更加轻便

2.1.1 下载miniconda

# 在linux在使用以下命令下载miniconda
wget-c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh

2.1.2 安装miniconda

# 安装刚刚下载的Miniconda，bash就是运行.sh文件的意思
bash Miniconda3-latest-Linux-x86_64.sh

2.1.3 激活conda

#将conda命令添加到环境变量中
source .bashrc

*2.1.4 国内用户选择清华镜像

# 添加镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config-- add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config-- add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/biocondacondaconfig--setshow_channel_urls yes

2.2 RNA-seq上游依赖包安装

在这一步中，我们将安装转录组上游分析所需要用到的各个包，我将在最后的一小节中简单介绍一下每个包的用途

2.2.1 创建虚拟环境

为了不干扰Linux系统下其他包的运行，我们将创建一个全新的虚拟环境用来管理RNA-seq分析将用到的包，我们将此虚拟环境命名为rna

#创建名为rna的软件安装环境
conda create -n rna python=3
#查看当前conda环境
conda info --envs
#激活conda的rna环境
source activate rna

在每一次退出Linux重进后，都不要忘记了输入source activate rna激活环境

2.2.2 安装RNA-seq上游依赖包

#以下一行命令即可安装完成
conda install -y fastp fastqc multiqc subread bedtools cutadapt trim-galore sra-tools

*2.2.3 RNA-seq上游依赖包简介

Package	Description
fastp	fastq文件质控软件，极其智能
fastqc	高通量测序数据的高级质控工具
multiqc	对测序数据进行质量评估（将fastqc生成的多个报告整合成一个文件）
subread	将reads比对到参考基因组上（速度极快）
bedtools	涵盖各种基因组计算所需要的工具
cutadapt	从高通量测序数据中发现并去除衔接子序列，引物，poly-A尾巴和其他类型的不需要的序列
trim-galore	是对FastQC和Cutadapt的包装。适用于所有高通量测序，包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA测序平台的双端和单端数据
sra-tools	来自NCBI的SRA工具包和SDK是工具和库的集合，这些工具和库用于使用INSDC序列读取档案中的数据