TMT蛋白组学：下游分析

在前面的分析，我们已经得到了蛋白组学的搜库结果，那么我们怎么才能将其分析出具有生物学意义的东西呢？

在结果的路径下，有一个Combined文件夹，里面的txt文件夹存放了我们的搜库结果，其中的evidence.txt跟proteinGroup.txt为最重要的两个，在这里，我们使用R包proteusTMT进行下游分析。

1. 安装依赖

Proteus can be installed directly from GitHub. First, you need to install BioConductor and limma:

install.packages("BiocManager")
BiocManager::install()
BiocManager::install("limma")

You also need devtools:

install.packages("devtools")

In order to run examples or vignette code, additional packages with example data need to be installed:

devtools::install_github("bartongroup/proteusLabelFree")
devtools::install_github("bartongroup/proteusTMT")
devtools::install_github("bartongroup/proteusSILAC")

Finally, you can install proteus:

devtools::install_github("bartongroup/Proteus", build_opts= c("--no-resave-data", "--no-manual"), build_vignettes=TRUE)

Note: use build_vignettes = FALSE if you run into problems with vignettes installation.

2. meta文件准备

对于Proteus，其中最为重要的是我们需要对TMT6plex的每一个标记进行标注清楚，在这里，我们准备一个模板作为参考

experiment：这个是你在上游分析搜库的时候，对每一个raw设置的experiment情况，比如Ctrl1.raw文件里面，包含了6个TMT标记，其中每一个标记代表不同的样本，比如Ctrl1包括了WT1-1，WT2-1，WT3-1，SHED1-1，SHED2-1，SHED3-1，WT1-1指的是野生型的第一个重复
measure：TMT6plex将返回6个Reporter intensity，每一个对应上述的一个sample
sample：表示TMT6plex里都有哪六个样本
condition：样本分组情况
replicate：重复次数

3. Proteus分析

3.1 加载依赖

library(proteusTMT)
library(proteus)

3.2 导入数据

3.2.1 列名设置

The default measure.cols object is designed for label-free data. For TMT data we need to specify all reporter intensity columns. In out example we have 10 reporter columns, numbered from 1 to 6:

measCols <- paste0("Reporter intensity ", 1:6)
names(measCols) <- paste0("reporter_", 1:6)

意味着我们将Reporter intensity 1重命名为reporter_1

3.2.2 导入evidence和meta

evi <- readEvidenceFile('txt/evidence.txt', measure.cols=measCols)
meta <- read.delim('meta.txt', header=TRUE, sep="\t")

3.2.3 创建peptide数据集

pepdat <- makePeptideTable(evi, meta, measure.cols=measCols, aggregate.fun=aggregateMedian, experiment.type="TMT")
plotCount(pepdat)

3.3 蛋白结果数据

3.3.1 创建蛋白结果数据

We create protein data using the high-flyer method.

prodat <- makeProteinTable(pepdat, aggregate.fun=aggregateHifly, hifly=3)

3.3.2 Normalization

For TMT data we recommend using CONSTANd normalization Maes et al. 2016.

prodat.norm <- normalizeTMT(prodat)
write.csv(prodat.norm[["tab"]],file='prodat.csv')

These two figures show reporter intensity distributions before and after normalization.

plotSampleDistributions(prodat, fill="replicate")

plotSampleDistributions(prodat.norm, log.scale=FALSE, fill="replicate")

3.3.3 Clustering

We can use the same function plotClustering() to see the dendrogram for the proteins.

plotClustering(prodat.norm)

3.4 差异表达分析

我们想比较SHED组跟WT组的差异情况，于是

res <- limmaDE(prodat.norm, conditions=c("WT", "SHED"))
write.csv(res,file='WT_SHED_result.csv')

得到的csv文件与前面的prodat.csv文件，即可参考RNA-seq的下游分析进行，这里不做过多的阐述

RNA-seq下游分析教程：https://starlitnightly.github.io/bioinformatic_tutorial/RNASEQ/rnaseq_2.html