1200字范文 > 生物信息学笔记03 -- 基因组序列分析方法

生物信息学笔记03 -- 基因组序列分析方法

时间：2023-01-22 16:05:31

相关背景

DNA结构

DNA分子的一级结构：A, C, G, T四种核苷酸的线性多聚体；

DNA分子由两条互相平行的脱氧核苷酸长链盘绕而成；

DNA分子中的脱氧核糖和磷酸交替连接，排在外侧，碱基排列在内侧；

两条链上的碱基通过氢键想结合，形成碱基对

于腺膘呤(A)总是与胸腺嘧啶(T)配对、鸟膘呤(G)总是与胞嘧啶©配对，这说明两条链的碱基顺序是彼此互补的

中心法则

遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。

遗传密码

DNA或RNA序列以三个核苷酸为一组的密码子转译为蛋白质的氨基酸序列，用于蛋白质合成。

起始密码子：指定蛋白质合成起始位点的密码子。如AUG终止密码子：tRNA无法正常识别但可以被特殊蛋白质结合并引起新合成肽链从翻译机器上释放的密码子。 UAG UAA和UGA密码子： mRNA或DNA上三联体核苷酸残基序列，该序列编码着一个指定的氨基酸，tRNA的反密码子与mRNA的密码子互补

可读框：DNA中有潜在编码蛋白质氨基酸的核苷酸序列

编码区：DNA中对应于蛋白质中氨基酸序列的核苷酸序列

基因调控：生物体内控制基因表达的机制。表达的主要过程是基因的转录和信使核糖核酸(mRNA）的翻译

转录单位：包括转录的启动子及其上游的其它调控区域、基因本身和转录的终止序列

间隔区：基因序列中没有编码功能的区域

基因组测序

DNA片段在染色体上的位置、方向已知。染色体被打断成片段，克隆到BACs中进一步打碎克隆测序组装鸟枪法：随机打碎DNA片段，克隆测序组装。DNA在染色体上位置方向未知

生物信息学核心问题：预测

预测性能计算、检验

阳性数据( P)：真实的，被实验所证实的数据阴性数据(N)：被实验所证明为无功能的数据真阳性 (TP): 阳性数据中被预测为阳性的数据假阳性 (FP): 阴性数据中被预测为阳性的数据真阴性 (TN): 阴性数据中被预测为阴性的数据假阴性 (FN): 阳性数据中被预测为阴性的数据

灵敏度 (Sensitivity, Sn): 对于真实的数据，能够预测成“真”的比例是多少 - (Type II error)

等价于TPR和召回率

Sn=TPTP+FNSn = \frac{TP}{TP+FN}Sn=TP+FNTP

特异性 (Specificity, Sp): 对于阴性的数据，能够预测成“假”的比例是多少 - (Type I error)

等价于TNR

Sp=TNTN+FPSp = \frac{TN}{TN+FP}Sp=TN+FPTN

准确性 (Accuracy, Acc): 对于整个数据集(包括阳性和阴性数据)，预测总共的准确比例是多少

Ac=TP+TNTP+FP+TN+FNAc=\frac{TP+TN}{TP+FP+TN+FN}Ac=TP+FP+TN+FNTP+TN

马修相关系数(Mathew correlation coefficient, MCC): 当阳性数据的数量与阴性数据的数量差别较大时，能够更为公平的反映预测能力，值域[-1,1]

MCC=TP×TN−FN×FP(TP+FN)×(TN+FP)×(TP+FP)×(TN+FN)MCC = \frac{TP\times TN - FN\times FP}{\sqrt{(TP+FN)\times(TN+FP)\times(TP+FP)\times(TN+FN)}}MCC=(TP+FN)×(TN+FP)×(TP+FP)×(TN+FN)TP×TN−FN×FP

FPR

FPR=FPFP+TNFPR = \frac{FP}{FP+TN}FPR=FP+TNFP

FNR

FNR=FNTP+FNFNR = \frac{FN}{TP+FN}FNR=TP+FNFN

准确率Precision

Pr=TPTP+FPPr = \frac{TP}{TP+FP}Pr=TP+FPTP

P与R可能产生矛盾

F-Measure(F-score)

Precision和Recall的平均

F=(α2+1)P×Rα2(P+R)F = \frac{(\alpha^2+1)P\times R}{\alpha^2(P+R)}F=α2(P+R)(α2+1)P×R

α=1\alpha = 1α=1的时候为F1

ROC曲线

⚫X轴：1-Sp

⚫Y轴：Sn

⚫ROC的面积越大，表明其预测能力越强

P-R曲线

⚫X轴：Precision

⚫Y轴：Recall

比较两个分类器好坏时，显然是查得又准又全的比较好。PR曲线越往坐标（1，1）的位置靠近越好

性能检验

自一致性检验 (Self-consistency): 将训练数据当成测试数据

反映当前预测工具对目前已知的数据的预测能力.但不能反应稳定性

泛化性能：

某一训练集上训练过以后的分类器适应该训练集以外的数据的性能，也称为可扩展性

k-折交叉验证，初试数据被划分成k个互不相交的子集或“折”S1,S2,...,SkS_1,S_2,..., S_kS1,S2,...,Sk，每个折的大小大致相等。训练和测试进行kkk次。在第iii次迭代，SiS_iSi用作测试集，其余的子集都用于训练分类法

1. 将全部训练集 S分成 k个不相交的子集，假设 S中的训练样例个数为 m，那么每一个子集有 m/k 个训练样例，，相应的子集称作{s1,s2,…,sk}。2.每次从分好的子集中里面，拿出一个作为测试集，其它k-1个作为训练集。3.根据训练训练出模型或者假设函数。4. 把这个模型放到测试集上，得到分类率。5.计算k次求得的分类率的平均值，作为该模型或者假设函数的真实分类率

充分利用了所有样本。但计算比较繁琐，需要训练k次，测试k次

留一法（Leave One Out）是一种特殊的交叉验证，它令n等于训练集个数，即每次只抽取一个作为测试样本。留一法错误的计算留一法错误是推广误差的几乎无偏估计。也叫Jackknife法

每次从数据集中去掉一个，重新进行训练，并计算预测性能(Sn, Sp, Acc & MCC)

保证每个数据去掉一次计算性能的平均值留一发计算最繁琐，但样本利用率最高。适合于小样本的情况

解鞋带法（Bootstrap）测试是一种估计训练误差偏差的方法，它以Bootstrap样本进行多次训练，并评价它们的总偏差。Bootstrap样本是通过替换法从训练样本中独立提取出来的。Bootstrap测试是一种计算代价非常高的评估方法

生成一系列的基分类器

基分类器的训练依赖于在其之前产生的分类器的分类结果，其在训练集上的错误率用于调整训练实例的概率分布,最终分类器通过单个基分类器的加权投票建立起来