第
五
章
核
酸
序
列
分
析
一、碱基组成
DNA序列一个显而易见的特征是
四种碱基类型的分布。几乎所有的
研究都证明碱基是以不同频率分布
的。
表 1 九种完整 DNA序列的碱基组成
表 2 人类胎儿球蛋白基因不同区段的碱基组成
表 2的数据来自两个胎儿球蛋白基因 (Gr和 Ar),
每个基因具有三个外显子和两个内含子 (shen
等 1981)。说明序列内和序列间碱基具有不同
的频率。在基因每一侧的 500 个任意碱基区
域被称为, 侧翼,,基因间区域是指两个基因
间的其余序列。
二.同向重复序列分析
除了分析整个序列碱基关联程度的特征外,我
们常对寻找同向重复序列 (direct repeats)之类的问
题感兴趣。
重复序列大致可以分成三类,即低度重复序列、
中度重复序列和高度重复序列。
中度重复序列 的重复次数在 10~105之间,占
总 DNA的 10%~40%,如小鼠基因组的中度重复
序列占 20%,果蝇的占 15%。 通常是非编码序列。
它包括一些蛋白质基因和 RNA基因,
高度重复序列 的重复次数大于 106,基本的重
复序列长度从几个碱基到几百个碱基或更长,占
基因组的 10%~60%。 既有重复几百万份的基因,
如 rRNA基因和某些 tRNA基因,更多的则是很
短的非编码序列的重复,这类序列是不能转录的,
高度重复序列
? 高度重复序列按其长度可分为:
? 卫星 DNA:重复序列的长度在 5~100bp,
这些序列聚集在一起,串联排列,总长度可
达 100mb( mega base)。它们在人群
中的多态性不强
? 小卫星 DNA:重复序列的长度 15~70bp,
串联排列,总长度在 0.5~30kb。这类重复
序列在人群中存在高度的多态性。
? 微卫星 DNA:重复序列的长度在 2~6bp,
也有高度的多态性。
三,RNA二级结构预测
尽管现有一些 RNA折叠程序可以预测 RNA
二级结构,但这类分析仍然是一门艺术。
RNA折叠有助于找出 RNA分子中可能的稳定
茎区,但对给定的 RNA分子来说,这一结果
的 生物学意义 究竟有多大,还是一个未知
数。即使有此局限性,二级结构的预测还
是有助于找出 mRNA控制区以及 RNA分子中可
能形成稳定折叠结构的区段。
四、从序列中寻找基因
? 基因组( genome)是指细胞或生物体的
遗传物质的总量。即整套染色体所包含
的 DNA分子以及 DNA分子所携带的全部
遗传信息。
? 基因( gene)被认为是 DNA长链上一
个由特定核苷酸组成并具有特定遗传功
能的片段。
? 人类基因组 DNA总长度约 3× 109bp(碱基
对),包括约 3~ 4万个基因。有些基因是一个
个独立分布的,在基因与基因之间隔着较长间
隔 DNA即非编码区;有些基因则紧密排列在
一起形成基因簇即基因复合体( Gene
complex or gene clusters)。无论是编
码区还是非编码区,在人类基因组中主要以四
类 DNA序列存在,即单一序列、轻度重复序
列、中度重复序列和高度重复序列。
1.基因及基因区域预测
? 基因按其功能可分为 结构基因 和 调控基因,
? 结构基因可被转录形成 mRNA,并进而转译成多肽链;
? 调控基因是指某些可调节控制结构基因表达的基因。
? 在 DNA链上,由蛋白质合成的起始密码开始,到终止
密码子为止的一个连续编码序列称为一个开放阅读框
(Open Reading Frame,ORF)。
? 结构基因多含有插入序列,除了细菌和病毒的 DNA中
ORF是连续的,包括人类在内的真核生物的大部分结
构基因为断裂基因,即其编码序列在 DNA分子上是不
连续的,或被插入序列隔开。断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列 (即内
含子 ),再将编码序列 (即外显子 )连接形成成熟 mRNA,
并翻译成蛋白质。
一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是
不连续的,被非编码区(内含子)隔断。
所谓 基因区域预测,一般是指预测 DNA序列
中编码蛋白质的部分,即外显子部分。
不过目前基因区域的预测已从单纯外显子预
测发展到整个基因结构的预测。这些预测综合
各种外显子预测的算法和人们对基因结构信号
(如 TATA盒等 )的认识,预测出可能的完整基因
TATA盒
翻译起始
植物 C/GAANNATGG
动物 A/GNNATGG
各内含子
加 poly(A)信号
植物 G/AATAA1-3
动物 AATAAA
终止密码子各个外显子
AGGA或
CAAT盒
加帽位点
5'm7GpppNp
5'端
真核基因的一般结构
基因区域的预测是一个活跃的研究领域,
先后有一大批预测算法和相应程序被提出和应
用,其中有的方法对编码序列的预测准确率高
达 90%以上,而且在敏感性和特异性之间取得
了很好的平衡
预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预
测 (如最长 ORF法等 ),随着各类数据库的建立和完善,通过相似
性列线比对也可以预测可能的基因。同时,一批新方法也被提了
出来,如隐马尔可夫模型 (Hidden Markov Model,HMM)、动
态规划法 (dynamic programming)、法则系统 (ruled-based
system)、语言学 (linguistic)方法、线性判别分析 (Linear
Discriminant Analysis,LDA)、决策树 (decision tree)、拼接列
线 (spliced alingment)、博利叶分析 (Fourier analysis)等。
下表列出了 claverie(1997)对部分程序预测基因区域能力的比较
结果,表中同时列出了相应算法和程序的网址。
发现基因的一般过程
基因区域预测和基因功能预测 2个层次
①寻找 DNA序列中基因不可能出现的区域,并
将此遮蔽起来;
②在启动子区寻找一致的模式,找出转录因子识
别 DNA结合区域;
③寻找转录的起始密码、终止密码和剪切位点;
④找出编码区。
第一步:获取 DNA目标序列
① 如果你已有目标序列,可直接进入第 2
步;
② 可通过 PubMed查找你感兴趣的资料;
通过 GenBank或 EMBL等数据库查找
目标序列,
例:研究拟南芥 GRAS基因家
族中 DELLA亚家族
1,首先对已知 GRAS家族中个亚家族 DELLA的基因检索
2.利用 Unigene数据库进行查找
输入 RGA1的
CDS序列
选择数据库
,EST”
与 RGA1同源
性比分最的高
ESTs
第二步:遮蔽重复序列
? CENSOR
? RepeatMasker
CENSOR
( http://www.girinst.org/
例, 使用 CENSOR 查找 HUMCKMM1基
因组序列中的重复序列
第三步:探测 DNA中的功能性
位点
TATA盒
翻译起始
植物 C/GAANNATGG
动物 A/GNNATGG
各内含子
加 poly(A)信号
植物 G/AATAA1-3
动物 AATAAA
终止密码子各个外显子
AGGA或
CAAT盒
加帽位点
5'm7GpppNp
5'端
真核基因的一般结构
例,对 RGA1的基因组序列预测
GENSCAN
http://bioweb.pasteur.fr/seqanal/
interfaces/genscan.html
NC_003071.3
第四步:在数据库中进行序列
搜索
? ORF核苷酸序列
? ORF翻译的蛋白质序列
第五步:进行目标序列与搜索得
到的相似序列的整体比对 (global
alignment)
CLASTA W程序
第六步:基于核酸序列的电子
基因定位
① 利用 STS数据库进行电子基因定位
②利用 UniGene数据库进行电子基因定位
利用 STS数据库进行电子基因
定位
? 基因的电子定位采用 NCBI的电子 PCR程序进
行检索,寻找 EST序列上是否存在序列标签位
点( sequence tagged sites,STS),
STS作为基因组中的单拷贝序列,是新一代的
遗传标记系统,其数目多,覆盖密度较大,达
到平均每 1kb一个 STS或更密集。将寻找到的
STS与相应的染色体相比较,即可将此序列定
位在该染色体上。
http://www.ncbi.nlm.nih.gov/,点击进
入 Electronic PCR
输入 RGA1的基因
组序列,查找其中
的 ESTs
第七步 电子表达谱分析
? 在获得待分析序列的 UniGene编号以后,
就可以通过参与形成 UniGene
Cluster 的序列的细胞来间接地反映待
分析序列在何种组织表达,
第八步 较长或全长的 cDNA序
列注册
? Sequin软件注册
作业
? 从给定序列 NC_000016,按课件进行
1-5步的操作,进行核酸序列的预测分析。
五
章
核
酸
序
列
分
析
一、碱基组成
DNA序列一个显而易见的特征是
四种碱基类型的分布。几乎所有的
研究都证明碱基是以不同频率分布
的。
表 1 九种完整 DNA序列的碱基组成
表 2 人类胎儿球蛋白基因不同区段的碱基组成
表 2的数据来自两个胎儿球蛋白基因 (Gr和 Ar),
每个基因具有三个外显子和两个内含子 (shen
等 1981)。说明序列内和序列间碱基具有不同
的频率。在基因每一侧的 500 个任意碱基区
域被称为, 侧翼,,基因间区域是指两个基因
间的其余序列。
二.同向重复序列分析
除了分析整个序列碱基关联程度的特征外,我
们常对寻找同向重复序列 (direct repeats)之类的问
题感兴趣。
重复序列大致可以分成三类,即低度重复序列、
中度重复序列和高度重复序列。
中度重复序列 的重复次数在 10~105之间,占
总 DNA的 10%~40%,如小鼠基因组的中度重复
序列占 20%,果蝇的占 15%。 通常是非编码序列。
它包括一些蛋白质基因和 RNA基因,
高度重复序列 的重复次数大于 106,基本的重
复序列长度从几个碱基到几百个碱基或更长,占
基因组的 10%~60%。 既有重复几百万份的基因,
如 rRNA基因和某些 tRNA基因,更多的则是很
短的非编码序列的重复,这类序列是不能转录的,
高度重复序列
? 高度重复序列按其长度可分为:
? 卫星 DNA:重复序列的长度在 5~100bp,
这些序列聚集在一起,串联排列,总长度可
达 100mb( mega base)。它们在人群
中的多态性不强
? 小卫星 DNA:重复序列的长度 15~70bp,
串联排列,总长度在 0.5~30kb。这类重复
序列在人群中存在高度的多态性。
? 微卫星 DNA:重复序列的长度在 2~6bp,
也有高度的多态性。
三,RNA二级结构预测
尽管现有一些 RNA折叠程序可以预测 RNA
二级结构,但这类分析仍然是一门艺术。
RNA折叠有助于找出 RNA分子中可能的稳定
茎区,但对给定的 RNA分子来说,这一结果
的 生物学意义 究竟有多大,还是一个未知
数。即使有此局限性,二级结构的预测还
是有助于找出 mRNA控制区以及 RNA分子中可
能形成稳定折叠结构的区段。
四、从序列中寻找基因
? 基因组( genome)是指细胞或生物体的
遗传物质的总量。即整套染色体所包含
的 DNA分子以及 DNA分子所携带的全部
遗传信息。
? 基因( gene)被认为是 DNA长链上一
个由特定核苷酸组成并具有特定遗传功
能的片段。
? 人类基因组 DNA总长度约 3× 109bp(碱基
对),包括约 3~ 4万个基因。有些基因是一个
个独立分布的,在基因与基因之间隔着较长间
隔 DNA即非编码区;有些基因则紧密排列在
一起形成基因簇即基因复合体( Gene
complex or gene clusters)。无论是编
码区还是非编码区,在人类基因组中主要以四
类 DNA序列存在,即单一序列、轻度重复序
列、中度重复序列和高度重复序列。
1.基因及基因区域预测
? 基因按其功能可分为 结构基因 和 调控基因,
? 结构基因可被转录形成 mRNA,并进而转译成多肽链;
? 调控基因是指某些可调节控制结构基因表达的基因。
? 在 DNA链上,由蛋白质合成的起始密码开始,到终止
密码子为止的一个连续编码序列称为一个开放阅读框
(Open Reading Frame,ORF)。
? 结构基因多含有插入序列,除了细菌和病毒的 DNA中
ORF是连续的,包括人类在内的真核生物的大部分结
构基因为断裂基因,即其编码序列在 DNA分子上是不
连续的,或被插入序列隔开。断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列 (即内
含子 ),再将编码序列 (即外显子 )连接形成成熟 mRNA,
并翻译成蛋白质。
一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是
不连续的,被非编码区(内含子)隔断。
所谓 基因区域预测,一般是指预测 DNA序列
中编码蛋白质的部分,即外显子部分。
不过目前基因区域的预测已从单纯外显子预
测发展到整个基因结构的预测。这些预测综合
各种外显子预测的算法和人们对基因结构信号
(如 TATA盒等 )的认识,预测出可能的完整基因
TATA盒
翻译起始
植物 C/GAANNATGG
动物 A/GNNATGG
各内含子
加 poly(A)信号
植物 G/AATAA1-3
动物 AATAAA
终止密码子各个外显子
AGGA或
CAAT盒
加帽位点
5'm7GpppNp
5'端
真核基因的一般结构
基因区域的预测是一个活跃的研究领域,
先后有一大批预测算法和相应程序被提出和应
用,其中有的方法对编码序列的预测准确率高
达 90%以上,而且在敏感性和特异性之间取得
了很好的平衡
预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预
测 (如最长 ORF法等 ),随着各类数据库的建立和完善,通过相似
性列线比对也可以预测可能的基因。同时,一批新方法也被提了
出来,如隐马尔可夫模型 (Hidden Markov Model,HMM)、动
态规划法 (dynamic programming)、法则系统 (ruled-based
system)、语言学 (linguistic)方法、线性判别分析 (Linear
Discriminant Analysis,LDA)、决策树 (decision tree)、拼接列
线 (spliced alingment)、博利叶分析 (Fourier analysis)等。
下表列出了 claverie(1997)对部分程序预测基因区域能力的比较
结果,表中同时列出了相应算法和程序的网址。
发现基因的一般过程
基因区域预测和基因功能预测 2个层次
①寻找 DNA序列中基因不可能出现的区域,并
将此遮蔽起来;
②在启动子区寻找一致的模式,找出转录因子识
别 DNA结合区域;
③寻找转录的起始密码、终止密码和剪切位点;
④找出编码区。
第一步:获取 DNA目标序列
① 如果你已有目标序列,可直接进入第 2
步;
② 可通过 PubMed查找你感兴趣的资料;
通过 GenBank或 EMBL等数据库查找
目标序列,
例:研究拟南芥 GRAS基因家
族中 DELLA亚家族
1,首先对已知 GRAS家族中个亚家族 DELLA的基因检索
2.利用 Unigene数据库进行查找
输入 RGA1的
CDS序列
选择数据库
,EST”
与 RGA1同源
性比分最的高
ESTs
第二步:遮蔽重复序列
? CENSOR
? RepeatMasker
CENSOR
( http://www.girinst.org/
例, 使用 CENSOR 查找 HUMCKMM1基
因组序列中的重复序列
第三步:探测 DNA中的功能性
位点
TATA盒
翻译起始
植物 C/GAANNATGG
动物 A/GNNATGG
各内含子
加 poly(A)信号
植物 G/AATAA1-3
动物 AATAAA
终止密码子各个外显子
AGGA或
CAAT盒
加帽位点
5'm7GpppNp
5'端
真核基因的一般结构
例,对 RGA1的基因组序列预测
GENSCAN
http://bioweb.pasteur.fr/seqanal/
interfaces/genscan.html
NC_003071.3
第四步:在数据库中进行序列
搜索
? ORF核苷酸序列
? ORF翻译的蛋白质序列
第五步:进行目标序列与搜索得
到的相似序列的整体比对 (global
alignment)
CLASTA W程序
第六步:基于核酸序列的电子
基因定位
① 利用 STS数据库进行电子基因定位
②利用 UniGene数据库进行电子基因定位
利用 STS数据库进行电子基因
定位
? 基因的电子定位采用 NCBI的电子 PCR程序进
行检索,寻找 EST序列上是否存在序列标签位
点( sequence tagged sites,STS),
STS作为基因组中的单拷贝序列,是新一代的
遗传标记系统,其数目多,覆盖密度较大,达
到平均每 1kb一个 STS或更密集。将寻找到的
STS与相应的染色体相比较,即可将此序列定
位在该染色体上。
http://www.ncbi.nlm.nih.gov/,点击进
入 Electronic PCR
输入 RGA1的基因
组序列,查找其中
的 ESTs
第七步 电子表达谱分析
? 在获得待分析序列的 UniGene编号以后,
就可以通过参与形成 UniGene
Cluster 的序列的细胞来间接地反映待
分析序列在何种组织表达,
第八步 较长或全长的 cDNA序
列注册
? Sequin软件注册
作业
? 从给定序列 NC_000016,按课件进行
1-5步的操作,进行核酸序列的预测分析。