刀刀网
您的当前位置:首页一种识别基因元件的新型优化算法

一种识别基因元件的新型优化算法

来源:刀刀网
第30卷第1期 2013年1月 计算机应用与软件 Computer Applications and Software Vo1.30 No.1 Jan.2013 一种识别基因元件的新型优化算法 刘 维 陈汉武 陈 岐 江苏南京211189) (东南大学计算机科学与工程学院(扬州大学信息工程学院江苏扬州225127) 摘 要 基因元件的识别是生物信息学中的重要研究课题之一。目前已有的算法大都存在容易过早陷入局部最优以及时间 复杂度过高等问题。为此,提出一种识别基因的新型优化算法ACRR(ant-colony—regulatory—recognition)。该算法利用蚁群优化 算法能够较快求解复杂优化问题的优越性来解决此问题,不仅提高了解的质量,而且大大地降低了算法的时间复杂度。实验结果表 明,与其他类似算法相比,该算法所得结果的准确性更高,具有更快的识别速度。 关键词 生物信息学 基因元件蚁群算法 中图分类号TP301 文献标识码A DOI:10.3969/j.issn.1000—386x.2013.01.005 A NoVEL oPTIMISATIoN ALGoRITHM FoR GENE REGULAToRARY ELEMENTS RECoGNITIoN Liu Wei ・ Chen Hanwu Chen Ling (School ofComputer Science and Engineering,Southeast University,Nanifng 211189,Jiangsu,China) (College ofInformation Engineering,Yangzhou un ,Yangzhou 225127,Jiangsu,China) Abstract It is one of the important research topics for gene regulatorary elements recognition in bioinformatics.Most of current regulatorary elements recognition algorithms have the problems of easily converging into premature local optimum and high time complexity. Therefore,we propose a novel optimisation algorithm named ACRR(ant—colony・regulatory—recognition)for regulatory elements recognition. Based on the predominance of ant—colony algorithm in fast resolving the complicated optimisation,the ACRR can find the solution for this problem with improved quality,and can also greatly reduce the time complicity of the algorithm.Experimental results show that compared with other similar algorithms,ACRR achieves higher accuracy in solutions and has faster recognition speed as wel1. Keywords Bioinformatics Gene regulatorary elements Ant—colony algorithm 性DNA结合蛋白(即转录因子)识别这些元件,并与之结 0 引 言 合,调节DNA的代谢和转录;或者由RNA结合蛋白识别,并与 之结合,影响RNA的修饰、定位、翻译和降解。因此,分析和识 生物系统由静态和动态两部分构成。静态部分由基因组中 别转录元件及了解它们的功能是理解和解释整个基因组行 所有基因组成,这些基因是生物系统的基本构造元件。近年来, 为的重要步骤 J。 随着大规模基因组测序、基因预测以及注释的完成,生物学研究 无论是搜索已知的元件,还是预测新的元件,都会 更加关注动态部分即基因元件。基因元件(motif也称 遇到三个基本问题:(1)应该用什么样的语言来描述元件, 为模体)蕴涵着丰富的生命特征信息,它在基因的结构和功能 即为元件建立什么样的特征模型;(2)要定义一个衡量序 方面都扮演着及其重要的角色,因此发现和辨识基因元件 列片段是否为元件的度量或得分;(3)当给定了元件 成了揭示基因秘密的重要途径,受到了生物信息学研究领域的 模型和得分函数后,如何从待分析的序列中找到得分最高的候 广泛重视。 选元件,这就是算法设计问题。 基因元件识别(motif recognition,也称为模体识别)问 近二十年来,人们一直致力于基因组DNA序列中的基因调 题是指如何从生物序列数据或结构数据中提炼出含有生命特征 控元件识别方法。可以通过实验的方法来标识元件,也可 信息的模体,和如何从目标序列或结构数据中辨别出内含的模 体的过程。对基因非编码区的一个主要研究方向就是对元 收稿日期:2012—08—03。2012中国计算机大会论文。国家自然科 件的研究 ]。因为在转录和后转录水平,基因的表达在很大程 学基金项目(61070047,61070133,61003180);国家重点基础研究发展计 划(2012CB316003);江苏省自然科学基金项目(K2010318,BK2101013 度上受到一些顺式作用元件(即转录元件,在生物信息学 4);江苏省高校科研基金项目(09KJB20013)。刘维,博士,CCF会员(E2 中也称为模式或motif)的控制,它们本质上是一些比较短的 00026190M),主研领域:生物信息学,数据挖掘。陈汉武,教授。陈峻, DNA序列,这些序列一般都处在受基因的上游区域,特异 教授。 22 计算机应用与软件 2013丘 以通过计算的方法来识别元件。通过实验方法占用的时间 和经济成本太高,且有时得出的结论还不全面。因此采用计算 的方法越来越受到人们的重视 J。用计算的方法查找转录因 子结合位点主要涉及三类问题:(1)在给定基因组序列中寻找 已知的元件;(2)在一系列共表达或者共基因的上游 了一个新型优化算法ACRR(ant・colony-regulatory—recognition), 即基于蚁群算法查找结合位点的计算方法。与已有算法相比, 该方法可以避免过早陷入局部最优,保证了解的质量,并大大降 低了算法的时间复杂度。通过对当前通用的两组标准测试数 据,即啤酒酵母菌的五个典型的结合位点基因和大肠杆菌中包 含CRP结合位点的18条基因,进行测试的结果表明本文算法 是非常有效的,对CRP结合位点的预测准确度要高于流行软 区域中发现未知的元件;(3)寻找由一个已知转录因子调 控的未知基因。本文的工作主要针对第二类问题,这一类问题 称为序列驱动的元件的识别。相应地,第一类问题称为模 式驱动的元件的识别。 件,且具有较高的识别速度 针对不同的生物和不同特点的元件,出现了很多算法 1基本概念 和模型。常用的识别方法基本上分为两类:模式驱动的元 件识别和序列驱动的元件识别。前者主要是通过用元 件的模型(串模型或矩阵模型)来搜索序列的潜在位点,解决该 问题的软件主要有如SIGNAL SCAN,ConsInspector,TFSearch/ TESS,Matinspector,Consite,Match等等。后者是基于共基 因簇的公共元素预测方法。常用的算法主要有:(1)计数法… 它是一种最直接、最简单的穷尽搜索算法,其时间复杂度与序列 模式长度的指数呈正比。因此,这种算法只适合于发现短的调 控元件。(2)EM算法,该算法在解决含有隐变量的模型和实际 问题中非常有用。它是一种迭代算法,交替执行两个步骤:即E 步骤(求期望值)和M步骤(最大化)。EM算法很依赖初始条 件,如果最初的参数估计不当,就会收敛到局部极值,而不是最 优结果。(3)MM(Mixture Mode1)算法 它是最大期望算法的 一种改进,基本思想在于元件具有保守性,且有对应的特征 矩阵,在不断迭代的过程中只有当两者适应时,最大似然函数值 才能达到最大。对于得到的保守序列、感知矩阵或者元件 特征模型,需要经过评估,确定其统计的显著性。(4)Gibbs采 样算法Gibbs采样算法是一种特殊的马尔柯夫链蒙特卡罗方法 MCMC(Markov Chmn Monte Cado),该算法最早是由Lawrence 等引入蛋白质序列中的motif识别。后来Liu 等将Gibbs采样 整合进贝叶斯模型并应用于多重序列比较,获得了较好的结果。 目前,Gibbs采样算法以及一些改进算法被广泛应用于元件 的识别,并出现了一些较为成熟的软件以供用户在线和下载使 用,如MotifSampler,AlignACE J,BioProspector和Gibbs Motif Sampler l。。等。Gibbs采样算法识别元件的基本原理是通过 随机采样不断更新元件模型和在各条序列中的出现位置以 优化目标函数,当满足一定的迭代终止条件时就得到了最终的 候选元件。目前较为普遍的软件还有Consensus, MEME…],ANN—Spec,PROJECTION,MDScan,还有最近出现的 YMF。 近年来,还有一些其他的算法¨ 运用到预测元件 中,如统计分析、神经网络、聚类预测、字识别。随着各种技术的 发展和人们对分子生物学认识的深入,出现了越来越多的基于 生物学知识的其它方法来识别元件,如采用比较基因组学 来发现在进化过程中保守的结合位点,考虑元件之间的协 同作用而设计的元件模块识别方法等。 本文的工作主要集中在解决第二个问题:即从共表达的基 因序列中查找结合位点。对于采用计算的方法求解第二个问 题,有一个重要的假设:被同一个元件的基因,将具有 相同或者相似的基因表达模式。对基因芯片数据聚类,可以得 到共表达的基因,而我们就是要从这些共表达的基因的上游序 列中查找可能的转录因子的结合位点。所以问题可以定义为从 一个序列集合中查找一定长度的保守序列片段。为此本文提出 1.1 问题描述 为描述方便,假设所要解决的问题具有每类元件在每 条序列中出现且仅出现一次的特征。给定序列集X={X。, , …,X },每个序列由表示四种碱基的字母A, ,C,G组成。每条 序列的长度分别为f ,2:,…,f ,目标是查找长度为 的motif所 在的保守序列片断集合M={M。,Jl)f2,…,M }, 是 的长度 为埘的子序列,其中』lf c (i=1,2,…,n)。 上面提到用计算的方法寻找保守序列片断结合位点首先要 解决的第一个重要问题是:用什么样的方法表示这些序列,即为 元件建立什么样的特征模型。本文的方法采用的是矩阵模 型,即用一个特征矩阵描述元件的分布,因此我们的目的就 是要找出该特征矩阵。 X X X X X X X X X 扣 1.2特征矩阵 定义1设模式长度为 , :{A,T,C,G}。则特征矩阵M 为一个4× 的矩阵,其第i行第 列元素记为 ,其中b为第i个 字符。P 表示∑中第i个字符在模式的第J个位置出现的可能 性。 C C C C C C C G G G G G G G T T A T A T A 我们可以首先构建出元件的矩阵模型如表1所示。 表1简单矩阵 1 2 3 4 5 6 A 10 O O 0 0 3 1 0 O 0 0 9 G 0 0 l2 O l2 0 C 1 12 O 12 0 O 表1中的矩阵元素为该位置上对应的碱基出现的数目,例 如矩阵的第一行第一列元素等于10,说明字符“A”出现在第一 个位置上的元件有10个。将表1中的矩阵元素改成该位置 上对应的碱基出现的频率,我们可以进一步得到如表2所示的 C G T 24 计算机应用与软件 2013免 守性。其值越大则表示样本问的差异性越小,保守性越高。 BC、DH、DC。经过一个时间单位后,在路径BCD上的信息量是 从式(2)可以看出,当碱基b在位置出现的频率P 越高于 . 路径BHD上信息量的二倍。也就是说,在t=1时刻,将有20只 蚂蚁由B和D到达C,有l0只蚂蚁由B和D到达日。随着时间 的推移,蚂蚁将会以越来越大的概率选择路径BCD,最终完全 选择路径BCD,从而找到由蚁巢到食物源的最短路径。 出现在背景的频率P 时,两者的比值就越大,对信息含量,c的 贡献就越大。反过来说,两者比值越大,碱基出现在位置 的概率 就越大,该点的保守性就越高。 与其他非编码序列相比,元件具有较高的保守性,其信 息含量,c值也较高。因此我们要在所有W长的子序列组中找出 回E 胁协 回 ,s _s ,c最高者作为模体的特征矩阵。但是,一共有丌(Lt  一 +1)种 子序列组,如果要穷举它们,则计算量会特别大,显然,这个问题 是个NP完全问题。因此我们考虑采用优化算法来解决该问题, 本文提出用蚁群优化方法来求解模体的特征矩阵。 2蚁群算法简介 人们从仿生学的机理中受到启发,提出许多用于解决复杂 优化问题的新方法,统称为元启发算法,如遗传算法、进化策 略、模拟退火、蚁群算法、禁忌搜索算法等,并成功地应用于实际 问题。蚁群算法是模拟蚂蚁的群体的智能的一种新型模拟进化 算法。它是由意大利学者M.Dorigo等人受到人们对内然界真 实蚁群集体行为的研究成果的启发而首先提出来的。他们充分 利用蚁群搜索食物的过程与旅行商问题之间的相似性,通过人 A  一工模拟蚂蚁搜索食物的过程中个体之间的信息交流与相互协 = C.1j 作,最终找到从蚁群到食物源的最短路径的原理解决TSP问 题 ,取得了很好的结果。随后,蚁群算法被用来求解job— shop调度问题、指派问题、地形测绘等NP完全问题,显示出蚁 群算法在求解复杂优化问题(特别是离散优化问题)方面的优 越性,证明了它是一种具有广阔发展前景的好方法。 生物学的研究表明,虽然单个蚂蚁的能力非常有限,但多 个蚂蚁构成的群体具有找到蚁穴与食物之间最短路径的能力。 这种能力是靠其在所经过的路径上留下的一种挥发性分泌物来 实现的。蚂蚁在路径上前进时会根据前边走过的蚂蚁所留下的 分泌物选择其要走的路径,其选择一条路径的概率与该路经上 分泌物的强度成正比。因此,由大量蚂蚁组成的群体的集体行 为实际上构成一种学习信息的正反馈现象:某一条路径走过的 蚂蚁越多,则后面的蚂蚁选择该路径的可能性就越大。蚂蚁的 个体之间通过这种信息的交流寻求通向食物的最短路径。这种 优化过程的本质在于:(1)选择机制,分泌物越多的路径,被选 择的概率越大;(2)更新机制,路径上的分泌物会随蚂蚁的经过 而增长,而且同时也随时间的推移逐渐挥发消失;(3)协调机 制,蚂蚁之间实际上是通过分泌物来互相通信、协同工作的。蚁 群算法正是充分利用了这样的优化机制,即通过个体之问的信 息交流与相互协作最终找到最优解,使它具有很强的发现较好 解的能力。 图2是M.Dorigo用来说明蚁群寻找最优路径原理的一个 例子:设A是巢穴,E是食物源,HC为一障碍物。由于障碍物 存在,蚂蚁只能经由日或C从A到达 ,或从 到达A,各点之 间的距离如图2所示。设每个时间单位有30只蚂蚁由』4到达 曰,有3O只蚂蚁由 到达D点,蚂蚁过后留下的激素物质量(本 文称之为信息素强度或信息量强度)为1。为方便起见,设该物 质停留时间为1个单位时间长度。在初始时刻,由于路径BH、 BC、DH、DC上均无信息素存在,位于日和E的蚂蚁可以随机选 择路径。从统计学的角度可以认为它们以相同的概率选择BH、 H C B … 。 ㈣ if3 s iA1’ s… 图2人工蚁群的寻优过程 事实证明,这样的机制使得蚁群算法具有比遗传算法、模拟 退火算法、禁忌搜索等启发式方法更高效的优化能力,在一些特 定领域,该算法也被证明比神经网络算法更灵活。特别是近几 年来蚁群算法作为一种新型优化算法,被广泛应用于数值函数 优化、频率分配,网络路由、数据挖掘、芯片设计、生物信息学等 各个领域,取得了较好结果。 我们以TSP问题为例,具体说明基本蚁群算法的框架。设 有n个城市,d (i, =1,2,…,n)表示城市i和 问的距离,r (t)表示在t时刻城市i和 之间的信息量,用于模拟实际蚂蚁 的分泌物,设共有m只蚂蚁,用P (t)表示在t时刻蚂蚁 由城 市i转移到城市. 的概率: p: :f(f)=={【 0∑ 。  7.:(£)叼 (£) …。tehe nrwi肌……‘。s e ed (3) 其中allowed 表示蚂蚁k下一步允许走过的城市的集合,Ot表示 路径上的信息量对蚂蚁选择路径所起的作用大小, 为由城市 i转移到城市 的期望程度,可以取 =I/d 表示叩 的作 用。当 =0时,算法就是传统的贪心算法;而当口=0时,就成 了纯粹的正反馈的启发式算法。经过n个时刻,蚂蚁可走完所 有的城市,完成一次循环。每只蚂蚁所走过的路径就是一个解。 此时,要根据下式对各路径上的信息量作更新: (t+1)=(1一P)‘ (t)+△Jr (4) 其中P (0,1),表示信息量 (t)随时间的推移而衰减的程度。 信息增量△ 可表示为: △ : ar: (5) 其中△ r 表示蚂蚁k在本次循环中在城市i和 之间留下的信 息量,它的计算公式根据计算模型而定,例如在最常用的ant circle system模型中: :fL0 Q/ aotnherwit se ( , (6) 这里,Q为常数, 为蚂蚁k在本次循环中所走路径的长度。 在经过若干次循环以后,可以根据适当的停止条件来结束计算。 3算法的思想及其实现 3.1解的表示形式 设已知序列集为X=( 。,X2,…,X ),其中序列 的长度 第1期 刘维等:一种识别基因元件的新型优化算法 25 为l ,motif所在的保守序列片断的长度为W。我们用一个蚂蚁 个体表示一个解,由于假设每个输入序列中包含了一个motif的 片段,所以可以用一个整数向量J={ , ,…, }表示目标 其中 为第 只蚂蚁所得到的解的特征矩阵。,c( )为 的信息含量,可以由式(2)计算得到。 3.6算法框架 综上所述,该算法的总体框架如下: 算法ACRR(ant—colony—regulatory—recognition) motif。其中. [1,f 一 +1]表示序列 中结合位点的起始点 (即模体的起始位置)。一个向量I,就代表了一个由n个片段 组成的W长的子序列组。由此子序列组就可以计算它的特征 矩阵 (’,),从而也就可以得到其信息.含量 (M(t,))。 输入:n条序列X1,X2,…, ,迭代次数mz/ ̄um,蚂蚁个数m; 输出:子模体的特征矩阵肘 及起始位置J ={ ,,止, 3.2蚂蚁搜索的逻辑图 在蚂蚁搜索的逻辑图如图3所示。图有n 4-1个节点, 分别标记为X ,X2,…,X ,X ,其中 表示第i条序列(i=1, 2,…,n),X 表示结束节点。由 到X…有Li=1 一W+1条路 径,将其中的第 条记为c 表示序列i取位置 作为起始位置, G 上的信息素记为r 每个蚂蚁从 。出发,经由 , ,…至 ,设其经由的路径为C ,C ,…,C ,则构成一个解J= { .,2,…, .}。 图3蚂蚁搜索的逻辑幽 3.3蚂蚁选择路径的概率公式 蚂蚁由节点X 到 时,选择边c 的概率为: 尸 ( ): 且 (7) ∑ (t)] ( )] 这里Jr (t)为t时刻C 上的信息素;叼 ( )为启发式信息,为选择 序列X 上的第 个位置为motif的开始位置的适合程度,它以蚂 蚁当前搜索到的最优模式为参考标准。 p  ̄t,j+k-I㈣ 这里M(t)为到t时刻为止,蚂蚁所取得的历史最优解肘 所对 应的特征矩阵。为此,算法在各次迭代中要记录一个历史最优 解M ,并以此作为最优模式设置启发式信息71 (t)。 3.4解的适应度 对于蚂蚁所得到的解J={ ,止,…√ },我们可以由W长度 子序列组: Xljl,…,Xljl+ 一l …,, … X ,…, 啦Ⅷ1 通过计算各个字符在每个位置上出现的次数来计算出其特 征矩阵肘(‘,),随后根据式(2)求得 (.,)的,c值IC( (J))作 为该解的适应度。 3.5信息素的更新公式 在每次迭代后,对每条边 上的信息素r 用以下公式更新: ( +1)=pr (t)+(1一p)∑△ r ) (9) 这里P∈(0,1)为衰减系数,m为蚂蚁个数,ate”.为蚂蚁 在边 Co上的信息素增量,由下式定义: △ (t):f c(Mk) if antk的解中含有c (10) …, }。 Begin 1. 初始化,随机设置初始特征矩阵Mb。 计算背景模式B。 2. for t=l to maxnum do 3. ofr k=1 to m do 4. ofr i=1 to n do 5. 蚂蚁k按公式(7)选择边C 6. 蚂蚁k对所得的X。序列的起始位置j作局部优化; 7. end for i 8. 蚂蚁k对所得的子序列组作局部优化,设所得到的解为 J={J1,j2,…,J }; 9. 按公式(2)计算IC(M(J)); 10. ifIC(M(J))>IC(Mb )then 11. Mb 。。=M(J); 12. Jb。 t=J 13. endif; 】4. endfor k 15.按公式(9)更新各边上的信息素,按新的 计算-q (t+1); 16. end for t 17. 输出Mb J I; End 在算法ACRR的每次迭代过程中,每只蚂蚁都要经过搜索 逻辑图上的n个顶点。在每一步中,进行路径选择的概率计算 需要花费的时间为l 一 +1,其中z 为第i条序列的长度,而 为模体的长度。由此,很明显地,我们可以得到算法ACRR的总 的时间复杂度为0(tmnL),其中t为迭代次数,/-g为基因序列的 条数,m为算法中人工蚂蚁的个数, 是基因序列的最大长度。 3.7单序列局部优化策略 在算法ACRR的第6行,蚂蚁对于序列 所取的起始位置 作局部优化,在位置 的领域作局部搜索,找出更好的开始位 置。因这个局部优化只在序列墨中对所取的起始位置 进行优 化,故称为单序列局部优化。单序列局部优化的策略如下: 设X = , ,…, ,},蚂蚁取 作为起始位置, ∈[1,2 一 +1],意味着仅片段 , +.,…, ̄"i,j+w-I作为模体。我们可 以同时分别观察以 一1为起始点的模体 一 , …, 。+ 一 、 以 +1作为起始点的模体 + , :,…, + ,与J作为起始 点的模体进行比较。 我们可以参照历史最优解 ,用式(1)计算出序列X 在 位置J上出现模体的概率尸(置l ,Mbest,B),同时也分别计算在 J一1, +1位置上出现模体的概率JP(置fJ一1,Mbest,B)和尸(置 lJ+1,M,曰),在三者中取最高的作为 序列的起始点。 3.8序列组的局部优化策略 在算法ACRR的第8行,对蚂蚁Jj}在本次迭代中所取得的 解J={ 。,止,…, }作局部优化.由于这个局部优化是对一组子 序列构成的解的领域进行局部搜索,故称其为子序列组的局部 优化,优化策略如下: 26 对于解J={ …计算机应用与软件 ,… },考察另两个相邻的解J一={ 一 √2 TF Size 2013丘 表3啤酒酵母菌五个转录因子信息 Length Consensus Sequence √ }和J ={ +。√2 …J +,}的信息含量值,在解‘,、J一、I, 在计算Jc(M(J一))和IC(M(., ))时,可以在Jc(M(_,)) 的三个中取信息含量值较大者作为蚂蚁k在本次迭代中的解。 的基础上计算,不必再用式(2)重新计算。事实上,由式(2)我 GAI4 RAP1 REB1 6 16 9 17 7 7 CCGNNNNNNNNNNNCCG RMACCCA YYACCCG 们可知: ,c( (’,)) J 1 b E l。g[告Po】 , ( ( )) 这里,1C(M(Jj))为M(J)的第 列元素的信息含量值。即: ,c 驯= s 0 E, ,U 由此可见,,G( (J))是由各列的信息含量值求和而得到 的,而各列的信息含量值可以地求出。 对于解J={ ,…√ },它所含的一组子序列为: 1,Jl一1 X1,l 1,Jl+1 …Xl.,Jl "一3 1,J1+w-2 X2j,一I N2J2 X242+1 … 2J2+w-3 X2,-J2+w-2  ,n一1 ,J“ n.JR+l n,J“+ 一3 n.,n+ 一2 我们记向量Jo=( 一 , z以 ,…, 一t)为第0列,向量 J =(x + , J2+ ,…,X + )为第 +1列。因,c[M(I,)]= ∑,c( ( )),我们易知: J 1 ”一I IC(M(J一))=∑IC(M(Jj)) J u =IC(M(J))+,C( (Jo))一,C( (J )) +l IC(M(J ))=∑,c( ( )) J =IC(M(J))+IC(M(J +1))一,C( ( )) 实际上,我们只要在,c(M( ))一IC(M(J )),0,IC( (J + ))一IC(M(J,))三者中取最大者即可。 4实验结果及分析 我们用实验来验证本文所提出的基于蚁群优化的基因 元件识别算法ACRR的有效性,实验程序的运行计算机系统配 置为:Intel Pentium4 3.OGHz CPU,内存1GB,Windows XP操作系 统,Visual C++6.0的程序编辑、编译链接环境。所有的算法均 采用C++语言实现。 本文的实验数据均采用了当前的标准测试数据来测试算法 的有效性,即啤酒酵母菌的几个典型的结合位点基因和大肠杆 菌中包含CRP结合位点的18条基因,这两组数据为检测程序 有效性的标准测试数据。 4.1 实验结果的质量分析 4.1.1 对啤酒酵母菌的结合位点分析 本文采用通用的数据库SCPD” (http://rulai.csht.edu/ SCPD/)中的关于啤酒酵母的数据。该数据库比诸如TRANS— FAC等其它同类数据库中关于转录因子的信息丰富得多,包含 了完整的啤酒酵母结合位点及其转录因子的信息。本文选用了 RAP1,GAlA,REB1,MCB和PDR3等五组转录因子的结合位 点作为测试数据,具体的数据信息见表3。我们从SCpD上下载 了包含每一个转录因子的结合位点的、长度为550的若干条启 动子序列。 MCB 6 6 WCeCGW PDR3 7 8 TCCGYGGA 我们对得到的结果用logo模型可视化表示。在该模型中, 横轴方向表示碱基在序列中的位置,所有出现在该位置的碱基 在这里进行堆叠,每个碱基在竖轴方向的高度对应于它在此位 置上的信息量。每个位置上,各碱基按照信息量大小自上而下 地排列,该位置上堆积的总高度即为该位置的信息总含量。由 于某一位置上碱基的保守性可以由该位置上的信息含量反映出 来,因而我们可以非常直观地从logo模型看出哪些位置上的哪 些碱基起着相对重要的作用,从而可以分析出各个结合位点的 保守程度。我们利用本文算法ACRR,我们对这些数据进行测 试,并将测试结果通过网站(http://weblogo.berkeley.edu/logo. cgi)得到结果的可视化模型表示,如图4一图8所示,这些结果 与通过化学印记方法得到的结果全部相同。说明采用本文算法 ACRR是有效的。 m 警 :=I 图4 ACRR算法得到的GAL4的运行结果 图5 ACRR算法得到的RAP1的运行结果 图6 ACRR算法得到的REB1的运行结果 图7 ACRR算法得到的MCB的运行结果 图8 ACRR算法得到的PDR3的运行结果 4.1.2 大肠杆菌的结合位点实验结果分析 目前已有的大部分软件均采用大肠杆菌的CRP结合位 点 作为测试数据,这组测试数据长度为105的、包含了受 第1期 刘维等:一种识别基因元件的新型优化算法 CRP子结合位点的18条序列,在其中,已知的CRP结合位 有2条序列的识别结果错误,AlignACE 也有2条序列的识别 点的有23个,已经通过DNA足印方法得到确认。对于CRP结 错误。由于第17条序列的结合位点的相似性程度比其它序列 合位点的测试,一般来说,如果找到的位点与已知位点有一半的 低,这三个软件均未能查找到第17条序列的结合位点。而本文 序列能够重合,则认为此位点被找到。测试数据的全部信息如 算法ACRR从这18条序列构成的集合中正确查找到了所有序 表4所示。一般的计算方法选取CRP的结合位点的长度为18 列的结合位点,尤其是第17条序列,尽管它相应的偏差要比其 —25,本文选取的长度为22,如果找到的位点与已知点的差距 它序列大一些,但算法ACRR能够全部找到。主要原因是采用 在10以内,则认为此位点被找到。表5显示了本文算法ACRR ACRR算法利用了蚁群算法的优化能力,同时又使用了局部搜 与其余几种已有算法的实验结果比较。 索的方法,使所找到的结合位点的Motif的信息含量较大,这可 表4大肠杆菌ClIP结合位点的18条序列 以由表6得知。由此可见,ACRR算法在CRP测试数据上的准 名称 庠 列 确性要高于已有的常用算法,对解决该类问题是非常准确有效 的。 C lOG ^G 口 n了G蟠宅GHrrc C^^^^盟 GG a C^搿e掰_G^C^G 表6不同软件找到的信息含量的值 G C LcG暖 I ^^搿Gf{葛柏^^ lcGIX G^^ Ce^ G ECo^R^鼢 程序名称 信息量值 ^=玎 r了 0 GGO皤C^|=^Cn 0c】 ∞ 。c黛豇幅。啦 蛆 巴^∞ 略 ACRR 10.273 ECO眦l O目.^^^ c| ^^瞬曙 蠕 ^C G内GC^薯a rc 瞄 n 镊£^瑚r MEME 9.508 C^I ^^I )G^ 口0∞-^^^^0 a ;Q盯GC lc^Gf^ M.cmC 口 AlignACE 9.752 EeOClIP Gibbs Sampler 9.229 ^CGG ;c馨 ^Cn 麓 )GC柏℃n a-r C0 C 盯CA昏 U棚 ECOC 4.2算法的运行速度分析 E00I)I 为了检验本文算法ACRR的运行速度,由于RAP1的数据 rr‘:cf nG G霸 oG^^霹 扼 T1j 。( ^G翻 粗 r _G姚 G0 巳 _^^^JU CGGa.^^阳 aWG.f^^ 0 TO rI析CC 量最大,我们选用它的启动子结合位点进行检验。实验中,初始 ll口cX T|'1 ^0 r.1了OG0 HT{瓠t CW0踟 掏日 ad 匹 ;0C 特征矩阵Mbest由随机数构成,该特征矩阵包含了20组初始 Motif,然后分别让ACRR算法和以Consensus为代表的贪心算法 B0 癌I腿 C 巳ULTn∞。c:c G^ ¨ nT £^ⅡG戏 O0∞ .I= f^GCrGr 以这20组模体为初始模体,进行求解,表7所示为实验结果的 EC0L^c 比较。从表7可以看到,在这组数据上,本文算法ACRR的运行 盯。口1eOGGC 0嗣 G矸a∞譬K为矗衄了G 赫 CGG ^C 蛭叮TC:^C ^C 广l^CO0oc:^^耵a奄r从C 0^I警静=^C^cI GeG^O 譬 GGBcc式 速度是贪心算法的8—12倍,充分说明本文算法在运行效率上 EO∞ ’LB^ GGGC^^I GG GG U ^GGn_GCc(找艄 ^^I麓 ^I奠h^ _ccI嚣r酗. 的优越性。 ECD】山吼B^2 表7 ACRR与贪心法的运行时间比较 ^^= CG飘 T X 馥 ^ CGr《粥船G f1T酗掰0C0C^ 编号 迭代次数 ACRR 贪心算法 G舡℃ 戈 :c n K 嚣1G ^ .^^AGx ∞aG GTc £^c^G £00M札T To u B £^1 ^^| uIc cGc玎 c超 ^£ ^^GGJn {岛 单位:毫秒 单位:毫秒 GC ^.^ U !j |c颤^Ca 醵^GU AC嚣蕾阿丁rT 孵G0Cr 1 40 189 1875 Eo ∞-£隧 G^I ;c Gn℃^I g ^GnT ^C酗lcGnG 执C玎T^e 。就 2 22 107 1031 3 26 103 1078 表5 ACRR与常用算法的实验结果比较 4 22 96 1062 卑列 馒点 oibbl差别 AHgnAcE 差别 MEME差别 ACRR差荆 5 20 87 875 Sampl ̄ 6 23 101 looO 1 l7.6l 59 .2 63 2 61 0 63 2 2 l 55 53 之 57 2 55 0 37 2 7 25 103 1235 3 76 7| _2 75 2 76 0 78 2 8 32 169 1640 - 4 63 59 .4 65 2 63 0 65 2 9 28 133 l313 5 5o 11 -39 S2 2 t3 .37 52 2 10 28 125 1250 6 7.6o 5 ・2 9 2 7 O 9 2 11 22 94 984 7 42 40 -2 26 .16 42 0 44 2 12 24 l19 1313 8 39 37 -2 4l 2 39 0 41 2 9 9.8O 7 _2 ll 2 9 0 11 2 l3 30 140 1484 10 l4 l2 -2 16 2 14 0 16 2 14 24 107 1141 ll 6I 59 -2 63 2 35 .】6 63 2 15 25 130 1328 12 4l 47 6 ‘43 2 34 -7 43 2 16 22 101 1016 l3 4雹 46 -2 50 2 48 0 50 2 17 26 107 1109 l4 7l 69 .2 73 2 7l O 73 2 18 25 107 1109 15 l7 l5 .2 l9 2 75 58 l9 2 l6 S3 49 -4 55 2 6 -47 55 2 19 28 124 1235 l7 1.84 25 24 6g .16 27 26 95 4 20 29 122 1281 l8 78 74 -4 8O 2 l6 .2 78 0 我们还将结合算法ACRR与AlignACE、MEME、Gibbs Sam— 由表5可知,MEME (http://meme.nber.net/meme4—4一 pler等算法进行运行时间的比较,表8给出了各种算法对大肠 O/intro.htm1)有5条序列的识别结果是错误的,它们是第5、11、 杆菌CRP结合位点检测钓实验时间。从表8可以看到,本文算 l5、16、17条,和已知位点的差距在10以上。类似地,Gibbs 法ACRR的运行速度均比其他算法要快的多。例如,它比Gibbs Sampler[10](http://bayesweb.wadsworth.org/gibbs/gibbs.htm1) Sampler算法快10倍以上,充分说明本文算法在运行效率上的 28 计算机应用与软件 2013丘 优越性。 表8 ACRR与常用算法的实验时间比较 AlignACE MEME Gibbs Sampler ACRR 编号 迭代次数 单位:毫秒 单位:毫秒 单位:毫秒 单位:毫秒 1 40 1565 19l2 1890 l79 2 22 948 l231 1048 101 3 26 897 1304 11O1 99 4 22 843 1239 1072 92 5 20 527 987 903 83 6 23 723 1105 1O2l 97 7 25 1001 1407 1395 91 8 32 1214 1842 1640 155 9 28 998 1479 1298 l19 10 28 998 1250 1257 111 11 22 623 1084 992 80 l2 24 1223 l5l2 1279 105 13 30 l100 1620 1348 l26 14 24 84l 1148 1037 93 l5 25 1232 1491 1385 l16 16 22 704 1230 1054 87 17 26 811 l156 ’l063 93 18 25 797 1009 982 91 本文算法ACRR比其他算法有较高的优化能力,是因为这 些算法解决元件的结合位点问题时大都采用局部搜索算 法,不能保证得到最优解,而且时间复杂度相当高。本文算法 ACRR利用蚁群算法强大的优化能力可以很好的避免过早陷入 局部最优,并且大大提高了运行效率。 5 结语 针对目前已有的基因元件识别算法大都存在得不到全 局最优解以及时间复杂度高等问题,本文提出了一种新型识别 算法ACRR,即基于蚁群算法来查找结合位点的计算方法。与 已有算法相比,该方法可以避免过早陷入局部最优,既保证了解 的质量,又大大降低了算法的时间复杂度。通过对当前通用的 两组标准测试数据,即啤酒酵母菌的五个典型的结合位点基因 和大肠杆菌中包含CRP结合位点的18条基因进行测试,结果 表明本文算法是非常有效的,对CRP结合位点的预测准确度要 高于流行软件,且具有较高的识别速度。 参考文献 [1]马志强,崔颖,马雅楠,等.基因非编码区与转录元件的识别研 究[J].生物物理学报,2008(4):45—47. [2]候琳,钱敏平,朱云平,等.转录因子结合位点生物信息学研究进展 [J].遗传,2009,31(4):365—373. [3]Qiu P.Recent advances in computational promoter analysis in under- standing the transcriptional regulatory network[J].Bicohem Biophys Res Commun,2003,309:495—501. [4]李婷婷,蒋博,汪小我,等.转录因子结合位点的计算分析方法 [J].生物物理学报,2008,24(5):334—347. [5]Saurabh Sinha,Martin Tompa.A statistical method for finding tran— scription factor binding sites[C]//Proc.Int.Conf.Intel1.Syst.Mol Bio1.,2000.ISMB’00,8(2000):344—354. [6]Cardon L,Stormo G.Expectation maximization for identifying protein— binding sites with variable lengths from unaligned DNA fragments[J]. J.Mol Biol,1992,223:159—170. [7]Lawrence C,Reilly A.An expectation maximization(EM)algorithm for the identiifcation and characterization of common sites in unaligned bio— polymer sequences[J].Proteins,1990,7:41—5 1. [8]Liu J,Neuwald A,Lawrence C.Bayesian models for multiple local se— quence alignment and Gibbs sampling strategies[J].J Am Stat.As— SOC.,1995,90(432):1156—1170. [9]Roth F P,Hughes J D,Estep P W,et a1.Finding DNA regulatory no— tifs within unaligned noncoding sequences clustered by whole—genome utRNA quantitation[J].Nat.Biotechnol,1998,16(10):939—945. [1 0]Neuwald A F,Liu J S,Lawrence C E.Gibbs motif sampling:detection of bacterial outer membrane protein repeats[J].Protein Sci.,2004,4 (8):1618—1632. [1 1]Bailey T L,Elkan C.Fitting a mixture model by expectation maximiza— tion to discover motifs in biopolymers[C]//Proc.Int.Conf.Intel1.Syst. Mo1.Bio1.1994,2:28—36. [12]周强.转录序列数据挖掘研究与实现[D].上海:复旦大学, 2008. [13]王红岩:基于图聚类的转录因子结合位点识别方法的研究l D]. 长春:东北师范大学,2010. [14]李群.基于基因表达谱数据预测转录因子和转录元件活 性[D].上海:复旦大学,2010. [1 5]Krzysztof Socha,Marco Dorigo.Ant colony optimization for continuous domains[J].European Journal of Operational Research,2008,1 85 (3):1155—1173. [1 6]Zhu J,Zhang MQ.SCPD:a promoter database of the yeast Saccharo— myces cerevisiae[J].Bioinformatics,1999,15:607—611. [1 7]Hertz G Z,Stormo G D.Identifying protein・binding sites from una— ligned DNA fragments[c]//Proc Natl Acad Sci USA.1989,86(4): l1 83一1]87. (上接第15页) [6]Chen Y,Chen H,Clark D,et a1.Software environments for cluster-based display systems[C]//First IEEE/ACM International Symposium on Cluster Computing and the Grid,201 1 May. [7]Chen H,Sukthankar R,Wallace G,et a1.Scalable alignment of large— format multi—projector displays using camera homography trees[C]// Proceedings of IEEE Visualization,2002:339—346. [8]Renambot L,Rao A,Singh R,et a1.the scalable adaptive graphics envi- ornment[C]//Proceedings of WACE 2004:23—24. [9]Humphreys G,Houston M,Ng R,et a1.Chromium:a stream—processing rfamework for interactive rendering on clusters[C]//Proceedings of Siggraph,2002:693—702. [10]Dataton Inc【OL].http://www.dataton.com/. [1 1]Li C,Lin H,Shi J.A survey of multi-projector tiled display wall con- stmction[C]//Third International Conference on Image and Graphics, 2004:452—455. [12]Bimran K P.Reliable Distirbuted System:Technologies,Web Services, and Applications[M].Springer,March 25,2005. [13]Microsoft DirectX[OL].http://www.min'osoft.eom/windows/directx. 

因篇幅问题不能全部显示,请点此查看更多更全内容