一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法

价格¥0.00 /元

详情

摘要

一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,包括以下步骤:首先,下载蛋白质数据库中结构已知的蛋白质文件,通过比较序列相似度去除同源性大于30%的序列构成非冗余模板库;其次,通过一个滑动窗口对模板库中的蛋白质结构与查询序列进行相似度比较,选出查询序列每个位置中得分最高的前200个片段构成片段库文件;然后选取查询序列两个位置上片段库中来自于同一模板片段结构的距离构成距离谱;最后根据概率密度函数计算距离谱中残基对的概率密度统计,利用残基间的概率密度统计有效的加强了对蛋白质构象空间的采样,得到精度更高的近天然态构象。

权利要求书

1.一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,其特征在于:所述距离模型构建方法包括以下步骤:1)构建非冗余模板库;

1.1)从蛋白质数据库网站上下载分辨率小于 的高精度蛋白质,其中 为距离单位, 米;

1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列相似度,去除相似度大于30%的冗余多肽链;

1.3)将余下的多肽链两两求序列相似度I ,统计每一条链的累计相似度mn其中m,n为多肽链的序号,N为剩余所有链的总数;

1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;2)输入查询序列;3)生成片段库;

3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;

3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项P(i,k),其中iq为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;

3.1.2)Lq(i,k)和Lt(j,k)是通过PSI-BLAST得到的查询序列和模板序列对数谱;

3.1.3)通过PSSpred计算得到模板结构的二级结构预测sst;

3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标ss;q

3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sa;t

3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标saq;

3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的二面角 ψ;q

3.1.8)质心原子二面角可以通过查询蛋白质字典得到 ψ为模板结构;t

3.1.9)SP(j,k)为模板结构中每一个残基相对20个残基类型的频率矩阵;t

3.1.10)结构相似度函数其中w,w,w,w,w为权重值;

3.2)通过无间隙穿线法以3个残基为单体单元,将非冗余模板库中的片段结构与查询序列进行匹配,根据结构相似度函数f(i,j)对片段结构打分;

3.3)在查询序列与模板片段结构匹配时使用一个滑动窗口,比对查询序列i个位置和第j个片段的相似度得分f(i,j),选出每个位置上得分最高的前K个片段构成片段库;4)得到距离谱;

4.1)遍历查询序列残基位置上K个相似度较高的片段, 是查询序列第i个位置上的片段, 是查询序列第j位置上的片段;

4.2)用a 和a 表示i和j上选出的来自于同一模板结构的片段结构;ik jl

4.3)计算a 和a 在原模板结构中的距离d ;ik jl ij

4.4)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于 的残基对之间距离,画出直方图得到距离谱,直方图横坐标的距离间隔为 当模板中残基对之间的距离在某个区间内,则该区间总数就加1;5)根据Bolzmann概率密度函数 计算目标个体的接收概率,其中x为残基对间的距离序号,R为玻尔兹曼常数,T为温度,ΔD(x)为目标个体残基间欧式距离与距离谱的差值;6)算出蛋白质折叠过程中构象的残基对之间距离,通过概率密度函数得到基于残基距离的接受概率 其中h为距离谱中记录项序号,M为记录项总和。

说明书

一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构

建方法技术领域

[0001]本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法。

背景技术

[0002]蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。

[0003]蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是,大量的蛋白质亚稳定结构构成了低能量区域,所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构,即增加算法的种群多样性。因此,针对更加精确的蛋白质力场模型,选取有效的构象空间优化算法,使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。

[0004]目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和不基于模板的方法。其中,不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质,仅从序列产生全新结构,对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。当前有以下几种比较成功的从头预测方法:张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。

[0005]因此,现有的构象空间搜索方法存在不足,需要改进。

发明内容

[0006]为了克服现有构象空间搜索方法的对构象空间采样能力不强、精度较低的不足,本发明提出一种增强构象空间采样能力、提升精度的基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,

[0007]本发明解决其技术问题所采用的技术方案是:

[0008]一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,所述模型构建方法包括以下步骤:

[0009]1)构建非冗余模板库;

[0010] 1.1)从蛋白质数据库网站上下载分辨率小于 的高精度蛋白质,其中 为距离单位,

[0011]

1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列相似度,去除相似度大于30%的冗余多肽链;

[0012]

1.3)将余下的多肽链两两求序列相似度I ,统计每一条链的累计相似度mn其中m,n为多肽链的序号,N为剩余所有链的总数;

[0013]

1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;

[0014]2)输入查询序列;

[0015]3)生成片段库;

[0016]

3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;

[0017]

3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项P(i,k),q其中i为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;

[0018]

3.1.2)Lq(i,k)和Lt(j,k)是通过PSI-BLAST得到的查询序列和模板序列对数谱;

[0019]

3.1.3)通过PSSpred计算得到模板结构的二级结构预测ss;

t

[0020]

3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标ss;

q

[0021]

3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;

[0022]

3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标sa;

q

[0023]

3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的二面角 ψ;

q

[0024]

3.1.8)质心原子二面角可以通过查询蛋白质字典得到 ψt为模板结构;

[0025]

3.1.9)SP(j,k)为模板结构中每一个残基相对20个残基类型的频率矩阵;

t

[0026]

3.1.10)结构相似度函数

[0027]

[0028]其中w,w,w,w,w为权重值;

[0029]

3.2)通过无间隙穿线法以3个残基为单体单元,将非冗余模板库中的片段结构与查询序列进行匹配,根据结构相似度函数f(i,j)对片段结构打分;

[0030]

3.3)在查询序列与模板片段结构匹配时使用一个滑动窗口,比对查询序列i个位置和第j个片段的相似度得分f(i,j),选出每个位置上得分最高的前K个片段构成片段库;

[0031]4)得到距离谱;

[0032] 4.1)遍历查询序列残基位置上K个相似度较高的片段, 是查询序列第ji个位置上的片段,F (l=1,...,K)是查询序列第j位置上的片段;

l

[0033]

4.2)用a 和a 表示i和j上选出的来自于同一模板结构的片段结构;

ik jl

[0034]

4.3)计算a 和a 在原模板结构中的距离d ;

ik jl ij

[0035] 4.4)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于的残基对之间距离(残基对间作用力随着距离增大而减小),画出直方图得到距离谱,直方图横坐标的距离间隔为 当模板中残基对之间的距离在某个区间内,则该区间总数就加1;

[0036]5)根据Bolzmann概率密度函数 计算目标个体的接收概率,其中x为残基对间的距离序号,R为玻尔兹曼常数,T为温度,ΔD(x)为目标个体残基间欧式距离与距离谱的差值;

[0037]6)算出蛋白质折叠过程中构象的残基对之间距离,通过概率密度函数得到基于残基距离的接受概率 其中h为距离谱中记录项序号,M为记录项总和。

[0038]本发明的技术构思为:一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,首先,下载蛋白质数据库中结构已知的蛋白质文件,通过比较序列相似度去除同源性大于30%的序列构成非冗余模板库;其次,通过一个滑动窗口对模板库中的蛋白质结构与查询序列进行相似度比较,选出查询序列每个位置中得分最高的前200个片段构成片段库文件;然后选取查询序列两个位置上片段库中来自于同一模板片段结构的距离构成距离谱;最后根据Bolzmann概率密度函数计算距离谱中残基对的概率密度统计,利用残基间的概率密度统计有效的加强了对蛋白质构象空间的采样,得到精度更高的近天然态构象。

[0039]本发明的有益效果为:构象空间采样能力较强、精度较高。

附图说明

[0040]图1是蛋白质1VII中第13个残基和第18个残基间的距离谱。

[0041]图2是蛋白质1VII中第13个残基和第18个残基间距离的Bolzmann概率密度统计图。

具体实施方式

[0042]下面结合附图对本发明作进一步描述。

[0043]参照图1和图2,一种基于蛋白质残基间距离的概率密度函数约束条件构建方法,包括以下步骤:

[0044]1)构建非冗余模板库;

[0045] 1.1)从蛋白质数据库(PDB)网站上下载分辨率小于 的高精度蛋白质,其中为距离单位,

[0046]

1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列相似度,去除相似度大于30%的冗余多肽链;

[0047]

1.3)将余下的多肽链两两求序列相似度I ,统计每一条链的累计相似度mn其中m,n为多肽链的序号,N为剩余所有链的总数;

[0048]

1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;

[0049]2)输入查询序列;

[0050]3)生成片段库;

[0051]

3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;

[0052]

3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项P(i,k),q其中i为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;

[0053]

3.1.2)Lq(i,k)和Lt(j,k)是通过PSI-BLAST得到的查询序列和模板序列对数谱;

[0054]

3.1.3)通过PSSpred计算得到模板结构的二级结构预测ss;

t

[0055]

3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标ssq;

[0056]

3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;

[0057]

3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标sa;

q

[0058]

3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的二面角 ψq;

[0059]

3.1.8)质心原子二面角可以通过查询蛋白质字典得到 ψt为模板结构;

[0060]

3.1.9)SP(j,k)为模板结构中每一个残基相对20个残基类型的频率矩阵;

t

[0061]

3.1.10)结构相似度函数

[0062]

[0063]其中w,w,w,w,w为权重值;

[0064]

3.2)通过无间隙穿线法以3个残基为单体单元,将非冗余模板库中的片段结构与查询序列进行匹配,根据结构相似度函数f(i,j)对片段结构打分;

[0065]

3.3)在查询序列与模板片段结构匹配时使用一个滑动窗口,比对查询序列i个位置和第j个片段的相似度得分f(i,j),选出每个位置上得分最高的前K个片段构成片段库;

[0066]4)得到距离谱;

[0067]

4.1)遍历查询序列残基位置上K个相似度较高的片段,K为预设数值,j是查询序列第i个位置上的片段,Fl(l=1,...,K)是查询序列第j位置上的片段;

[0068]

4.2)用a 和a 表示i和j上选出的来自于同一模板结构的片段结构;

ik jl

[0069]

4.3)计算a 和a 在原模板结构中的距离d ;

ik jl ij

[0070] 4.4)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于的残基对之间距离(残基对间作用力随着距离增大而减小),画出直方图得到距离谱,直方图横坐标的距离间隔为 当模板中残基对之间的距离在某个区间内,则该区间总数就加1;

[0071] 5)根据Bolzmann概率密度函数 计算目标个体的接收概率,其中x为残基对间的距离序号,R为玻尔兹曼常数,T为温度,ΔD(x)为目标个体残基间欧式距离与距离谱的差值;

[0072]6)算出蛋白质折叠过程中构象的残基对之间距离,通过概率密度函数得到基于残基距离的接受概率 其中h为距离谱中记录项序号,M为记录项总和。

[0073]本实施例以序列长度为36的蛋白质1VII为实施例,一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,其中包含以下步骤:

[0074]1)构建非冗余模板库;

[0075]

1.1)从蛋白质数据库(PDB)网站上下载分辨率小于 的高精度蛋白质;

[0076]

1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列相似度,去除相似度大于30%的冗余多肽链;

[0077]

1.3)将余下的多肽链两两求序列相似度Imn,统计每一条链的累计相似度其中m,n为多肽链的序号,N为剩余所有链的总数N=35627;

[0078]

1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;

[0079]2)输入查询序列;

[0080]3)生成片段库;

[0081]

3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;

[0082]

3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项P(i,k),q其中i为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;

[0083]

3.1.2)Lq(i,k)和Lt(j,k)是通过PSI-BLAST得到的查询序列和模板序列对数谱;

[0084]

3.1.3)通过PSSpred计算得到模板结构的二级结构预测ss;

t

[0085]

3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标ss;

q

[0086]

3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;

[0087]

3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标sa;

q

[0088]

3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的二面角 ψ;

q

[0089]

3.1.8)质心原子二面角可以通过查询蛋白质字典得到 ψt为模板结构;

[0090]

3.1.9)SP(j,k)为模板结构中每一个残基相对20个残基类型的频率矩阵;

t

[0091]

3.1.10)结构相似度函数

[0092]

[0093]其中w1=2,w2=6,w3=2.5,w4=12,w5=10为权重值;

[0094]

3.2)通过无间隙穿线法以3个残基为单体单元,将非冗余模板库中的片段结构与查询序列进行匹配,根据结构相似度函数f(i,j)对片段结构打分;

[0095]

3.3)在查询序列与模板片段结构匹配时使用一个滑动窗口,比对查询序列i个位置和第j个片段的相似度得分f(i,j),选出每个位置上得分最高的前200个片段构成片段库;

[0096]4)得到距离谱;

[0097]

4.1)遍历查询序列残基位置上200(取K为200)个相似度较高的片段,j是查询序列第i个位置上的片段,Fl(l=1,...,200)是查询序列第j位置上的片段;

[0098]

4.2)用a 和a 表示i和j上选出的来自于同一模板结构的片段结构;

ik jl

[0099]

4.3)计算aik和ajl在原模板结构中的距离dij;

[0100]

4.4)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于的残基对之间距离(残基对间作用力随着距离增大而减小),画出直方图得到距离谱,直方图横坐标的距离间隔为 当模板中残基对之间的距离在某个区间内,则该区间总数就加1;

[0101]5)根据Bolzmann概率密度函数 计算目标个体的接收概率,其中x为残基对间的距离序号,R为玻尔兹曼常数,T为温度,ΔD(x)为目标个体残基间欧式距离与距离谱的差值;

[0102]6)算出蛋白质折叠过程中构象的残基对之间距离,通过概率密度函数得到基于残基距离的接受概率 其中h为距离谱中记录项序号,M为记录项总和。

[0103]以序列长度为36的蛋白质1VII为实施例,运用以上方法得到了该蛋白质的距离谱和残基间的概率密度函数,残基对间距离谱图如图1所示,1VII的Bolzmann概率密度函数距离模型展示如图2所示。

[0104]以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

在线咨询

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部