1、用一个基因组内的相关蛋白质去重构另一个基因组中的基因的外显子-内含子结构,可通过几种方式开始:在可能的供体和受体点之间选择所有的推定的外显子,寻找所有与目标蛋白质相似的子字符串。通过试图不丢失真正外显子的方法筛选这个集合,一个可能含有许多假外显子的候选外显子集合被保留了下来。
2、尽管只利用统计过程很难区分好与坏,但我们可以利用与目标蛋白质的联配来帮助搜索。
3、给定候选候选外显子集合和一个目标蛋白质序列,要探测候选外显子集合的所有可能的链组合以找到与目标蛋白质有最高相似性得分的外显子装配方式。
4、设G=g1....gn是基因组序列,T=t1....tm为目标序列,β是候选外显子的集合。链Γ是不重叠模序的任意序列,由链形成的字符串只是链中所有模序的依次连接。
5、剪切联配问题:
在基因组序列中寻找一条与目标序列最匹配的候选外显子链。
输入:基因组序列G,目标序列T及候选外显子(模序)的集合β。
输出:在β的所有候选外显子链中使得全局联想得分S(Γ*,T)为最大的候选外显子链Γ。
6、剪切联配问题看成在一个有向无环图中寻找一条路线。这个图中的顶点(用矩形表示)对应于模序(候选外显子),且有向边连接不重叠的模序。对应于模序B的顶点用由这个模序代表的字符串标注。
7、记B=gleft....gi.....gright是基因组序列G中包含位置i的候选外显子。定义B的i-前缀为B(i)=gleft...gi,而end(B)=right。
若链Γ=(B1,B2,..,B)以模序B为结束,定义Γ*(i)为链中除B外的所有候选外显子的顺次链接加上B中至i的所有字符。记
S(i,j,B)=maxΓ∈(Bk1,Bk2,....,B) s(Γ*(i),T(j))
也就是说,给定i,j及覆盖了位置i的候选外显子B,S(i,j,B)是G的i-前缀与T的j-前缀之间的最优剪接联配的得分。
8、根据i是否为模序B的起始顶点,剪切联配问题的动态规划递归公式为成两种情形。当i不为模序B的起始顶点时,递归公式类似于标准的序列联配
S(i,j,B)=max{S(i-1,j,B)-σ,S(i,j-1),B-σ,S(i-1,j-1),B+(gi,tj) }
当i为模序B的起始位置,则
S(i,j,B)=max{S(i,j-1,B)-σ,maxB前的所有模序B'S(end(B'),j-1,B')+δ(gi,tj),maxB前的所有模序B'S(end(B'),j-1,B')-σ}