经过近5年的深入研究与攻关,一个困扰数据挖掘与大数据分析领域40多年的经典NP难问题(MLCS问题),在亚博足彩软件学院李雁妮副教授负责的科研团队手中从理论和算法上取得阶段性突破。目前,该研究的基础性与阶段性成果论文:“A Novel Fast and Memory Efficient Parallel MLCS Algorithm for Long and Large-Scale Sequences Alignments”和“A Real Linear and Parallel Multiple Longest Common Subsequences (MLCS) Algorithm”已分别被数据库与数据挖掘领域的A类顶级国际会议ICDE 2016及其顶级会议SIGKDD 2016全文接收录用。
问题来源:时代的迫切需求
MLCS问题(Multiple Longest Common Subsequences for Multiple Sequences)即为求多个字符序列中的某个或者所有的最长公共子序列问题,它在基因检测、序列相似性比对、模式识别、数据挖掘、代码克隆检测、文献查重、网页聚类等领域都有着重要而普遍的应用。
目前求解MLCS问题通常采用上世纪70年代提出的基于动态规划的MLCS算法,或者上世纪80年代产生的基于支配点的MLCS算法。而随着大数据时代的到来,各种应用领域中的字符序列的长度与规模正呈指数爆炸式增长,已有的MLCS算法已不能满足大规模或较长字符序列的比对需求。
“一般而言,任何信息都可抽象为在一个有限字符集下的字符串,”李雁妮介绍说,“例如,一个基因的DNA就是在字符集{A,C,G,T}下的一个字符序列,当比对字符序列的规模足够大或者长度足够长的时候,如果不能在理论和算法上实现突破,那么无论在高性能计算机上,还是在大数据平台上,求解比对字符序列的MLCS都无法在多项式时间内计算出结果。”
被誉为“生命科学的登月计划”的人类基因组计划已经开展了几十年,而基于“生物基因序列比对”及“基因剪刀”等技术的肿瘤研究问题,受制于数据处理仍进展缓慢:据粗略测算,最长的基因序列长度已接近10的19次方,即便在高性能计算机上,使用目前最好的MLCS算法,也只能对字符集为4、序列个数为5、序列长度为300的基因字符序列进行比对。
大数据分析算法和大数据平台的关系,就好比汽车和高速公路的关系,如果汽车本身存在缺陷或者性能低劣,则高速公路对于这辆车而言就没有充分发挥它本身应有的“高速”作用。“我们要做的,就是要创新提出一种更优的MLCS算法,不仅使其在时间和空间性能上实现突破,而且可以最终实现在一般机器上,对任意规模和任意长度的大字符序列以线性时间进行比对。”李雁妮说。