现代互联网、通信和信息科技应用涉及海量异构数据,有效管理和使用数据需要对其进行组织优化和 预处理。索引是重要的预处理方法,以其为基础可提供高效的数据搜索功能。常用的开源搜索引擎Lucene第一部分 电子与信息领域技术成果采用属于关键字索引的分词倒排技术,可满足自然语言数据搜索的需求,但是对词较多或者无法分词的异 构数据,比如信号、日志、代码和基因等,需要使用SA(suffix array,后缀数组)索引,在技术原理和应 用范围上均区别于关键字索引。