本发明公开了一种数据去重过程中的并行分块方法,其特征在 于,包括:(1)将数据流中的文件分成多个定长的数据段,所述数据段 的长度大于数据分块的最大块长;(2)利用计算机多核处理器并行对每 个数据段进行分块,每个数据段都通过分块获得多个数据块;(3)将最 后一个数据段除外的每个数据段的最后一个数据块与后一个数据段的 第一个数据块进行边界衔接处理。本发明提出的并行分块方法,采用 一种新颖的边界衔接方法解决了传统分块方法的