一种基于链接分析的聚焦爬虫方法
本发明针对现有技术的不足之处提供了一种基于链接分析的聚焦爬虫方法,用以解决现有聚焦爬虫抓取网页准确率和效率较低的问题。 为实现上述目的,本发明采用的技术方案为: 一种基于链接分析的聚焦爬虫方法,其特征在于,包括如下步骤: (1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树; (2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树; (3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。 作为优选,步骤(1)中,所述建立目标网页链接树的具体步骤如下: (11)选择一个目标网页作为目标样本网页,用于比较将下载的网页结构; (12)初始化链接树,即将链接树设置为一棵空树; (13)初始化链接队列,将网站的入口链接加入到链接队列尾部; (14)从链接队列头部取出链接,广度优先地抓取网页; (15)将抓取的网页和目标样本网页进行比较,如果结构相同,则将该目标网页的路径添加到链接树中,将目标网页的链接作为
电子科技大学
2021-04-10