|
电子科技大学
电子科技大学 教育部
  • 31 高校采购信息
  • 524 科技成果项目
  • 74 创新创业项目
  • 0 高校项目需求

一种基于链接分析的聚焦爬虫方法

2021-04-10 00:00:00
云上高博会 https://heec.cahe.edu.cn
关键词: 聚焦爬虫
点击收藏
所属领域:
新一代信息技术
项目成果/简介:
本发明针对现有技术的不足之处提供了一种基于链接分析的聚焦爬虫方法,用以解决现有聚焦爬虫抓取网页准确率和效率较低的问题。 为实现上述目的,本发明采用的技术方案为: 一种基于链接分析的聚焦爬虫方法,其特征在于,包括如下步骤: (1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树; (2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树; (3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。 作为优选,步骤(1)中,所述建立目标网页链接树的具体步骤如下: (11)选择一个目标网页作为目标样本网页,用于比较将下载的网页结构; (12)初始化链接树,即将链接树设置为一棵空树; (13)初始化链接队列,将网站的入口链接加入到链接队列尾部; (14)从链接队列头部取出链接,广度优先地抓取网页; (15)将抓取的网页和目标样本网页进行比较,如果结构相同,则将该目标网页的路径添加到链接树中,将目标网页的链接作为
项目阶段:
试用
会员登录可查看 合作方式、专利情况及联系方式

扫码关注,查看更多科技成果

取消