|
电子科技大学
电子科技大学 教育部
  • 31 高校采购信息
  • 524 科技成果项目
  • 74 创新创业项目
  • 0 高校项目需求

一种基于关键词的主题网络爬虫设计方法

2021-04-10 00:00:00
云上高博会 https://heec.cahe.edu.cn
点击收藏
所属领域:
人工智能
项目成果/简介:
本发明提供一种基于关键词的主题网络爬虫设计方法,包括:(1)配置主题关键词的搜索URL,形成初始种子超链接originalURL;(2)根据originalURL,在搜索引擎中进行检索并下载网页,基于网页内容抽取新闻的初步字段;(3)根据主题相关性算法,得到每篇新闻与主题的相似性,将与主题相关的新闻字段保留下来放入公共队列newsQueue中,过滤掉与主题不相关的新闻;(4)根据nextPageURL下载下一页的网页内容,抽取出nextPageURL和步骤(3)所述的相关字段,将后者放入公共队列newsQueue中,不断重复步骤(4),直到没有下一页超链接nextPageURL为止;(5)从newsQueue中取出URL交给爬虫处理线程,即消费者线程。
项目阶段:
试用
会员登录可查看 合作方式、专利情况及联系方式

扫码关注,查看更多科技成果

取消