一种基于关键词的主题网络爬虫设计方法
本发明提供一种基于关键词的主题网络爬虫设计方法,包括:(1)配置主题关键词的搜索URL,形成初始种子超链接originalURL;(2)根据originalURL,在搜索引擎中进行检索并下载网页,基于网页内容抽取新闻的初步字段;(3)根据主题相关性算法,得到每篇新闻与主题的相似性,将与主题相关的新闻字段保留下来放入公共队列newsQueue中,过滤掉与主题不相关的新闻;(4)根据nextPageURL下载下一页的网页内容,抽取出nextPageURL和步骤(3)所述的相关字段,将后者放入公共队列newsQueue中,不断重复步骤(4),直到没有下一页超链接nextPageURL为止;(5)从newsQueue中取出URL交给爬虫处理线程,即消费者线程。
电子科技大学
2021-04-10