一种针对网页结构变化的不间断爬虫系统构建方法

2021-04-14 00:00:00

云上高博会 https://heec.cahe.edu.cn

关键词：爬虫系统

点击收藏

所属领域:

其它领域

项目成果/简介:

本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法，本发明在数据抽取的过程中，并不依赖于具体的标签节点，而是通过计算的方法来寻找目标节点;利用节点剪枝和相似哈希的方法锁定标题节点;然后，迭代计算相关节点的上下文主题相关度值 TTR，得到目标抽取模块的节点;最后，使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取，在库匹配的过程中，使用了库动态增长的方法;同时，在目标抽取节点下的剩余节点中，过滤掉所有噪声节点，便得到网页文本的正文信息;本发明提供的技术方法主要应用

项目阶段:

产业化应用

会员登录可查看合作方式、专利情况及联系方式

扫码关注，查看更多科技成果