|
武汉大学
武汉大学 教育部
  • 50 高校采购信息
  • 970 科技成果项目
  • 0 创新创业项目
  • 0 高校项目需求

一种基于结构和内容二级过滤的 Web 数据相似性检测方法

2021-04-14 00:00:00
云上高博会 https://heec.cahe.edu.cn
点击收藏
所属领域:
新一代信息技术
项目成果/简介:

本发明公开了一种基于结构和内容二级过滤的 Web 数据相似性检测方法,在传统的通用相似性检测

方法的基础上,发掘出 Web 数据结构和内容分布的特点,对检测的文档集进行两级过滤;两级过滤中的

第一级过滤是结构相似性过滤,对每个Web文档建模为Tag树结构,从而剔除在结构上不相似的文档集,

并对剩余的文档进行关键内容抽取,将其表示成元组向量的形式,将关键信息连接起来生成字符串集;

两级过滤中的第二级过滤则对第一级过滤后生成的字符串集进行 Trie

项目阶段:
未应用
知识产权编号:
201410843460.0
会员登录可查看 合作方式、专利情况及联系方式

扫码关注,查看更多科技成果

取消