高等教育领域数字化综合服务平台

云上高博会服务平台

高校科技成果转化对接服务平台

大学生创新创业服务平台登录 | 注册

|

武汉大学

搜索

热门搜索：企业会员招募 63届高博会高校科技成果

武汉大学教育部

50 高校采购信息
974 科技成果项目
0 创新创业项目
0 高校项目需求

武汉大学 > 科技成果 > 正文

一种基于结构和内容二级过滤的 Web 数据相似性检测方法

2021-04-14 00:00:00

云上高博会 https://heec.cahe.edu.cn

关键词： Web 数据相似性

点击收藏

所属领域:

新一代信息技术

项目成果/简介:

本发明公开了一种基于结构和内容二级过滤的 Web 数据相似性检测方法，在传统的通用相似性检测

方法的基础上，发掘出 Web 数据结构和内容分布的特点，对检测的文档集进行两级过滤；两级过滤中的

第一级过滤是结构相似性过滤，对每个Web文档建模为Tag树结构，从而剔除在结构上不相似的文档集，

并对剩余的文档进行关键内容抽取，将其表示成元组向量的形式，将关键信息连接起来生成字符串集；

两级过滤中的第二级过滤则对第一级过滤后生成的字符串集进行 Trie

项目阶段:

未应用

知识产权编号:

201410843460.0

会员登录可查看合作方式、专利情况及联系方式

扫码关注，查看更多科技成果

取消

确定