成果描述:
互联网文本内容主题 概念漂移检测系统, 通过分析数据集中的 所有文档数据的潜在 语义关系,提取出它 们之间的潜在语义主 题标示,通过评估参 数的方法,将生成的 主题时序关系用数据 的形式表示出来,并 以此为依据主动发现 待预测数据集中主题 的转变与转化现象, 并提供给用户这一主 题转移过程。
市场前景分析:
点。基于这些特点, 流数据的处理和分析 面临巨大的挑战,是 当前数据挖掘领域研 究的热点。 分类是数据挖掘领域 的重要课题,当前流 数据分类问题面临的 主要挑战之一就是概 念漂移问题,即数据 中学习的概念(从属 性到类别的映射)是 随时变化的。 通过对互联网中文本 内容的主题概念漂移 进行检测,对于正确 分类互联网文本等方 面具有重要的意义。
与同类成果相比的优势分析:
能够将生成的主题时 序关系用数据的形式 表示出来,方便用户 查看; 可以动态调整评估参 数,以实现对不同数 据集的自适应性分析; 可以将评估参数值与 发生概念漂移的主题 中心相关联,主动探 测出主题发生变化的 过程。
扫码关注,查看更多科技成果