Web挖掘中若干理论与算法的研究
Web挖掘技术属于信息科学领域,涉及自然语言处理、模式识别、知识工程、机器学习和随机过程等多个研究领域,并需要使用概率统计、矩阵理论以及其他软计算方法作为研究工具和手段。本项目主要针对Web挖掘中的Web数据模型、文本分类和信息检索等基本问题进行理论和算法上的研究,并就这些问题提出了潜在语义结构模型、基于投影寻踪的中文网页分类算法和基于Markov网络的信息检索等模型。同时,在理论上对这些方法进行了深入的研究和探讨,从理论上证明了其正确性。在实验方面,我们将分类模型应用于大规模的标准测试文档集(REUTER-21578语料库、复旦大学中文文本分类语料库),进行了大量的实验,结果表明这些方法均表现出了较好的性能,接近甚至优于SVM和KNN的分类效果,并应用检索模型在标准测试文档集(CACM、CISI、CRAN、MED)上进行了多次对比实验,其性能与BM25相当在某些指标上甚至更优。另外,课题组在北大天网测试文档集上应用上述模型,在近几年的全国搜索引擎和网上信息挖掘学术研讨会(SEWM)的中文WEB信息检索评测中均取得了优异的成绩。
江西师范大学
2021-05-05