一种自动化数据挖掘预处理方法
本发明公开了一种自动化数据挖掘预处理方法,其特征在于, 包括:建立数据库和预处理规则库,在该数据库中新建数据表且标准 化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样 后的预处理数据的每一个字段的值进行数理统计;提取数据表的关键 字 A、B 和 C,在预处理规则库中查询是否存在这些关键字,如果不 存在则将数据表的关键字和所有字段添加到预处理规则库中,然后采 用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则, 并将其添加到原有规则库中。本发明通过对预处理结果进行评分和反 馈,调整字段映射函数,提高预处理的质量。
华中科技大学
2021-04-11