本发明公开了一种自动化数据挖掘预处理方法,其特征在于,包括:建立数据库和预处理规则库,在该数据库中新建数据表且标准化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样后的预处理数据的每一个字段的值进行数理统计;提取数据表的关键字 A、B 和 C,在预处理规则库中查询是否存在这些关键字,如果不存在则将数据表的关键字和所有字段添加到预处理规则库中,然后采用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则,并将其添加到原有规则库中。本发明通过对预处理结果进行评分和反馈,调整字段映射函数,提高预处理的质量。
未应用
扫码关注,查看更多科技成果