本发明公开了一种自动化数据挖掘预处理方法,其特征在于,
包括:建立数据库和预处理规则库,在该数据库中新建数据表且标准
化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样
后的预处理数据的每一个字段的值进行数理统计;提取数据表的关键
字 A、B 和 C,在预处理规则库中查询是否存在这些关键字,如果不
存在则将数据表的关键字和所有字段添加到预处理规则库中,然后采
用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则,
并将其添加到原有规则库中。本发明通过对预处理结果进行评分和反
馈,调整字段映射函数,提高预处理的质量。
扫码关注,查看更多科技成果