本发明公开了一种基于函数依赖的数据清洗方法,其特征在于,
包括:对原始数据进行数据转换,以将其不同类型的属性全部转换为
数值型属性;对于数据转换后的原始数据,提取其属性的自依赖函数
特征;对于数据转换后的原始数据,提取其属性之间的互依赖函数;
根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性
及样本,并根据该属性及样本形成相关清洗决策依据,判断待清洗的
属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采
用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多
项式进行校准修复,并加上白噪声作为随机扰动。本发明能够解决大
数据中“脏数据”问题,为后续的大数据分析挖掘提供高质量的数据。
扫码关注,查看更多科技成果