|
|
如何进行数据清洗与清洗完的判断 二维码
当前,大数据应用价值越来越大,诸多行业开始运用大数据辅助营销活动,但也存在例如大量数据中存在空号、停机号码等未经清洗的无效数据,浪费了营销成本和人力成本、时间。窥一斑而知全豹,大数据整理清洗是大势所趋!
数据治理 一、如何进行数据清洗 1、借助Excel表 对于还没有采用数据处理软件的企业,利用Excel软件对数据进行清洗是常用的手段,使用映射表是一个非常好的操作方法,可以将同一字段的数据制作一个映射表,然后让Excel根据映射表对数据进行查找替换,借助vlookup()函数完成。 比如说地址中城市的名称,如果用户在填写的时候不是通过下拉表选择的,就会被填写的五花八门,可以通过透视表功能将所有的地址城市做个统计汇总,然后根据人工识别来建立映射表,然后再把原始的地址映射回去,从而将地址中城市名称标准化为一个唯一值,再对数据以城市为单位进行统计汇总时,数据便准确了。但是这种方法太耗费人工,只适合数据量小,数据质量相对比较高的情况。 2、借助软件工具 如果遇到数据量大,数据质量又差的情况,则只能借用数据处理工具来进行,在这里给大家推荐傲林科技自主研发的傲数治理平台,可以实现原始数据表的批量导入,操作方法特别简单,ppt式操作,简单托拽组件,毫无代码基础的人也能操作,通过清洗、新增列、类型转化等组件,快速完成数据的清洗工作。 二、数据清洗的判断 准确性:描述数据是否与其对应的客观实体的特征相一致。 完整性:描述数据是否存在缺失记录或缺失字段。 一致性:描述同一实体的同一属性的值在不同的系统是否一致。 有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。 唯一性:描述数据是否存在重复记录。 及时性:描述数据的产生和供应是否及时。 傲林科技通过可配置的快速部署,将包括数据标准、主数据、元数据、数据质量、规则模型等数据资产在治理平台中落地,协助企业全面掌控数据资产现状、提升数据质量、实现数据互联互通、提升数据获取效率、保障数据安全合规、持续释放和挖掘数据价值。 |