中国简单快捷的免费行业信息发布平台
·手机版 ·注册 ·登录 ·会员中心 ·忘了密码 ·导航 ·帮助
名站在线LOGO
·设 为 首 页
·收 藏 本 站
·新 站 登 录
网站首页
|
行业供求
|
行业产品
|
行业公司
|
站内检索
|
行业资讯
|
网站导航
|
链接交换
|
流量交换
|
网友收藏
您当前的位置: 首页 > 行业贴吧 > 话题


行业贴吧

(注意:网友的发布表不代表本站立场。)
回复话题
发新话题
返回列表
话题: 数据预处理的方法有哪些
183.17.230.*
2020-08-12 13:18:11
  数据处理的工作时间占整个数据分析项目的70%以上,因此,数据的质量直接决定了分析模型的准确性。那么,数据预处理的方法是什么呢?例如数据清理、数据集成、数据规范、数据转换等,其中*常用的是数据清理和数据集成,下面中琛魔方将来详细介绍一下这2种方法。





  数据预处理的方法



  1、数据清洗



  数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。总的来讲,数据清洗是一项繁重的任务,需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据,从而得到标准的、干净的、连续的数据。



  (1)缺失值处理



  实际获取信息和数据的过程中,会存在各类的原因导致数据丢失和空缺。针对这些缺失值,会基于变量的分布特性和变量的重要性采用不同的方法。若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况用基本统计量填充(**值、*小值、均值、中位数、众数)进行填充,这种方法被称为缺失值填充。对于缺失的数据,一般根据缺失率来决定“删”还是“补”。



  (2)离群点处理



  离群点(异常值)是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。



  (3)不一致数据处理



  实际数据生产过程中,由于一些人为因素或者其他原因,记录的数据可能存在不一致的情况,需要对这些不一致数据在分析前进行清理。例如,数据输入时的错误可通过和原始记录对比进行更正,知识工程工具也可以用来检测违反规则的数据。



  2、数据集成



  随着大数据的出现,我们的数据源越来越多,数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储,这些源可能包括多个数据库或数据文件。在数据集成的过程中,会遇到一些问题,比如表述不一致,数据冗余等,针对不同的问题,下面简单介绍一下该如何处理。



  (1)实体识别问题



  在匹配来自多个不同信息源的现实世界实体时,如果两个不同数据库中的不同字段名指向同一实体,数据分析者或计算机需要把两个字段名改为一致,避免模式集成时产生的错误。



  (2)冗余问题



  冗余是在数据集成中常见的一个问题,如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。



  (3)数据值的冲突和处理



  不同数据源,在统一合并时,需要保持规范化,如果遇到有重复的,要去重。



  数据预处理的方法有哪些.中琛魔方大数据分析平台(www.zcmorefun.com)表示在实践中,我们得到的数据可能包含大量的缺失值、异常值等,这对数据分析是非常不利的。此时,我们需要对脏数据进行预处理,以获得标准、干净和连续的数据,这些数据可以用于数据分析、数据挖掘等。
共0个回复
回复话题
发新话题
返回列表



新站登录--网站简介--流量交换--名站收藏夹--广告服务--友情链接--免责声明--联系我们--意见建议--违法举报--侵权举报
Copyright 2005-2024 名站在线[fwol.cn]版权所有 经营许可证:粤ICP备17047754号