重复数据的处理、缺失值的处理、数据抽取......关于数据处理的干货

更新时间: 2021-09-16 18:30:05 点击数:

在数据分析的道路上越走越远

阴差阳错的做了数据分析，而且一开始我还不知道自己在做的是数据分析，看了很多数据分析的书，也走了一些弯路，做了很多实践项目，突然很想把自己作为一个小白的数据分析之路的成长过程写下来。

这个系列写一写从QC里面学到的数据分析方法。

上一节，我们针对QC中的现状调查来简要说了数据分析的方法论，既然要进行现状调查，意思就是对现有的情况做分析，那必然得从现有的数据中找问题，当我们有了一大堆数据，又用了方法论进行了背景分析后，就要开始真正对数据着手了——数据处理，也就是把拿到的原始数据经过一系列加工后变成我们想要的数据。

01 数据处理

首先我们要明确，处理数据可能会占到你数据分析的80%的时间，这意味着你将花大把的时间在理解数据和处理数据上，工欲善其事必先利其器，所以我们要学会一些可以做数据处理的工具，当然这并不是说“术”就一定高于法，要知道，“术”经过密集的培训，人人都可以在短时间内学会，但“法”是要依靠大量的经验积累而成，数据分析行业里总有这么一个说法：三分技术，七分业务，可想而知，对业务规则的理解和对数据分析方法的琢磨是多么的重要。另外，Excel是一个非常适合小白入门的数据分析工具，且Excel已经不能用强大来形容，所以入门数据分析就先好好学一下Excel，是很有必要的。

02 重复数据的处理

对于重复数据的处理当然是删除，但如何找到重复的数据，当然也不是靠数。在excel里变得简单许多，如可以用到countif公式、可以用筛选功能、可以用条件格式，最简单的就是用数据透视表计算某个字段的频次就可以指定是否重复了。

03 缺失值的处理

对于缺失值的处理，我们可以直接想到的就是删除以及用其他值替换，没错，就是这样出来，但是首先我们得要弄清楚，为什么会有缺失，这对我们的行为操作是很深远影响的，举例来说，用户年龄这个字段的缺失，是因为用户没有填而缺失，而有的字段如一些需要公式计算的字段，是因为分母为0了导致的错误运算，还有一些则可能是非人为原因导致的缺失，如数据存储失败、机器故障等。只有在明确了数据是为什么缺失的时候，才可以做到“因材施教”，采取不同的对策。

直接删除。直接删除带有缺失值数据的相关所有字段，那么剩下来的数据就还是完全的，不影响后续的操作，当然缺点是如果缺失数据太大还这样直接删除的话，数据量就会变少，同时也就失去了分析的意义。

对缺失值替换。众数、中位数、平均数、最大值、最小值等都可以用来替换平均值，做法简单，但是当然这是人为替换的，不能代表数据本身的含义。

04 数据抽取

a) 字段合并

说实话，在数据分析里合并字段很少见，通常我们是要把字段拆解成不可再细分的最小字段，因为字段合并非常的好做，但是字段拆解就相对来说困难的多了。

b) 字段分列

字段分列不是很好分，但也不是完全没有方法可寻，excel里有一个数据分列的功能，基本可以实现80%的需求，那还有20%就慢慢结合函数来做吧。

c) 字段匹配

Vlookup是excel一哥的地位有别的函数不服吗。有了vlookup已经可以解决我们多少工作中的难题，节省多少时间，提高多少效率，所以什么text、left、right函数都是闹着玩的，vlookup一定要用的炉火纯青。

05 数据转换

a) 行列转换。

即转置。

b) 数据标准化。

我们可能要对几个不同单位的字段统一综合分析，可能我们会给他们设置权重最后判断数值的平均得分，那么就需要用到数据标准化。常用的有（0,1）标准化，和z标准化，（0,1）标准化很好理解，就是把值重新锁定在（0,1）之间，当然我们还可以通过对公式的简单变化让值在（-1,0）、（-1,1）之间都是可以的。Z-标准化则更符合正态分布的逻辑。

c) 数据计算。

通过对原始数据进行简单的计算，产生更有意义更明确的衍生变量。包括各种Excel的函数，求和、平均啥的这里就不一一列举了，用的比较多的vlookup、count、countif以及函数嵌套可以重点掌握以下，excel里函数嵌套用的惊为天人的话，相信你只用excel就可以做数据挖掘了（手动滑稽一下）。

d) 变量分布转换。

原始数据分布偏差太大的，我们会对变量进行取对数、开平方、取指数等操作改善变量的分布。

06 异常值的判断和处理

异常值画个图可以很明显的看出来，通常是出现次数少且偏离数据集太大的值，异常值对于平均值的影响是非常大的，如果保留异常值，可能整体的数据都没法进行分析，但如果直接删掉异常值，又可能错失了一个判别动态的好机会。因此对于异常值可能需要我们辩证地看待。我刚入门数据分析的时候，做了一个案例，我把所有的值都打点在地图上，按某个字段计数，和柱状图一样，值越大，柱状图越高，我发现只有一个地方的柱状图异常的高，而其他点因为这个异常值的影响，已经看不出来有什么区别了，但是只要我把这个异常值给删掉，整个图就又变得一片光明了，趋势差异呈现的非常明显，当时我还不懂这个叫做异常值，我的老大给我讲解了一通以后，我变得豁然开朗，且当时按个异常值后来被发现是受设备影响导致的。

先到这里，后续再补充更新吧。

-END-