第三章清洗数据

在进行数据分析时，得出的结论准确与否在很大程度上依赖于数据质量的好坏。一般来说，如果使用的数据质量很差，得出的结论也很不准确。如果要使用数据来做决策，在使用数据之前必须对数据进行清洗以保证数据的质量。

# 1.什么是数据清洗？

数据清洗就是对数据集中不正确的、相互冲突的、格式错误的、重复的以及不完整的数据进行修复或删除。如果数据是错误的，通过数据得出的结论便是不准确的，即使它们看起来正确。

# 2.数据清洗和数据转换的区别？

数据清洗是将不属于数据集的数据删除掉，数据转换是将数据从一种格式或结构转换为另一种格式或结构。

# 3.如何清洗数据？

尽管由于数据类型的不同而采用的数据清洗技术多少会有些差异，但是基本上可以遵照如下步骤。

# 3.1 删除重复或不相关数据

从数据集中删除不需要的数据，包括重复的和不相关的数据。重复数据多产生在数据收集阶段。当我们将多处的数据集进行合并，通过爬虫爬取数据以及接收来自多客户端、多部门的数据时，往往会导致重复数据的产生。去重是在数据清洗的过程中需要重点考虑的一块。不相关数据指的是和我们将要进行分析的问题不相关的数据。例如，我们将要对千禧年的客户进行分析，但是数据集中包含了老一辈的数据，这时候我们便可以将这些不相关的数据删除，删除不相关数据之后将使我们的分析更有效率并且更能聚焦于主要目标。

# 3.2 修复结构上的错误

结构错误指的是数据集中奇怪的命名方式、拼写错误以及不正确的大小写。这种不一致会导致错误的分类。例如，在数据集中“N/A”和“Not Applicable” 有可能会同时出现，但是在分析时，他们表示的是同一个意思，应该归为同一类。

# 3.3 过滤不需要的异常值

通常情况下，有一些值乍一看不应该出现在我们要分析的数据集中。如果你有足够的理由来删除这些异常值，例如这些异常值由于不正确的数据输入造成的，那么删除这些异常值将会提升我们的数据分析效率。但是，有些时候异常值的存在就是为了证明某个理论的。在这种情况下，我们要记住的是，异常值的存在并不意味着它是不正确的。这时候，我们需要确认这个异常值的有效性，如果一个异常值被确认是和分析不相关的或者是错误的，那么可以考虑对其进行删除。

# 3.4 处理缺失数据

因为许多算法不接受缺失值，所以需要对缺失值进行处理。有多种方法可以用来处理缺失值，没有哪一种方法是最优的，我们可以综合考虑这些方法以选择最适合的方法。

丢弃包含缺失值的记录，这样做会丢失一些信息，所以在丢弃数据记录之前一定要做认真的考虑。
根据其他数据来对缺失值进行填充，使用这种方法有可能会损失数据的完整性，因为对数据的填充是基于一些假设的，并不是真实的值。

# 4.高质量数据的特征

有效的。数据符合业务规则或约束。
准确的。数据接近真实值。
完整的。包含了需要的全部数据。
一致的。某个数据集或者多个数据集中的数据是一致的。
统一的。数据采用的度量单位是统一的。

# 5.清洗数据的好处

拥有干净的数据会从整体上提升效率并且能够使用高质量的数据来做商业决策。

# 6.总结

本节课我们讲述了数据清洗的重要性以及如何做数据清洗。