上节课我们讲到了如何从 Series 对象或 DataFrame 对象中提取数据。
在进行数据分析的时候,数据集中往往会包含有缺失值。在 pandas 中,用两个值来表示缺失值,一个是 None,一个是 NaN(Not a Number)。本节课我们就来讲下如何处理缺失的数据。
# 1.检测缺失数据
我们可以使用 isnull() 和 notnull() 来检测 Series 对象 或 DataFrame 对象中的缺失数据。
# 1.1 使用 isnull()
import pandas as pd
import numpy as np
my_series = pd.Series(np.array([4, -7, 6, -5, 3, 2, np.NaN, 8, 1, -9]))
print(my_series.isnull())
2
3
4
5
6
上面代码中,my_series 中有一个缺失值,调用 isnull() 函数后,缺失值对应的输出为 True。其他非缺失值对应的输出为 False。
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 141, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, 140, 143, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, 140, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, 143, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df.isnull())
2
3
4
5
6
7
8
9
10
11
12
13
上面代码中,对 df 使用 isnull() 函数后,缺失值对应的输出为 True。其他非缺失值对应的输出为 False。
# 1.2 使用 notnull()
import pandas as pd
import numpy as np
my_series = pd.Series(np.array([4, -7, 6, -5, 3, 2, np.NaN, 8, 1, -9]))
print(my_series.notnull())
2
3
4
5
6
上面代码中,对 my_series 使用 notnull() 函数后,缺失值对应的输出为 False。其他非缺失值对应的输出为 True。
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 141, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, 140, 143, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, 140, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, 143, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df.notnull())
2
3
4
5
6
7
8
9
10
11
12
13
上面代码中,对 df 使用 notnull() 函数后,缺失值对应的输出为 False。其他非缺失值对应的输出为 True。
# 2.去除缺失数据
我们可以使用 dropna() 去除缺失的数据。
# 2.1 去除至少包含一个缺失值的行或列
# 2.1.1 行的去除
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, np.NaN, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, 140, np.NaN, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, 140, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, 143, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
# 去除后
print(df.dropna())
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
上面代码中,对 df 使用 dropna(),对至少包含一个缺失值的行进行去除。
# 2.1.2 列的去除
默认是行的去除,当我们传入参数 axis=1 时,便是对列进行去除。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, np.NaN, np.NaN, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
# 去除后
print(df.dropna(axis=1))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
上面代码中,对 df 使用 dropna(axis=1),对至少包含一个缺失值的列进行去除。
# 2.2 去除全为缺失值的行
# 2.2.1 行的去除
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, np.NaN, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, 140, np.NaN, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
# 去除后
print(df.dropna(how='all'))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
上面代码中,对 df 使用 dropna(how='all'),对全为缺失值的行进行去除。
# 2.2.2 列的去除
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, np.NaN], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
# 去除后
print(df.dropna(axis=1, how='all'))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
上面代码中,对 df 使用 dropna(axis=1, how='all'),对全为缺失值的列进行去除。
# 2.3 通过 thresh 设置条件
# 2.3.1 行的去除
除了上面的两种去除方式外,我们还可以设置参数 thresh,此参数表示当一行中包含的非缺失值的个数大于或等于 thresh 的值时,不去除此行。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, np.NaN, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, np.NaN, np.NaN, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
# 去除后
print(df.dropna(thresh=3))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
上面代码中,我们设置 thresh = 3,表示当一行中包含的非缺失值的个数大于或等于 3 时,不去除此行,否则去除此行。
# 2.3.2 列的去除
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
# 去除后
print(df.dropna(axis=1, thresh=3))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
上面代码中,我们设置 axis=1, thresh=3,表示当一列中包含的非缺失值的个数大于或等于 3 时,不去除此列,否则去除此列。
# 2.4 inplace 参数
上面不管是对行还是对列的去除,都会生成一个新的对象,如果需要在原对象上进行修改,需要设置 inplace 参数。例如: 当不设置参数时:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, np.NaN, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, 140, np.NaN, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, 140, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, 143, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
# 去除后
print(df.dropna())
# 去除后的df
print(df)
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
从上面的代码输出可以看出,在不加 inplace 参数时,原对象不发生改变。要想原对象发生改变,需要设置参数 inplace。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, np.NaN, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([137, 140, np.NaN, 144, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, 140, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, 143, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
# 去除前
print(df)
df.dropna(inplace=True)
# 去除后的df
print(df)
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
添加参数 inplace=True 后,去除操作是在原对象上进行的。
# 3.填充缺失数据
除了上面对包含缺失值的行或列进行删除外,我们还可以使用函数 fillna()、replace() 对缺失值进行填充。
# 3.1 fillna()
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.fillna(0))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
上面代码中,fillna() 函数的参数为 0,表示将 df 中的缺失值替换为 0。fillna() 还可以传入 method 参数,表示填充的方法。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.fillna(method='ffill'))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
参数 method='ffill' 表示在列的方向上用前面的非空值填充后面的缺失值。如果想在行的方向上用前面的非空值填充后面的缺失值,可以增加参数 axis=1。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.fillna(method='ffill', axis=1))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
参数 ffill 表示用前面的值填充后面的值,我们还可以用后面的值填充前面的值。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.fillna(method='bfill'))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
参数 method=‘bfill' 表示在列的方向上用后面的非空值填充前面的缺失值。如果想在行的方向上用后面的非空值填充前面的缺失值,可以增加参数 axis=1。
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.fillna(method='bfill', axis=1))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
上面的例子中,在进行填充时,会进行连续的填充。如果我们不想进行连续的填充,可以通过参数限制填充的次数。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.fillna(method='ffill', limit=1))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
上面代码的输出结果中,在 Low 这一列进行填充时,只填充一个缺失值。在行的方向上进行填充也是类似的,例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.fillna(method='ffill', limit=1, axis=1))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
上面代码的输出结果中,在 2021-07-07、2021-07-08 这两行进行填充时,只填充一个缺失值。上面讲述了 fillna() 方法的使用,下面来讲下 replace() 方法的使用。
# 3.2 replace()
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
print(df.replace(np.NaN, 140))
2
3
4
5
6
7
8
9
10
11
12
13
14
15
上述代码将 df 对象中所有的 np.NaN 替换为 140。和 fillna() 一样,replace() 不会在原对象上进行替换,如果想在原对象上进行替换,需要设置参数 inplace=True。例如:
import pandas as pd
import numpy as np
d = {
"Open": pd.Series([136, 137, 140, 143, 143, 142, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"High": pd.Series([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN, 145, 146], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Low": pd.Series([135, 137, 140, np.NaN, np.NaN, 142, 144], index=['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12']),
"Close": pd.Series([137, np.NaN, 142, 144, np.NaN, 145, 144], index = ['2021-07-01', '2021-07-02', '2021-07-06', '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12'])
}
df = pd.DataFrame(d)
print(df)
df.replace(np.NaN, 140, inplace=True)
print(df)
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 4.总结
本节课我们讲述了缺失值的处理。
# 5.练习题
创建一个包含缺失值的 DataFrame,并使用 fillna 方法对缺失值进行填充。