0%

Numpy多维数组的切片和索引

本文为转载自:ZMonster’s Blog

切片操作

Numpy 中多维数组的切片操作与 Python 中 list 的切片操作一样,同样由 start, stop, step 三个部分组成。

1
2
3
4
5
6
7
8
9
10
11
12
13
import numpy as np

arr = np.arange(12)
print('array is:', arr)

slice_one = arr[:4]
print('slice begins at 0 and ends at 4 is:', slice_one)

slice_two = arr[7:10]
print('slice begins at 7 and ends at 10 is:', slice_two)

slice_three = arr[0:12:4]
print('slice begins at 0 and ends at 12 with step 4 is:', slice_three)
1
2
3
4
array is: [ 0  1  2  3  4  5  6  7  8  9 10 11]
slice begins at 0 and ends at 4 is: [0 1 2 3]
slice begins at 7 and ends at 10 is: [7 8 9]
slice begins at 0 and ends at 12 with step 4 is: [0 4 8]

上述例子是一维数组的例子,如果是多维数组,将不同维度上的切片操作用 逗号分开就好了。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# coding: utf-8
import numpy as np

arr = np.arange(12).reshape((3, 4))
print('array is:')
print(arr)

# 取第一维的索引 1 到索引 2 之间的元素,也就是第二行
# 取第二维的索引 1 到索引 3 之间的元素,也就是第二列和第三列
slice_one = arr[1:2, 1:3]
print('first slice is:')
print(slice_one)

# 取第一维的全部
# 按步长为 2 取第二维的索引 0 到末尾 之间的元素,也就是第一列和第三列
slice_two = arr[:, ::2]
print('second slice is:')
print(slice_two)
1
2
3
4
5
6
7
8
9
10
array is:
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
first slice is:
[[5 6]]
second slice is:
[[ 0 2]
[ 4 6]
[ 8 10]]

对于 slice_two,如果 arr 是用 Python 的 list 表示的,那么要得到相同的结果得像下面这样,相对来说就麻烦多了:

1
2
3
4
5
6
7
8
import numpy as np

arr = np.arange(12).reshape((3, 4)).tolist()

slice_two = [
row[::2] for row in arr
]
print(slice_two)
1
[[0, 2], [4, 6], [8, 10]]

对于维数超过 3 的多维数组,还可以通过 ‘…’ 来简化操作

1
2
3
4
5
6
7
# coding: utf-8
import numpy as np

arr = np.arange(24).reshape((2, 3, 4))

print(arr[1, ...]) # 等价于 arr[1, :, :]
print(arr[..., 1]) # 等价于 arr[:, :, 1]
1
2
3
4
5
[[12 13 14 15]
[16 17 18 19]
[20 21 22 23]]
[[ 1 5 9]
[13 17 21]]

索引操作

最简单的情况

对于一个多维数组来说,最简单的情况就是访问其中一个特定位置的元素了,如下所示:

1
2
3
4
5
6
7
8
9
10
# coding: utf-8
import numpy as np

arr = np.array([
[1, 2, 3, 4],
[2, 4, 6, 8],
[3, 6, 9, 12],
[4, 8, 12, 16]
])
print('第二行第二列的值:', arr[1, 1])
1
第二行第二列的值: 4

相比之下,如果用 Python 的 list 来表示上述二维数组,获取同一个位置的元素的方法为:

1
2
3
4
5
6
7
8
9
10
11
12
# coding: utf-8
arr = [
[1, 2, 3, 4],
[2, 4, 6, 8],
[3, 6, 9, 12],
[4, 8, 12, 16]
]
print '第二行第二列的值:', arr[1][1]
try:
print('第二行第二列的值(尝试用 Numpy 的方式获取):', arr[1, 1])
except Exception as e:
print(str(e))
1
2
第二行第二列的值: 4
第二行第二列的值(尝试用 Numpy 的方式获取): list indices must be integers, not tuple

如果只是二维数组,这种差别可能看起来并不大,但想象一下假如有一个 10 维的数组,用 Python 的标准做法需要写 10 对中括号,而用 Numpy 依然只需要一对。

获取多个元素

事实上,在 Numpy 的索引操作方式 x = arr[obj] 中, obj 不仅仅可以是一个用逗号分隔开的数字序列,还可以是更复杂的内容。

  1. 用逗号分隔的数组序列

    • 序列的长度和多维数组的维数要一致
    • 序列中每个数组的长度要一致
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    import numpy as np

    arr = np.array([
    [1, 2, 3, 4],
    [2, 4, 6, 8],
    [3, 6, 9, 12],
    [4, 8, 12, 16]
    ])

    print(arr[[0, 2], [3, 1]])
    1
    [4 6]

    以上面这个例子来说,其含义是: 选择第一行和第三行,然后对第一行选择第四列,对第三行选择第二列。

  2. boolean/mask index

    这个不太好翻译,所以就用原来的英语表达。

    所谓 boolean index,就是用一个由 boolean 类型值组成的数组来选择元素的方法。比如说对下面这样多维数组

    1
    2
    3
    4
    array([[1, 2, 3, 4],
    [2, 4, 6, 8],
    [3, 6, 9, 12],
    [4, 8, 12, 16]])

    如果要取其中 值大于 5 的元素,就可以用上 boolean index 了,如下所示:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    import numpy as np

    arr = np.array([[1, 2, 3, 4],
    [2, 4, 6, 8],
    [3, 6, 9, 12],
    [4, 8, 12, 16]])
    mask = arr > 5

    print('boolean mask is:')
    print(mask)

    print(arr[mask])
    1
    2
    3
    4
    5
    6
    boolean mask is:
    [[False False False False]
    [False False True True]
    [False True True True]
    [False True True True]]
    [ 6 8 6 9 12 8 12 16]

    除了比较运算能产生 boolean mask 数组以外, Numpy 本身也提供了一些工具方法:

    • numpy.iscomplex
    • numpy.isreal
    • numpy.isfinite
    • numpy.isinf
    • numpy.isnan