张量
关键属性
轴的个数(阶)
例如,3D张量有3个轴,矩阵有2个轴。这在Numpy等Python库中也叫张量的ndim。
形状
这是一个整数元组,表示张量沿每个轴的维度大小(元素个数)。例如,前面矩阵示例的形状为(3,5),3D张量示例为(3,3,5)。向量的形状只包含一个元素,比如(5,),而标量的状态为空,即()。
数据类型(在Python库中通常叫做(dtype)
这是张量中所包含堵数据的类型,例如张量的类型可以是float32,uint8,float64等。
具体说明:
首先加载MNIST数据集
form keras.datasets import mnist (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
张量train_images的轴个数,即ndim属性
>>> print(train_images.ndim) 3
张量train_images形状,即shape属性
>>> print(train_images.shape) (60000,28,28)
数据类型,即dtype属性
>>> print(train_images.dtype) uint8
由以上可以得出,train_images是一个由8位整数组成的3D张量。
更确切的说,它是60000个矩阵组成的数组,每个矩阵由 28×28 个整数组成。每个这样的矩阵都是一张灰度图像,元素组成范围位 0~255。
显示数字
首先要加载MNIST数据集
import keras.datasets import mnist (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
使用matplotlib画数字
digit = train_image[4] import matplotlib.pyplot as plt plt.imshow(digit, cmap=plt.cm.binary) plt.show()
显示如下
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mYRinB3l-1658044291225)()]
类型
标量(0D张量)
仅包含一个数字的张量叫做标量(scalar)。
向量(1D张量)
数字组成的数组叫做向量(vector)。
矩阵(2D)张量
向量组成的数组叫做矩阵(matrix)。
3D张量与更高维张量
将多个矩阵组合成一个新的数组就,可以得到一个3D张量,可以直观地理解为一个立方体。
将多个3D张量组成一个数组可以创作一个4D张量,以此类推。
数据张量
向量数据
- 2D张量,形状为(samples,fetures)。
- 对于这种数据集,每个数据点都被编码为一个向量,其中第一个为样本轴即samples,第二个轴为特征轴即fetures。
- 举例:
- 统计人口数据集,每个人的信息包含每个人的年龄、邮编和收入。每个人可以表示包含三个值的向量,而整个数据集包含100000个人,因此可以存储在形状为(100000,3)的2D向量中。
- 文本文档数据集,我们将每个文档表示为每个单词在其中出现的次数(字典中包含20000个常见单词)。我们每个文档可以被编码为包含20000个值的向量(每个值对于于字典中每个单词出现的次数),整个数据集包含500个文档,因此可以存储在形状为(500,20000)的张量中。
时间序列数据或序列数据
- 3D张量,形状为(samples,timesteps,fetures)。
- 当时间或序列顺序对数据很重要是,应该将数据存储在带有时间轴的3D张量中。根据惯例,时间轴始终是第二个轴。
- 样本轴samples,时间轴timesteps,特征轴feture。
- 举例:
- 股票价格数据集。每一分钟,我们将股票的当前价格、前一分钟的最高价格和前一秒钟的最低价格保存下来。因此每分钟被编码为一个3D向量,整个交易日被编码为一个形状为(390,3)的2D张量(一个交易日有390分钟),而250天的数据则可以保存在一个形状为(250,390,3)的3D张量中。这里每个样本都是一天的股票信息。
- 推文数据集。我们将每条推文编码为280个字符组成的序列,而每个字符又来自于128个字符组成的字母表。在这种情况下,每个字符可以被编码为大小为128的二进制向量(只有在该字符对应的索引位置取1,其他元素都为0)。那么每条推文可以被编码为一个形状为(280,128)的2D张量,而包含100万条推文的数据集则可以存储在一个形状为(1000000,280,128)的张量中
图像
- 4D张量,形状为(samples,height,width,channels)或(samples,channels,height,width)。
- 图像通常具有三个维度:高度、宽度和颜色深度。
- 虽然灰度图像只有一个颜色通道,因此可以保存在2D张量中,但按照归案例,图像张量始终都是3D张量,灰度图像的色彩通道只有一维。因此如果图像大小为256×256,那么128张灰度图像组成的批量可以保存在一个形状为(128,256,256,1)的张量中,而128张彩色图像组成的批量可以保存在一个形状为(128,256,256,3)的张量中。
- 图像张量的形状有两种约定:**通道在后(channels-last)**的约定(**在 TensorFlow 中使用)和通道在前(channels-first)**的约定(在Theano中使用)。
- 形状也可写成(samples,height,width,color_depth) color_depth是颜色通道
视频
5D张量,形状为(samples,frames,height,width,channels)或(samples,frames,channles,height,width)。
视频可以看作一系列帧,每一帧都是一张彩色图像。由于每一帧可以保存在一个形状为(height,width,color_depth)的3D张量中,所以一系列帧可以保存在一个形状为(frames,height,width,color_depth)的4D张量中。(freames为帧率的意思)。而不同视频组成的批量则可以保存在一个5D张量中,其形状为
(samples,frames,height,width,color_depth)。
举例:
- 一个以每秒4帧采样的60秒的视频片段,其视频尺寸为144×256,这个视频总共有240帧。4个这样的视频片段组成的批量将保存在形状为(4,240,144,256,3)的张量中。总共106168320个值。如果张量的数据类型为(dtype)为float32,每个值都是32位,那么这个张量共有405MB。现实中的视频不以float32格式存储,而是被大大压缩。
这样的视频片段组成的批量将保存在形状为(4,240,144,256,3)的张量中。总共106168320个值。如果张量的数据类型为(dtype)为float32,每个值都是32位,那么这个张量共有405MB。现实中的视频不以float32格式存储,而是被大大压缩。
文章评论