第二章:向量与矩阵基础
第二讲:向量与矩阵的基本概念与运算
2.1向量与矩阵的基本概念
点的平面、空间坐标;球在空间当中的位置;力、加速度等,需要多个数字来刻画
在数据科学,模式分析,人工智能领域,我们也需要刻画来自网络世界中的对象:一副图像,一段文字,一条记录等等。为了准确理解这些传感器中的数值以及数据,我们也需要根据一定的顺序来排列这些数据,让他形成有序的数组来避免混淆。
我们把数组抽象出来,那么就会形成向量的概念。数组中每个数据由n个索引来确定,那么这个数组就被称为n元有序数组,也会称其为数表。如果这个数表是 nXm 的,那么将其抽象出来就得到了矩阵的概念。
比如,我们用词袋模型来解释一下:
向量的定义:
在给出响亮的形式化定义之前,我们先给出数组中的数值定义一个所属的范围,以方便向量进行代数运算,也就是数域
定义一:
设 $\mathbb K$ 是由一些数组成的集合,如果 $\mathbb K$ 中包含0与1 ,并且$\mathbb K$ 中任意两个数的和,差,积,商(除数不为0)仍在$\mathbb K$中,则称 $\mathbb K$是一个数域
有理数集,实数集和复数集都是数域,他们分别称为有理数域$\mathbb Q$ 实数域 $\mathbb R$ 和 复数域 $\mathbb C$
定义二:
由数域 $\mathbb K$ 中的n个数 组城的有序数组$(a_1,a_2,….a_n)$称为 $\mathbb K$ 上的n维向量,记为 a$=(a_1,a_2,….a_n)$ ,其中第i个数$a_i$ 称为 a 的第i个分量
当 a 的每个分量是实数时,则称 a 为实向量。所有n维实向量构成的集合记为 $\mathbb R^n$
当 a 的每个分量是复数时,则称 a 为复向量。所有n维复向量构成的集合记为 $\mathbb C^n$
上述定义的是行向量。在实际使用中,我们通常使用列向量。我们可以使用转置把列向量转换成行向量,或者把行向量转换成列向量
根据上述定义,例一中的四个数组用向量表示即为:
在科学和工程中遇到的向量可以分为以下三种:
1)物理向量:泛指既有幅值,又有方向的物理量:如速度、加速度、位移等
2)几何向量:为了把物理向量可视化,常用带方向的线段表示。这种有向线段被称为集合向量。例如:$v=\vec{AB}$ 表示的有向线段。起点为 A,终点为B。
3)代数向量:几何向量可以用代数形式表示。例如,若平面上的几何向量 $v=\vec{AB}$ 的起点坐标为$A=(a_1,a_2)$ 终点坐标为$B= (b_1,b_2)$ 则该集合向量可以表示为代数形式 $\left(\begin{matrix}b_1-a_1\b_2-a_2\end{matrix}\right)$ .这种代数形式表示的集合向量成为代数向量。
可以这样细分:
根据取值种类不同,代数向量又可以分为下面三种:
1) 常数向量: 向量的元素全部为实常数或者复常数,如 a = $[1,5,4]^T$ 等
2) 函数向量: 向量的元素包含了函数,如 $x = [1,x^2,x^3,…,x^n]^T$ 等
3) 随机向量: 向量的元素为随机变量或者随机过程 如 $x(n) = [x_1(n),…,x_m(n)]^T$ 其中 $x_1(n),…x_m(n)$是m个随机过程或者随机信号(概率基础部分会讨论)
文本向量集的表示
矩阵的定义:
- 矩阵是一个二元数组,二向量是矩阵的一种特殊形式,当 m = 1 或者 n= 1的时候,矩阵退化为向量
- 1Xn 的矩阵称之为行向量
- mX1的矩阵称之为列向量
- 当A的每个元素是是实数,则称A是实矩阵。所有n维实矩阵构成的集合为 $\mathbb R^{mxn}$
- 当A的每个元素是是复数,则称A是复矩阵。所有n维复矩阵构成的集合为 $\mathbb C^{mxn}$
在例二中,6X4 的 而原数组被称为一个词项-文档矩阵,这个矩阵的每一列表示一个新闻提要的词频向量,每一行表示每个词项在各个新闻中出现的权重。
在例三中,15X14 的而原数组被称为一个灰度图像矩阵,这个矩阵的每一行代表水平像素,每一列代表垂直像素
总结:
一元数组:向量
二元数组: 矩阵
三元数组及以上的高维数组:
更好的表示
- 寻找原始特征向量的低维近似: 主成分分析和奇异值分解
- 寻找原始特征向量的高维表示: 利用特征映射构造原始特征向量的高维非线性组合。
2.2向量和矩阵的运算
向量的线性运算
向量之间的基本代数运算有两种:加法和数乘,统称为向量的线性运算
定义4
设向量 $a = (a_1,a_2…,a_n),b=(b_1,b_2…,b_n)$则向量 $(a_1+b_1,a_2+b_2,…,a_n+b_n)$称为 向量a和向量b的和,记作 a+b 即 a+b = $(a_1+b_1,a_2+b_2,…,a_n+b_n)$
定义 5
设向量 $a = (a_1,a_2…,a_n)$ k 是数域 $\mathbb K$ 中的数,则向量 $(ka_1,ka_2,…,ka_n)$称为 数k与向量a的乘积,简称数乘。记作 ka 即 ka = $(ka_1,ka_2,…,ka_n)$
定理
矩阵的加法
定义6
定理2
矩阵的乘法
定义7
定理3
定义8
定义9
定理4
矩阵的分块乘法
例如:
初等矩阵
定义10
所谓数域$\mathbb K$ 上的矩阵的初等行(列) 变换是指下列三种变换:
1) 以$\mathbb K$ 中一个非零的数乘矩阵的某一行(列)
2)把矩阵的某一行(列)的c倍加到另一行(列),这里c是 $\mathbb K$ 的任意一个数字
3) 呼唤矩阵中两行(列)的位置
定义11
由单位矩阵I经过一次初等行(列)变换得到的 矩阵被称为初等矩阵
定理5
对一个m x n 的矩阵 A 作一初等变换就相当于在A左边呈上相应的mXm 的初等矩阵;对A作一初等列变换就相当于在A右边乘上相应的 nxn 的初等矩阵
例题:
矩阵的逆
定义12
设 A是 数域$\mathbb K$ 上的 nxn 矩阵,如果存在 $\mathbb K$上的nxn矩阵 B,使得 $AB = BA = I $,则称 A 为可逆矩阵,简称A 可逆,而B则称为 A的逆矩阵,记作 A^-1^
并不是每个 nxn的举证都可逆,如果A可逆,我们称A是可逆的或正规的或非奇异的,否则称A 是奇异的或非可逆的
定理6
n 阶矩阵 A 可逆的充分必要条件是它能表示成一些初等矩阵 $Q_1,Q_2,…,Q_m$ 的乘积: $A= Q_1Q_2…Q_m$
例题:
矩阵的转置
定义13
设 $A=(a{ij}){mn}$ , 把 A 的 行列互换所得到的矩阵称为A的转置,记作$A^T$ 或者 $A’$ ,即 $A^T=A = (a{ij}){mn}$
对于一个方阵A, $A^T$相当于我们把A沿着它的对角线做一个镜像,而且如果A是对称的 ,则 $A=A^T$
用矩阵表示线性方程组
小结:
第三讲:向量空间与子空间
3.1向量空间的基本概念
引例
这是一个鸢尾花数据集,这是一个四维的数据集。我们希望把它降维来变成二维或者三维的数据,这样就可以进行数据可视化了。横坐标和纵坐标是原特征的一些线性组和,通过这两个坐标可以反应原向量的性质。所以向量空间和子空间是数据科学、人工智能、机器学习领域的出发点。一些基本的处理任务,都可以放到向量空间以及子空间来考虑。
向量空间是数据处理空间的出发点
定义1
设 $\mathbb V$ 是由n维向量组成的非空集合,$\mathbb K$ 是一个数域。在 $\mathbb V$ 上定义了加法,在 $\mathbb K$ 与集合 $\mathbb V$上定义了数乘,并且 $\forall a,b\in \mathbb V$ 及任意数 $k\in\mathbb K$ ,由 $a+b,ka\in \mathbb V$,则称$\mathbb V$ 对于向量的加法和数乘两种运算封闭,$\mathbb V$ 为数域$\mathbb K$ 上 n维向量空间或者线性空间。
例1
同样的我们把 $\mathbb R^n$和 $\mathbb C^n$ 命名为实向量空间和复向量空间
例2
例3
刚才我们假设 $\mathbb {V,K}$ 都是相等的,那么下面这个例子 $\mathbb {V,K}$ 是不相等的。
例4
所以我们可以看出向量空间中的元素不一定是数字向量,可以是矩阵也可以是多项式。向量空间的本质就是集合对加法和数乘运算封闭。这两个运算是线性运算,所以我们也称向量空间为线性空间。
3.2向量子空间
在数据科学当中,我们常常得到海量的高维数据。但这些数据经常是只有几个维度和我们的预测问题有关。也就是说我们只要考虑高维空间中的低维子空间就能解决问题。
定义2
设$\mathbb X$ 是 $\mathbb K$上的n维线性空间,$\mathbb Y$ 是$\mathbb X$ 的子集,且满足: 若 $x,y\in \mathbb Y $,则 $x+y\in \mathbb Y$ ;若 $a\in \mathbb K,x\in \mathbb Y$ 则 $ax\in \mathbb Y$ ,则称$\mathbb Y$是$\mathbb X$ 的线性子空间,简称子空间
例5
非空线性空间一定会有的子空间: 自身和{0}. 我们把只含零向量的子集称为零子空间。零子空间和线性空间本身统称为平凡子空间。其他的子空间叫做非平凡子空间。
例6
ABC都不是子空间,只有D是子空间。
例7
- 线性方程组 Ax=0的解空间是 $\mathbb R^n$ 中常见的子空间
- 线性方程组Ax = b的解空间,当 b不等于0的时候,不是子空间
- 令$ Ax_1=b Ax_2=b A(x_1+x_2) = Ax_1+Ax_2 = 2b \not= b$
- 线性方程组Ax = 0的解空间和Bx=0的解空间的交集也是$\mathbb R^n$ 中的子空间
- $Ax=0$的解为$V_1, Bx=0$ 的解为$V_2$ 那么 令 $x_1,x_2\in V_1\cap V_2,Ax_1=Ax_2=0,Bx_1=Bx_2=0,A(x_1+x_2)=B(x_1+x_2)=0$说明对加法封闭。同理对数乘也是封闭的。
子空间的交、和、直和
定理1
设$\mathbb Y_1$ 与$\mathbb Y_2$ 都是数域$\mathbb K$上的线性空间 $\mathbb X$ 的子空间。若用$\mathbb Y_1\cap \mathbb Y_2$ 表示 $\mathbb Y_1$ 与$\mathbb Y_2$中$\mathbb Y_1\cap \mathbb Y_2$的公共元素集合,则$\mathbb Y_1\cap \mathbb Y_2$也是$\mathbb X$ 的子空间。且称 $\mathbb Y_1\cap \mathbb Y_2$ 为 $\mathbb Y_1$ 与 $ \mathbb Y_2$ 的交
定理2
设$\mathbb Y_1$ 与$\mathbb Y_2$ 都是数域$\mathbb K$上的线性空间 $\mathbb X$ 的子空间。若用$\mathbb Y_1 + \mathbb Y_2$ 表示全体形如$y_1+y_2(y_1\in\mathbb Y_1,y_2\in \mathbb Y_2)$ 的向量组成的集合,则$\mathbb Y_1 + \mathbb Y_2$ 也是 $\mathbb X$ 的子空间,且称 $\mathbb Y_1 + \mathbb Y_2$ 为 $\mathbb Y_1$和 $\mathbb Y_2$ 的和
定义3
如果 $\mathbb Y$ 中的每个向量x可唯一地表成 $x=y_1+y_2(y_1\in\mathbb Y_1,y_2\in \mathbb Y_2)$ 地形式,则称$\mathbb Y$ 为$\mathbb Y_1$ 与$\mathbb Y_2$ 的直和,记作 $\mathbb Y = \mathbb {Y_1+Y_2}$或者$\mathbb Y_1 \bigoplus \mathbb Y_2$
定理3
如果 $\mathbb Y$ 中的每个向量x可唯一地表成 $x=y_1+y_2(y_1\in\mathbb Y_1,y_2\in \mathbb Y_2)$ 可推出$y_1=y_2=0$
推论
$\mathbb Y_1 + \mathbb Y_2$ 为直和地充分必要条件是 :有$\mathbb Y_1\cap \mathbb Y_2 = {0}$
注意,子空间的并集不一定是子空间。假设$\mathbb X$是由 $R^2$构成的,那么令 x,y轴为连个子空间,那么这两个子空间的和就是整个平面上的点,但是这两个集合的并仅仅是x、y轴上的点,不能构成子空间
3.3线性无关性
线性表出定义
定义4
设向量$a_1,a_2…,a_s$是数域$\mathbb K$ 上的n维向量组。 $k_1,k_2,…,k_s$是数域$\mathbb K$上的一组数,那么表达式 $k_1a_1+k_2a_2+…+k_sa_s$ 称为向量组$a_1,a_2…,a_s$的一个线性组合,而$k_1,k_2,…,k_s$称为组合系数
定义5
若向量b是向量组 $a_1,a_2…,a_s$ 的一个线性组合,即 $b =k_1a_1+k_2a_2+…+k_sa_s$ 则称 b可以由向量组$a_1,a_2…,a_s$ 线性表出
例8
零向量0总可以写成其他一些向量的线性组合
例9
例如,设向量组
$a_1=(2,-1,3,1)$
$a_2=(4,-2,5,4)$
$a_3 = (2,-1,4,-1)$
则有$a_3 = 3a_1-a_2$ ,这表示$a_3$可以由$a_1,a_2$线性表出
线性相关/无关
定义 6
设$ai\in \mathbb K^n$ (i=1,2,….r) 若在$\mathbb K$ 中存在r个不全为零的数 $\lambda_i (i=1,2,…,r)$使$\sum{i=1}^r\lambdaia_i=0$ , 则称向量组 $a_1,a_2,…a_r$ 线性相关。反之,如果向量组$a_1,a_2,…,a_r$ 不线性相关,即只有当$\lambda_1,\lambda _2,…,\lambda_r$ 全为0时,才能使得 $\sum{i=0}^r\lambda_ia_i=0$ 则称向量组 $a_1,a_2,…,a_r$ 线性无关
定义7
向量组的一部分组 称为一个极大线性无关组,如果这个部分组本身线性无关,但从原向量组的其余向量中任取一个添加进去后,所得的部分组都线性相关。
例10
这三对信息中,任意两对构成了极大线性无关组
例11
在向量组:
$a_1 = (2,-1,3,1) ,a_2=(4,-2,5,4),a_3=(2,-1,2,3)$
中,由$a_1,a_2$组成的部分组 就是一个极大的线性无关组。首先,$a_1,a_2$线性无关,因为由
$k_1a_1+k_2a_2=k_1(2,-1,3,1)+k_2(4,-2,5,4) = (2k_1+4k_2,-k_1-2k_2,3k_1+5k_2,k_1+4k_2)=(0,0,0,0)$
就有 $k_1=k_2=0$同时,$a_1,a_2,a_3$线性相关($a_2=a_1+a_3$)
不难看出,$a_2,a_3$也是一个极大线性无关组
等价
定义8
设 $a_1,a_2…,a_s$ 和 $b_1,b_2,…,b_t$ 时数域$\mathbb K$ 上的两个向量组,如果向量组 $a_1,a_2,…,a_s$中每一个向量 $a_i(i=1,2,3…,s)$ 都可以用向量 $b_1,b_2,…,b_t$ 线性表出,那么称向量组 $a_1,a_2,…,a_s$可以用向量组$b_1,b_2,…,b_t$线性表出。如果两个向量组可以互相线性表出,则称他们为等价。
例12
3.4生成集、基底、坐标
生成集
定义9
设 $a1,a_2,…,a_r$ 是$\mathbb V$ 的一组向量,则这组向量所有可能的线性组合 $\sum{k=1}^{r}\lambda_ka_k$ 所成的集合 是$\mathbb V$的一个子空间,称为由 $a_1,a_2,…,a_r$ 张成的子空间,记作 $L(a_1,a_2,…,a_r)$ 或 $span(a_1,a_2,…,a_r)$ 。 ${a_1,a_2,…,a_r}$ 叫做 $\mathbb V$的一个生成集。
定理4
两个向量组张成相同的子空间的充要条件是:这两个向量组等价。
基地与维数
定义10
如果在向量空间$\mathbb V$中由n个线性无关的向量 $a_1,a_2,…a_n$ 且$\mathbb V$ 中任一向量都可以用它们线性表出,则称 $\mathbb V$ 为 $ \mathbb K$上的n维线性空间,n称为$\mathbb V$ 的维数,记作 $dim(\mathbb V)=n$。 而 $a_1,a_2,…a_n$ 就是 $\mathbb V $ 的一组基
注意:基可以作为生成集,但是生成集不一定是一组基,因为生成集不一定是线性无关的,但是基一定是线性无关的。
例13
复数域 $\mathbb C$ 在$\mathbb C$ 上和 $\mathbb R$ 上是两个不同的向量空间
- 因为在 $\mathbb C$ 上 他是一维的,所以数1就是一组基
- 而在$\mathbb R$ 上是二维的,数1和i是一组基
这个例子告诉我们维数和所考虑的数域是有关的
定理5
令$\mathbb V$ 是一向量空间 $\mathbb B\in \mathbb V$ ,$\mathbb B \not= \emptyset$ 下列命题等价:
- $\mathbb B$是 $\mathbb V$ 的一个基
- $\mathbb B$ 是最小生成集
- $\mathbb B$ 是 $\mathbb V$ 中的极大线性无关组
- $\mathbb V$ 中的每一个向量都能被 $\mathbb B$ 线性表出
标准基
定义11
如果一组基中的每一个向量长度均为1,我们称其为标准基
在后面的课程中,我们将会严格说明向量的长度
例4
确定一组基
对于一个由向量$x_1,x_2,x_3$张成的向量空间 $\mathbb U \subseteq \mathbb R^4$
$x_1 =$ $\left(\begin{matrix}1\0\1\0\end{matrix}\right)$ , $x_2 = $ $\left(\begin{matrix}0\1\1\1\end{matrix}\right)$ , $x_3=$ $\left(\begin{matrix}1\1\2\1\end{matrix}\right)$
我们关心$x1,x_2,x_3$是否是$\mathbb U$的一组基。为此,我们需要确认 $x_1,x_2,x_3$是否线性无关。因此,我们需要解 $\sum{i=1}^3\lambda_ix_i = 0$
也就是子空间可以通过基底扩张变成一个新的空间。
子空间的扩张
定理6
设 $\mathbb Y = L(a1,a_2,…,a_m)$ 是n维空间 $\mathbb X$ 的一个m维子空间,则向量组 $a_1,a_2,…,a_m$可扩张为 $a_1,a_2,…,a_m,a{m+1},…,an$ 使得 $\mathbb X= L(a_1,a_2,…,a_m,a{m+1},…,a_n) $
注意: 其中 $L(a_{m+1},…,a_n)$ 也是 $\mathbb X$ 的一个子空间。
$L(a{m+1},…,a_n)\bigoplus L(a_1,a_2,…,a_m) = L(a_1,a_2,…,a_m,a{m+1},…,a_n) $
定理7
维数公式: $dim(\mathbb {Y_1+Y_2}) = dim\mathbb Y_1+dim\mathbb Y_2 - dim(\mathbb {Y_1\cap\mathbb Y_2})$
对于直和:$dim(\mathbb Y_1 \bigoplus\mathbb Y_2) =dim\mathbb Y_1+dim\mathbb Y_2$
定义12
如果一个向量空间 $\mathbb V$ 中任一向量都能被n个线性无关的向量线性表出的时候,$\mathbb V$ 称为有限维线性空间,否则称为无限维线性空间。
有限维线性空间
- n维向量空间
- nxm维矩阵空间
- 最高次为 n次的多项式空间
- 复数域
无限维线性空间
- 所有的多项式构成的空间
- 一阶可导函数空间
- 傅里叶变换后的频域空间
坐标
在n维向量空间 $\mathbb V$中,n个线性无关的向量 $\epsilon_1,\epsilon_2,…,\epsilon_n$称为$\mathbb V$的一组基。设 $\alpha$ 是$\mathbb V$中任一向量,于是 $\epsilon_1,\epsilon_2,…,\epsilon_n \alpha $线性相关,因此$\alpha$可以被基$\epsilon_1,\epsilon_2,…,\epsilon_n$ 线性表出:
$\alpha = a_1\epsilon_1+a_2\epsilon_2+…+a_n\epsilon_n$
其中 系数 $a_1,a_2,…,a_n$是被向量 $\alpha $和基$\epsilon_1,\epsilon_2,…,\epsilon_n$唯一确定的,这组数就称为$\alpha$在$\epsilon_1,\epsilon_2,…,\epsilon_n$ 下的坐标,记为 $(a_1,a_2,…,a_n)$
例16
例17
3.5秩、矩阵的秩
定义14
向量组 $a_1,a_2,…,a_r$的极大线性无关组中,所含向量的个数称为这个向量组的秩,记作 $rank{a_1,a_2,…,a_r}$
定义15
矩阵A的行(列)向量组的秩称为A的行秩(列秩),其中矩阵的行秩和列秩相等,他们都成为矩阵A的秩,记作$rank(A)$
定理8
$dimL(a_1,a_2,…,a_r) = rank{a_1,a_2,…,a_r}$
例18
例19
3.6仿射子空间
定义16
令 $\mathbb V$ 是一线性空间,$x_0\in V$ 且 $\mathbb U\subseteq \mathbb V$ 是一线性子空间,则子集
$\mathbb L = x_0+\mathbb U:={x_0+u|u\in\mathbb U}\subseteq \mathbb V$ 是一仿射子空间。
我们定义仿射子空间的维数为线性子空间的维数
- 注意:如果 $x_0\notin \mathbb U$,则仿射子空间 $\mathbb L$ 不是一个子空间
- 若 $\mathbb U$ 有一基底 $a_1,a_2,…,a_m$ 则 $\mathbb L$中的每一个元素x均可写成$x_0+k_1a_1+k_2a_2+…+k_ma_m$ 这一结论通过定义是容易知道的
例20
例21
仿射空间在数据科学当中有重要的应用,特别是在优化问题求解当中,很多优化问题的解集是定义在仿射空间上的。
向量空间小结
向量空间上的运算封闭性:
- 加法
- 数乘
- …
“非严格”向量空间
- 输入空间
- 输出空间
- 特征空间
如何把数据向量从高维向量空间“拉回”到低维子空间? -映射和投影
机器学习中输入和输出空间以及特征空间可以考虑为向量空间, 要实现运算任务,还需要附加额外的数据结构。在第三章中会考虑
第四讲:线性映射与线性变换
4.1线性映射
引例:手写数字识别
集合之间的映射
定义1
设 $\mathbb {V,W}$是两个非空集合,如果存在一个法则$f$ ,使得3对 $\mathbb V$中的每个元素$v$ ,按法则$f$ ,在$\mathbb W$ 中有唯一确定的元素$w$与之对应,则称$f$为从$\mathbb V$到$\mathbb W$ 的映射,记作
$f:\mathbb V->\mathbb W$
其中 $w$ 称为元素$v$ (在映射$f$ 下)的像。并记作$f(v)$,即
$w = f(v)$
而元素 $v$ 称为元素 $w$ (在映射$f$下)的一个原像 。集合$\mathbb V$称为映射 $f$ 的定义域,记作 $D_f$ ,而$D_f=\mathbb V$; $\mathbb V$中的所有元素的像所组成的集合称为映射 $f$ 的值域 ,记作$R_f$ 或者 $f(\mathbb V)$ 即
$R_f = f(\mathbb V) = {f(v)|v\in\mathbb V}$
定义2
设$\mathbb {V,W}$ 是任意两个集合, $\varphi: \mathbb V \rightarrow \mathbb W$ 是一个映射,如果$\varphi $满足
- $\forall x,y \in \mathbb V$ : $\varphi(x)=\varphi(y) \Rightarrow x=y$ 则称$\varphi $ 为单射;
- $\varphi(\mathbb V) = \mathbb W$则称 $\varphi $ 为满射
- 既满足单射又满足满射,则称 $\varphi $ 为双射,也称一一对应
例1
下列映射中
- $\Phi_1 :\mathbb R^n \rightarrow \mathbb R^n,\Phi_1(x)=2x$ 既是单射又是满射,所以是双射
- $\Phi_2:\mathbb R^n \rightarrow \mathbb R ,\Phi_2(x) = max(x_i)$ 只是满射,不是单射。
- $\Phi_2:\mathbb R^n \rightarrow \mathbb R ,\Phi_3 = max(|x_i|)$ 既不是单射也不是满射
向量空间之间的线性映射
定义3
设$\mathbb {V,W}$是数域$\mathbb K$ 上的两个有限维的向量空间 ,$\varphi$ 是$\mathbb V$ 到$\mathbb W$ 的一个映射 $\varphi: \mathbb V \rightarrow \mathbb W$. 如果对任何向量 $x,y \in \mathbb V$ 以及任意的 $\alpha,\beta \in \mathbb K$ 有
$\varphi (\alpha x+\beta y)=\alpha\varphi(x)+\beta\varphi(y)$
则称 $\varphi $ 为 $\mathbb V$ 到 $\mathbb W$ 的线性映射
例2
考虑映射 $\epsilon :\mathbb V \rightarrow \mathbb V,\epsilon(x)=x$ 我们称 这种映射为恒等映射
$\epsilon(\alpha x+\beta y) = \alpha x+\beta y = \alpha\epsilon(x)+\beta\epsilon(y)$
恒等映射自然是线性映射。
例3
例4
考虑映射 $T_Q(A) = Q^{-1}AQ$ 其中 $Q$ 为可逆矩阵
$T_Q(\alpha A+\beta B) = Q^{-1}(\alpha A+\beta B)Q$
$=\alpha Q^{-1}AQ +\beta Q^{-1}BQ$
$= \alpha T_Q(A)+\beta T_Q(B)$
向量空间之间的特殊映射
接下来,我么可以给出一些两个向量空间之间的特殊映射。
设 $\mathbb {V,W}$ 是数域 $\mathbb K$ 上的两个有限维的向量空间:
- $\varphi : \mathbb V\rightarrow \mathbb W$ 是线性映射,则 $\mathbb {V,W}$ 同态(Homomorphism),$\varphi $称为同态映射
- $\varphi : \mathbb V\rightarrow \mathbb W$ 是线性映射且是双射,则 $\mathbb {V,W}$ 同构(Isomorphism),$\varphi $称为同构映射;
- $\varphi : \mathbb V\rightarrow \mathbb V$ 是线性映射, 则 $\mathbb V$ 自同态(Endomorphism) , $\varphi $ 称为自同态映射
- $\varphi : \mathbb V\rightarrow \mathbb V$ 是线性映射且是双射, 则 $\mathbb V$ 自同构(Automorphism) , $\varphi $ 称为自同构映射。
例5
定理1
设 $\mathbb {X_1,X_2} $是数域$\mathbb K$ 上的两个有限维度向量空间,$\mathbb {X_1,X_2}$ 同构,当且仅当 $dim(X_1)=dim(X_2)$
定理1 表明了两个维数相同的向量空间之间存在一个满足双射的线性映射,从这个观点看,同构的向量空间是可以不加去别的,维数是有限维向量空间的唯一本质特征
也就是说对$\mathbb R^{mn}$(一个 mn 维的矩阵的线性空间) 和 $\mathbb R^{m *n}$ (一个长度为 mn 的向量的线性空间), 其本质都是一样的。我们可以通过一个同构映射建立它们之间的关系
定义5
设 $\mathbb {V,W}$ 是数域$\mathbb K$ 上的两个有限维的向量空间,如果$\varphi$ :$\mathbb V\rightarrow \mathbb W$ 是一个双射,则可定义他的逆映射, 记作 $\varphi ^{-1} :\mathbb W \rightarrow \mathbb V$, 对于 $\forall x\in \mathbb V$ 和 $\forall y\in \mathbb W$ 使得
$\varphi^{-1}(\varphi(x)) = \xi(x) = x,\varphi(\varphi^{-1}(y)) = \xi(y) = y$
例6
- 恒等映射的逆映射是其本身
- 在例4 中定义了 映射 $TQ(A) = Q^{-1}AQ$ 的逆映射为 $T{Q^{-1}} = QAQ^{-1}$
定理2
考虑向量空间 $\mathbb {V,W,X}$ 则有
- 对于线性映射$\varphi :\mathbb {V} \rightarrow \mathbb W, \phi:\mathbb {W} \rightarrow \mathbb X$ 则 $\phi(\varphi)$也是一个线性映射
- 如果$\varphi :\mathbb {V} \rightarrow \mathbb W$ 是同构映射,则 $\varphi^{-1}: \mathbb W\rightarrow\mathbb V$ 也是一个同构映射
- 如果$\varphi :\mathbb {V} \rightarrow \mathbb W, \phi:\mathbb {W} \rightarrow \mathbb X$ 是线性映射,且$\lambda \in \mathbb R$ 则 $\varphi+\phi $ 和 $\lambda\varphi$ 也是线性映射 也就是说,线性映射 对加法和数乘是封闭的
用线性映射分类手写数字
线性映射复合分类手写数字
所以仅仅是通过线性映射来复合并不会提高准确率。所以这就是为什么 在机器学习中用线性映射和非线性映射来符合提高准确率
4.2线性映射的矩阵表示
变换矩阵
考虑一个n维向量空间 $\mathbb V$ 的基底 ${b_1,…,b_n}$ ,并为基向量规定一个顺序。
定义6
考虑一个n维向量空间 $\mathbb V$ 的基底 ${b_1,…,b_n}$ 是有序的,那么我们称 n元数组 $B = (b_1,…,b_n)$ 为向量空间 $\mathbb V$ 的一组有序基
同一个向量,对于不同的基,对应的坐标也不相同
例7
定义7
考虑向量空间 $\mathbb {V,W}$的有序基 $B = (b_1,…,b_n)$ 和 $C = (c_1,…,c_m)$ 然后考虑一个线性映射 $\Phi:\mathbb V \rightarrow \mathbb W$ ,对于 $j\in {1,…,m}$
$\Phi(bj) = a{1j}c1 + …+a{mj}cm = \sum{i=1}^m a_{ij}c_i$
$\Phi(bj)$ 是关于 C 的唯一标识,那么我们称这个 m*n 的矩阵为 $A{\Phi}$ 它的元素为:$A{\Phi}(i,j) = a{ij}$
是$\Phi$ 的变换矩阵, $\Phi(bj)$ 在$\mathbb W$ 的有序基 C 下的坐标是 $A{\Phi}$ 的第j列
记$\Phi(B) = (\Phi(b1),\Phi(b_2),…,\Phi(b_n))$ ,则 $\Phi (B) = CA{\Phi}$
设向量空间 $\mathbb {V,W}$ 的有序基分别为 B,C。线性映射 $\Phi:\mathbb V \rightarrow\mathbb W$ 的 变换矩阵为 $A_{\Phi}$ ,如果 $x\in \mathbb V$ 关于 B的坐标是 $\hat x,y = \Phi(x)\in\mathbb W$ 关于C的坐标是 $\hat y$ 。 也就是说 $x =B\hat x,y = C\hat y$
那么 $A\Phi \hat x$ 就是$\Phi(x)$ 关于 C的坐标,由此得到坐标的映射关系: $\hat y = A\Phi \hat x$
这意味着这个变换矩阵可以用来计算在两个空间各自基下坐标的映射关系
例8
基变换
考虑 $\mathbb V$ 的两个有序基底: $B = (b_1,…,b_n),\hat B=(\hat {b_1},…,\hat b_n)$
和 $\mathbb W$ 的两个有序基底: $C = (c_1,…,c_n),\hat C=(\hat {c_1},…,\hat c_n)$
$A_\Phi \in R^{m*n}$ 是线性映射 $\Phi: \mathbb V \rightarrow \mathbb W$关于基底$ B,C$的变换矩阵
$\hat A_\Phi \in R^{m*n}$ 是线性映射 $\Phi: \mathbb V \rightarrow \mathbb W$关于基底 $\hat B,\hat C$ 的变换矩阵
我们接下来考察 $A\Phi$ 和 $\hat A\Phi$ 的关系是什么,也即当我们把基从 B,C变换到 $\hat B,\hat C$ 时,$A\Phi$ 能否变换到 $\hat A\Phi$,怎么变换到 $\hat A_\Phi$ ?
我们为什么要考察矩阵的变换呢?因为有时候变换后的矩阵能容易处理
例9
定理3
考虑 $\mathbb V$ 的两个有序基底: $B = (b_1,…,b_n),\hat B=(\hat {b_1},…,\hat b_n)$
和 $\mathbb W$ 的两个有序基底: $C = (c_1,…,c_n),\hat C=(\hat {c_1},…,\hat c_n)$
以及在基 B,C 下关于$\Phi$ 的变换矩阵 $A\Phi$ ,则在基 $\hat B,\hat C$ 下的关于 $\Phi$ 的变换矩阵 $\hat {A\Phi}$ 可以表示为 $\hat A\Phi = T^{-1}A\Phi S$ ,这里 $S\in\mathbb R^{nn}$ 是 $\mathbb V$ 中自同态映射的坐标变换矩阵,(从 $B$ 到 $\hat B$) ,$T\in\mathbb R^{mm}$ 是 $\mathbb W$ 中自同态映射的坐标变换矩阵(从 $C$ 到 $\hat C$)
定义8
如果对于两个矩阵 $A,B\in \mathbb R^{mn}$ ,存在可逆矩阵 $S\in \mathbb R^{nn},T\in\mathbb R^{m*m}$ 使得 $A = T^{-1}BS$ 成立,则称 A,B等价
定义9
如果对于两个矩阵 $A,B\in \mathbb R^{nn}$ ,存在可逆矩阵 $S\in \mathbb R^{nn} $ 使得 $A = S^{-1}BS$ 成立,则称 A,B 相似
所以两个相似矩阵必定等价,反之则不然
例10
复合线性映射的变换矩阵
考虑向量空间 $\mathbb {V,W,X}$ 我们知道线性映射的符合仍是线性映射
两个映射的复合对应的变换矩阵就是两个映射对应的变换矩阵的乘积
$\Phi: \mathbb V \rightarrow \mathbb W$
$\Psi: \mathbb W \rightarrow \mathbb X$
$\Psi\circ \Phi: \mathbb V \rightarrow \mathbb X$
记 $A\Phi,A\Psi$ 是对应的变换矩阵,则 $A{\Psi\circ\Phi} = A\Phi A_\Psi$
例11
令
$\Phi :\mathbb R^n \rightarrow \mathbb R^n,\Phi(x) = 3x,\Psi:\mathbb R^n\rightarrow\mathbb R,\Psi = \sum_{i=1}^nx_i$
则
$A_\Phi = 3I$
$A_\Psi = (1,1,…,1)$
而 $\Psi(x)\circ\Phi(x) = \sum_{i=1}^{n} 3x_i$
$A{\Psi \circ\Phi} = (3,3,…,3)=(1,1,…,1)3I = A\Phi A_\Psi$
基变换可以用于后面的矩阵分解,也可以用于数据压缩问题
核与像
线性映射的像与核两个重要的线性子空间。
定义10
对于 $\Phi:\mathbb V\rightarrow \mathbb W$ 我们定义核空间(零空间):
$ker(\Phi):=\Phi^{-1}(0w) = {v\in\mathbb V:\Phi(v) = 0w}$
像空间(值域):
$Im(\Phi):=\Phi(\mathbb V) = {w\in\mathbb W|\exist v\in\mathbb V:\Phi(v) = w}$
那些映射结果为0的元素就组成了核空间
而所有可能被映射到的元素组成的空间就是像空间
定义11
A的列向量张成空间叫做列空间