线性映射 (英语:linear map )是向量空间 之间,保持向量加法和纯量乘法的函数 。线性映射也是向量空间作为模的同态 [ 1] 。
线性代数
A
=
[
1
2
3
4
]
{\displaystyle \mathbf {A} ={\begin{bmatrix}1&2\\3&4\end{bmatrix}}}
向量 · 向量空间 · 基底 · 行列式 · 矩阵
线性算子 (英语:linear operator )与线性转换 (英语:linear transformation ,又称线性变换 )是与线性映射相关的惯用名词,但其实际意义存在许多分歧,详见相关名词 一节。
正式定义
设
V
{\displaystyle V}
和
W
{\displaystyle W}
都是系数体 为
K
{\displaystyle K}
的向量空间,
f
:
V
→
W
{\displaystyle f:V\to W}
是一个从
V
{\displaystyle V}
送到
W
{\displaystyle W}
的一个映射 。如果
f
{\displaystyle f}
具有以下两个性质:
维持向量加法 ——对于任意两个
V
{\displaystyle V}
中的向量
x
{\displaystyle x}
和
y
{\displaystyle y}
:
f
(
x
+
y
)
=
f
(
x
)
+
f
(
y
)
{\displaystyle f(x+y)=f(x)+f(y)}
维持纯量乘法 ——对于任何
V
{\displaystyle V}
中的向量
x
{\displaystyle x}
和任何纯量
a
∈
K
{\displaystyle a\in K}
:
f
(
a
⋅
x
)
=
a
⋅
f
(
x
)
{\displaystyle f(a\cdot x)=a\cdot f(x)}
则称
f
{\displaystyle f}
是一个
K
{\displaystyle K}
-线性映射 。在系数体不致混淆的情况下也经常简称线性映射。
这等价于要求
f
{\displaystyle f}
对任意向量
x
1
,
…
,
x
m
∈
V
{\displaystyle x_{1},\,\ldots ,\,x_{m}\in V}
和任意纯量
a
1
,
…
,
a
m
∈
K
{\displaystyle a_{1},\,\ldots ,\,a_{m}\in K}
:
f
(
a
1
⋅
x
1
+
⋯
+
a
m
⋅
x
m
)
=
a
1
⋅
f
(
x
1
)
+
⋯
+
a
m
⋅
f
(
x
m
)
{\displaystyle f(a_{1}\cdot x_{1}+\cdots +a_{m}\cdot x_{m})=a_{1}\cdot f(x_{1})+\cdots +a_{m}\cdot f(x_{m})}
线性泛函
任何的体
K
{\displaystyle K}
本身就是一维的(系数为自身的)向量空间,所以可以考虑任何从系数体 同样为
K
{\displaystyle K}
的向量空间
V
{\displaystyle V}
送往
K
{\displaystyle K}
的线性映射,这类线性映射被称为线性泛函 。研究线性泛函的学科是线性泛函分析,是泛函分析 最成熟的分支。
注意事项
线性映射中的“线性”与“函数图形是直线”没有任何关联。
定义域和对应域相同的线性映射可以进行函数合成,合成的结果依然会是线性映射。但是如果改变合成的顺序,那合成出来的结果通常不会相同。例如“把函数乘上
x
2
{\displaystyle x^{2}}
”和“对函数进行微分”都是线性算子,但是对一个函数“先乘上
x
2
{\displaystyle x^{2}}
再进行微分”和“先进行微分再乘上
x
2
{\displaystyle x^{2}}
”是不同的线性映射。[ 2]
维持向量加法的映射可能不维持纯量乘法;同样地,维持纯量乘法的映射也可能不维持向量加法。[ 3]
相关名词
线性变换 和线性算子 这两个名词,与本条目的线性映射 密切相关,但不同作者有不同的定义。而这种定义分歧的根源在于,如
f
:
V
→
V
{\displaystyle f:V\rightarrow V}
这样,定义域和值域落在同个向量空间的特殊线性映射 ,有些人为了凸显而予之不同的称呼。
比如Axler 和龚昇 就称这种特殊线性映射为线性算子 [ 4] [ 5] ,但另一方面将线性映射 和线性变换 视为同义词;李尚志则将这种特殊线性映射称为线性变换 [ 6] ;而泛函分析 的书籍一般将三者都视为本条目所定义的“线性映射 ”,其他细节以函数的符号传达[ 7] [ 8] 。
本条目采用泛函分析的习惯。
例子
对于实数,映射
x
↦
x
2
{\displaystyle x\mapsto x^{2}}
不是线性的。
如果
A
{\displaystyle A}
是
m
×
n
{\displaystyle m\times n}
实矩阵 ,则
A
{\displaystyle A}
定义了一个从
R
n
{\displaystyle R^{n}}
到
R
m
{\displaystyle R^{m}}
的线性映射,这个映射将列向量
x
∈
R
n
{\displaystyle x\in R^{n}}
映射到列向量
A
x
∈
R
m
{\displaystyle Ax\in R^{m}}
。反过来说,在有限维向量空间之间的任何线性映射都可以用这种方式表示;参见后面章节。
积分 生成从在某个区间 上所有可积分实函数的空间到
R
{\displaystyle R}
的线性映射。这只是把积分的基本性质(“积分的可加性”和“可从积分号内提出常数倍数”)用另一种说法表述出来。[ 9]
微分 是从所有可微分函数的空间到所有函数的空间的线性映射。[ 9]
“给函数乘上
x
2
{\displaystyle x^{2}}
”是一种线性映射。[ 9] 设
C
{\displaystyle C}
是由全体连续函数所组成的函数空间,则此运算也是空间
C
{\displaystyle C}
中的算子。
后向移位(backward shift)运算是一种线性映射。即把无穷维向量
(
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
)
{\displaystyle (x_{1},x_{2},x_{3},x_{4},...)}
的第一个坐标划去:
T
(
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
)
=
(
x
2
,
x
3
,
x
4
,
.
.
.
)
{\displaystyle \operatorname {T} (x_{1},x_{2},x_{3},x_{4},...)=(x_{2},x_{3},x_{4},...)}
。[ 9]
如果
V
{\displaystyle V}
和
W
{\displaystyle W}
为在体
F
{\displaystyle F}
上的有限维向量空间,则从线性映射
f
:
V
→
W
{\displaystyle f:V\rightarrow W}
到在后面所描述的
dim
F
(
W
)
×
dim
F
(
V
)
{\displaystyle \dim _{F}(W)\times \dim _{F}(V)}
矩阵的函数也是线性映射。[ 9]
一次函数
y
=
f
(
x
)
=
x
+
b
{\displaystyle y=f(x)=x+b}
仅在
b
=
0
{\displaystyle b=0}
时才是一种线性变换。容易验证一次函数仅在
b
=
0
{\displaystyle b=0}
时,线性变换的基本性质
f
(
0
)
=
0
{\displaystyle f(0)=0}
才能成立。(尽管
b
≠
0
{\displaystyle b\neq 0}
时其图像也是一条直线,但这里所说的线性不是指函数图像为直线 。)同理,平移变换一般也不是线性变换(平移距离为零时才是线性变换)。[ 10] [ 11]
矩阵
若
V
{\displaystyle V}
和
W
{\displaystyle W}
是有限维 的、有相同的 系数体
K
{\displaystyle K}
的向量空间,则从
V
{\displaystyle V}
到
W
{\displaystyle W}
的线性映射可以用矩阵 表示。
以矩阵表示线性映射
假设
T
:
V
→
W
{\displaystyle T:V\to W}
是个线性映射,且
B
V
=
{
α
1
,
α
2
,
…
,
α
n
}
{\displaystyle {\mathfrak {B}}_{V}=\left\{\alpha _{1},\alpha _{2},\,\ldots ,\alpha _{n}\right\}}
B
W
=
{
β
1
,
β
2
,
…
,
β
m
}
{\displaystyle {\mathfrak {B}}_{W}=\left\{\beta _{1},\beta _{2},\,\ldots ,\beta _{m}\right\}}
分别是
V
{\displaystyle V}
和
W
{\displaystyle W}
的基底 。
根据基底
B
W
{\displaystyle {\mathfrak {B}}_{W}}
的基本定义,对于每个基向量
α
i
∈
B
V
{\displaystyle \alpha _{i}\in {\mathfrak {B}}_{V}}
,存在唯一一组纯量
t
1
i
,
t
2
i
,
…
,
t
m
i
∈
K
{\displaystyle t_{1i},\,t_{2i},\,\ldots ,\,t_{mi}\in K}
使得
T
(
α
i
)
=
∑
j
=
1
m
t
j
i
⋅
β
j
=
t
1
i
⋅
β
1
+
t
2
i
⋅
β
2
+
⋯
+
t
m
i
⋅
β
m
{\displaystyle T(\alpha _{i})=\sum _{j=1}^{m}t_{ji}\cdot \beta _{j}=t_{1i}\cdot \beta _{1}+t_{2i}\cdot \beta _{2}+\cdots +t_{mi}\cdot \beta _{m}}
直观上,纯量
t
1
i
,
t
2
i
,
…
,
t
m
i
∈
K
{\displaystyle t_{1i},\,t_{2i},\,\ldots ,\,t_{mi}\in K}
就是对基向量
α
i
∈
B
V
{\displaystyle \alpha _{i}\in {\mathfrak {B}}_{V}}
的作用结果
T
(
α
i
)
∈
W
{\displaystyle T(\alpha _{i})\in W}
,在基底
B
W
{\displaystyle {\mathfrak {B}}_{W}}
下的诸分量。
现在任取一个
V
{\displaystyle V}
里的向量
v
∈
V
{\displaystyle v\in V}
,因为基底
B
V
{\displaystyle {\mathfrak {B}}_{V}}
的基本定义,存在唯一一组纯量
v
1
,
v
2
,
…
,
v
n
∈
K
{\displaystyle v_{1},\,v_{2},\,\ldots ,\,v_{n}\in K}
使得
v
=
∑
i
=
1
n
v
i
⋅
α
i
{\displaystyle v=\sum _{i=1}^{n}v_{i}\cdot \alpha _{i}}
这样根据求和符号 的性质,可以得到
T
(
v
)
=
∑
i
=
1
n
v
i
⋅
(
∑
j
=
1
m
t
j
i
⋅
β
j
)
=
∑
i
=
1
n
∑
j
=
1
m
(
t
j
i
v
i
)
⋅
β
j
=
∑
j
=
1
m
∑
i
=
1
n
(
t
j
i
v
i
)
⋅
β
j
=
∑
j
=
1
m
(
∑
i
=
1
n
t
j
i
v
i
)
⋅
β
j
{\displaystyle T(v)=\sum _{i=1}^{n}v_{i}\cdot \left(\sum _{j=1}^{m}t_{ji}\cdot \beta _{j}\right)=\sum _{i=1}^{n}\sum _{j=1}^{m}(t_{ji}v_{i})\cdot \beta _{j}=\sum _{j=1}^{m}\sum _{i=1}^{n}(t_{ji}v_{i})\cdot \beta _{j}=\sum _{j=1}^{m}\left(\sum _{i=1}^{n}t_{ji}v_{i}\right)\cdot \beta _{j}}
然后考虑到
T
(
v
)
∈
W
{\displaystyle T(v)\in W}
,所以根据基底
B
W
{\displaystyle {\mathfrak {B}}_{W}}
的基本定义,存在唯一一组纯量
λ
1
,
λ
2
,
…
,
λ
m
∈
K
{\displaystyle \lambda _{1},\,\lambda _{2},\,\ldots ,\,\lambda _{m}\in K}
使得
T
(
v
)
=
∑
j
=
1
m
λ
j
⋅
β
j
{\displaystyle T(v)=\sum _{j=1}^{m}\lambda _{j}\cdot \beta _{j}}
因为这样的纯量
λ
1
,
λ
2
,
…
,
λ
M
∈
K
{\displaystyle \lambda _{1},\,\lambda _{2},\,\ldots ,\,\lambda _{M}\in K}
是唯一存在的,所以对
j
=
1
,
2
,
…
,
m
{\displaystyle j=1,\,2,\,\ldots ,\,m}
有
λ
j
=
∑
i
=
1
n
t
j
i
v
i
{\displaystyle \lambda _{j}=\sum _{i=1}^{n}t_{ji}v_{i}}
考虑到矩阵乘法 的定义,上式可以改写为
[
λ
1
λ
2
⋮
λ
m
]
=
[
t
11
t
12
…
t
1
n
t
21
t
22
…
t
2
n
⋮
⋮
⋱
⋮
t
m
1
t
m
2
…
t
m
n
]
[
v
1
v
2
⋮
v
n
]
{\displaystyle {\begin{bmatrix}\lambda _{1}\\\lambda _{2}\\\vdots \\\lambda _{m}\end{bmatrix}}={\begin{bmatrix}t_{11}&t_{12}&\dots &t_{1n}\\t_{21}&t_{22}&\dots &t_{2n}\\\vdots &\vdots &\ddots &\vdots \\t_{m1}&t_{m2}&\dots &t_{mn}\end{bmatrix}}{\begin{bmatrix}v_{1}\\v_{2}\\\vdots \\v_{n}\end{bmatrix}}}
也就是说,只要知道
T
(
α
i
)
{\displaystyle T(\alpha _{i})}
在
B
W
{\displaystyle {\mathfrak {B}}_{W}}
下的诸分量
t
j
i
{\displaystyle t_{ji}}
,任意向量
v
∈
V
{\displaystyle v\in V}
的作用结果
T
(
v
)
{\displaystyle T(v)}
,都可以表示为矩阵
T
=
[
t
j
i
]
m
×
n
{\displaystyle \mathbf {T} ={[t_{ji}]}_{m\times n}}
与行向量
v
=
[
v
i
]
n
×
1
{\displaystyle \mathbf {v} ={[v_{i}]}_{n\times 1}}
的乘积。更直观的来说,矩阵
T
=
[
t
j
i
]
m
×
n
{\displaystyle \mathbf {T} ={[t_{ji}]}_{m\times n}}
就是把
T
(
α
i
)
{\displaystyle T(\alpha _{i})}
的诸分量沿行 (column )摆放所构成的。
由上面的推导可以知道,不同的基底
B
V
{\displaystyle {\mathfrak {B}}_{V}}
和
B
W
{\displaystyle {\mathfrak {B}}_{W}}
下,矩阵
T
=
[
t
j
i
]
m
×
n
{\displaystyle \mathbf {T} ={[t_{ji}]}_{m\times n}}
也不同 ,为了强调这点,也会将矩阵
T
{\displaystyle \mathbf {T} }
记为
T
=
[
T
]
B
W
B
V
{\displaystyle \mathbf {T} ={[T]}_{{\mathfrak {B}}_{W}}^{{\mathfrak {B}}_{V}}}
来强调这种关联性。
若
T
:
V
→
V
{\displaystyle T:V\to V}
,在同个向量空间
V
{\displaystyle V}
通常没有取不同基底的必要,那上面的推导可以在
B
V
=
B
W
{\displaystyle {\mathfrak {B}}_{V}={\mathfrak {B}}_{W}}
的前提下进行。这时上式可以进一步简写为
T
=
[
T
]
B
V
{\displaystyle \mathbf {T} ={[T]}_{{\mathfrak {B}}_{V}}}
以线性映射表示矩阵
若有由
m
×
n
{\displaystyle m\times n}
个纯量构成的矩阵
A
=
[
a
i
j
]
m
×
n
∈
K
m
×
n
{\displaystyle \mathbf {A} ={[a_{ij}]}_{m\times n}\in K^{m\times n}}
,如果取
f
:
K
n
×
1
→
K
m
×
1
{\displaystyle f:K^{n\times 1}\to K^{m\times 1}}
为
f
(
x
)
=
A
x
{\displaystyle f(\mathbf {x} )=\mathbf {A} \mathbf {x} }
其中
x
=
[
x
1
x
2
⋮
x
n
]
∈
K
n
×
1
{\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}\\x_{2}\\\vdots \\x_{n}\end{bmatrix}}\in K^{n\times 1}}
因为矩阵乘法 只有唯一的结果,上面的定义的确符合函数 定义的基本要求。然后考虑
K
n
×
1
{\displaystyle K^{n\times 1}}
和
K
m
×
1
{\displaystyle K^{m\times 1}}
都可以视为定义在同个 纯量体
K
{\displaystyle K}
上的向量空间 ,而且矩阵乘法是线性的,所以上述定义的函数
f
{\displaystyle f}
的确符合线性映射的基本定义。
用泛性质做矩阵表示
根据积 和余积 的泛性质,我们有
H
o
m
(
⨁
i
∈
I
U
i
,
∏
j
∈
J
V
j
)
≃
∏
i
∈
I
∏
j
∈
J
H
o
m
(
U
i
,
V
j
)
.
{\displaystyle \mathrm {Hom} \left(\bigoplus _{i\in I}U_{i},\prod _{j\in J}V_{j}\right)\simeq \prod _{i\in I}\prod _{j\in J}\mathrm {Hom} \left(U_{i},V_{j}\right).}
在
K
{\displaystyle K}
-线性空间 构成的范畴 中,有限个线性空间的余积和积是一回事。对于
U
,
V
{\displaystyle U,V}
的基
b
1
,
…
,
b
n
,
b
1
′
,
…
,
b
m
′
{\displaystyle {\mathbf {b}}_{1},\dots ,{\mathbf {b}}_{n},{\mathbf {b}}'_{1},\dots ,{\mathbf {b}}'_{m}}
,取
U
i
=
b
i
K
,
V
i
=
b
i
′
k
{\displaystyle U_{i}={\mathbf {b}}_{i}K,V_{i}={\mathbf {b}}'_{i}k}
,我们有
H
o
m
(
U
i
,
V
j
)
≃
K
{\displaystyle \mathrm {Hom} (U_{i},V_{j})\simeq K}
,所以左边的线性映射
H
o
m
(
U
,
V
)
{\displaystyle \mathrm {Hom} (U,V)}
就被拆解为了
n
m
{\displaystyle nm}
个
K
{\displaystyle K}
中的元素,这就是线性映射的矩阵表示。
用矩阵表示线性映射的原因和好处
把线性映射写成具体而简明的2维数阵形式后,就成了一种矩阵。进而由线性映射的加法规则和覆合规则来分别定义矩阵的加法规则和乘法规则是很自然的想法。[ 12] 当空间的基变化(坐标系变换)时,线性映射的矩阵也会有规律地变化。在特定的基上研究线性映射,就转化为对矩阵的研究。利用矩阵的乘法,可以把一些线性系统的方程表达得更紧凑(比如把线性方程组用矩阵表达和研究),也使几何意义更明显。矩阵可以分块 计算,可以通过适当的变换以“解耦”(把覆杂的变换分解为一些简单变换的组合)。要求出一个线性变换的秩 ,先写出其矩阵形式几乎是不可避免的一个步骤。
遇到
y
=
x
+
3
{\displaystyle y=x+3}
这样的加上了1个常量的非线性映射可以通过增加1个维度的方法,把变换映射写成2×2维的方形矩阵形式,从而在形式上把这一类特殊的非线性映射转化为线性映射。这个办法也适用于处理在高维线性变换上多加了一个常向量的情形。这在计算机图形学 和刚体理论(及其相关机械制造 和机器人学 )中都有大量应用。
对角化的矩阵具有诸多优点。线性映射在写成矩阵后可以进行对角化 (不能对角化的矩阵可以化简成接近对角矩阵的准对角矩阵 ),从而可以获得对角化矩阵拥有的独特优势(极大地简化乘法运算,易于分块,容易看出与基的选取无关的不变量 )。比如,对于作用于同一个空间的可对角化的方形矩阵
A
{\displaystyle A}
,要求出
A
{\displaystyle A}
自乘
n
{\displaystyle n}
次后的结果
A
n
{\displaystyle A^{n}}
,一个一个慢慢地乘是很麻烦的事情。而知道对角化技巧的人会发现,在将这矩阵对角化后,其乘法运算会变得格外简单。实际应用中有很多有意思的问题或解题方法都会涉及到矩阵自乘n次的计算,如1阶非齐次线性递推数列 通项公式 的线性代数求解法和马尔可夫链 的极限状态(极限分布)的求解。线性代数及矩阵论的一个主要问题就是寻找可使矩阵对角化的条件或者可使矩阵化简到含很多个0的条件[ 13] ,以便简化计算(这是主要原因之一)。
线性映射的矩阵的例子
从给定线性映射构造新的线性映射
自同态线性映射
核、像和秩-零化度定理
推广
参见
脚注与参考资料
脚注
^ 见Lax 2010 ,第7页 harvnb模板错误: 多个指向目标 (2个): CITEREFLax2010 (帮助 ) (位于第2章“线性映射”第1节“线性映射生成的代数”)。
^ 见Axler 2009 ,第41页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第1节“定义与例子”)。
^ 见Axler 2009 ,第59页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”末尾习题旁的说明)。
^ 见龚昇《线性代数五讲》第1讲第10页。
^ 见Axler 2009 ,第38页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第1节“定义与例子”)。
^ 李尚志. 第6章“線性變換”第4節“線性變換”. 線性代數 第1版. 高等教育出版社 . 2006: 326. ISBN 7-04-019870-3 . 则V到自身的线性映射称为V的线性变换(linear transformation)。
^ А·Н·柯尔莫哥洛夫 ,佛明(С. В. Фомин). 第4章“線性泛函與線性算子”第5節“線性算子”. Элементы теории функций и функционального анализа [函数论与泛函分析初步]. 俄罗斯数学教材选译. 段虞荣 (翻译),郑洪深 (翻译),郭思旭 (翻译) 原书第7版,中译本第2版. 高等教育出版社. 2006年: 162. ISBN 7-04-018407-9 .
^ 见Lax 2010 ,第131页 harvnb模板错误: 多个指向目标 (2个): CITEREFLax2010 (帮助 ) (位于第15章“有界线性映射”的开头部分)。原文为“线性映射也称为线性算子或线性变换”。
^ 9.0 9.1 9.2 9.3 9.4 9.5 见Axler 2009 ,第38-39页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第1节“定义与例子”)。
^ 见Artin 2010 ,第156页 harvnb模板错误: 多个指向目标 (2个): CITEREFArtin2010 (帮助 ) 。(位于第6章“Symmetry”第1节“
Symmetry of the Plane Figures”)
^ Walter Rudin . 第1章“Topological Vector Spaces”中的“Linear mappings”一節. Functional Analysis [泛函分析] . Higher mathematics series. McGraw-Hill Book Company . 1973: 13 .
^ 见Axler 2009 ,第51页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第3节“线性映射的矩阵”)。
^ 见Axler 2009 ,第82页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第5章“本征值与本征向量”第3节“上三角矩阵”)。
^ 其证明只需要用到三角函数 的基础知识,在网上很容易找到证明过程。也可参见Feynman harvnb模板错误: 多个指向目标 (2个): CITEREFFeynman (帮助 ) 第11章“Vectors”第3节“Rotations”。
脚注所引资料
其它参考资料
正式定义
设
V
{\displaystyle V}
和
W
{\displaystyle W}
都是系数体 为
K
{\displaystyle K}
的向量空间,
f
:
V
→
W
{\displaystyle f:V\to W}
是一个从
V
{\displaystyle V}
送到
W
{\displaystyle W}
的一个映射 。如果
f
{\displaystyle f}
具有以下两个性质:
维持向量加法 ——对于任意两个
V
{\displaystyle V}
中的向量
x
{\displaystyle x}
和
y
{\displaystyle y}
:
f
(
x
+
y
)
=
f
(
x
)
+
f
(
y
)
{\displaystyle f(x+y)=f(x)+f(y)}
维持纯量乘法 ——对于任何
V
{\displaystyle V}
中的向量
x
{\displaystyle x}
和任何纯量
a
∈
K
{\displaystyle a\in K}
:
f
(
a
⋅
x
)
=
a
⋅
f
(
x
)
{\displaystyle f(a\cdot x)=a\cdot f(x)}
则称
f
{\displaystyle f}
是一个
K
{\displaystyle K}
-线性映射 。在系数体不致混淆的情况下也经常简称线性映射。
这等价于要求
f
{\displaystyle f}
对任意向量
x
1
,
…
,
x
m
∈
V
{\displaystyle x_{1},\,\ldots ,\,x_{m}\in V}
和任意纯量
a
1
,
…
,
a
m
∈
K
{\displaystyle a_{1},\,\ldots ,\,a_{m}\in K}
:
f
(
a
1
⋅
x
1
+
⋯
+
a
m
⋅
x
m
)
=
a
1
⋅
f
(
x
1
)
+
⋯
+
a
m
⋅
f
(
x
m
)
{\displaystyle f(a_{1}\cdot x_{1}+\cdots +a_{m}\cdot x_{m})=a_{1}\cdot f(x_{1})+\cdots +a_{m}\cdot f(x_{m})}
线性泛函
任何的体
K
{\displaystyle K}
本身就是一维的(系数为自身的)向量空间,所以可以考虑任何从系数体 同样为
K
{\displaystyle K}
的向量空间
V
{\displaystyle V}
送往
K
{\displaystyle K}
的线性映射,这类线性映射被称为线性泛函 。研究线性泛函的学科是线性泛函分析,是泛函分析 最成熟的分支。
注意事项
线性映射中的“线性”与“函数图形是直线”没有任何关联。
定义域和对应域相同的线性映射可以进行函数合成,合成的结果依然会是线性映射。但是如果改变合成的顺序,那合成出来的结果通常不会相同。例如“把函数乘上
x
2
{\displaystyle x^{2}}
”和“对函数进行微分”都是线性算子,但是对一个函数“先乘上
x
2
{\displaystyle x^{2}}
再进行微分”和“先进行微分再乘上
x
2
{\displaystyle x^{2}}
”是不同的线性映射。[ 1]
维持向量加法的映射可能不维持纯量乘法;同样地,维持纯量乘法的映射也可能不维持向量加法。[ 2]
相关名词
线性变换 和线性算子 这两个名词,与本条目的线性映射 密切相关,但不同作者有不同的定义。而这种定义分歧的根源在于,如
f
:
V
→
V
{\displaystyle f:V\rightarrow V}
这样,定义域和值域落在同个向量空间的特殊线性映射 ,有些人为了凸显而予之不同的称呼。
比如Axler 和龚昇 就称这种特殊线性映射为线性算子 [ 3] [ 4] ,但另一方面将线性映射 和线性变换 视为同义词;李尚志则将这种特殊线性映射称为线性变换 [ 5] ;而泛函分析 的书籍一般将三者都视为本条目所定义的“线性映射 ”,其他细节以函数的符号传达[ 6] [ 7] 。
本条目采用泛函分析的习惯。
例子
对于实数,映射
x
↦
x
2
{\displaystyle x\mapsto x^{2}}
不是线性的。
如果
A
{\displaystyle A}
是
m
×
n
{\displaystyle m\times n}
实矩阵 ,则
A
{\displaystyle A}
定义了一个从
R
n
{\displaystyle R^{n}}
到
R
m
{\displaystyle R^{m}}
的线性映射,这个映射将列向量
x
∈
R
n
{\displaystyle x\in R^{n}}
映射到列向量
A
x
∈
R
m
{\displaystyle Ax\in R^{m}}
。反过来说,在有限维向量空间之间的任何线性映射都可以用这种方式表示;参见后面章节。
积分 生成从在某个区间 上所有可积分实函数的空间到
R
{\displaystyle R}
的线性映射。这只是把积分的基本性质(“积分的可加性”和“可从积分号内提出常数倍数”)用另一种说法表述出来。[ 8]
微分 是从所有可微分函数的空间到所有函数的空间的线性映射。[ 8]
“给函数乘上
x
2
{\displaystyle x^{2}}
”是一种线性映射。[ 8] 设
C
{\displaystyle C}
是由全体连续函数所组成的函数空间,则此运算也是空间
C
{\displaystyle C}
中的算子。
后向移位(backward shift)运算是一种线性映射。即把无穷维向量
(
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
)
{\displaystyle (x_{1},x_{2},x_{3},x_{4},...)}
的第一个坐标划去:
T
(
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
)
=
(
x
2
,
x
3
,
x
4
,
.
.
.
)
{\displaystyle \operatorname {T} (x_{1},x_{2},x_{3},x_{4},...)=(x_{2},x_{3},x_{4},...)}
。[ 8]
如果
V
{\displaystyle V}
和
W
{\displaystyle W}
为在体
F
{\displaystyle F}
上的有限维向量空间,则从线性映射
f
:
V
→
W
{\displaystyle f:V\rightarrow W}
到在后面所描述的
dim
F
(
W
)
×
dim
F
(
V
)
{\displaystyle \dim _{F}(W)\times \dim _{F}(V)}
矩阵的函数也是线性映射。[ 8]
一次函数
y
=
f
(
x
)
=
x
+
b
{\displaystyle y=f(x)=x+b}
仅在
b
=
0
{\displaystyle b=0}
时才是一种线性变换。容易验证一次函数仅在
b
=
0
{\displaystyle b=0}
时,线性变换的基本性质
f
(
0
)
=
0
{\displaystyle f(0)=0}
才能成立。(尽管
b
≠
0
{\displaystyle b\neq 0}
时其图像也是一条直线,但这里所说的线性不是指函数图像为直线 。)同理,平移变换一般也不是线性变换(平移距离为零时才是线性变换)。[ 9] [ 10]
矩阵
若
V
{\displaystyle V}
和
W
{\displaystyle W}
是有限维 的、有相同的 系数体
K
{\displaystyle K}
的向量空间,则从
V
{\displaystyle V}
到
W
{\displaystyle W}
的线性映射可以用矩阵 表示。
以矩阵表示线性映射
假设
T
:
V
→
W
{\displaystyle T:V\to W}
是个线性映射,且
B
V
=
{
α
1
,
α
2
,
…
,
α
n
}
{\displaystyle {\mathfrak {B}}_{V}=\left\{\alpha _{1},\alpha _{2},\,\ldots ,\alpha _{n}\right\}}
B
W
=
{
β
1
,
β
2
,
…
,
β
m
}
{\displaystyle {\mathfrak {B}}_{W}=\left\{\beta _{1},\beta _{2},\,\ldots ,\beta _{m}\right\}}
分别是
V
{\displaystyle V}
和
W
{\displaystyle W}
的基底 。
根据基底
B
W
{\displaystyle {\mathfrak {B}}_{W}}
的基本定义,对于每个基向量
α
i
∈
B
V
{\displaystyle \alpha _{i}\in {\mathfrak {B}}_{V}}
,存在唯一一组纯量
t
1
i
,
t
2
i
,
…
,
t
m
i
∈
K
{\displaystyle t_{1i},\,t_{2i},\,\ldots ,\,t_{mi}\in K}
使得
T
(
α
i
)
=
∑
j
=
1
m
t
j
i
⋅
β
j
=
t
1
i
⋅
β
1
+
t
2
i
⋅
β
2
+
⋯
+
t
m
i
⋅
β
m
{\displaystyle T(\alpha _{i})=\sum _{j=1}^{m}t_{ji}\cdot \beta _{j}=t_{1i}\cdot \beta _{1}+t_{2i}\cdot \beta _{2}+\cdots +t_{mi}\cdot \beta _{m}}
直观上,纯量
t
1
i
,
t
2
i
,
…
,
t
m
i
∈
K
{\displaystyle t_{1i},\,t_{2i},\,\ldots ,\,t_{mi}\in K}
就是对基向量
α
i
∈
B
V
{\displaystyle \alpha _{i}\in {\mathfrak {B}}_{V}}
的作用结果
T
(
α
i
)
∈
W
{\displaystyle T(\alpha _{i})\in W}
,在基底
B
W
{\displaystyle {\mathfrak {B}}_{W}}
下的诸分量。
现在任取一个
V
{\displaystyle V}
里的向量
v
∈
V
{\displaystyle v\in V}
,因为基底
B
V
{\displaystyle {\mathfrak {B}}_{V}}
的基本定义,存在唯一一组纯量
v
1
,
v
2
,
…
,
v
n
∈
K
{\displaystyle v_{1},\,v_{2},\,\ldots ,\,v_{n}\in K}
使得
v
=
∑
i
=
1
n
v
i
⋅
α
i
{\displaystyle v=\sum _{i=1}^{n}v_{i}\cdot \alpha _{i}}
这样根据求和符号 的性质,可以得到
T
(
v
)
=
∑
i
=
1
n
v
i
⋅
(
∑
j
=
1
m
t
j
i
⋅
β
j
)
=
∑
i
=
1
n
∑
j
=
1
m
(
t
j
i
v
i
)
⋅
β
j
=
∑
j
=
1
m
∑
i
=
1
n
(
t
j
i
v
i
)
⋅
β
j
=
∑
j
=
1
m
(
∑
i
=
1
n
t
j
i
v
i
)
⋅
β
j
{\displaystyle T(v)=\sum _{i=1}^{n}v_{i}\cdot \left(\sum _{j=1}^{m}t_{ji}\cdot \beta _{j}\right)=\sum _{i=1}^{n}\sum _{j=1}^{m}(t_{ji}v_{i})\cdot \beta _{j}=\sum _{j=1}^{m}\sum _{i=1}^{n}(t_{ji}v_{i})\cdot \beta _{j}=\sum _{j=1}^{m}\left(\sum _{i=1}^{n}t_{ji}v_{i}\right)\cdot \beta _{j}}
然后考虑到
T
(
v
)
∈
W
{\displaystyle T(v)\in W}
,所以根据基底
B
W
{\displaystyle {\mathfrak {B}}_{W}}
的基本定义,存在唯一一组纯量
λ
1
,
λ
2
,
…
,
λ
m
∈
K
{\displaystyle \lambda _{1},\,\lambda _{2},\,\ldots ,\,\lambda _{m}\in K}
使得
T
(
v
)
=
∑
j
=
1
m
λ
j
⋅
β
j
{\displaystyle T(v)=\sum _{j=1}^{m}\lambda _{j}\cdot \beta _{j}}
因为这样的纯量
λ
1
,
λ
2
,
…
,
λ
M
∈
K
{\displaystyle \lambda _{1},\,\lambda _{2},\,\ldots ,\,\lambda _{M}\in K}
是唯一存在的,所以对
j
=
1
,
2
,
…
,
m
{\displaystyle j=1,\,2,\,\ldots ,\,m}
有
λ
j
=
∑
i
=
1
n
t
j
i
v
i
{\displaystyle \lambda _{j}=\sum _{i=1}^{n}t_{ji}v_{i}}
考虑到矩阵乘法 的定义,上式可以改写为
[
λ
1
λ
2
⋮
λ
m
]
=
[
t
11
t
12
…
t
1
n
t
21
t
22
…
t
2
n
⋮
⋮
⋱
⋮
t
m
1
t
m
2
…
t
m
n
]
[
v
1
v
2
⋮
v
n
]
{\displaystyle {\begin{bmatrix}\lambda _{1}\\\lambda _{2}\\\vdots \\\lambda _{m}\end{bmatrix}}={\begin{bmatrix}t_{11}&t_{12}&\dots &t_{1n}\\t_{21}&t_{22}&\dots &t_{2n}\\\vdots &\vdots &\ddots &\vdots \\t_{m1}&t_{m2}&\dots &t_{mn}\end{bmatrix}}{\begin{bmatrix}v_{1}\\v_{2}\\\vdots \\v_{n}\end{bmatrix}}}
也就是说,只要知道
T
(
α
i
)
{\displaystyle T(\alpha _{i})}
在
B
W
{\displaystyle {\mathfrak {B}}_{W}}
下的诸分量
t
j
i
{\displaystyle t_{ji}}
,任意向量
v
∈
V
{\displaystyle v\in V}
的作用结果
T
(
v
)
{\displaystyle T(v)}
,都可以表示为矩阵
T
=
[
t
j
i
]
m
×
n
{\displaystyle \mathbf {T} ={[t_{ji}]}_{m\times n}}
与行向量
v
=
[
v
i
]
n
×
1
{\displaystyle \mathbf {v} ={[v_{i}]}_{n\times 1}}
的乘积。更直观的来说,矩阵
T
=
[
t
j
i
]
m
×
n
{\displaystyle \mathbf {T} ={[t_{ji}]}_{m\times n}}
就是把
T
(
α
i
)
{\displaystyle T(\alpha _{i})}
的诸分量沿行 (column )摆放所构成的。
由上面的推导可以知道,不同的基底
B
V
{\displaystyle {\mathfrak {B}}_{V}}
和
B
W
{\displaystyle {\mathfrak {B}}_{W}}
下,矩阵
T
=
[
t
j
i
]
m
×
n
{\displaystyle \mathbf {T} ={[t_{ji}]}_{m\times n}}
也不同 ,为了强调这点,也会将矩阵
T
{\displaystyle \mathbf {T} }
记为
T
=
[
T
]
B
W
B
V
{\displaystyle \mathbf {T} ={[T]}_{{\mathfrak {B}}_{W}}^{{\mathfrak {B}}_{V}}}
来强调这种关联性。
若
T
:
V
→
V
{\displaystyle T:V\to V}
,在同个向量空间
V
{\displaystyle V}
通常没有取不同基底的必要,那上面的推导可以在
B
V
=
B
W
{\displaystyle {\mathfrak {B}}_{V}={\mathfrak {B}}_{W}}
的前提下进行。这时上式可以进一步简写为
T
=
[
T
]
B
V
{\displaystyle \mathbf {T} ={[T]}_{{\mathfrak {B}}_{V}}}
以线性映射表示矩阵
若有由
m
×
n
{\displaystyle m\times n}
个纯量构成的矩阵
A
=
[
a
i
j
]
m
×
n
∈
K
m
×
n
{\displaystyle \mathbf {A} ={[a_{ij}]}_{m\times n}\in K^{m\times n}}
,如果取
f
:
K
n
×
1
→
K
m
×
1
{\displaystyle f:K^{n\times 1}\to K^{m\times 1}}
为
f
(
x
)
=
A
x
{\displaystyle f(\mathbf {x} )=\mathbf {A} \mathbf {x} }
其中
x
=
[
x
1
x
2
⋮
x
n
]
∈
K
n
×
1
{\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}\\x_{2}\\\vdots \\x_{n}\end{bmatrix}}\in K^{n\times 1}}
因为矩阵乘法 只有唯一的结果,上面的定义的确符合函数 定义的基本要求。然后考虑
K
n
×
1
{\displaystyle K^{n\times 1}}
和
K
m
×
1
{\displaystyle K^{m\times 1}}
都可以视为定义在同个 纯量体
K
{\displaystyle K}
上的向量空间 ,而且矩阵乘法是线性的,所以上述定义的函数
f
{\displaystyle f}
的确符合线性映射的基本定义。
用泛性质做矩阵表示
根据积 和余积 的泛性质,我们有
H
o
m
(
⨁
i
∈
I
U
i
,
∏
j
∈
J
V
j
)
≃
∏
i
∈
I
∏
j
∈
J
H
o
m
(
U
i
,
V
j
)
.
{\displaystyle \mathrm {Hom} \left(\bigoplus _{i\in I}U_{i},\prod _{j\in J}V_{j}\right)\simeq \prod _{i\in I}\prod _{j\in J}\mathrm {Hom} \left(U_{i},V_{j}\right).}
在
K
{\displaystyle K}
-线性空间 构成的范畴 中,有限个线性空间的余积和积是一回事。对于
U
,
V
{\displaystyle U,V}
的基
b
1
,
…
,
b
n
,
b
1
′
,
…
,
b
m
′
{\displaystyle {\mathbf {b}}_{1},\dots ,{\mathbf {b}}_{n},{\mathbf {b}}'_{1},\dots ,{\mathbf {b}}'_{m}}
,取
U
i
=
b
i
K
,
V
i
=
b
i
′
k
{\displaystyle U_{i}={\mathbf {b}}_{i}K,V_{i}={\mathbf {b}}'_{i}k}
,我们有
H
o
m
(
U
i
,
V
j
)
≃
K
{\displaystyle \mathrm {Hom} (U_{i},V_{j})\simeq K}
,所以左边的线性映射 \(\mathrm{Hom}(U, V)\) 就被拆解为了 \(nm\) 个 \(K\) 中的元素,这就是线性映射的矩阵表示。
用矩阵表示线性映射的原因和好处
把线性映射写成具体而简明的2维数阵形式后,就成了一种矩阵。进而由线性映射的加法规则和覆合规则来分别定义矩阵的加法规则和乘法规则是很自然的想法。[ 11] 当空间的基变化(坐标系变换)时,线性映射的矩阵也会有规律地变化。在特定的基上研究线性映射,就转化为对矩阵的研究。利用矩阵的乘法,可以把一些线性系统的方程表达得更紧凑(比如把线性方程组用矩阵表达和研究),也使几何意义更明显。矩阵可以分块 计算,可以通过适当的变换以“解耦”(把覆杂的变换分解为一些简单变换的组合)。要求出一个线性变换的秩 ,先写出其矩阵形式几乎是不可避免的一个步骤。
遇到
y
=
x
+
3
{\displaystyle y=x+3}
这样的加上了1个常量的非线性映射可以通过增加1个维度的方法,把变换映射写成2×2维的方形矩阵形式,从而在形式上把这一类特殊的非线性映射转化为线性映射。这个办法也适用于处理在高维线性变换上多加了一个常向量的情形。这在计算机图形学 和刚体理论(及其相关机械制造 和机器人学 )中都有大量应用。
对角化的矩阵具有诸多优点。线性映射在写成矩阵后可以进行对角化 (不能对角化的矩阵可以化简成接近对角矩阵的准对角矩阵 ),从而可以获得对角化矩阵拥有的独特优势(极大地简化乘法运算,易于分块,容易看出与基的选取无关的不变量 )。比如,对于作用于同一个空间的可对角化的方形矩阵
A
{\displaystyle A}
,要求出
A
{\displaystyle A}
自乘
n
{\displaystyle n}
次后的结果
A
n
{\displaystyle A^{n}}
,一个一个慢慢地乘是很麻烦的事情。而知道对角化技巧的人会发现,在将这矩阵对角化后,其乘法运算会变得格外简单。实际应用中有很多有意思的问题或解题方法都会涉及到矩阵自乘n次的计算,如1阶非齐次线性递推数列 通项公式 的线性代数求解法和马尔可夫链 的极限状态(极限分布)的求解。线性代数及矩阵论的一个主要问题就是寻找可使矩阵对角化的条件或者可使矩阵化简到含很多个0的条件[ 12] ,以便简化计算(这是主要原因之一)。
线性映射的矩阵的例子
从给定线性映射构造新的线性映射
自同态线性映射
核、像和秩-零化度定理
推广
参见
脚注与参考资料
脚注
^ 见Axler 2009 ,第41页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第1节“定义与例子”)。
^ 见Axler 2009 ,第59页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”末尾习题旁的说明)。
^ 见龚昇《线性代数五讲》第1讲第10页。
^ 见Axler 2009 ,第38页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第1节“定义与例子”)。
^ 李尚志. 第6章“線性變換”第4節“線性變換”. 線性代數 第1版. 高等教育出版社 . 2006: 326. ISBN 7-04-019870-3 . 则V到自身的线性映射称为V的线性变换(linear transformation)。
^ А·Н·柯尔莫哥洛夫 ,佛明(С. В. Фомин). 第4章“線性泛函與線性算子”第5節“線性算子”. Элементы теории функций и функционального анализа [函数论与泛函分析初步]. 俄罗斯数学教材选译. 段虞荣 (翻译),郑洪深 (翻译),郭思旭 (翻译) 原书第7版,中译本第2版. 高等教育出版社. 2006年: 162. ISBN 7-04-018407-9 .
^ 见Lax 2010 ,第131页 harvnb模板错误: 多个指向目标 (2个): CITEREFLax2010 (帮助 ) (位于第15章“有界线性映射”的开头部分)。原文为“线性映射也称为线性算子或线性变换”。
^ 8.0 8.1 8.2 8.3 8.4 8.5 见Axler 2009 ,第38-39页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第1节“定义与例子”)。
^ 见Artin 2010 ,第156页 harvnb模板错误: 多个指向目标 (2个): CITEREFArtin2010 (帮助 ) 。(位于第6章“Symmetry”第1节“
Symmetry of the Plane Figures”)
^ Walter Rudin . 第1章“Topological Vector Spaces”中的“Linear mappings”一節. Functional Analysis [泛函分析] . Higher mathematics series. McGraw-Hill Book Company . 1973: 13 .
^ 见Axler 2009 ,第51页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第3章“线性映射”第3节“线性映射的矩阵”)。
^ 见Axler 2009 ,第82页 harvnb模板错误: 多个指向目标 (2个): CITEREFAxler2009 (帮助 ) (位于第5章“本征值与本征向量”第3节“上三角矩阵”)。
^ 其证明只需要用到三角函数 的基础知识,在网上很容易找到证明过程。也可参见Feynman harvnb模板错误: 多个指向目标 (2个): CITEREFFeynman (帮助 ) 第11章“Vectors”第3节“Rotations”。
脚注所引资料
其它参考资料