基础理论—线性代数积累

肖圣贤

概念

向量

向量的直观是有向线段,即带有方向的线段、空间内的点。

当我们把几个维度的数值放在一起,作为一个整体处理时,
我们会用到方程式,也就用到了向量。我们用向量来表示
方程式。

基于以上的点,我们可以说把数值罗列出来就是向量。

为什么列向量更受欢迎?列向量是竖着的向量。
列向量在方程组中作用于自变量,与自变量相乘加和方面
表示方程组时更加自然。

基底

刻画向量空间的基本工具。


宇宙中没有上下也没有左右,也没有参考坐标系。

选定基准向量 e1-> 和 e2-> ,
通过沿着e1 走3步,沿着e2 走4步的方式指定位置。

作为基准的一组向量就叫做 基底。

沿着各个基准向量走的步数叫做 坐标。

什么样的向量才能被选为基底?
一组向量(e1->,....en->) 被称为基底的条件如下:
    1、向量空间中任何向量v都可以用这组向量表示
    2、向量v的表示方法唯一
    
基与线性变换:
    比如说,考察从一个向量空间映射出的线性变换,
    可以查看这个线性变换作用在向量空间的一组基上的效果。

向量空间

定义:
    V是一个非空集合,P是一个域。
    对V中任意两个元素α与β,满足加法、数量乘法、交换分配等八大运算律的,
    则称V为域P上的一个线性空间,或向量空间。
    
    V中元素称为向量,V的零元称为零向量,P称为线性空间的基域.
    
    也称线性空间。

直观:
线性空间是我们生活的现实空间的一个缩影,是对现实空间的抽象化。     
但不是现实世界的完全复制,所以不能照搬生活经验。

可以对解析几何进一步抽象化。

内积

又称为两个向量的数量积(dot product; scalar product)

两个向量的维度必须一致,才能有点积。

数学定义:
    两个向量的每一个纵列相乘之和。

    
几何意义

    两个向量的长度相乘,在乘以两个向量的夹角。
    
    第一个向量投影到第二个向量上,然后通过除以它们的标量长度来“标准化”。
    
    该定义只对二维三维空间有效。

外积

又叫叉乘、叉积向量积,其运算结果是一个向量而不是一个标量。

外积的几何意义:
    两个向量的外积与这两个向量组成的坐标平面垂直。
    
    向量a和向量b的外积结果是一个向量,有个更通俗易懂的叫法是法向量,
    该向量垂直于a和b向量构成的平面。


有人说第四维是时间,第五维是灵魂......

不过在矩阵计算中,是不用关心维表示什么的。
第几维表示什么,是程序设计者或者使用者根据具体业务提取的,
比如长、宽、高、颜色。
计算机从来不关心具体意义,只负责计算。

矩阵

矩阵的直观是“映射”,不仅仅是数字排列成的表。
每一行是一个向量,也是一个方程组的系数。
有 m x n 矩阵 A。
m x n 矩阵 A 表示 从 n 维空间到 m 维空间的映射。

矩阵的一个非常重要的应用就是高斯消元法求解线性方程组的精确描述.

矩阵乘法

 A*x = B
 从代数角度理解:
    上述表达式就像一个函数,A是f(x)=y中的f,B是f(x)=y中的y。
    但是在矩阵中A 和 B的行数必须一致,x必须和A的列数一致。
    
    从函数角度理解,其实矩阵是把一个大的函数拆分成了小的分别计算。
    就好比我们可以求出具体方程的解,但是我们现在不用求方程组解的方法求解。
    而是直接用A矩阵的形式来整体研究。
 矩阵乘法直观:
    向量左乘矩阵是把向量各分向量变换到新的位置(对每一维的坐标进行映射), 
    然后通过向量加法(采用代数加法实现)得到结果。 
    
    对于AX=b,相当于A的各列通过某种线性组合得到b.
    也就是说,b向量在A矩阵的列空间中。
    
    矩阵本身代表方程组的系数。
    方程组中的自变量表示被乘向量或者矩阵。
  
  三种效应:
    旋转:
        形状不发生变化
    缩放:
        又称为拉伸,形状可以变化也可以不变化。
    投影:
        从高维度到低维度
        
    

单位矩阵 逆矩阵

单位矩阵定义:
    它是个方阵,从左上角到右下角的对角线(称为主对角线)上的元素均为1。除此以外全都为0。
单位矩阵直观:
    如同数的乘法中的1。
    任何矩阵与单位矩阵相乘都等于本身。
    单位矩阵的特征值皆为1,
    任何向量都是单位矩阵的特征向量。
    为什么对角线上都是1呢:
       以2*2矩阵举例,放到几何直观中就是 (1,0) (0,1) 组成的基底。
    
逆矩阵定义:
   可逆矩阵一定是方阵。
   AB = BA = E,E为单位阵,则称A、B为可逆阵,B为A的逆矩阵,记为B=A{-1}。
   逆矩阵是唯一的。
   

逆矩阵性质:
    若矩阵A是可逆的,则A的逆矩阵是唯一的。
    矩阵可逆当且仅当它是满秩矩阵。

    不可逆直观: 
        导致空间降维的矩阵不可逆。        

从几何映射角度看,行列式、秩、奇异矩阵

映射:
    矩阵是对一个维度空间的作用。
    维度空间由很多向量(点)组成。

线性无关定义:
    在线性代数里,向量空间的一组元素中,若没有向量可用有限个其他向量的线性组合所表示,则称为线性无关或线性独立。
    例如在三维欧几里得空间R3的三个向量(1, 0, 0),(0, 1, 0)和(0, 0, 1)线性无关。但(2, −1, 1),(1, 0, 1)和(3, −1, 2)线性相关,因为第三个是前两个的和。

行列式定义:
    映射对应的“体积的扩大率”。
    行列式是线性变换的伸缩因子。
    只有方阵有行列式。
行列式直观:
    行列式用来衡量线性变换拉伸或者缩放比例。

    行列式的值大于0小于1对图形缩小,大于1对图形放大。
    行列式等于0,意味着把空间降维了,意味着矩阵有线性相关的行或列,即线性相关。
    行列式等于0,矩阵不可逆。
    
    原名称为判别式 -- 希望找到一个数来判断n个未知数组成的n个线性方程组是否存在唯一解。
    存在唯一解的思路:
        什么时候存在唯一解呢? 即, 两条直线相交于一点. 
        换种思维, 如果是二元一次方程组,两条直线的法向量不平行. 
        再换种思维, 这两个法向量张成的平行四边形面积不为零. 
        换句话说,线性方程组存在唯一解的充要条件就是两条直线的法向量构成的平行四边形面积不为零。
        
        回到线性变换,我们通过线性变换可以把方阵对应的几何图形由平行四边形变换成矩形,这样便于计算求行列式的值。
    
    只有方阵有行列式:
        二维空间中的向量只能由两个坐标所规定。
        而要计算一个多边形的面积,只能计算由且仅由两个向量所规定的多边形
        
    
秩定义:
    行秩是A 的线性无关的横行的极大数目。
    方阵(行数、列数相等的矩阵)的列秩和行秩总是相等的,因此它们可以简单地称作矩阵_A_的秩。
    mxn矩阵的秩最大为 min(m, n)个。
    
    秩的英文原意是分类的意思:
    首先通过矩阵的初等变换, 定义矩阵的相抵关系, 相抵关系是等价关系; 
    然后, 通过相抵关系, 就可以对矩阵进行分类, 并且每一类都选出一个代表元, 将这个代表元称作标准形; 
    最后, 更重要的是, 每一类都有一个独有的特征, 这个独有的特征就是不变量, 这里称为秩。
秩性质:
    
    秩的维数量与原矩阵是否相等决定了原矩阵是否可逆。
 
    几何直观:
     m x n 矩阵 A在目标空间被压缩,被压缩成的矩阵成为A的像(IMG A)。
     像的维数称为 A 的秩。
    

奇异矩阵定义:
    首先,方阵才能称为奇异矩阵和非奇异矩阵。
    然后,行列式|A|等于0,称矩阵A为奇异矩阵;若不等于0,为非奇异矩阵。 
    同时,由|A|≠0可知矩阵A可逆,这样可以得出另外一个重要结论:可逆矩阵就是非奇异矩阵,非奇异矩阵也是可逆矩阵。 
    
    如果A为奇异矩阵,则AX=0有无穷解,AX=b有无穷解或者无解。
    如果A为非奇异矩阵,则AX=0有且只有唯一零解,AX=b有唯一解。
    
    奇异矩阵确实跟行列式(判别式)有关系,因为行列式就是用来判断矩阵是否有唯一解。

奇异矩阵直观:    
    A 的 像的维数比原来降低了,称 A 为奇异矩阵。
    如果像的维数没有降低,称为A是非奇异矩阵,又称可逆矩阵。
        

转置矩阵 正交矩阵

转置矩阵定义:
    把m x n的行列互换之后得到的矩阵,称为A的转置矩阵,记作A (T)。
    A可以不是方阵。
转置矩阵性质:
    转置矩阵与原来矩阵相比行列式不变。
    
正交矩阵定义:
    首先看正交向量的定义: 
        向量点积为0的情况叫正交。
    
    A矩阵和它的转置矩阵乘积为单位矩阵,则A为正交矩阵。
    转置后的矩阵,再进行乘法。
    
    矩阵分量与自己点积是1,与其它分量点积是0。
    
    正交矩阵是方阵。
    
正交矩阵直观:
    其实很好理解,矩阵的每个分向量与其它分向量点积都是0(几何上正交)。
正交矩阵性质:
    A为正交矩阵的充要条件是A的列向量和行向量都是标准正交基。
    另外一个充要条件 A的转置 =  A 的逆。



    

相似矩阵

定义:     
    设A,B都是n阶矩阵,若有可逆矩阵P,使
    P^{-1}AP=B
    则称B是A的相似矩阵,或说A和B相似。



直观:
    线性变换通过指定基底下的矩阵来表示。
    线性变换是基于某个基底的,就好比函数是基于直角坐标系的。
    
    定义解释:同一个线性变换不同基下的矩阵称为相似矩阵。
             A B 是V1 和 V2基底下的矩阵,基底在定义公式中是隐含的。
             P{-1} 和 P 可以互相转换 A B的基底 V1 和 V2 ,
             即 P{-1} V1 = V2 , P V2 = V1。
             
应用:
    便于计算:相似变换就是坐标转换,转换到一个更方便计算的简单坐标系.

特征向量 特征值 特征空间


定义:
A 是n阶方阵,如果存在数m和非零n维列向量 x,使得 Ax=mx 成立,则称 m 是A的一个特征值(characteristic value)。 

非零n维列向量x称为矩阵A的属于(对应于)特征值m的特征向量。

特征向量所在直线包含了所有的特征向量,称之为特征空间。

特征向量,有向线段只发生了伸缩,而方向没有变化的向量。
伸缩率表示特征值。
特征值又称本真值,可能是表示矩阵本身的性质吧。

另外一种定义: 方阵对某个向量只产生伸缩,而不产生旋转效果,那么这个向量就称为矩阵的特征向量,
            伸缩的比例就是对应的特征值。

特征向量性质:
        特征向量的相互正交。

直观:
    如果把矩阵看作是运动。
    特征值就是运动的速度,特征向量就是运动的方向。
    特征值、特征向量可以被称为运动(即矩阵)的特征。

    矩阵本身是运动(其实就是方程组的系数),本身是没有意义的,
    要作用到具体的向量(可以看成方程组的变量)上才有意义。
 
        

特征值分解

定义:
    A = Q ∑ Q-1
    Q是这个矩阵A的特征向量组成的矩阵,
    Σ是一个对角阵,每一个对角线上的元素就是一个特征值,特征值从大到小排列。
    
    A是方阵。
解析:
    如果我们想要描述好一个变换(矩阵),那我们就描述好这个变换主要的变化方向就好了。
    
    这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。
    
    矩阵是高维的情况下,那么这个矩阵就是高维空间下的一个线性变换,这个变换也同样有很多的变换方向,
    我们通过特征值分解得到的前N个特征向量,那么就对应了这个矩阵最主要的N个变化方向。
    
    特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。
    
    

范数

相对熵

Kullback-Leibler divergence

机器学习里非常常用的一个概念,KL 散度,这是一个用来衡量两个概率分布的相似性的一个度量指标。

矩阵分解

三角分解(LU分解)

把矩阵分成下三角矩阵(Lower)和上三角矩阵(Upper)的一种分解。

A = LU 

梯形矩阵。
PLU 分解
方阵 A 的 PLU 分解是是将它分解成一个置换矩阵 P、一个下三角矩阵 L 与上三角矩阵 U 的乘积.

为了保持矩阵稳定,对A做P置换后,再做LU分解。

不这样做的话,LU会不稳定。

PA =LU
LDU 分解

QR分解

把矩阵分解成一个正交矩阵与一个上三角矩阵的。
Q是正交矩阵(意味着QTQ = I)而R是上三角矩阵。

类似的,我们可以定义A的QL, RQ和LQ分解。

意义:
    使用qr分解有助于加快解方程或求解速度即收敛速度。

Jordan分解

奇异值分解(SVD分解)

A = U ∑ V(T)

A m x n 矩阵。
U m x m 左奇异矩阵,里面的向量是正交的,U里面的向量称为左奇异向量。
∑ m x n 奇异值矩阵,对角线上的元素称为奇异值,其余元素是0。
V(T) n x n 右奇异矩阵,里面的向量也是正交的,V里面的向量称为右奇异向量。


求解步骤:
    1、原始矩阵乘以原始矩阵的转置,得到原始方阵
    
    2、求原始方阵的特征值特征向量
    
    3、特征向量组成右奇异矩阵,特征值开根号组成奇异值矩阵
    
    4、通过右奇异矩阵,原始矩阵,右奇异矩阵求出左奇异矩阵

奇异值和特征值对应:
    ( A(T) * A ) v(i) = λ(i) v(i)
    以上使用是特征值公式,A的转置乘A。
    
    v 就是上面V 对应的右奇异向量。
    
    奇异值:  σ = λ(i)开根号
    左奇异向量: 1/奇异值 * A * v(i)

奇异值分解:
    A(mxn) 约等于=  U(mxr) ∑(rxr) V(T)(rxn)
    
    r是一个远小于m、n。

    奇异值σ跟特征值排序一样,在矩阵Σ中也是从大到小排列。
    
奇异值分解的几何意义(参考公式):

    奇异值分解是对线性变换旋转、缩放和投影的一个析构。
    U的列向量和V的列向量组成了一组标准正交基,这表示我们找到了U和V这两组基。
    
    A矩阵的作用是将向量从以V这组正交基为基底的向量空间旋转到以U这组正交基为基底的向量空间。
    并对每个方向做一定的缩放,缩放因子就是Σ中的各个奇异值。
    如果V的维度比U大,则这个过程还包含了投影。  
    
    可见SVD是将一个矩阵原本混合在一起的三种作用效果给分离了开来。
    
    V(T)同一维度n下基变换(旋转),Σ不n空间到m空间变换(投影or伸缩),𝑈 基变换(旋转)。

计算:
    时间复杂度 n(3)次方。

PCA 主成分分析

用处

                                                                            解决降维问题。
                                                                            对特征进行降维(而不是数据)

原理

                                                                            牺牲少量的信息以降低特征数量。
                                                                            最大化方差理论:保留特征之间协方差最大的特征
                                                                            1、降低的维度如何选择,
     根据特征值的占比来选择,
     可以计算出信息保留的百分比。                                              2、降维后的信息无法知道确切含义。
      最后得到了一个m x k的矩阵,k是新的特征个数,并不知道每个具体含义是什么。

流程

  
 X(m,n) 训练集,m条数据,n个特征。
 
 1、求特征之间的协方差矩阵C(n,n),协方差矩阵为N x N 维度,N是特征数。
 2、求协方差矩阵C的特征值,特征向量U矩阵(n,k)
 3、用原始矩阵和特征向量求降维后的矩阵Z(m, k) = X U。
 
                                                                            https://blog.csdn.net/u012421852/article/details/80458340

线性规划

线性规划(Linear Programming,简称LP)是运筹学中研究较早、
发展较快、应用广泛、方法较为成熟的一个重要分支,
它是辅助人们进行科学管理的一种数学方法。

对偶问题

    研究线性约束条件下线性目标函数的极值问题的数学理论和方法。

线性规划中普遍存在的配对现象:
    即对每一个线性规划问题,都存在另一个与它有密切关系的线性规划问题,
    其中之一称为原问题,而另一个称它的对偶问题。

对偶理论(Duality theory):
    研究线性规划中原始问题与对偶问题之间关系的理论。
    
对偶问题的表达:
    1、对称形式的对偶
    
    2、非对称形式的对偶
    
    3、一般情形

拉格朗日对偶性(Lagrance duality)

支持向量机和最大熵模型中都会用到拉格朗日对偶性。

主要为解决约束最优化问题,通过将原始问题转换为对偶问题求解

拉格朗日函数(generalized Lagrange function)

是将所有的限定条件加上新引入的变量(拉格朗日乘子)构成了一个新的函数。
引入变量(拉格朗日乘子)将限定条件转换为了未知变量。

拉格朗日函数在对偶问题中的位置:
    1、从原始问题开始,通过拉格朗日函数重新定义一个无约束问题,
    2、这个无约束问题等价于原来的约束优化问题,从而将约束问题无约束化。
    3、也就是将d个变量和k个约束条件的最优化问题转换为d+k个变量的最优化问题。

KTT条件

一些名词概念

duality gap
描述了我用另一种方式刻画问题的时候所造成的误差
共轭函数
(conjugate function)
共轭函数亦称对偶函数、极化函数,函数的某种对偶变换。

共轭函数的概念在研究极值问题的对偶理论中起着本质作用
对偶空间
表示:
    X*为X的某个对偶空间

高等数学

梯度

todo

引用

矩阵乘法的本质是什么?
线性代数(3.1) -- 行列式 (隐藏在"大公式"背后的真相)
线性代数(3.2) -- 行列式的计算与高斯消元法 ("同工异曲")
对于一般的矩阵,有它的行列式的定义吗?
为什么非方阵矩阵没有行列式?
【直观详解】线性代数的本质-行列式
(五)理解矩阵
通俗的理解矩阵分解的意义
如何理解相似矩阵?
如何理解矩阵特征值和特征向量?
如何理解矩阵特征值?
线性代数(4.4) -- 矩阵的秩 (分类与整理的艺术)
线性代数之PLU分解
一文让你通俗理解奇异值分解
人们是如何想到奇异值分解的?
线性变换的矩阵为什么要强调在这组基下?
矩阵的特征值分解与奇异值分解的几何意义
一文让你通俗理解奇异值分解
【Math for ML】矩阵分解(Matrix Decompositions) (下)
为什么梯度的方向与等高线切线方向垂直?
梯度下降讲解(举例场景+数学分析)
如何理解拉格朗日乘子法?
构造拉格朗日函数有何意义?

阅读 3k

学习让我充实

31 声望
5 粉丝
0 条评论

学习让我充实

31 声望
5 粉丝
文章目录
宣传栏