机器学习-斯坦福大学 -Andrew Ng: 前两周课程小结

1、前两周的课程主要数学知识点为矩阵乘法

A m*n B k*y
如若 A*B 可以相乘 必然有 n=k，最后的结果为 m*y的matrix
在线性回归中矩阵用处在于：
 x10 x11 x12 x13  y1          &1
 x20 x21 x22 x23  y2          &2
  .   .   .   .    .          &3
  .   .   .   .    .      

 数据量有 m  &数据有 n                         
 X = m n
 Y=m 1(实际值向量)
 &=n 1
 Final =X*Y
 Final=m 1 (预测值向量)

2、监督学习与非监督学习

监督学习：我们的目标是从输入到输出的一种映射关系。其中输出的值已经有了，其指导我们输出的数据了。我们根据已经有的输出值，对输入值进行学习，寻找输入值与输出值之间的关系。例：一堆（x,y），数据学习其中x（输入值）与y（输出值）之间的关系。
非监督学习：与监督学习最大的区别在于，非监督没有已知的输出值给予训练，完全依靠模型寻找输入值之间内在的关系。例：新闻聚类，给新闻分类
总：有输出值得数据为监督学习，没有输出值为非监督学习。

3.1、线性回归-代价函数(cost function)

y拟合=θ0x0+θ1x1
选择合适θ0和θ1来使直线最好的拟合图中的数据点。
所以这里有一个最小化的概念就是使假设函数与训练样本之间的误差最小。
最小化：就是直线最佳拟合图中数据点。
求法：(y拟合(x)-y(x))^2, 其实就是求预测函数取x值是y预测到y真实的距离的平方，这是一个点，最后将每一个点都加和起来，求平均值

3.2、线性回归-梯度下降（gradient descent）

梯度下降：重复计算直到收敛

图中的 := 代表赋值符号,而且需要注意的是每次更新都是同时赋值。
alpha 代表的是学习速率，它控制我们以多大的的幅度更新这个参数代表θj。也就是上面说的大步流星下山或是小碎步下山。
alpha大小取值过大会导致最终不能收敛。
             过小会导致收敛次数对多，耗费时间长。

3.2、线性回归-特征缩放（Feature Scaling）

特征缩放：是梯度下降快速收敛到终止位置（阈值点）。

    μi：所有特征(i)的平均值。
    si：特征(i)的(max - min)或者标准偏差。

3.3、线性回归-正常方程求解（Normal Equation）


梯度下降与正常方程求解优缺点：
梯度下降                               正常求解
需要选择alpha大小                      不需要考虑alpha大小
需要很多次迭代                         不需要迭代
O(Kn^2)                               O(n^3),并且需要计算X'X
在特征比较多的时候使用                  特征数量较小时使用

机器学习-斯坦福大学 -Andrew Ng: 前两周课程小结

最初的信仰

引用和评论

zookeeper深入理解-同事讨论引起的一场理解

Java8的新特性

Java11的新特性

Java5的新特性

Java9的新特性

Java13的新特性

Java7的新特性