02深入理解机器如何学习

四月 11, 2021 发布在人工智能, 机器学习思考 | 大约2195字 | 预计5分钟读完 | 机器学习 AI

目录

术语概念
前言
如何学习
更多的优化目标
更多寻解算法
小结

术语概念

阶跃函数
均方误差
绝对值误差
梯度下降
最大似然 https://zhuanlan.zhihu.com/p/26614750
贝叶斯原理
离散函数

前言

一个形象公式：

Min(Eval(H(θ,x),y))

这个公式的含义：

我们通过答题进而学习知识的过程。y是题目x的答案，θ是知识，H函数就答题过程，Eval则是根据答案y和答题H进行打分，也就是评估，Min就是我们的学习效果，答题与答案越接近，意味着我们学习的效果越好。

如何学习

机器如何学习
- 假设空间：比如线性关系
- 优化目标：比如均方误差
- 寻解算法：比如解微分方程
假设空间
- 线性回归：牛顿第二定律（实数集）
- 感知机：线性回归，阶跃函数（0||1），分类场景
- 逻辑回归：概率场景(0~1的值)
为什么这么多假设

一个假设吃天下，不行么？

假设实际上就是对目标规律的认知，由于对目标规律的认知不同，所以不同的应用场景存在不同的目标规律，需要不同的假设空间。（@马哲，一切从实际出发，实事求是）

以实用为目标，从需求出发构建假设
科学是什么

科学是一种认识世界的信仰

(@马哲，科学是什么，哲学是什么)

更多的优化目标

线性回归

牛顿第二定律案例

完全拟合已知数据是理想假设，所以优化目标为拟合误差的某种衡量指标，成为Loss

loss显然又是关于参数w的函数关系
- 均方误差
  
  均方误差更柔和，更容易更快速的感知到最低点。绝对误差是直接找到，但不容易感知到最低点，且不柔和。
- 优化解决过程
  
  合理性：绝对误差
  
  易解性：均方误差
感知机
- 二分类模型：True|False ：： Positive||Negative
- 0/1误差
  
  0/1误差，也就是就错误样本点的个数：Min(FP+FN)，其实就是一种离散的数据，很不好解
逻辑回归
- 最大似然
  
  如果一个规律，最大可能产生该观测结果，这个规律最可能是真的。比如认识人的第一天，发现他做了三件坏事，则我们更倾向于他可能是个坏人。
- 似然误差
  
  预测输出（概率值）与真实分类（0||1）不是在同一个维度上，不能直接套用均方误差
  
  最大似然、概率函数、似然误差：https://zhuanlan.zhihu.com/p/26614750
- 概率函数
  
  p(h|d)
- 优化解决过程
  
  合理性推导：贝叶斯原理
  
  易解性推导：+Log 求最小
当你排除一切不可能的情况，剩下的，不管多难以置信，都是事实。– 福尔摩斯（@马哲，实事求是）
一个启示性的故事，更改人的目标

一位老人在乡村养病,但附近的小孩很喜欢在老人家附近玩耍,于是老人把孩子们都聚在一起,说谁的声音最大就有奖赏,并根据他们的吵闹程度给予不同的奖励,在孩子们都习惯有奖励的时候,慢慢的老人就不再给奖励,孩子们就想,你不给我钱,我为什么给你吵,之后就没有在老人家吵了.

孩子们原本吵闹是为了玩耍为了快乐，后来被老人变相更改了吵闹玩耍的目的，让表面现象给迷惑了，丢失了吵闹的本质

合理的优化目标，根据当下实际情况实现，才更有意义

更多寻解算法

线性代数

大学里的线性代数，很需要改革，砍掉其中一半，保留基本的那一半，再结合实际应用场景，深入思考线性代数的思想（原理）与用途（方法论）。毕竟大部分人学过线性代数，在之后的人生中可能基本都不会再使用到，在这里就想到了，美国及西方部分教育，注重基础及实践结合，是很有道理的，他们并不是一味着为了学习而学习，为了竞赛而学习。工具科目容易快速上手学习、思想科目学个基础及思想入门，待研究生去深入研究。

说到这里，预测10年后，中国教育需要改革成：小学缩短最多4~5年，初中与高中合并成中学，3~4年，大学2~3年，研究生2年，比起原来从7岁开始6+3+3+4+2，学到研究生时至少25岁，改革后可以从7岁开始5+4+3+2，学到研究生时21岁。21世纪的孩子都比较成熟，也容易早早进入社会，同样早早推动家庭的走向。人类年轻化是必然的，人类老年化也是必然的。

时代是发展的，20年前适合的规则，在20年后不一定适合，需要与时俱进，物质的变化的累积，导致质变，质变促进社会行业的变革。
近朱者赤近墨者黑

x相近时，y就会相近，这种情况的才适合机器学习

蝴蝶效应、股票系统、彩票系统不适合机器学习（混沌系统）
梯度下降

随机取一个参数w，计算导函数，得到当前梯度（斜率），继续往下降的方向走一小步，逐步一直走
- 可行性：凸函数，全局唯一最低点
- 关键要素：方向、步长
- 步长
  - 太短：优化太慢
  - 太长：可能错过最低点
  - 具体应用场景的适合步长，在具体应用场景中测试得到适合步长
  - 步长灵活，根据梯度灵活调整，一开始长，慢慢的越来越精细
感知机：PLA

感知机是离散的，不是连续的函数，不好计算。

将离散的错误样本到分类界面的距离量化成连续的函数。
逻辑回归：梯度下降优化

随机梯度

参考PLA，每轮迭代只考虑部分样本，去计算当前的梯度，得到的每次梯度方向可能都会不一样，但整体最终的大方向是往低点的方向，速度快，但快接近最低点时，会来回徘徊（毕老师给了个很形象的比喻：奔跑的醉汉）
寻解算法

是三要素中更偏数学设计，离应用相对更远的要素

小结

线性回归
- 回归假设
- 均方误差
- 公式解
现实中，存在较多常见的类线性关系
感知机
- 分类假设
- 0/1误差
- 迭代优化
逻辑回归
- 概率假设
- 似然误差
- 梯度下降

毕老师，更多的是分享机器学习的认知、思想，而不是分享具体的模型算法知识，这些认知和思想更像是大楼的基石和架构，只有基石和架构牢固，大楼的建造更快速更稳。

建议视频：https://aistudio.baidu.com/aistudio/education/lessonvideo/280029

v 1109

v 1109

作者的图片

TsingChan

万事头开难，好开的始成功的一半。
软件工程。
践行目标管理，践行自动化降本提效，践行社会主义核心价值观。

IT IS ALL

中国.福建