目录

术语概念

前言

一个形象公式:

Min(Eval(H(θ,x),y))

这个公式的含义:

我们通过答题进而学习知识的过程。y是题目x的答案,θ是知识,H函数就答题过程,Eval则是根据答案y和答题H进行打分,也就是评估,Min就是我们的学习效果,答题与答案越接近,意味着我们学习的效果越好。

如何学习

  • 机器如何学习

    • 假设空间:比如线性关系
    • 优化目标:比如均方误差
    • 寻解算法:比如解微分方程
  • 假设空间

    • 线性回归:牛顿第二定律(实数集)
    • 感知机:线性回归,阶跃函数(0||1),分类场景
    • 逻辑回归:概率场景(0~1的值)
  • 为什么这么多假设

    一个假设吃天下,不行么?

    假设实际上就是对目标规律的认知,由于对目标规律的认知不同,所以不同的应用场景存在不同的目标规律,需要不同的假设空间。(@马哲,一切从实际出发,实事求是)

    以实用为目标,从需求出发构建假设

  • 科学是什么

    科学是一种认识世界的信仰

    (@马哲,科学是什么,哲学是什么)

更多的优化目标

  • 线性回归

    牛顿第二定律案例

    完全拟合已知数据是理想假设,所以优化目标为拟合误差的某种衡量指标,成为Loss

    loss显然又是关于参数w的函数关系

    • 均方误差

      均方误差更柔和,更容易更快速的感知到最低点。绝对误差是直接找到,但不容易感知到最低点,且不柔和。

    • 优化解决过程

      合理性:绝对误差

      易解性:均方误差

  • 感知机

    • 二分类模型:True|False :: Positive||Negative

    • 0/1误差

      0/1误差,也就是就错误样本点的个数:Min(FP+FN),其实就是一种离散的数据,很不好解

  • 逻辑回归

    • 最大似然

      如果一个规律,最大可能产生该观测结果,这个规律最可能是真的。比如认识人的第一天,发现他做了三件坏事,则我们更倾向于他可能是个坏人。

    • 似然误差

      预测输出(概率值)与真实分类(0||1)不是在同一个维度上,不能直接套用均方误差

      最大似然、概率函数、似然误差:https://zhuanlan.zhihu.com/p/26614750

    • 概率函数

      p(h|d)

    • 优化解决过程

      合理性推导:贝叶斯原理

      易解性推导:+Log 求最小

    当你排除一切不可能的情况,剩下的,不管多难以置信,都是事实。– 福尔摩斯(@马哲,实事求是)

  • 一个启示性的故事,更改人的目标

    一位老人在乡村养病,但附近的小孩很喜欢在老人家附近玩耍,于是老人把孩子们都聚在一起,说谁的声音最大就有奖赏,并根据他们的吵闹程度给予不同的奖励,在孩子们都习惯有奖励的时候,慢慢的老人就不再给奖励,孩子们就想,你不给我钱,我为什么给你吵,之后就没有在老人家吵了.

    孩子们原本吵闹是为了玩耍为了快乐,后来被老人变相更改了吵闹玩耍的目的,让表面现象给迷惑了,丢失了吵闹的本质

    合理的优化目标,根据当下实际情况实现,才更有意义

更多寻解算法

  • 线性代数

    大学里的线性代数,很需要改革,砍掉其中一半,保留基本的那一半,再结合实际应用场景,深入思考线性代数的思想(原理)与用途(方法论)。毕竟大部分人学过线性代数,在之后的人生中可能基本都不会再使用到,在这里就想到了,美国及西方部分教育,注重基础及实践结合,是很有道理的,他们并不是一味着为了学习而学习,为了竞赛而学习。工具科目容易快速上手学习、思想科目学个基础及思想入门,待研究生去深入研究。

    说到这里,预测10年后,中国教育需要改革成:小学缩短最多4~5年,初中与高中合并成中学,3~4年,大学2~3年,研究生2年,比起原来从7岁开始6+3+3+4+2,学到研究生时至少25岁,改革后可以从7岁开始5+4+3+2,学到研究生时21岁。21世纪的孩子都比较成熟,也容易早早进入社会,同样早早推动家庭的走向。人类年轻化是必然的,人类老年化也是必然的。

    时代是发展的,20年前适合的规则,在20年后不一定适合,需要与时俱进,物质的变化的累积,导致质变,质变促进社会行业的变革。

  • 近朱者赤近墨者黑

    x相近时,y就会相近,这种情况的才适合机器学习

    蝴蝶效应、股票系统、彩票系统不适合机器学习(混沌系统)

  • 梯度下降

    随机取一个参数w,计算导函数,得到当前梯度(斜率),继续往下降的方向走一小步,逐步一直走

    • 可行性:凸函数,全局唯一最低点
    • 关键要素:方向、步长
    • 步长
      • 太短:优化太慢
      • 太长:可能错过最低点
      • 具体应用场景的适合步长,在具体应用场景中测试得到适合步长
      • 步长灵活,根据梯度灵活调整,一开始长,慢慢的越来越精细
  • 感知机:PLA

    感知机是离散的,不是连续的函数,不好计算。

    将离散的错误样本到分类界面的距离量化成连续的函数。

  • 逻辑回归:梯度下降优化

    随机梯度

    参考PLA,每轮迭代只考虑部分样本,去计算当前的梯度,得到的每次梯度方向可能都会不一样,但整体最终的大方向是往低点的方向,速度快,但快接近最低点时,会来回徘徊(毕老师给了个很形象的比喻:奔跑的醉汉)

  • 寻解算法

    是三要素中更偏数学设计,离应用相对更远的要素

小结

  • 线性回归

    • 回归假设
    • 均方误差
    • 公式解

    现实中,存在较多常见的类线性关系

  • 感知机

    • 分类假设
    • 0/1误差
    • 迭代优化
  • 逻辑回归

    • 概率假设
    • 似然误差
    • 梯度下降

毕老师,更多的是分享机器学习的认知、思想,而不是分享具体的模型算法知识,这些认知和思想更像是大楼的基石和架构,只有基石和架构牢固,大楼的建造更快速更稳。


建议视频:https://aistudio.baidu.com/aistudio/education/lessonvideo/280029