目录

机器学习方法论与原理

序言

叙述选择什么样的赛道:AI+经验+应用

  • 书籍

    • 专业研究算法理论,偏研究理论,应用较少
    • 工具与平台使用书,有实践没有理论指导,即有方法论,缺少原理
    • 综述产业资讯和分析的书,主要偏宏观层面,少涉及技术理论,也没有太多具体技术实践

    缺少AI基础知识基础应用方法论方面的书籍。

  • 赛道

    如果靠拼命,只能支撑年轻时代,所以他是很危险的

    如果靠资历,内卷程度越来越高的情况下,资历很容易被优胜劣汰

    如果靠专精,如果专精的技术,被时代抛弃,相当于断臂

    • 赛道1,算法理论赛道,面对大学教授专家、高校毕业生
    • 赛道2,AI平台工具使用,面对大批量培训机构的学生
    • 赛道3,开创者,
    • 赛道4,经验者,中医、律师,多年摸爬滚打的建模经验,来自于时间的积累
    • 赛道5,应用者,用AI技术发挥应用创新
  • 适合人员

    • 产品、业务、管理人员,产品业务如何去设计AI业务,管理人员需要知道产品业务、技术人员们在说什么,在讨论什么,进度安排的是什么。
    • 技术工程师,对AI技术有个全局的了解,懂得去利用算法模型,即使不参与建模,可能对接AI技术,也需要了解AI技术方面的知识。
  • 本书的特点

    • 更多思想性交流,而不是知识的灌输
    • 更多使用普通话语和故事来讲述原理 通过努力可以变得更自信,相信自己可以改变很多事情。
  • 如何学习更快

    • 实践
    • 深思
    • 分享
  • 产业应用

    产业化才能推进技术成熟

    企业业务AI化,只有所有人懂得AI才能真正把AI技术应用到业务中。

  • 前置知识

    • 微积分
    • 线性代数
    • 概率论

    建议日本欧姆社漫画系列,其中:

    • 统计学
    • 相对论
    • 微积分

机器学习可能吗

机器学习可能吗

  • 统计学习

    现象推导出规律,比如古人发现乌云、大风之后就是下雨,以后就知道这么个规律,有乌云和大风,就会下雨。

    统计学习不是个案学习。

    吸烟有害健康。正态分布的哲学意义。

    正态分布,告诉我们虽然选择健康的生活方式(尽人事),但也得要听天命

    小孩观测更多的样本,通过学习好,能够看到更多的好的人生观。比如考高分,小孩可以亲身理解一分耕耘一分收获的人生观,而如果成绩不好,他就不容易去感受到那些更加积极的态度。

    我们能相信统计吗?通过统计去推测背后的规律,也就是反推背后抽象的规律,也是不靠谱的。那机器学习到底靠谱吗?

    从看到的样本中总结规律,完全无法预测未知的世界。

  • 大数定律

    人类就是靠案例的抽象总结,归纳和演绎,来评价过去、判断当下和预测未来。

    当试验次数足够多时,事件出现的频率无穷接近于该事件发生的概率

    一则无心,二则成疑,三则信。

    建模经验:数据少重视先验,数据多则重视后验。比如抛硬币。

  • 大数定律原理

    样本数越大,统计值与真实值接近的概率越高。

    基于概率的信任。

  • 统计学家看待统计结论的方式

    • 基于概率的信任
    • 观测样本越多,结论越发置信(大数据的价值)

结论:机器学习是可能的

机器如何学习

  • 机器学习方案

    训练,也就是归纳

    • 观察数据,做关系假设,去拟合观测到的数据。假设关系:a= w*F。

    • 评价指标loss,用于衡量拟合程度。loss最小时,表示拟合效果最好,也就是最优解。

    • 求loss最小时,w的值

      随着参数w取值的不同,评价指标loss会随之变化,我们可以认为loss=f(w)是一个曲线,而求loss最小值的参数w,就是解微分方程f’(w)=0

  • 拟合

    观测的数据要拟合正确的关系

  • 评价指标loss

    衡量假设对观测数据的拟合程度

    可能关系对应点的数据-观测点的数据之和,最小时,直线的参数就是我们想求的最优解

    loss=f(w)

  • 微分方程

    求导:斜率为0,即水平

    f’(w),也就是求导,求曲线上斜率为0的点,w的值

  • 本质与表象

    张三丰、张无忌学习太极拳对话:

    "无忌,我教你的还记得多少?"  - "回太师傅,我只记得一大半"
    
    " 那,现在呢?" - "已经剩下一小半了"
    
    "那,现在呢?" - "我已经把所有的全忘记了!"
    
    "好,你可以上了…"
    

    学习的本质,忘记具体的招式,学习其中的本质

    机器学习牛顿定律,y=x y=wx….

    @马哲:现象与本质

  • 做假设

    也就是y和x,他们在这个世界上是存在无数种的可能,我们需要画个圈,选定一个圈,比如y=n*x,但具体还要知道y=2x还是y=3x,我们还要得到n的值

  • loss

    评价每一次假设是好还是坏

    把所有差距加权得到一个值

    loss也是随着w的变化而变化的

  • 差值

    (实际值-预测值)的平方的加和。与|实际值-预测值|的加和 ,两个结果是一样的,但在后续的应用中会有一些好处

  • 机器学习过程三要素

    • 假设空间

      线性与非线性假设

    • 优化目标

      评价指标、∑((实际值-预测值)的平方)

      ∑:加和

    • 寻解算法

      • 解微分方程:理想情况,很困难。
      • 梯度下降:实际情况,相对容易。盲人走的方式。

    三要素各种设计组合,形成众多的模型。

  • 如何记录学习到的知识

    y与x的关系,更复杂的关系,更多的待学习w参数,以及更多的训练样本,以及更多更复杂的模型假设

    y:预测值

    x:特征

    本质理念是一样的

    输入特征、预测值,输入与预测值之间的参数,就是需要机器去确定的值就是参数。

大数据的价值

大样本使得大特征成为可能,大特征使得大样本发挥价值。

样本太小,统计结果不置信。

  • 期望

    • 保证调研数据足够细分,够准确。比如一二线城市的30-40岁的女性白领。
    • 保证调研数据样本量,够置信。样本空间足够大
    • 大数据可以同时实现以上两方面

    大样本使得大特征成为可能,大特征使得大样本发挥价值。

  • 大数据的价值

    • 更细致的刻画

      上海地区的30岁年龄段的白领喜欢xxx,xxx年龄的大妈喜欢xxx,等等,而不是中国的女性50%喜欢高跟鞋,这是一个宽泛的统计,没有任何指导意义。

    • 更智能的学习

      图像学习:像素抽象边界特征抽象部位特征抽象人脸特征,具体到抽象的过程(@马哲,具体与抽象)

      大数据会让我们更智能的学习,而不需要像17世纪牛顿定律的长期归纳与演绎。

      在足够多的数据情况下,人类可以不去假设空间,而直接由机器进行寻找Y与X之间的关系。

  • 过拟合/欠拟合

  • 领域知识

    泛指理论,但实际考虑更多的是现实中大概率出现的一个

  • 大数据给机器学习带来的帮助

    机器学习的任务是:从数据中学习出现规律(Y->X),达到自动判断Y

    • 精细刻画:释放学习Y->X关系的能力
    • 智能学习:释放自动学习特征X的能力
    • 假设被弱化,当然数据需求量会更大
    • 未来只需要指定Y,提供足够多的数据,机器就可以预测Y->X的关系

为什么要上大数据的战车

数据量非线性增长:IT化、移动化,内容生产快速,收集手段加强

  • 信息内涵

    数据融合的信息增长:1+1>2 (@马哲 整体大于部分之和)

    人的一天:注册论坛、看新闻、搜索、购物、订旅行计划

  • 应用需要大数据的原因

    • 促进业务发展(进攻)

      数据量暴增,数据内涵非线性增长,业务上涨。业务价值骑上数据量的非线性暴涨。

    • 核心竞争力(防守)

      • 商业上的成功:技术-》满足需求-》控制供给

        案例:空气-水-房子,(需求迫切性与价格成反比,@马哲-影响力,稀缺原则)

      • 创新:商业上就是创造垄断,垄断创造利润

        技术创新是一个领先的时间窗口,产品领先,沉淀数据领先,反馈产品体验领先。

      • 领先:技术领先-》产品领先-》数据领先-》产品领先:良性循环

        数据领先才是先对安全(/马哲@辩证看待黑科技,相对/)

  • 大数据的常见应用场景

    • 个性化匹配

      农业时代,个性生产个性化产品,

      工业时代,规模化生产共性产品,

      信息时代,规模化生产个性化产品

      比如今日头条、淘宝,其中的新闻和商品是千人千面的,也就是规模化的推送个性化新闻或商品。

    • 代替人工

      业务中的人工环节,引入智能模型,提升效率

      比如机器、客服、翻译等

  • 产业链

    数据<->模型<->业务<->需求

    比如:教育个性化,数据、模型、业务都没有问题,但需求大吗?

代替人工应用思考

  • 3秒钟准则

    3秒内能够决策的。

    单一场景,同类型海量数据判断。开车、翻译等3秒内决策的容易被替代

    需要关联的,联想抽象的,一般很难被替代

  • 性价比

    收益/成本

  • 数据成为壁垒

    没有科技是永远的黑科技

  • AI公司

    数据、模型、业务、需求的全面理解,并不是有几个AI工程师就是AI公司,应该是产品策划管理层有AI层面的思想理解,才能促进公司产品逐步融入AI

  • AI技术人员,找不到龙的屠龙者

    主动去发现AI应用场景

  • AI黑盒工具使用者

    最优的解决模型,并不是标准的模型

    白盒有个透彻的理解,对应用业务有一定的深度的理解