人工智能-机器学习总结

2020/01/16

## 数山有路,学海无涯:机器学习概论

机器学习的基本原理与基础概念,其要点如下:

  • 机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科;
  • 根据输入输出类型的不同,机器学习可分为分类问题、回归问题、标注问题三类;
  • 过拟合是机器学习中不可避免的问题,可通过选择合适的模型降低其影响;
  • 监督学习是目前机器学习的主流任务,包括生成方法和判别方法两类。

## 简约而不简单:线性回归

线性回归的基本原理,其要点如下:

  • 线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数;
  • 最小二乘法可用于解决单变量线性回归问题,当误差函数服从正态分布时,它与最大似然估计等价;
  • 多元线性回归问题也可以用最小二乘法求解,但极易出现过拟合现象;
  • 岭回归和 LASSO 回归分别通过引入二范数惩罚项和一范数惩罚项抑制过拟合。

## 大道至简:朴素贝叶斯方法

朴素贝叶斯方法的基本原理,其要点如下:

  • 朴素贝叶斯方法利用后验概率选择最佳分类,后验概率可以通过贝叶斯定理求解;
  • 朴素贝叶斯方法假定所有属性相互独立,基于这一假设将类条件概率转化为属性条件概率的乘积;
  • 朴素贝叶斯方法可以使期望风险最小化;
  • 影响朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。

## 衍化至繁:逻辑回归

逻辑回归方法的基本原理,其要点如下:

  • 逻辑回归模型是对线性回归的改进,用于解决分类问题;
  • 逻辑回归输出的是实例属于每个类别的似然概率,似然概率最大的类别就是分类结果;
  • 在一定条件下,逻辑回归模型与朴素贝叶斯分类器是等价的;
  • 多分类问题时可以通过多次使用二分类逻辑回归或者使用 Softmax 回归解决。

## 步步为营,有章可循:决策树

决策树的基本原理,其要点如下:

  • 决策树是包含根节点、内部节点和叶节点的树结构,通过判定不同属性的特征来解决分类问题;
  • 决策树的学习过程包括特征选择、决策树生成、决策树剪枝三个步骤;
  • 决策树生成的基础是特征选择,特征选择的指标包括信息增益、信息增益比和基尼系数;
  • 决策树的剪枝策略包括预剪枝和后剪枝。

## 穷则变,变则通:支持向量机

支持向量机的基本原理,其要点如下:

  • 线性可分支持向量机通过硬间隔最大化求出划分超平面,解决线性分类问题;
  • 线性支持向量机通过软间隔最大化求出划分超平面,解决线性分类问题;
  • 非线性支持向量机利用核函数实现从低维原始空间到高维特征空间的转换,在高维空间上解决非线性分类问题;
  • 支持向量机的学习是个凸二次规划问题,可以用 SMO 算法快速求解。

## 三个臭皮匠,赛过诸葛亮:集成学习

集成学习的基本原理,其要点如下:

  • 集成学习使用多个个体学习器来获得比每个单独学习器更好的预测性能,包括序列化方法和并行化方法两类;
  • 多样性要求集成学习中的不同个体学习器之间具有足够的差异性;
  • 序列化方法采用 Boosting 机制,通过重复使用概率分布不同的训练数据实现集成,可以降低泛化误差中的偏差;
  • 并行化方法采用 Bagging 机制,通过在训练数据中多次自助抽取不同的采样子集实现集成,可以降低泛化误差中的方差。

## 物以类聚,人以群分:聚类分析

聚类分析的基本原理,其要点如下:

  • 聚类分析是一种无监督学习方法,通过学习没有分类标记的训练样本发现数据的内在性质和规律;
  • 数据之间的相似性通常用距离度量,类内差异应尽可能小,类间差异应尽可能大;
  • 根据形成聚类方式的不同,聚类算法可以分为层次聚类、原型聚类、分布聚类、密度聚类等几类;
  • 聚类分析的一个重要应用是对用户进行分组与归类。

## 好钢用在刀刃上:降维学习

主成分分析是一种主要的降维方法,另一种更加直观的降维方式则是直接对样本的属性做出筛选,这种降维方法就是“特征选择”,其要点如下:

  • 主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性,并通过选择重要的新属性实现降维;
  • 主成分分析的解满足最大方差和最小均方误差两类约束条件,因而具有最大可分性和最近重构性;
  • 特征选择则是选取原始特征中的一个子集用于学习任务,是另一种主要的降维技术;
  • 特征选择的关键问题是对特征子集的评价,主要的特征选择算法包括包裹法、过滤法和嵌入法。

## 拓展阅读参考书

总结自:人工智能基础课: https://time.geekbang.org/column/62