机器学习术语

fansichao 2021-10-23 16:25:17
Categories: Tags:

有监督与无监督学习

有监督学习

有监督学习是通过 现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习 方法。

在监督式学习中,训练数据集一般包含样本特征变量及分类标签,机器使用不同 的算法通过这些数据推断出分类的方法,并用于新的样本中。目前有监督学习算法已经 比较成熟,并且在很多领域都有很好的表现。

无监督学习

无监督学习,或者说非监督式学习,则是在没有训练数据集的情况下,对没有标 签的数据进行分析并建立合适的模型,以便给出问题解决方案的方法。在无监督学习当中, 常见的两种任务类型是数据转换和聚类分析。

其中数据转换的目的是,把本来非常复杂的数据集通过非监督式学习算法进行转换, 使其变得更容易理解。常见的数据转换方法之一便是数据降维,即通过对特征变量较多 的数据集进行分析,将无关紧要的特征变量去除,保留关键特征变量(例如,把数据集 降至二维,方便进行数据可视化处理)。

聚类算法则是通过把样本划归到不同分组的算法,每个分组中的元素都具有比较 接近的特征。目前,聚类算法主要应用在统计数据分析、图像分析、计算机视觉等领域

分类与回归

分类和回归是有监督学习中两个最常见的方法。对于分类来说,机器学习的目标是 对样本的类标签进行预测,判断样本属于哪一个分类,结果是离散的数值。而对于回归 分析来说,其目标是要预测一个连续的数值或者是范围。

这样讲可能会有一点抽象,我们还是用小 C 的例子来理解一下这两个概念。

比如,小 C 在使用算法模型预测女神的电影喜好时,他可以将电影分为“女神喜欢的” 和“女神不喜欢的”两种类型,这就是二元分类,如果他要把电影分为“女神特别喜欢的” “女神有点喜欢的” “女神不怎么喜欢的”以及“女神讨厌的”四种类型,那么这就属 于多元分类。

但如果小 C 要使用算法模型预测女神对某部电影的评分,例如,女神会给“速度与 激情 8”打多少分,从 0 到 100,分数越高说明女神越喜欢,最终模型预测女神会给这部 电影打 88 分,这个过程就称为回归。小 C 需要将女神给其他电影的评分和相对应的电 影特征作为训练数据集,通过建立回归模型,来给“速度与激情 8”打分。

泛化、过拟合和欠拟合

在有监督学习中,我们会在训练数据集上建立一个模型,之后会把这个模型用于新的, 之前从未见过的数据中,这个过程称为模型的泛化(generalization)。当然我们希望模 型对于新数据的预测能够尽可能准确,这样才能说模型泛化的准确度比较高。

那么我们用什么样的标准来判断一个模型的泛化是比较好的,还是比较差的呢?

我们可以使用测试数据集对模型的表现进行评估。如果你在训练数据集上使用了一 个非常复杂的模型,以至于这个模型在拟合训练数据集时表现非常好,但是在测试数据 集的表现非常差,说明模型出现了过拟合(overfi tting)的问题。

相反,如果模型过于简单,连训练数据集的特点都不能完全考虑到的话,那么这样 的模型在训练数据集和测试数据集的得分都会非常差,这个时候我们说模型出现了欠拟 合(underfi tting)的问题。

而只有模型在训练数据集和测试数据集得分都比较高的情况下,我们才会认为模型 对数据拟合的程度刚刚好,同时泛化的表现也会更出色。

四大经典模型

参考链接:https://www.cnblogs.com/ColleenHe/p/11564768.html

7 种回归模型

  1. 什么是回归分析?
  2. 为什么使用回归分析?
  3. 有哪些常用的回归模型?
  4. 线性回归
  5. 逻辑回归
  6. 多项式回归
  7. 逐步回归
  8. Ridge 回归
  9. Lasso 回归
  10. ElasticNet 回归
  11. 如何选择正确的模型?

参考链接: Link

训练与损失

损失函数

参考链接:Link

损失函数(loss function)是用来估量你模型的预测值 f(x)与真实值 Y 的不一致程度

常用损失函数

降低损失

降低损失的方法

什么是机器学习

机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。

为什么要学习机器学习

image-20210708174335483

主要工作原理

image-20210708174537175

其他术语

神经网络
https://blog.csdn.net/blackyuanc/article/details/68951640

https://blog.csdn.net/qq_43328040/article/details/106823245

https://zhuanlan.zhihu.com/p/101544149