600字范文 > 无监督学习半监督学习 #博学谷IT学习技术支持#

无监督学习半监督学习 #博学谷IT学习技术支持#

时间：2023-02-20 03:01:36

一、无监督学习

2.1 聚类问题

2.2 数据降维

二、半监督学习

一、无监督学习

通俗地讲：非监督学习(unsupervised learning)指的是人们给机器一大堆没有分类标记的数据，让机器可以对数据分类、检测异常等。

2.1 聚类问题

聚类是一种探索性数据分析技术，在没有任何相关先验信息的情况下（相当于不清楚数据的信息），它可以帮助我们将数据划分为有意义的小的组别（也叫簇cluster）。其中每个簇内部成员之间有一定的相似度，簇之间有较大的不同。这也正是聚类作为无监督学习的原因。

下图中通过聚类方法根据数据的两个特征值之间的相似性将无类标的数据划分到三个不同的组中，例如：

我们可以用下图表示西瓜的色泽和敲声两个特征我们可以将训练集中的西瓜分成若干组，每一组称为一个“簇”，这些自动形成的簇可能对应一些潜在的概念划分，如“浅色瓜”、“深色瓜”、“本地瓜”或“外地瓜”通过这样的学习我们可以了解到数据的内在规律，能为更深入地分析数据建立基础。

需要注意的是我们事先并不知道西瓜是本地瓜、浅色瓜，而且在学习过程中使用的训练样本通常不拥有标记（label）信息。

2.2 数据降维

数据降维（dimensionality reduction）是无监督学习的另一个子领域。通常，面对的数据都是高维的，这就对有限的数据存储空间以及机器学习算法性能提出了挑战。无监督降维是数据特征预处理时常用的技术，用于清除数据中的噪声，能够在最大程度保留相关信息的情况下将数据压缩到额维度较小的子空间，但是同时也可能会降低某些算法准确性方面的性能。

如下图一个三维空间的数据映射到二维空间的实例。