Skip to content

基本术语

2025-07-08

样本,样例和簇

样本(sample)| 实例(instance)

提供关于一个对象的描述。

  • 格式:(属性 1=属性值 1,属性 2=属性值 2,)
  • 示例:(x=001,00y=002,00z=003)
属性(attribute)
描述样本某一方面的变量。
属性值(attribute value)
属性的一个取值。
样本空间(sample space)| 属性空间(attribute space)| 输入空间

属性张成的空间。

样例(example)

含有标记的样本。

  • 格式:(属性 1=属性值 1,属性 2=属性值 2,,00标记 1,标记 2,)
  • 示例:(x=001,00y=002,00z=003,00big,00red)
标记(label)
一个独立于任何属性的值,具有现实意义。
标记空间(label space)| 输出空间

标记张成的空间。

数据集(dataset)

样本样例的集合。

无标签数据集(unlabeled dataset)
样本的集合。
有标签数据集(labeled dataset)
样例的集合。
INFO

样例样本经常被混用。

簇(cluster)

样本的集合。

簇标记
的唯一标识符,常用 1,00,00K 表示,不具有现实意义。
簇标记空间

簇标记的集合。

模型和学习算法

模型(model)

映射(通常较为复杂)。

假设(hypothesis)

输入空间输出空间的映射。

真相(ground-truth)
符合所有正确样例假设
聚类(clustering)

输入空间簇标记空间的映射。

回归(regression)

形容一个模型输出空间连续。

分类(classification)

形容一个模型输出空间离散。

二分类(binary classification)

只有两种标记分类

正类(positive class)
二分类中的一种标记
反类(negative class)
二分类中除正类外的另一种标记
多分类(multi-class classification)

有多于两种标记分类

学习算法(learning algorithm)

通过数据集生成模型的算法。

监督学习(supervised learning)
得到假设学习算法
无监督学习(unsupervised learning)
得到聚类学习算法
泛化(generalization)

形容假设数据集以外接近真相的程度。

过拟合(overfitting)

形容假设数据集以外偏离真相的程度。

假设空间和归纳偏好

假设空间(hypothesis space)

对于同一输入空间,所有假设的集合。

版本空间(version space)
对于同一有标签数据集,对其中全部样例都正确的所有假设的集合。
归纳偏好(inductive bias)| 偏好

形容一个学习算法更倾向于得到某一种假设