《python机器学习》1.2.4 基本术语及符号介绍_python机器学习全本免费在线阅读

目前我们已经讨论了机器学习的三大方法：监督学习、无监督学习和强化学习。在此，我们介绍一下下一章将要用到的一些基本术语。下面表格摘录了鸢尾花数据集（Iris dataset）中的部分数据，鸢尾花数据集是机器学习领域的一个经典示例，它包含了Setosa、Versicolor和Virginica三个品种总共150种鸢尾花的测量数据。其中，每一个样本代表数据集中的一行，而花的测量值以厘米为度量单位存储为列，我们将其定义为数据集的特征。

为了保证描述过程中所用符号及推理过程简单、高效，我们将采用线性代数（Linear algebra）中的一些基本知识。在后续章节中，我们将主要使用矩阵和向量来标识数据。并做如下约定：矩阵X中的每一行代表一个样本，而样本中的每个特征都表示为单独的列。

在鸢尾花数据集中，包含150个样本和4个特征，因此将其记作150×4维的矩阵X∈R150×4：

在本书中，我们将使用上标（i）来指代第i个训练样本，使用下标（j）来指代训练数据集中的第j维特征。

类似地，可以用一个150维的列向量来存储目标变量（在本例中为类标）：