接口和约定

使用特殊类完成对数据的不同操作。

大多数类属于以下组之一:

  • 分类算法(源自 sklearn.base.ClassifierMixin)解决分类问题
  • 回归算法(源自 sklearn.base.RegressorMixin)解决连续变量重构问题(回归问题)
  • 预处理数据的数据转换(源自 sklearn.base.TransformerMixin

数据存储在 numpy.arrays 中(但如果可以转换为 numpy.arrays,则接受其他类似于数组的对象,例如 pandas.DataFrames)

数据中的每个对象都由一组特征描述,一般惯例是数据样本用数组表示,其中第一维是数据样本 id,第二维是特征 id。

import numpy
data = numpy.arange(10).reshape(5, 2)
print(data)

Output:
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]

sklearn convention 中,上面的数据集包含 5 个对象,每个对象由 2 个特征描述。