ARFF 文件

ARFF 文件(属性 - 关系文件格式)是 Weka 中使用的数据的最常见格式。每个 ARFF 文件必须有一个标题,描述每个数据实例应该是什么样的。可以使用的属性如下:

  • 数字

实数或整数。

  • 公称

标称属性必须提供一组可能的值。例如:

@ATTRIBUTE class        {Iris-setosa,Iris-versicolor,Iris-virginica}
  • 字符串

允许任意字符串值。通常使用 StringToWordVector 过滤器稍后处理。

  • 日期

允许指定日期。与 Java 的 SimpleDateFormat 一样,这个日期也可以格式化; 它将默认为 ISO-8601 格式。

示例标题可以看作如下:

@RELATION iris

@ATTRIBUTE sepallength  NUMERIC
@ATTRIBUTE sepalwidth   NUMERIC
@ATTRIBUTE petallength  NUMERIC
@ATTRIBUTE petalwidth   NUMERIC
@ATTRIBUTE class        {Iris-setosa,Iris-versicolor,Iris-virginica}

在标题之后,每个实例必须列出正确的实例数; 如果实例的属性值未知,则可以使用 ?。以下显示了 ARFF 文件中的实例集的示例:

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa