Mahout测试安装指南

本节内容来自《Mahout算法解析与案例实战》一书中的第2章，作者：樊哲。更多章节内容请关注云栖社区“华章计算机”公众号。

2.3 测试安装

首先下载测试数据。在浏览器中输入以下地址下载相应的数据：

[去除地址]

测试数据由Dr Robert Alcock于1999年合成，包含600个样本，每个样本包含60个属性列，共分为6个类别：正常（C）、循环（B）、上升趋势（E）、下降趋势（A）、向上移位（D）、向下移位（F）。图2-5展示了每个类别的10个样本数据图。

[去除img标签]

将测试数据下载到 /home/mahout/data 目录，使用Hadoop的fs指令将数据上传到HDFS文件系统。命令如下：

$HADOOP_HOME/bin/hadoop fs –copyFromLocal testdata /home/mahout/data

上传完成后，访问HDFS文件系统中的 /user/mahout/testdata 目录，准备进行Canopy算法测试。

在终端输入以下命令运行Mahout Canopy算法：

$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job

运行完成后，程序会自动执行3个Job任务，将原始数据按类别分区。在HDFS文件系统的 /user/mahout/output 目录中可以查看输出文件。

将序列文件转换为文本文件以便分析。打开终端，运行以下命令：

$MAHOUT_HOME/bin/mahout clusterdump –i output/clusters-0-final –p output/clusteredPoints –o /home/mahout/test

参数说明：

运行完成后，打开 /home/mahout/test 目录，查看分类结果文件。文件内容包括6个类别（C-0到C-5），每个类别下列出对应样本数据。

通过以上步骤，您可以验证Mahout是否正确安装。如操作顺利完成，说明Mahout环境配置成功。

转载地址：http://ifcez.baihongyu.com/

你可能感兴趣的文章