博客
关于我
《Mahout算法解析与案例实战》一一2.3 测试安装
阅读量:709 次
发布时间:2019-03-17

本文共 1047 字,大约阅读时间需要 3 分钟。

Mahout测试安装指南

本节内容来自《Mahout算法解析与案例实战》一书中的第2章,作者:樊哲。更多章节内容请关注云栖社区“华章计算机”公众号。

2.3 测试安装

首先下载测试数据。在浏览器中输入以下地址下载相应的数据:

[去除地址]

测试数据由Dr Robert Alcock于1999年合成,包含600个样本,每个样本包含60个属性列,共分为6个类别:正常(C)、循环(B)、上升趋势(E)、下降趋势(A)、向上移位(D)、向下移位(F)。图2-5展示了每个类别的10个样本数据图。

[去除img标签]

数据准备

将测试数据下载到 /home/mahout/data 目录,使用Hadoop的fs指令将数据上传到HDFS文件系统。命令如下:

$HADOOP_HOME/bin/hadoop fs –copyFromLocal testdata /home/mahout/data

上传完成后,访问HDFS文件系统中的 /user/mahout/testdata 目录,准备进行Canopy算法测试。

测试运行

在终端输入以下命令运行Mahout Canopy算法:

$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job

运行完成后,程序会自动执行3个Job任务,将原始数据按类别分区。在HDFS文件系统的 /user/mahout/output 目录中可以查看输出文件。

结果处理

将序列文件转换为文本文件以便分析。打开终端,运行以下命令:

$MAHOUT_HOME/bin/mahout clusterdump –i output/clusters-0-final –p output/clusteredPoints –o /home/mahout/test

参数说明:

  • –i:输入文件路径(HDFS文件系统中的Canopy算法生成的中心点文件路径)
  • –p:分类后的数据文件目录(HDFS文件系统路径)
  • –o:分类结果生成的本地文本文件路径

运行完成后,打开 /home/mahout/test 目录,查看分类结果文件。文件内容包括6个类别(C-0到C-5),每个类别下列出对应样本数据。

通过以上步骤,您可以验证Mahout是否正确安装。如操作顺利完成,说明Mahout环境配置成功。

转载地址:http://ifcez.baihongyu.com/

你可能感兴趣的文章
MySQL 存储引擎
查看>>
mysql 存储过程 注入_mysql 视图 事务 存储过程 SQL注入
查看>>
MySQL 存储过程参数:in、out、inout
查看>>
mysql 存储过程每隔一段时间执行一次
查看>>
mysql 存在update不存在insert
查看>>
Mysql 学习总结(86)—— Mysql 的 JSON 数据类型正确使用姿势
查看>>
Mysql 学习总结(87)—— Mysql 执行计划(Explain)再总结
查看>>
Mysql 学习总结(88)—— Mysql 官方为什么不推荐用雪花 id 和 uuid 做 MySQL 主键
查看>>
Mysql 学习总结(89)—— Mysql 库表容量统计
查看>>
mysql 实现主从复制/主从同步
查看>>
mysql 审核_审核MySQL数据库上的登录
查看>>
mysql 导入 sql 文件时 ERROR 1046 (3D000) no database selected 错误的解决
查看>>
mysql 导入导出大文件
查看>>
MySQL 导出数据
查看>>
mysql 将null转代为0
查看>>
mysql 常用
查看>>
MySQL 常用列类型
查看>>
mysql 常用命令
查看>>
Mysql 常见ALTER TABLE操作
查看>>
MySQL 常见的 9 种优化方法
查看>>