博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hama安装及示例运行
阅读量:6565 次
发布时间:2019-06-24

本文共 4265 字,大约阅读时间需要 14 分钟。

Hama介绍

Apache Hama是一个纯BSP(Bulk Synchronous Parallel)计算框架,模仿了Google的Pregel。用来处理大规模的科学计算,特别是矩阵和图计算。

BSP概念由Valiant(2010图灵奖获得者)在1990年提出,具体参看。Google在2009年发表了<Pregel: A System for Large-Scale Graph Processing>论文,在分布式条件下实现了BSP模型。

Hama安装

安装环境:

OS: Ubuntu 12.04 64

JAVA: jdk1.6.0_30

Hadoop:

安装Hama之前,应该首先确保系统中已经安装了hadoop,我这里选用的目前最新版本hadoop-1.0.4。

第一步:下载并解压文件

hama的下载地址: 我这里选用北京理工的apache镜像。

解压文件到安装目录。我喜欢把hadoop和hama都安装在用户目录下,这样整个系统都比较干净。

tar -xvzf hama-0.6.0.tar.gz

第二步:修改配置文件

进入$HAMA_HOME/conf文件夹。

修改hama-env.sh文件。加入JAVA_HOME变量。

修改hama-site.xml文件。我的hama-site.xml配置文件如下:

  1. <?xmlversion="1.0"?>
  2. <?xml-stylesheettype="text/xsl"href="configuration.xsl"?>
  3. <configuration>
  4. <property>
  5. <name>bsp.master.address</name>
  6. <value>LenovoE46a:40000</value>
  7. <description>The address of the bsp master server. Either the
  8. literal string "local" or a host:port for distributed mode
  9. </description>
  10. </property>
  11. <property>
  12. <name>fs.default.name</name>
  13. <value>LenovoE46a:9000/</value>
  14. <description>
  15. The name of the default file system. Either the literal string
  16. "local" or a host:port for HDFS.
  17. </description>
  18. </property>
  19. <property>
  20. <name>hama.zookeeper.quorum</name>
  21. <value>LenovoE46a</value>
  22. <description>Comma separated list of servers in the ZooKeeper Quorum.
  23. For example, "host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".
  24. By default this is set to localhost for local and pseudo-distributed modes
  25. of operation. For a fully-distributed setup, this should be set to a full
  26. list of ZooKeeper quorum servers. If HAMA_MANAGES_ZK is set in hama-env.sh
  27. this is the list of servers which we will start/stop zookeeper on.
  28. </description>
  29. </property>
  30. <property>
  31. <name>hama.zookeeper.property.clientPort</name>
  32. <value>2181</value>
  33. </property>
  34. </configuration>
bsp.master.address
LenovoE46a:40000
The address of the bsp master server. Either the literal string "local" or a host:port for distributed mode
fs.default.name
LenovoE46a:9000/
The name of the default file system. Either the literal string "local" or a host:port for HDFS.
hama.zookeeper.quorum
LenovoE46a
Comma separated list of servers in the ZooKeeper Quorum. For example, "host1.mydomain.com,host2.mydomain.com,host3.mydomain.com". By default this is set to localhost for local and pseudo-distributed modes of operation. For a fully-distributed setup, this should be set to a full list of ZooKeeper quorum servers. If HAMA_MANAGES_ZK is set in hama-env.sh this is the list of servers which we will start/stop zookeeper on.
hama.zookeeper.property.clientPort
2181

解释一下,bsp.master.address参数设置成bsp master地址。fs.default.name参数设置成hadoop里namenode的地址。hama.zookeeper.quorum和hama.zookeeper.property.clientPort两个参数和zookeeper有关,设置成为zookeeper的quorum server即可,单机伪分布式就是本机地址。

第三步:运行Hama

首先启动Hadoop,

% $HADOOP_HOME/bin/start-all.sh

再启动Hama

% $HAMA_HOME/bin/start-bspd.sh

查看所有的进程,检查是否启动成功。

jps

第四步:运行例子程序

这里我们选用Pagerank例子程序。

首先上传数据到HDFS,数据的格式为:

 

Site1\tSite2\tSite3Site2\tSite3Site3

执行Hama,其中/tmp/input/input.txt和/tmp/pagerank-output分别为输入文件和输出文件夹。

bin/hama jar ../hama-
0
.6.0-examples.jar pagerank /tmp/input/input.txt /tmp/pagerank-output

成功!

第四周周结

所做的事情:

1.eclipse里实现了五个结点的单源最短路径算法

实现结果:

输入文件:

1 0|2|2,10,4,5,

2 10|1|3,1,4,2,

3 MAX|0|5,4,

4 5|1|5,2,3,9,2,3,

5 MAX|0|3,6,1,7,

最终迭代结果:

1 0|2|2,10,4,5,

2 8|2|3,1,4,2,

3 9|2|5,4,

4 5|2|5,2,3,9,2,3,

5 7|2|3,6,1,7,

第一次map之后输出的中间结果文件:

1 0|2|2,10,4,5,

1 0|2|2,10,4,5,

2 10|1|

2 MAX|0|3,1,4,2,

2 10|1|

2 MAX|0|3,1,4,2,

3 MAX|0|5,4,

3 MAX|0|5,4,

4 5|1|

4 MAX|0|5,2,3,9,2,3,

4 5|1|

4 MAX|0|5,2,3,9,2,3,

5 MAX|0|3,6,1,7,

5 MAX|0|3,6,1,7,

输出目录:mapred.local.dir因为没有配置,默认值:${hadoop.tmp.dir}/mapred/local

datanode节点的/usr/local/hadoop/tmp,但是在reduce用完或者job停止之后被直接删除。

2.通过对mapreduce工作机制的理解,自己总结一些可以着手的优化方法:

1)自定义combiner函数,在map任务的节点对输出先做一次合并,以减少传输到reducer的数据量。如在本例中,可以将上述map输出的中间结果中的<k,v>相同的对合并。或采取压缩数据

2InputFormat将数据先进行预处理,Split的数目决定了Map的数目

3)自定义Partitioner函数,可以指定Reduce任务。默认采用的是hash(key)modR,分区比较平衡。

转载地址:http://kjdjo.baihongyu.com/

你可能感兴趣的文章
ASP.NET中 Calendar(日期控件)的使用
查看>>
[深入浅出Cocoa]详解键值观察(KVO)及其实现机理
查看>>
mac os 快捷键
查看>>
JQuery弹出窗口小插件ColorBox
查看>>
CentOS6.4 安装OpenResty和Redis 并在Nginx中利用lua简单读取Redis数据
查看>>
单点入口
查看>>
Android发展Singleton模式
查看>>
Android 关于获取摄像头帧数据解码
查看>>
The practice program of C on point
查看>>
C++编译期多态与运行期多态
查看>>
ASP.Net后台 实现先弹出对话框,再跳转到另一个网页的实现方法
查看>>
VNC & LSF
查看>>
BitmapFactory.Options.inSampleSize 的使用方法
查看>>
css的repaint和reflow
查看>>
【Unity】12.5 Navmesh Obstacle组件
查看>>
javascript 红宝书笔记之函数、变量、参数、作用域
查看>>
Unicode 和 UTF-8关系
查看>>
安卓Socket连接实现连接实现发送接收数据,openwrt wifi转串口连接单片机实现控制...
查看>>
Redis
查看>>
centos 7 python2.7.5升级到3.5.2
查看>>