Hadoop实践

Hadoop实践

Installing the MovieLens Dataset

首先,我们可以进入HDFS的管理界面,我们看到在这这有一个NameNode,一个SNameNode (Secondary NameNode,即NameNode的备份,当NameNode发生故障的时候,可以使用SNameNode进行修复) ,还有一个DataNode,负责存储文件。

然后,我们可以点击右上角的图标进入File View

进入文件管理系统后,我们可以点击右上角的图标新建文件夹,或者上传数据文件

我们选中了 .data文件进行上传

使用好以后可以对其进行删除。

Install the MovieLens dataset into HDFS using the command line

Installing Python, MRJob, and nano

Code up the ratings histogram MapReduce job and run it

Rank movies by their popularity

Note Sorting will only work by partition

Check your results against mine

-------------本文结束,感谢您的阅读-------------