【本地模式】第一个Mapreduce程序-wordcount

news/2024/5/20 19:57:20

【本地模式】:也就是在windows环境下通过hadoop-client相关jar包进行开发的,我们只需要通过本地自己写好MapReduce程序即可在本地运行。

一个Maprduce程序主要包括三部分:Mapper类、Reducer类、执行类。

  • map阶段:将每一行单词提取出来转为map(key,1)的形式
    •  key为每一行的偏移量:第1行偏移量为0、第二行在第一行最后一个字符的下标基础上+1(包括回车符和换行符),以此类推。
    •  map阶段key对应的的value均为1.
  • reduec阶段:将map阶段的输出结果中的相同key所对应的value合并(将key对应的 1 进行累加),输出map(key,value),此时的value为key出现次数。

Maven项目下所需依赖

<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.3.0</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version><scope>test</scope></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-api</artifactId><version>1.7.30</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>3.8.2</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version><scope>compile</scope></dependency></dependencies>

Hadoop序列化类型

  • Text: 一种可变长度的字节数组,用于表示文本数据。相当于Java中的String。
  • LongWritableIntWritableFloatWritableDoubleWritable: 分别用于表示长整型、整型、浮点型和双精度浮点型数据。相当于Java中的long、int、float和double。
  • BooleanWritable: 用于表示布尔类型数据。相当于Java中的boolean。
  • NullWritable: 用于表示空值,通常用于表示Map任务的输出中间结果数据中的值为空。相当于Java中的null。
  • ArrayWritable: 用于表示数组类型数据。相当于Java中的数组。
  • MapWritable: 一种可序列化的Map数据结构,可以作为Map任务的输出(中间结果数据)或Reduce任务的输入。相当于Java中的Map<>。
  • WritableComparable: 一种可序列化的、可比较的数据类型接口,可以作为Map任务或Reduce任务的输入输出数据类型。

 一、Mapper类

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.util.StringUtils;import java.io.IOException;
/***  map阶段一次只处理一行数据* 泛型的四个参数:* KEYIN: map()中key的文本偏移量* VALUEIN: 当前的一行文本内容* KEYOUT: 经过map处理后的一个单词* VALUEOUT: 单词每次统计的数量,在mapper中这个就是 1*/
public class WordCountMapper extends Mapper<LongWritable,Text,Text,LongWritable> {//尽可能节省内存资源private Text outKey = new Text();private LongWritable outValue = new LongWritable(1);@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//如果当前数据不为空if (value!=null){//获取每一行的数据String line = value.toString();//将一行数据根据空格分开
//            String[] words = line.split(" ");String[] words = StringUtils.split(line,' ');//hadoop的StringUtils.split方法对大数据来说比Java自带的拥有更好的性能//输出键值对for (String word : words) {outKey.set(word);context.write(outKey,outValue);}}}
}

二、Reducer类

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/***  reduce阶段一种key只被调用一次* 泛型的四个参数:* KEYIN: 当前的一个单词* VALUEIN: map中输入过来的单词数量* KEYOUT: 当前的一个单词* VALUEOUT: 单词出现的总次数*/
public class WordCountReducer extends Reducer<Text, LongWritable,Text,LongWritable> {private LongWritable outValue = new LongWritable();//Iterable<LongWritable>是一个集合(它是集合的最顶端的类,Collection继承了Iterable接口)@Overrideprotected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {//累加单词的数量long sum = 0;//遍历单词计数数组,将值累加到sum中for (LongWritable value : values) {sum += value.get();}outValue.set(sum);//输出每次最终的计数结果context.write(key,outValue);}
}

三、执行类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;public class WordCountRunner extends Configured implements Tool {public static void main(String[] args) throws Exception {ToolRunner.run(new Configuration(),new WordCountRunner(),args);}@Overridepublic int run(String[] args) throws Exception {//1.获取jobConfiguration conf = new Configuration();Job job = Job.getInstance(conf, "word count");//2.配置jar包路径job.setJarByClass(WordCountRunner.class);//3.关联mapper和reducerjob.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);//4.设置map、reduce输出的k、v类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(LongWritable.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);//5.设置统计文件输入的路径,将命令行的第一个参数作为输入文件的路径String path = getClass().getResource("/words.txt").getPath();FileInputFormat.setInputPaths(job,path);//6.设置结果数据存放路径,将命令行的第二个参数作为数据的输出路径FileOutputFormat.setOutputPath(job,new Path("./output"));return job.waitForCompletion(true) ? 0 : 1;//verbose:是否监控并打印job的信息}
}

程序执行结果

  • .part-r-00000.crc: 是Reduce任务输出结果文件的校验文件,用于校验Reduce任务输出结果文件的完整性和正确性。该文件由Hadoop框架自动生成,不需要手动创建,其内容是Reduce任务输出结果文件的校验和信息。
  • ._SUCCESS.crc: 是表示任务执行成功的标志文件的校验文件,用于校验标志文件的完整性和正确性。该文件由Hadoop框架自动生成,其内容是标志文件的校验和信息。
  • _SUCCESS: 表示任务执行成功的标志文件,文件内容为空。
  • part-r-00000: 表示Reduce任务的输出结果文件,其中“00000”表示该文件是第一个Reduce任务的输出结果文件,如果有多个Reduce任务,则会生成多个该类型的文件,文件内容为每个单词出现的次数。


https://www.xjx100.cn/news/306107.html

相关文章

网工视角看基础网络,原来这么与众不同

大家好&#xff0c;我是老杨。 前两天去华为生态大会刚回来&#xff0c;颇为感慨。 感慨万物互联的世界越来越大&#xff0c;网络渗透度也越来越极致化。 网络很大&#xff0c;非常大&#xff0c;但在网工眼里&#xff0c;网络复杂又美妙&#xff0c;有着外行人难以理解的魅…

基于springboot+vue的校园任务订单配送管理系统

随着我国教育制度的改革的发展&#xff0c;各大高校的学生数量也在不断的增加。当前大学生的生活和消费习惯等导致他们更喜欢通过网络来获取自己想要的商品和服务&#xff0c;这也是导致当前校园配送盛行的主要原因。为了能够让更多的学生享受到校园配送的服务&#xff0c;我们…

数据更新了,但视图并没有更新

&#x1f449;vue中数据改变&#xff0c;视图不更新的原因以及解决方法&#xff08;强制更新视图&#xff09;_在使用vue开发中如果数据发生变化而视图没有更新的原因是什么怎么解决_小太阳...的博客-CSDN博客 目录 1.某些方法操作数组 2.对象属性的添加或删除 a.动态添加一…

单词拼写检查textblob模块spellcheck方法

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 单词拼写检查 textblob模块 spellcheck方法 [太阳]选择题 关于python代码说法错误的一项是&#xff1a; from textblob import Word myWordsuccessfulee print("【显示】myWord …

【K8s】常用的Pod控制器

文章目录 一、认识Pod控制器1、控制器介绍2、控制器种类 二、ReplicaSet&#xff08;RS&#xff09;1、RS的作用与资源清单2、创建RS3、pod扩缩容4、镜像升级5、删除RS 三、Deployment&#xff08;Deploy&#xff09;1、作用与资源清单2、创建deploy3、扩缩容4、镜像更新5、版本…

真魔幻!男子面试到一半公司竟然宣布倒闭,公司给了方案,网友:还没上班就赚好一笔补偿金...

刚看到一则资讯&#xff0c;真魔幻&#xff01; 据媒体报道&#xff0c;上海一男子称自己面试到一半公司宣布倒闭了。 公司规模还不小&#xff0c;是手机大厂OPPO旗下的哲库&#xff08;ZEKU&#xff09;芯片子公司。 他表示过程很戏剧性&#xff0c;自己过了第一轮技术面&…

多尺度深度特征(下):多尺度特征学习才是目标检测精髓(论文免费下载)...

计算机视觉研究院专栏 作者&#xff1a;Edison_G 深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文&#xff0c;还考虑它们之间的关系。 公众号ID&#xff5c;ComputerVisionG…

如何安装Mysql的审计插件

背景 最近项目要验收了&#xff0c;数据库的一个验收标准就是要有数据库审计&#xff0c;所以参照资料安装了Mysql的审计插件。 正文 一、下载插件 下载地址&#xff1a;https://bintray.com/mcafee/mysql-audit-plugin/release/1.1.4-725#files 可选择对应MySQL5.7数据库的…