博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
三、MapReduce学习
阅读量:4590 次
发布时间:2019-06-09

本文共 783 字,大约阅读时间需要 2 分钟。

MapReducer是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)"
                            
一、Mapper
    1、Mapper负责“分”,把复杂的任务分解为若干个简单的任务执行
    2、简单的任务分成:a,数据或计算规模对于原任务要大大缩小。b,就近计算,即分配到所需数据节点进行计算。c,这些已分配好的任务彼此间没有依赖关系。
二、Reducer
    1、对于map阶段的结果进行汇总
    ​2、reducer的数目由mapred-site.xml配置文件里的项目mapred.reduce.tasks决定。缺省值为1,用户可以覆盖
三、Shuffler
28194319-9debc04080a34b3e96b6353cba919402.png 
四、编程模型
这是一个气象的例子mapreduce的过程
28194322-76c429c951194f1c95a3e3cae24e7b97.png
    具体的流程:
    a,首先我们把相关的文件拷贝到hadoop集群里面去,此时hadoop就会把这个大文件分成很多块,分别放在不同的节点里面。
    b,做一个map函数,map函数可以被jobtracker进程分配到各个节点里面去运行,然后对我们的原始数据进行抽取,此例子抽取出年份和气温,此例子中只要的本地的数据即可完成任务,并能不需要在其他的节点里面去取数据。
    c,通过shuffle进行重新切分和组合,简化reducer过程,这个步骤可以没有
    d,之后经过reduce函数,将上一步合并的表通过reduce函数,找出每一行的最大值,输出到hdfs中
五、复杂的编程模型
    
28194327-393877f75cd546eeb8a30018657d6fb6.png
        复杂的编程模型,可能一个reduce承受一个范围里面的reduce任务,比如说一个reduce承受的是1930-1960年的,另外一个reduce承受的是1961-2005年的,然后分别做reduce,最后输出到hdfs中
六、mapreduce工作机制剖析
    
28194330-e5682c4c47fe4e3a93bcc6fa3914c11c.png
 

转载于:https://www.cnblogs.com/wang3680/p/3448333.html

你可能感兴趣的文章
Cleartext HTTP traffic to xxx not permitted解决办法
查看>>
[Docker] Win10中安装Docker并运行Nginx镜像
查看>>
pxe批量装机
查看>>
linux典型应用对系统资源使用的特点
查看>>
linux性能分析工具Procs
查看>>
linux性能分析工具Vmstat
查看>>
linux性能分析工具Memory
查看>>
c# 选择结构
查看>>
c# 委托
查看>>
c# 接口使用
查看>>
c# 事件
查看>>
c# as运算符
查看>>
c# 调试过程
查看>>
c# 结构
查看>>
C# 中的异常处理
查看>>
c# 调试
查看>>
c# 使用序列化
查看>>
c# VS.NET 中的调试工具
查看>>
c# System.Array
查看>>
c# StringBuilder类
查看>>