JobPlus知识库 互联网 大数据 文章
spark累加器介绍-案例通过累加器统计文章中空白行数量

1.累加器介绍

累加器(Accumulator)是一种只能通过关联操作进行“加”操作的变量,因此具有高效的并行计算能力。

2.简单累加器创建步骤

1.首先,通过accumulator(v)方法创建Accumulator并初始化为0

[plain] view plain copy

  1. val accum = sc.accumulator(0)  

2.然后,通过运算符+= 进行累加操作

x => accum+=x

3.通过value方法读取累加器的值


[plain] view plain copy

  1. accum.value  

3.完整代码及结果

[plain] view plain copy

  1. val accum = sc.accumulator(0)  
  2.   
  3. sc.parallelize(Array(1,2,3,4)).foreach(x => accum+=x)  
  4.   
  5.    println(accum.value) // 10  

4.累加器小案例--统计文章中空白行个数

复制下载的Spark源码中的README.md中的几行,如下图所示:


       在累加空行的时候,我们通过split函数将单词切分开,然后输出到指定的目录中,可以查看输出后的结果。


如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

¥ 打赏支持
14人赞 举报
分享到
用户评价(0)

暂无评价,你也可以发布评价哦:)

0 人收藏了这篇文章
腾讯云数据库性能卓越稳定可靠,为您解决数据库运维难题
广告
扫码APP

扫描使用APP

扫码使用

扫描使用小程序