[Spark] 使用IDEA构建Spark应用程序实例-JobPlus

环境：

本地：win7 + jdk1.8 + IntelliJ IDEA 2018.1.2 + maven-3.3.9 + scala插件，机器要求可以联网（需要下载各种依赖包）

远程：CentOS7.3 + jdk1.8 + scala-2.11.12 + hadoop-2.6.0-cdh5.7.0 + hive-1.1.0-cdh5.7.0-bin + spark-2.2.0-bin-2.6.0-cdh5.7.0

实例一：

已有用户访问记录表（hive表），用spark core来求用户访问量的TOP5.

create table page_views (
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fileds yerminated by '\t';
load data local infile '/home/hadoop/data/xxx.txt' ...

解决方案：

1. hiveql 直接查询出来结果

select end_user_id,count(1) c from page_views group by end_user_id order by c desc limit 5;

2. 使用Spark Core来实现

2.1 需求分析

1) 用户：

使用tab分割 ==> split

拿到userid ==> splits(5)

(userid, 1)

2) 访问量

reduceByKey(_+_) ==> (userid, n)

3) TOP N

反转 ==> (n, userid)

排序 ==> sortByKey

反转 ==>

take(5)

2.2 实现思路

2.3 代码实现

IDEA创建一个scala类

package com.bigdata.spark.core
import org.apache.spark.{SparkConf, SparkContext}
object AvgAgeCalculatorApp {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
val dataFile = sc.textFile("file:///home/hadoop/data/sample_age_data.txt")
// 取出年龄
val ageData = dataFile.map(x => x.split(" ")(1)) //.take(10).foreach(println)
// 求人数
val count = dataFile.count()
// 年龄相加/人数
val totalAge = ageData.map(age => age.toInt).reduce(_+_)
val avgAge = totalAge/count
sc.stop()
}
}

打包并放到服务器上面提交运行

案例二：

已有男女性别、身高数据表

需求：1）统计男女人数；2）男性中最高和最低身高；3）女性中最高和最低身高

分析：

1) RDD ==> MRDD + FRDD，一个RDD拆成2个RDD，分开计算

2) MRDD sort/max/min

3) FRDD sort/max/min

环境：本地：win7 + jdk1.8 + IntelliJ IDEA 2018.1.2 + maven-3.3.9 + scala插件，机器要求可以联网（需要下载各种依赖包）远程：CentOS7.3 + jdk1.8 + scala-2.11.12 + hadoop-2.6.0-cdh5.7.0 + hive-1.1.0-cdh5.7.0-bin + spark-2.2.0-bin-2.6.0-cdh5.7.0  实例一： 已有用户访问记录表（hive表），用spark core来求用户访问量的TOP5.<ol><li>create table page_views (</li><li>track_time string,</li><li>url string,</li><li>session_id string,</li><li>referer string,</li><li>ip string,</li><li>end_user_id string,</li><li>city_id string</li><li>)</li><li>row format delimited fileds yerminated by '\t';</li><li>load data local infile '/home/hadoop/data/xxx.txt' ...</li></ol>解决方案：1. hiveql 直接查询出来结果select end_user_id,count(1) c from page_views group by end_user_id order by c desc limit 5;2. 使用Spark Core来实现2.1 需求分析1) 用户：使用tab分割 ==> split拿到userid ==> splits(5)(userid, 1)2) 访问量reduceByKey(_+_)  ==> (userid, n)3) TOP N反转 ==> (n, userid)排序 ==> sortByKey反转 ==> take(5)2.2 实现思路 2.3 代码实现IDEA创建一个scala类<ol><li>package com.bigdata.spark.core</li><li>import org.apache.spark.{SparkConf, SparkContext}</li><li>object AvgAgeCalculatorApp {</li><li>def main(args: Array[String]): Unit = {</li><li>val sparkConf = new SparkConf()</li><li>val sc = new SparkContext(sparkConf)</li><li>val dataFile = sc.textFile("file:///home/hadoop/data/sample_age_data.txt")</li><li>// 取出年龄</li><li>val ageData = dataFile.map(x => x.split(" ")(1))    //.take(10).foreach(println)</li><li>// 求人数</li><li>val count = dataFile.count()</li><li>// 年龄相加/人数</li><li>val totalAge = ageData.map(age => age.toInt).reduce(_+_)</li><li>val avgAge = totalAge/count</li><li>sc.stop()</li><li>}</li><li>}</li></ol>打包并放到服务器上面提交运行 案例二：已有男女性别、身高数据表需求：1）统计男女人数；2）男性中最高和最低身高；3）女性中最高和最低身高分析：1) RDD ==> MRDD + FRDD，一个RDD拆成2个RDD，分开计算2) MRDD sort/max/min3) FRDD sort/max/min