目录
一、基本操作
(1)获取集合长度
(2)获取集合大小
(3)循环遍历
(4)迭代器
(5)生成字符串
(6)是否包含
def main(args: Array[String]): Unit = {
val list: List[Int] = List(1, 2, 3, 4)
val set: Set[Int] = Set(2, 4, 6, 8)
//获取集合长度
val length: Int = list.length
val size: Int = list.size
val size1: Int = set.size
//循环遍历
list.foreach(println)
list.foreach((i: Int) => println(i * 5 + 5))
//迭代器
val iterator: Iterator[Int] = list.iterator
//生成字符串
val str: String = list.toString()
println(str)
// 如果不填参数 直接将元素拼接在一起 -> 完成str和byte[]的转换
val string: String = list.mkString
println(string)
// 填参数
val str1: String = list.mkString(",")
println(str1)
val str2: String = list.mkString("list(", ", ", ")")
println(str2)
//包含
val bool: Boolean = set.contains(1)
}
二、衍生集合
(1)获取集合的头
(2)获取集合的尾(不是头的就是尾)
(3)集合最后一个数据
(4)集合初始数据(不包含最后一个)
(5)反转
(6)取前(后)n个元素
(7)去掉前(后)n个元素
(8)并集
(9)交集
(10)差集
(11)拉链
(12)滑窗
def main(args: Array[String]): Unit = {
val list1: List[Int] = List(1, 2, 3, 4)
val list2: List[Int] = List(2, 4, 6, 8)
//获取集合的头
val head: Int = list1.head
val i: Int = list1(0)
println(head)
println(i)
val list3 = List()
//list3.head //java.util.NoSuchElementException: head of empty list
// 单纯给(0)封装一个方法 如果集合为空 会报错
//获取集合的尾(不是头就是尾)
val tail: List[Int] = list1.tail //List(2, 3, 4)
println(tail)
//集合最后一个数据
val last: Int = list1.last
println(last)
//集合初始数据(不包含最后一个)
val init: List[Int] = list1.init //List(1, 2, 3)
println(last)
println(init)
//反转
val reverse: List[Int] = list1.reverse //List(4, 3, 2, 1)
println(reverse)
//取前(后)n个元素
//如果取的元素个数多余集合的元素个数 不会报错 能取几个取几个
val ints: List[Int] = list1.take(10)
println(ints)
// 只是从后面取数据 顺序还是不变的
val ints1: List[Int] = list1.takeRight(2) //List(3, 4)
println(ints1)
//去掉前(后)n个元素
// 去掉左边的两个元素
val ints2: List[Int] = list1.drop(2) //List(3, 4)
println(ints2)
// 去掉右边的两个元素
val ints3: List[Int] = list1.dropRight(2) //List(1, 2)
println(ints3)
//并集
// 将两个集合的元素合并在一起 不进行去重
val ints4: List[Int] = list1.union(list2) //List(1, 2, 3, 4, 2, 4, 6, 8)
println(ints4)
//交集
val ints5: List[Int] = list1.intersect(list2)//List(2, 4)
println(ints5)
//差集
val ints6: List[Int] = list2.diff(list1) //List(6, 8)
println(ints6)
//拉链
val tuples: List[(Int, Int)] = list1.zip(list2) //List((1,2), (2,4), (3,6), (4,8))
println(tuples)
val ints7 = List(7, 8, 9, 1, 0)
// 如果拉链的两个集合元素个数不一致 多出来的元素会被扔掉
val tuples1: List[(Int, Int)] = ints7.zip(list1) //List((7,1), (8,2), (9,3), (1,4))
println(tuples1)
//滑窗
val list4 = List(1, 2, -3, 40, -5, 16, 27)
val iterator: Iterator[List[Int]] = list4.sliding(3) //1+2-3
for (elem <- iterator) {
println(elem.sum) //0 39 32 51 38
}
// 滑窗默认的步长为1
// 如果步长不为1 不能保证每次的窗口都是满足要求的 只能保证每一个元素都出现一次
val iterator1: Iterator[List[Int]] = list4.sliding(3, 3)
for (elem <- iterator1) {
println(elem) //List(1, 2, -3) List(40, -5, 16) List(27)
}
}
三、初级函数
(1)求和
(2)求乘积
(3)最大值
(4)最小值
(5)排序
def main(args: Array[String]): Unit = {
val list = List(1, 20, 13, -44, 30, 26)
//求和
// 这里不能写括号 不写括号默认使用隐式参数
val sum: Int = list.sum
println(sum)
//求乘积
val product: Int = list.product
println(product)
//最大值
val max: Int = list.max
//最小值
val min: Int = list.min
//排序
// 计算机所以默认的排序 都是从小到大
val sorted: List[Int] = list.sorted //List(-44, 1, 13, 20, 26, 30)
println(sorted)
//从大到小排序
val list1: List[Int] = list.sorted(Ordering[Int].reverse) //List(30, 26, 20, 13, 1, -44)
println(list1)
// 另外一种写法 能够使用的类型有限 如果没有的话 只能使用上面的泛型
val ints: List[Int] = list.sorted(Ordering.Int.reverse)
println(ints)
// 对元素是二元组的集合进行排序
val tuples = List(("hello", 10), ("hi", 11), ("nihao", 18), ("sawadika", 1))
// 二元组为元素的集合 排序的默认顺序 按照第一个元素字典序来排序
val sorted1: List[(String, Int)] = tuples.sorted
println(sorted1) //List((hello,10), (hi,11), (nihao,18), (sawadika,1))
// 按照后面的数字大小进行排序 从小到大
// 如果使用sorted倒序排序 只是按照字符串倒序排序 不是按照数字
val tuples1: List[(String, Int)] = tuples.sorted(Ordering[(String, Int)].reverse)
println(tuples1) //List((sawadika,1), (nihao,18), (hi,11), (hello,10))
// 需要使用新的排序方法 sortBy和sortWith
// sortBy 用什么来排序 -> 填写一个函数 传入参数是元素自己 传出是按照谁来排序
val tuples2: List[(String, Int)] = tuples.sortBy(
(tuple: (String, Int)) => tuple._2 )
// 匿名函数化简
// 第一步 ctrl + P 查看参数类型 判断类型能否省略
// 第二步 判断能否使用_ -> _的化简是可以调用方法的
println(tuples.sortBy(_._2))// List((sawadika,1), (hello,10), (hi,11), (nihao,18))
// 按照数字排序 从大到小
val tuples3: List[(String, Int)] = tuples.sortBy(
(tuple: (String, Int)) => tuple._2)(Ordering[Int].reverse)
//化简
println(tuples.sortBy(_._2)(Ordering[Int].reverse))
println(tuples3) //List((nihao,18), (hi,11), (hello,10), (sawadika,1))
// sortWith最灵活 逻辑和冒泡排序一样
val tuples4: List[(String, Int)] = tuples.sortWith(
(left: (String, Int), right: (String, Int)) => left._2 > right._2)
// 参数只使用了一次 参数按照顺序出现
println(tuples.sortWith(_._2 > _._2))
println(tuples4)
}
四、高级函数
(1)过滤
遍历一个集合并从中获取满足指定条件的元素组成一个新的集合
(2)转化/映射(map)
将集合中的每一个元素映射到某一个函数
(3)扁平化
(4)扁平化+映射 注:flatMap相当于先进行map操作,在进行flatten操作
集合中的每个元素的子元素映射到某个函数并返回新集合
(5)分组(groupBy)
按照指定的规则对集合的元素进行分组
(6)简化(归约)
(7)折叠
def main(args: Array[String]): Unit = {
val list = List(1, 2, 3, 4, 5)
//过滤
// 遍历一个集合并从中获取满足指定条件的元素组成一个新的集合
// 所有的高阶函数当中 内部都有一个循环的逻辑 foreach
val list1: List[Int] = list.filter((i: Int) => i % 2 == 0)
println(list1) //List(2, 4)
println(list.filter(_ % 2 == 0))
//转化/映射(map)
//将集合中的每一个元素映射到某一个函数
//只需要满足 1对1的映射关系 就可以使用map -> 相当于sql中的udf
//将集合中的每一个元素做一个映射 之后的结果再收集成一个新的集合
val list2: List[Int] = list.map((i: Int) => i * 2)
println(list2) //List(2, 4, 6, 8, 10)
list.map(_ * 2)
// 此处使用1个元素对应1个集合 还是1对1的关系
val list3: List[List[Int]] = list.map((i: Int) => List(i, i, i, i))
println(list3) //List(List(1, 1, 1, 1), List(2, 2, 2, 2), List(3, 3, 3, 3), List(4, 4, 4, 4), List(5, 5, 5, 5))
// 只有在原集合的长度 和目标集合的长度不一致的情况时 才不能用map
val list4: List[Int] = list3.map((list: List[Int]) => list.sum)
println(list4) //List(4, 8, 12, 16, 20)
//扁平化
//1对多关系 UDTF函数 -> 对应sql中的炸裂函数
//将集合中的元素全部打散放到新的集合中称为扁平化
//flatten只能用于集合嵌套的情况下
val flatten: List[Int] = list3.flatten
println(flatten)
//List(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5)
val list5 = List(1, 2, 3, 4)
//list5.flatten 只能用于嵌套的情况
//扁平化+映射 注:flatMap相当于先进行map操作,在进行flatten操作
//集合中的每个元素的子元素映射到某个函数并返回新集合
//多数遇到的情况都是需要自己完成转换的情况
val strings = List("hello world", "hello scala", "hello spark")
//字符串会被认为是byte的数组 会被拆散成单个字节
val flatten1: List[Char] = strings.flatten
println(flatten1)
//List(h, e, l, l, o, , w, o, r, l, d, h, e, l, l, o, , s, c, a, l, a, h, e, l, l, o, , s, p, a, r, k)
//"hello world" => List("hello","world")
val list6: List[List[String]] = strings.map(s => {
val strings1: Array[String] = s.split(" ")
strings1.toList
})
println(list6) //List(List(hello, world), List(hello, scala), List(hello, spark))
val flatten2: List[String] = list6.flatten
println(flatten2) //List(hello, world, hello, scala, hello, spark)
//map + flatten = flatMap
val strings2: List[String] = strings.flatMap(s => {
val strings1: Array[String] = s.split(" ")
strings1.toList
})
println(strings2)
//没必要将array转换为list 在底层使用是一个效果
val strings1: List[String] = strings.flatMap(_.split(" "))
println(strings1)
//分组(groupBy)
//照指定的规则对集合的元素进行分组
//将奇数和偶数分组
//groupBy的结果是一个map
//key是函数调用之后的结果 value是一个集合 将该组的元素放在一起
val map: Map[Int, List[Int]] = list.groupBy((i: Int) => i % 2)
println(map) //Map(1 -> List(1, 3, 5), 0 -> List(2, 4))
val map1: Map[Boolean, List[Int]] = list.groupBy((i: Int) => i % 2 == 0)
println(map1) //Map(false -> List(1, 3, 5), true -> List(2, 4))
//简化(归约) list = List(1, 2, 3, 4, 5)
//此处的A1泛型指代元素类型A的父类及其自身
val i: Int = list.reduce((res: Int, elem: Int) => res + elem)
println(i) //15
// reduce使用第一个元素作为初始值完成归约
// reduce一般用于累加 因为元素的顺序会造成结果不一致
val i1: Int = list.reduce((res: Int, elem: Int) => res - elem)
println(i1) //-13
list.reduce(_ - _)
//折叠
// fold是带有初始值的归约 使用柯里化的写法
// 在第一个参数填写初始值 类型是元素的类型及其父类
val i2: Int = list.fold(10)((res: Int, elem: Int) => res - elem)
println(i2) //10-1-2-3-4-5
// 前一个_ 表示结果值 后一个_ 表示元素值
println(list.fold(10)(_ - _))
// 如果归约需要修改返回值的类型 使用foldLeft才能实现
val tuple: (String, Int) = list.foldLeft(("sum", 0))((res: (String, Int), elem: Int) => (res._1, res._2 + elem))
println(tuple) //(sum,15)
// 柯里化的用法 会将初始值打包进内部函数 所以B的类型是确定 后面的B能够推断
list.foldLeft(("sum", 0))((res, elem) => (res._1, res._2 + elem))
// 1 - (2 - (3 - (4 - 5)))
// reduce固定使用第一个元素作为初始值
val i3: Int = list.reduceRight(_ - _)
println(i3) //3
// foldRight
// 1 - (2 - (3 - (4 - (5-10))))
val i4: Int = list.foldRight(10)(_ - _)
println(i4) //-7
}
五、wordcount案例
需求:单词计数:将集合中出现的相同的单词,进行计数,取计数排名前三的结果
1.简单:
def main(args: Array[String]): Unit = {
val stringList = List("Hello Scala Hbase kafka", "Hello Scala Hbase", "Hello Scala", "Hello")
// 步骤一: 将长字符串拆分 扁平化为单个单词
val flatMapList: List[String] = stringList.flatMap((s: String) => s.split(" "))
println(flatMapList)
// 化简
stringList.flatMap(_.split(" "))
//List(Hello, Scala, Hbase, kafka, Hello, Scala, Hbase, Hello, Scala, Hello)
// 步骤二: 分组聚合相同的单词
val groupByList: Map[String, List[String]] = flatMapList.groupBy((s: String) => s)
println(groupByList)
// 如果化简完之后 只剩下单独一个_ 则不能化简
flatMapList.groupBy(s => s)
//Map(Hello -> List(Hello, Hello, Hello, Hello), Hbase -> List(Hbase, Hbase), kafka -> List(kafka), Scala -> List(Scala, Scala, Scala))
// 步骤三: 需求结果 (word,count)
val mapList: Map[String, Int] = groupByList.map(
(tuple: (String, List[String])) => (tuple._1, tuple._2.size))
println(mapList)
//Map(Hello -> 4, Hbase -> 2, kafka -> 1, Scala -> 3)
// 当使用map去转换二元组的元素时 如果key保持不变 只需要改变value
// 可以使用mapValues优化
val mapValuesList: Map[String, Int] = groupByList.mapValues((list: List[String]) => list.size)
println(mapValuesList)
groupByList.mapValues(_.size)
//Map(Hello -> 4, Hbase -> 2, kafka -> 1, Scala -> 3)
// 步骤四: 对结果进行排序取top3
// 可以选择使用sortBy和sortWith
// map不能排序 需要转换为list
val sortByList: List[(String, Int)] = mapValuesList.toList.sortBy((tuple: (String, Int)) => tuple._2)(Ordering[Int].reverse)
println(sortByList)
//List((Hello,4), (Scala,3), (Hbase,2), (kafka,1))
val sortWithList: List[(String, Int)] = mapValuesList.toList.sortWith((left: (String, Int), right: (String, Int)) => left._2 > right._2)
mapValuesList.toList.sortWith(_._2 > _._2)
// 步骤五: 取top3
val result: List[(String, Int)] = sortByList.take(3)
println(result)
//List((Hello,4), (Scala,3), (Hbase,2))
//精简
val result2: List[(String, Int)] = stringList.flatMap(_.split(" "))
.groupBy(s => s)
.mapValues(_.size)
.toList
.sortWith(_._2 > _._2)
.take(3)
println(result2)
}
2.复杂
def main(args: Array[String]): Unit = {
val tupleList = List(("Hello Scala Spark World", 4), ("Hello Scala Spark", 3),
("Hello Scala", 2), ("Hello", 1))
// 方法一: 使用上一步写过的步骤
// 转换数据为长字符串
val strings: List[String] = tupleList.map((tuple: (String, Int)) => (tuple._1 + " ") * tuple._2)
println(strings)
//List(Hello Scala Spark World Hello Scala Spark World Hello Scala Spark World Hello Scala Spark World , Hello Scala Spark Hello Scala Spark Hello Scala Spark , Hello Scala Hello Scala , Hello )
val result: List[(String, Int)] = strings.flatMap(_.split(" "))
.groupBy(s => s)
.mapValues(_.size)
.toList
.sortWith(_._2 > _._2)
.take(3)
println(result)//List((Hello,10), (Scala,9), (Spark,7))
// 方法二: 接着算好的次数进行拆分
// ("Hello Scala Spark World", 4) => List(("hello",4),("scala",4),("spark",4),("world",4))
// 步骤一: 将二元组转换为集合单个单词加次数
val list: List[List[(String, Int)]] = tupleList.map((tuple: (String, Int)) => {
val strings1: Array[String] = tuple._1.split(" ")
strings1.toList.map((s: String) => (s, tuple._2))
})
println(list)
//List(List((Hello,4), (Scala,4), (Spark,4), (World,4)), List((Hello,3), (Scala,3), (Spark,3)), List((Hello,2), (Scala,2)), List((Hello,1)))
val flatten: List[(String, Int)] = list.flatten
println(flatten)
//List((Hello,4), (Scala,4), (Spark,4), (World,4), (Hello,3), (Scala,3), (Spark,3), (Hello,2), (Scala,2), (Hello,1))
// 使用flatMap代替map + flatten
val flatMapList: List[(String, Int)] = tupleList.flatMap((tuple: (String, Int)) => {
tuple._1.split(" ").map((s: String) => (s, tuple._2))
})
// 嵌套的匿名函数化简 优先化简内层的 再化简外层的
tupleList.flatMap((tuple) => tuple._1.split(" ").map((_, tuple._2)))
println(flatMapList)
//List((Hello,4), (Scala,4), (Spark,4), (World,4), (Hello,3), (Scala,3), (Spark,3), (Hello,2), (Scala,2), (Hello,1))
// 步骤二: 将相同的单词聚合一组
val groupByList: Map[String, List[(String, Int)]] = flatMapList.groupBy((tuple: (String, Int)) => tuple._1)
println(groupByList)
//Map(Hello -> List((Hello,4), (Hello,3), (Hello,2), (Hello,1)), Spark -> List((Spark,4), (Spark,3)), Scala -> List((Scala,4), (Scala,3), (Scala,2)), World -> List((World,4)))
flatMapList.groupBy(_._1)
// 步骤三: 将同一组的数据 出现的次数累加
val mapValuesList: Map[String, Int] = groupByList.mapValues(
(list: List[(String, Int)]) => list.map(_._2).sum)
// 如果内部嵌套map的匿名函数使用_表示 外部的mapValues函数仍然可以使用_表示
groupByList.mapValues(_.map(_._2).sum)
val mapValuesList1: Map[String, Int] = groupByList.mapValues(
(list: List[(String, Int)]) => list.foldLeft(0)((res: Int, elem: (String, Int)) => res + elem._2))
//Map(Hello -> 10, Spark -> 7, Scala -> 9, World -> 4)
// foldLeft的匿名函数使用_表示 不影响外部的mapValues的匿名函数使用_表示
groupByList.mapValues(_.foldLeft(0)(_ + _._2))
println(mapValuesList1)
// 步骤四: 排序取top3
val result1: List[(String, Int)] = mapValuesList.toList.sortWith(_._2 > _._2).take(3)
println(result1)
//List((Hello,10), (Scala,9), (Spark,7))
// 熟练的写法
val result2: List[(String, Int)] = tupleList.flatMap(tuple =>
tuple._1.split(" ").map((_, tuple._2)))
.groupBy(_._1)
.mapValues(_.map(_._2).sum)
.toList
.sortWith(_._2 > _._2)
.take(3)
println(result2)
}
文章评论