博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark 按照key 分组 然后统计每个key对应的最大、最小、平均值思路——使用groupby,或者reduceby...
阅读量:7102 次
发布时间:2019-06-28

本文共 1133 字,大约阅读时间需要 3 分钟。

What you're getting back is an object which allows you to iterate over the results. You can turn the results of groupByKey into a list by calling list() on the values, e.g.example = sc.parallelize([(0, u'D'), (0, u'D'), (1, u'E'), (2, u'F')])example.groupByKey().collect()# Gives [(0, 
example.groupByKey().mapValues(list)
 
Hey Ron, It was pretty much exactly as Sean had depicted. I just needed to providecount an anonymous function to tell it which elements to count. Since Iwanted to count them all, the function is simply "true".        val grouped = rdd.groupByKey().mapValues { mcs =>          val values = mcs.map(_.foo.toDouble)          val n = values.count(x => true)          val sum = values.sum          val sumSquares = values.map(x => x * x).sum          val stddev = math.sqrt(n * sumSquares - sum * sum) / n          print("stddev: " + stddev)          stddev        }I hope that helps

 

 

Just don't. Use reduce by key:lines.map(lambda x: (x[1][0:4], (x[0], float(x[3])))).map(lambda x: (x, x)) \    .reduceByKey(lambda x, y: (        min(x[0], y[0], key=lambda x: x[1]),         max(x[1], y[1], , key=lambda x: x[1])))

 

转载地址:http://mokhl.baihongyu.com/

你可能感兴趣的文章
Android Service 组件
查看>>
TRUNC 截取日期或数字,返回指定的值。
查看>>
【erlang】erlang几种生成随机数的方法
查看>>
BizTalk开发系列(二十二) 开发自定义Map Functoid
查看>>
在Windows Mobile和Wince(Windows Embedded CE)下Win32项目加入ATL支持
查看>>
在Asp.Net MVC中用Ajax回调后台方法
查看>>
JAVA-JDBC
查看>>
.Net中的反射(动态创建类型实例) - Part.4
查看>>
.net测试学习--理解.net测试选项
查看>>
让我感动的100对古装情侣
查看>>
[hihoCoder] #1093 : 最短路径·三:SPFA算法
查看>>
关于自动化测试的一些思考(三)
查看>>
Fedora/Redhat 在线安装更新软件包,yum 篇 ── 给新手指南 (转载)
查看>>
cxgrid上如何取FOOTER上合计的值
查看>>
superobject 序列数据集
查看>>
linux目录和文件权限修改
查看>>
做人比做事更重要
查看>>
防止MDaemon的POP和SMTP泄露你的信息
查看>>
C#发现之旅第二讲 C#-XSLT开发
查看>>
《网站说服力——营销型网站策划》
查看>>