首页 / PYTHON / python – Spark – 嵌套的RDD操作

python – Spark – 嵌套的RDD操作

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Spark – 嵌套的RDD操作，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2692字，纯文字阅读大概需要4分钟。

内容图文

我有两个RDD说

   rdd1 = 
id            | created     | destroyed | price   
1            | 1            | 2            | 10        
2            | 1            | 5            | 11       
3            | 2            | 3            | 11        
4            | 3            | 4            | 12        
5            | 3            | 5            | 11       

rdd2 =

[1,2,3,4,5] # lets call these value as timestamps (ts)

rdd2基本上是使用range(intial_value,end_value,interval)生成的.这里的参数可以有所不同.大小可以与rdd1相同或不同.我的想法是使用过滤criertia基于rdd2的值从rdd1获取记录到rdd2(来自rdd1的记录可以在获取时重复,如输出中所示)

过滤标准rdd1.created< = ts< rdd1.destroyed) 预期产量：

ts             | prices  
1              | 10,11       # i.e. for ids 1,2 of rdd1      
2              | 11,11       # ids 2,3
3              | 11,12,11    # ids 2,4,5 
4              | 11,11       # ids 2,5

现在我想根据使用RDD2键的某些条件来过滤RDD1. (如上所述)并返回连接RDD2的密钥和RDD1的过滤结果的结果

所以我这样做：

rdd2.map(lambda x : somefilterfunction(x, rdd1))  

def somefilterfunction(x, rdd1):
    filtered_rdd1 = rdd1.filter(rdd1[1] <= x).filter(rdd1[2] > x)
    prices = filtered_rdd1.map(lambda x : x[3])
    res = prices.collect()
    return (x, list(res))

我得到：

Exception: It appears that you are attempting to broadcast an RDD or
reference an RDD from an action or transformation. RDD transformations
and actions can only be invoked by the driver, not inside of other
transformations; for example, rdd1.map(lambda x: rdd2.values.count() *
x) is invalid because the values transformation and count action
cannot be performed inside of the rdd1.map transformation. For more
information, see SPARK-5063.

我尝试使用groupBy,但是因为rdd1的元素可以一次又一次地重复,与我理解的分组相比,它只会在某个特定的插槽中使用rdd1的每个元素一次.

唯一的方法是使用普通的for循环并进行过滤并最终加入所有内容.

有什么建议？

解决方法:

由于您使用常规范围,因此没有理由创建第二个RDD.您只需为每条记录生成特定范围内的值：

from __future__ import division # Required only for Python 2.x
from math import ceil
from itertools import takewhile

rdd1 = sc.parallelize([
    (1, 1, 2, 10),        
    (2, 1, 5, 11),       
    (3, 2, 3, 11),        
    (4, 3, 4, 12),        
    (5, 3, 5, 11),  
])


def generate(start, end, step):
    def _generate(id, created, destroyed, price):
        # Smallest ts >= created
        start_for_record = int(ceil((created - start) / step) * step + start)
        rng = takewhile(
            lambda x: created <= x < destroyed,
            xrange(start_for_record, end, step)) # In Python 3.x use range
        for i in rng:
            yield i, price

    return _generate

result = rdd1.flatMap(lambda x: generate(1, 6, 1)(*x)).groupByKey()

结果：

result.mapValues(list).collect()

## [(1, [10, 11]), (2, [11, 11]), (3, [11, 12, 11]), (4, [11, 11])]

内容总结

以上是互联网集市为您收集整理的python – Spark – 嵌套的RDD操作全部内容，希望文章能够帮你解决python – Spark – 嵌套的RDD操作所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/794840.html

来源：【匿名】

【上一篇】python – 子集Pandas DataFrame二级索引和重新分配值【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – Spark – 嵌套的RDD操作】教程文章相关的互联网学习教程文章

python——for循环嵌套，写成一个列表生成式(列表生成式中列表嵌套字典)【代码】

[{‘name1‘:‘Jack‘},{‘name2‘:‘Lara‘}]------>得到[name1, name2]for循环嵌套，列表生成式写法：alist=[{‘name1‘:‘Jack‘},{‘name2‘:‘Lara‘}] b = [j for one in alist for j in one] print(b) for循环嵌套，普通写法：alist=[{‘name1‘:‘Jack‘},{‘name2‘:‘Lara‘}] blist=[] for one in alist:for k,v in one.items():blist.append(k) print(blist)[{‘a‘:‘1‘,‘b‘:‘11‘},{‘a‘:‘2‘,‘b‘:‘21‘}...

python 实现l list嵌套dict转tree【代码】【图】

1。算法实现：待被处理的数据结构： 2.目标效果：设计思路：dict.setdefault(k,v),如果存在k,返回dict的k的v，否则添加{k:v}并返回他的v，def list_to_tree(data):i = 0res = {}for v in data:v["parent_id"] = v["parent_id"] if v["parent_id"] else 0res.setdefault(v["id"], v).update(v)res.setdefault(v["parent_id"], {}).setdefault("children", []).append(res.get(v["id"], v))return res[0]["children"] 实现逻辑...

python 更改嵌套作用域中的变量【代码】

‘‘‘def outer(): num = 10 def inner(): #修改num nonlocal num num = 20 print("在inner里打印num =", num) inner() print("在outer里打印num =", num)outer()‘‘‘def outer(): num = 10 def inner(): nonlocal num num = 20 def little(): nonlocal num num = 30 print("在little里打印Num =", num) little()...

如何在Python中安全地创建嵌套目录【代码】

检查文件目录是否存在的最优雅方法是什么，如果不存在，如何使用Python创建目录？这是我以前使用过的方法： import osfile_path = "/my/directory/filename.txt" directory = os.path.dirname(file_path)try:os.stat(directory) except:os.mkdir(directory) f = file(filename) 不知何故，我错过了os.path.exists。现在推荐使用这个方法： def ensure_dir(file_path):directory = os.path.dirname(file_path)if not os.pat...

python 嵌套字典赋值出现相同值问题【代码】

错误代码：import copy lists={} test=[‘s1‘,‘s2‘,‘s3‘] data = {‘value‘: ‘‘,} for i in range(2):lists[i] = datafor j in range(2):lists[j][‘value‘]=test[j]print(lists)结果：Connected to pydev debugger (build 182.5107.22) {0: {‘value‘: ‘s2‘}, 1: {‘value‘: ‘s2‘}} 改正后代码import copy lists={} test=[‘s1‘,‘s2‘,‘s3‘] data = {‘value‘: ‘‘,} for i in range(2):lists[i] = copy.dee...

48 Python - 装饰器函数嵌套及跨域访问【图】

02函数嵌套及跨域访问001函数嵌套要点：返回的函数名有括号返回的是结果，没有括号返回的是对象地址 002函数作用域原文：https://www.cnblogs.com/yijiexi/p/11165813.html

python学习（五）for循环嵌套-九九乘法表【图】

一、 for和while写99乘法表二、break 循环控制原文：https://www.cnblogs.com/jiliangceshi/p/12933551.html

也说性能测试，顺便说python的多进程嵌套多线程【代码】

最近需要一个web系统进行接口性能测试，这里顺便说一下性能测试的步骤吧，大概如下　　一、分析接口频率　　根据系统的复杂程度，接口的数量有多有少，应该优先对那些频率高，数据库操作频繁的接口进行性能测试，所以先和开发根据业务情况，找到频率最高的几个接口。　　二、找到合适的测试工具　　性能测试工具简直数不胜数，最著名莫过于loadrunner，因为它支持windows，呵呵呵，这也是我刚毕业时用的工具（当然是盗版了。。。）...

21：python 循环嵌套【图】

Python 语言允许在一个循环体里面嵌入另一个循环。Python for循环嵌套语法：foriterating_varinsequence: foriterating_varinsequence: statements(s)statements(s)Pythonwhile 循环嵌套语法：whileexpression: whileexpression: statement(s)statement(s)你可以在循环体内嵌入其他的循环体，如在while循环中可以嵌入for循环，反之，你可以在for循环中嵌入while循环。21.1 for循环嵌套问题描述：我们需要在屏幕上打印一个...

python基础之函数(动态参数，注释，名称空间，第一类对象及使用和函数嵌套)【代码】

函数的动态参数1.函数的动态参数位置参数，默认参数动态参数的作用 *args? 1.能够接受不固定长度参数? 2.位置参数过多时可以使用动态参数动态参数的用法：def func(*c): #形参位置上的 * 是聚会print(*c) #函数体中的 * 就是打散 #func(1,2,3,4,5,6,7,8,9,0)**def eat(a,b,*args): #位置参数，动态位置参数** print(a,b,args) #结果：面条包子 ('饺子', '馅饼', '馒头') print(a,b,*args) #带上*是打散面条包子饺子馅...

PYTHON压平嵌套列表【代码】【图】

list 是 Python 中使用最频繁的数据类型, 标准库里面有丰富的函数可以使用。不过，如果把多维列表转换成一维列表(不知道这种需求多不多),还真不容易找到好用的函数，要知道Ruby、Mathematica、Groovy中可是有flatten的啊。如果列表是维度少的、规则的，还算好办例如:li=[[1,2],[3,4],[5,6]] print [j for i in li for j in i] #or from itertools import chain print list(chain(*li)) #or a=[[1,2],[3,4],[5,6]] t=[] [t.extend(i...

Python中函数的嵌套及闭包【代码】

函数的嵌套调用：在函数中调用函数定义：在函数中定义函数地址：函数名有内存地址，内存地址可赋值示例a = 1 def outer():a = 1def inner():a = 2def inner2():nonlocal aa += 1inner2()print(‘##a## : ‘, a)inner()print(‘**a** : ‘,a)OUTER = outerOUTER() print(‘全局：‘,a)nonlocal:声明了一个上层局部变量（寻找上层最近的局部变量）用于局部变量中不可变数据类型的修改；仅在python3中有用函数的闭包闭包一定是嵌套...

python库--flask--创建嵌套蓝图【代码】

这里没有对内容进行py文件分割, 可以自己根据框架自己放入对应位置以下代码生成一个 /v1/myapp/test 的路由from flask import Flask app = Flask(__name__)from flask import Blueprint # 二级蓝图 myapp = Blueprint('v1/myapp', __name__) @myapp.route("/test", methods=["GET"]) def test():passfrom flask import Blueprint class NestableBlueprint(Blueprint):def register_blueprint(self, blueprint, **options):def defe...

python------函数嵌套及作用域链【代码】【图】

python------函数嵌套及作用域链1.三元运算if条件成立的结果 if 条件 else 条件不成立的结果例如：　　a=20　　b=10　　c=a if a>b else b　　print(c)2.命名空间全局命名空间：创建的存储“变量名与值的关系”的空间叫做全局命名空间　局部命名空间：在函数的运行中开辟的临时的空间叫做局部命名空间　内置命名空间：内置命名空间中存放了python解释器为我们提供的名字：input,print,str,list,tuple...它们都是我们熟悉的，拿...

python基础(3) 运算符优先级、位运算符、条件判断语句、while循环、循环嵌套【代码】

一、运算符优先级以下表格列出了从最高到最低优先级的所有运算符：运算符描述**指数运算（优先级最高）~ + -按位翻转, 一元加号和减号 (最后两个的方法名为 +@ 和 -@)* / % //乘，除，取模和取整除+ -加法减法>> <<右移，左移运算符&位 ‘AND‘^ |位运算符<= < > >=比较运算符<> == !=等于运算符= %= /= //= -= += *= **=赋值运算符is is not身份运算符in not in成员运算符not>and>or逻辑运算符可以用（）来控制优先级，（）内的优...

首页 / PYTHON / python – Spark – 嵌套的RDD操作

python – Spark – 嵌套的RDD操作

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – Spark – 嵌套的RDD操作】教程文章相关的互联网学习教程文章

python——for循环嵌套，写成一个列表生成式(列表生成式中列表嵌套字典)【代码】

python 实现l list嵌套dict转tree【代码】【图】

python 更改嵌套作用域中的变量【代码】

如何在Python中安全地创建嵌套目录【代码】

python 嵌套字典赋值出现相同值问题【代码】

48 Python - 装饰器函数嵌套及跨域访问【图】

python学习（五）for循环嵌套-九九乘法表【图】

也说性能测试，顺便说python的多进程嵌套多线程【代码】

21：python 循环嵌套【图】

python基础之函数(动态参数，注释，名称空间，第一类对象及使用和函数嵌套)【代码】

PYTHON压平嵌套列表【代码】【图】

Python中函数的嵌套及闭包【代码】

python库--flask--创建嵌套蓝图【代码】

python------函数嵌套及作用域链【代码】【图】

python基础(3) 运算符优先级、位运算符、条件判断语句、while循环、循环嵌套【代码】

PYTHON - 相关标签

嵌套 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程