首页 / PYTHON / python-Spark笛卡尔积

python-Spark笛卡尔积

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-Spark笛卡尔积，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5940字，纯文字阅读大概需要9分钟。

内容图文

我必须比较坐标才能获得距离.因此,我用sc.textFile()加载数据并制成笛卡尔积.文本文件中大约有2.000.000行,因此需要比较2.000.000 x 2.000.000坐标.

我用大约2.000的坐标测试了代码,并且在几秒钟内运行良好.但是使用大文件似乎在某个时刻停止了,我不知道为什么.该代码如下所示：

def concat(x,y):
    if(isinstance(y, list)&(isinstance(x,list))):
        return x + y
    if(isinstance(x,list)&isinstance(y,tuple)):
        return x + [y]
    if(isinstance(x,tuple)&isinstance(y,list)):
        return [x] + y
    else: return [x,y]

def haversian_dist(tuple):
    lat1 = float(tuple[0][0])
    lat2 = float(tuple[1][0])
    lon1 = float(tuple[0][2])
    lon2 = float(tuple[1][2])
    p = 0.017453292519943295
    a = 0.5 - cos((lat2 - lat1) * p)/2 + cos(lat1 * p) * cos(lat2 * p) * (1 - cos((lon2 - lon1) * p)) / 2
    print(tuple[0][1])
    return (int(float(tuple[0][1])), (int(float(tuple[1][1])),12742 * asin(sqrt(a))))

def sort_val(tuple):
    dtype = [("globalid", int),("distance",float)]
    a = np.array(tuple[1], dtype=dtype)
    sorted_mins = np.sort(a, order="distance",kind="mergesort")
    return (tuple[0], sorted_mins)


def calc_matrix(sc, path, rangeval, savepath, name):
    data = sc.textFile(path)
    data = data.map(lambda x: x.split(";"))
    data = data.repartition(100).cache()
    data.collect()
    matrix = data.cartesian(data)
    values = matrix.map(haversian_dist)
    values = values.reduceByKey(concat)
    values = values.map(sort_val)
    values = values.map(lambda x: (x[0], x[1][1:int(rangeval)].tolist()))
    values = values.map(lambda x: (x[0], [y[0] for y in x[1]]))
    dicti = values.collectAsMap()
    hp.save_pickle(dicti, savepath, name)

甚至包含大约15.000条目的文件也不起作用.我知道笛卡尔会导致O(n ^ 2)运行时.但是火花不应该解决吗？还是有问题？唯一的起点是一条错误消息,但我不知道它是否与实际问题有关：

16/08/06 22:21:12 WARN TaskSetManager: Lost task 15.0 in stage 1.0 (TID 16, hlb0004): java.net.SocketException: Daten?bergabe unterbrochen (broken pipe)
    at java.net.SocketOutputStream.socketWrite0(Native Method)
    at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:109)
    at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
    at java.io.BufferedOutputStream.write(BufferedOutputStream.java:122)
    at java.io.DataOutputStream.write(DataOutputStream.java:107)
    at java.io.FilterOutputStream.write(FilterOutputStream.java:97)
    at org.apache.spark.api.python.PythonRDD$.org$apache$spark$api$python$PythonRDD$$write$1(PythonRDD.scala:440)
    at org.apache.spark.api.python.PythonRDD$$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:452)
    at org.apache.spark.api.python.PythonRDD$$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:452)
    at scala.collection.Iterator$class.foreach(Iterator.scala:727)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1157)
    at org.apache.spark.api.python.PythonRDD$.writeIteratorToStream(PythonRDD.scala:452)
    at org.apache.spark.api.python.PythonRunner$WriterThread$$anonfun$run$3.apply(PythonRDD.scala:280)
    at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1741)
    at org.apache.spark.api.python.PythonRunner$WriterThread.run(PythonRDD.scala:239)

16/08/06 22:21:12 INFO TaskSetManager: Starting task 15.1 in stage 1.0 (TID 17, hlb0004, partition 15,PROCESS_LOCAL, 2408 bytes)
16/08/06 22:21:12 WARN TaskSetManager: Lost task 7.0 in stage 1.0 (TID 8, hlb0004): java.net.SocketException: Connection reset
    at java.net.SocketInputStream.read(SocketInputStream.java:209)
    at java.net.SocketInputStream.read(SocketInputStream.java:141)
    at java.io.BufferedInputStream.fill(BufferedInputStream.java:246)
    at java.io.BufferedInputStream.read(BufferedInputStream.java:265)
    at java.io.DataInputStream.readInt(DataInputStream.java:387)
    at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:139)
    at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:207)
    at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)
    at org.apache.spark.api.python.PairwiseRDD.compute(PythonRDD.scala:342)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

解决方法:

您在代码中使用了data.collect(),该代码基本上将所有数据调用到一台计算机中.根据该计算机上的内存,可能无法很好地容纳2,000,000行数据.

此外,我尝试通过执行联接而不是使用笛卡尔来减少要执行的计算数量. (请注意,我只是使用numpy生成了随机数,此处的格式可能与您使用的格式不同.不过,主要思想是相同的.)

import numpy as np
from numpy import arcsin, cos, sqrt

# suppose my data consists of latlong pairs
# we will use the indices for pairing up values
data = sc.parallelize(np.random.rand(10,2)).zipWithIndex()
data = data.map(lambda (val, idx): (idx, val))

# generate pairs (e.g. if i have 3 pairs with indices [0,1,2],
# I only have to compute for distances of pairs (0,1), (0,2) & (1,2)
idxs = range(data.count())
indices = sc.parallelize([(i,j) for i in idxs for j in idxs if i < j])

# haversian func (i took the liberty of editing some parts of it)
def haversian_dist(latlong1, latlong2):
    lat1, lon1 = latlong1
    lat2, lon2 = latlong2
    p = 0.017453292519943295
    def hav(theta): return (1 - cos(p * theta))/2
    a = hav(lat2 - lat1) + cos(p * lat1)*cos(p * lat2)*hav(lon2 - lon1)
    return 12742 * arcsin(sqrt(a))

joined1 = indices.join(data).map(lambda (i, (j, val)): (j, (i, val)))
joined2 = joined1.join(data).map(lambda (j, ((i, latlong1), latlong2)): ((i,j), (latlong1, latlong2))
haversianRDD = joined2.mapValues(lambda (x, y): haversian_dist(x, y))

内容总结

以上是互联网集市为您收集整理的python-Spark笛卡尔积全部内容，希望文章能够帮你解决python-Spark笛卡尔积所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/693151.html

来源：【匿名】

【上一篇】PIP安装不起作用(六个,numpy和python-dateutil要求)【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-Spark笛卡尔积】教程文章相关的互联网学习教程文章

python：用pandas生成笛卡尔积【代码】

业务需要，把两组数据两两交叉组合，生成笛卡尔积，发现一个比较好用的方式，分享记录一下。 import pandas as pd import numpy as npdata1 = {"a":[1,2],"b":[3,4] } data2 = {"c":[11,22],"d":[33,44],"e":[55,66] }df1 = pd.DataFrame(data1) df2 = pd.DataFrame(data2)df1['value']=1 df2['value']=1df3 = df1.merge(df2,how='left',on='value')del df3['value']df3最后结果：a b c d e 0 1 3 11 33 55 1 1 3 22 44 66 2 2 4 1...

Python Pandas自合并以合并笛卡尔积,以产生所有组合和总和【代码】

我是Python的新手,似乎它具有很大的灵活性,并且比传统的RDBMS系统快. 建立一个非常简单的过程以创建随机的幻想团队.我来自RDBMS背景(Oracle SQL),对于这种数据处理来说似乎并不是最佳选择. 我使用从csv文件读取的熊猫制作了一个数据框,现在有一个包含两列的简单数据框-Player,Salary：` Name Salary 0 Jason Day 11700 1 Dustin Johnson 11600 2 Rory McIlroy 11400 3 ...

python-Spark笛卡尔积【代码】

我必须比较坐标才能获得距离.因此,我用sc.textFile()加载数据并制成笛卡尔积.文本文件中大约有2.000.000行,因此需要比较2.000.000 x 2.000.000坐标. 我用大约2.000的坐标测试了代码,并且在几秒钟内运行良好.但是使用大文件似乎在某个时刻停止了,我不知道为什么.该代码如下所示：def concat(x,y):if(isinstance(y, list)&(isinstance(x,list))):return x + yif(isinstance(x,list)&isinstance(y,tuple)):return x + [y]if(isinstanc...

python – 大熊猫数据帧的笛卡尔积【代码】

给定一个数据帧：id value 0 1 a 1 2 b 2 3 c我想获得一个新的数据帧,它基本上是每行的笛卡尔积,而另一行不包括它自己：id value id_2 value_2 0 1 a 2 b 1 1 a 3 c 2 2 b 1 a 3 2 b 3 c 4 3 c 1 a 5 3 c 2 b这是我现在的做法.我使用itertools获取产品,然后使用pd.concat和df.loc来获取新的数据帧.from itertools im...

python – 迭代数组两次(笛卡尔积)但只考虑一半的元素【代码】

我试图迭代一个数组两次以获得元素对(e_i,e_j),但我只想要这样的元素,即i<学家基本上,我想要的就像是C语言. int my_array[N] = ...; for (int i=0; i<N; i++)for (int j=i+1; j<N; j++)something(my_array[i],my_array[j]);我在itertools找不到我要找的东西(我发现最接近的是itertools.product(* iterables [,repeat])). 我尝试了一些事情,但我并不相信他们中的任何一个：my_list=range(10)# Using enumerate and slices - explici...

python – 获取列表的所有组合(笛卡尔积)的最佳方法是什么？【代码】

假设我有以下内容.a = [[1,2,3],[4,5,6],[7,8,9]] b = [['a','b'],['c','d'],['e','f']]我如何获得以下内容？[1,2,3,'a','b'] [1,2,3,'c','d'] [1,2,3,'e','f'] [4,5,6,'a','b'] [4,5,6,'c','d'] [4,5,6,'e','f'] [7,8,9,'a','b'] [7,8,9,'c','d'] [7,8,9,'e','f']解决方法: from itertools import product a = [[1,2,3],[4,5,6],[7,8,9]] b = [['a','b'],['c','d'],['e','f']]print [x+y for (x,y) in product(a,b)]

修复了Python中的关系笛卡尔积【代码】

背景：我有兴趣通过在DWave的绝热量子计算机上编写模拟来研究各种材料的量子相变.为了更容易根据参数生成相图,我正在编写实用程序来扫描参数,使用这些参数集运行模拟,并收集数据. 输入条件背景：在DWave上,我可以设置两组参数,h偏差和J耦合.它们输入如下：h = {qubit0：hvalue0,qubit1：hvalue1,…}和J = {(qubit0,qubit1)：J01,(qubit2,qubit3)：J23,…}.到目前为止,我有一个工具可以进行参数扫描,给出如下输入：{qubit：[hz1,hz2...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-Spark笛卡尔积

python-Spark笛卡尔积

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-Spark笛卡尔积】教程文章相关的互联网学习教程文章

python：用pandas生成笛卡尔积【代码】

Python Pandas自合并以合并笛卡尔积,以产生所有组合和总和【代码】

python-Spark笛卡尔积【代码】

python – 大熊猫数据帧的笛卡尔积【代码】

python – 迭代数组两次(笛卡尔积)但只考虑一半的元素【代码】

python – 获取列表的所有组合(笛卡尔积)的最佳方法是什么？【代码】

修复了Python中的关系笛卡尔积【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程