python – 在1台大型计算机上独立使用spark是否有意义?
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – 在1台大型计算机上独立使用spark是否有意义?,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含880字,纯文字阅读大概需要2分钟。
内容图文
![python – 在1台大型计算机上独立使用spark是否有意义?](/upload/InfoBanner/zyjiaocheng/819/b3659d28c51b4f2e83e928c7479b8092.jpg)
我正在使用~120Gb的csv文件(每个从1Gb到20Gb).我正在使用一台带有36个主板的220Gb Ram计算机.
我想知道在独立模式下使用spark进行此分析是否有意义?我非常喜欢spark plus的自然并发性(使用pyspark)我有一个很好的笔记本环境可供使用.
我想做连接/聚合类型的东西,并在转换的数据集上运行机器学习.像pandas这样的Python工具只想使用1个线程,这似乎是一个巨大的浪费,因为使用所有36个线程必须要快得多..
解决方法:
要回答你的问题,是的,如果你只有一个节点可用,特别是你所描述的一个节点(只要它可以处理数据的大小),它确实有意义.
我建议您在“本地”模式下运行应用程序,因为您只使用1个节点.运行./spark-submit时,请指定:
--master local[*]
如:
./spark-submit --master local[*] <your-app-name> <your-apps-args>
这将使用所有可用内核在本地节点上运行应用程序.
请记住,在您的应用程序中,您必须指定希望应用程序使用的执行程序内存量;默认情况下,这是512米.如果要利用所有内存,可以在创建SparkConf对象时将其更改为spark-submit参数或应用程序代码.
内容总结
以上是互联网集市为您收集整理的python – 在1台大型计算机上独立使用spark是否有意义?全部内容,希望文章能够帮你解决python – 在1台大型计算机上独立使用spark是否有意义?所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。