承接上篇pyspark,这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计,kafka stream实时计算要说一下,版本特别重要,一个是spark版本(<2, 2.0, >2.0),一个是scala版本(主要是<2.11和2.11),注意匹配pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http...
/** * 创建dataframe */ public class DataFrameCreate {public static void main (String[] args){SparkConf conf = new SparkConf().setAppName("DataFrameCreate").setMaster("local");JavaSparkContext sc = new JavaSparkContext(conf);SQLContext sqlContext = new SQLContext(sc);sqlContext.read().json("hdfs://spark1:9000/test.json").show();} }//=======================分隔符=====================================...
如果我有一个带有DataFrame的Scala段落,我可以与python共享和使用它. (据我所知,pyspark使用py4j) 我试过这个: 斯卡拉段落:x.printSchema z.put("xtable", x )Python段落:%pysparkimport numpy as np import pandas as pdimport matplotlib.pyplot as plt import seaborn as snsthe_data = z.get("xtable")print the_datasns.set() g = sns.PairGrid(data=the_data,x_vars=dependent_var,y_vars=sensor_measure_columns_names +...