spark手把手:[e2-spk-s02]

2 . 2

https://docs.docker.com/engine/installation/mac/

https://docs.docker.com/engine/installation/windows/

https://docs.docker.com/engine/installation/linux/ubuntulinux/

https://docs.docker.com/engine/installation/linux/centos/

2 . 3

https://hub.docker.com/r/sequenceiq/spark/

2 . 4

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/e2-spk-s02.zip

dockerrun-v/home/etadm/docker/spark/e2spkv01:/home:rw\-p8088:8088-p8042:8042\-hsandbox\-itsequenceiq/spark:1.6.0bash

2 . 5

spark-shell\--masterlocal\--jars/home/e2-spk-s02/jars/spark-csv_2.10-1.4.0.jar\,/home/e2-spk-s02/jars/commons-csv-1.1.jar

2 . 6

4 . 10

4 . 11

4 . 12

4 . 13

4 . 14

4 . 15

4 . 16

4 . 17

4 . 18

4 . 19

//CreateaobjectcontainercaseclassWord(text:String)valfileName="README.md"valdocs=sc.textFile(fileName)vallower=docs.map(line=>line.toLowerCase())valwords=lower.flatMap(line=>line.split("\\s+"))//ConvertRDDtoDataframeusing"Caseclass"valwords_df=words.map(Word(_)).toDF()words_df.registerTempTable("words")//Registerasa[TABLE]valtopWords=sqlContext.sql("SELECTtext,count(text)ASnFROMwordsGROUPBYtextORDERBYnDESCLIMIT10")topWords.foreach(println)

5 . 3

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/sc_04_text_processing.txt

5 . 10

5 . 11

5 . 12

5 . 13

5 . 14

5 . 15

5 . 16

5 . 17

5 . 18

caseclassWord(text:String)valfileName="README.md"valdocs=sc.textFile(fileName)vallower=docs.map(line=>line.toLowerCase())valwords=lower.flatMap(line=>line.split("\\s+"))valwords_df=words.map(Word(_)).toDF()words_df.registerTempTable("words")valtopWords=sqlContext.sql("SELECTtext,count(text)ASnFROMwordsGROUPBYtextORDERBYnDESCLIMIT10"topWords.foreach(println)

5 . 19

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/sc_04_text_processing.txt

5 . 20

7 . 2

http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame

7 . 4

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_00_startpoint_sqlctx.txt

importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.functions._valsc=newSparkContext(conf)// SparkSQL DataFrame, SQLContextvalsqlContext=newSQLContext(sc) // RDD DataFrameimportsqlContext.implicits._

7 . 4

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_00_startpoint_sqlctx.txt

7 . 5

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_01_create_dataframes.txt

// Parquet DataFramevaldf=sqlContext.read.parquet("people.parquet") // DataFrame stdout//DisplaysthecontentoftheDataFrametostdoutdf.show()

7 . 5

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_01_create_dataframes.txt

7 . 6


https://spark.apache.org/docs/1.6.1/api/scala/index.html#org.apache.spark.sql.functions$

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_02_dataframe_operations.txt

// Parquet DataFramevaldf=sqlContext.read.parquet("people.parquet") // DataFrame stdoutdf.show()// Schemadf.printSchema()// "name"df.select("name").show()// "age" +1df.select(df("name"),df("age")+1).show()// 21 peopledf.filter(df("age")>21).show()// age countdf.groupBy("age").count().show()

7 . 6



http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_02_dataframe_operations.txt

7 . 7



http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_03_df_sql_operations.txt

// Parquet DataFramevaldf=sqlContext.read.parquet("people.parquet")//df.registerTempTable("people")// DataFrame stdoutsqlContext.sql("SELECT*FROMpeople").show()// SchemasqlContext.sql("SELECT*FROMpeople").printSchema()// "name"sqlContext.sql("SELECTnameFROMpeople").show()// "age" +1sqlContext.sql("SELECTname,(age+1)asageFROMpeople").show()// 21 peoplesqlContext.sql("SELECT*FROMpeopleWHEREage>21").show()// age countsqlContext.sql("SELECTage,count(age)ascountFROMpeopleGroupByage").show()

7 . 7



http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_03_df_sql_operations.txt

7 . 8

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_04_convert_rdd2df.txt

// caseclass SchemacaseclassPerson(name:String,age:Int)// DataFramevaldf=sc.textFile("people.txt").map(_.split(",")).map(p=>Person(p(0),p(1).trim.toInt)).toDF() df.registerTempTable("people")valteenagers=sqlContext.sql("SELECTname,ageFROMpeopleWHEREage>=13ANDage<=19") //SQLquery DataFrame, normalRDD operationteenagers.map(t=>"Name:"+t(0)).collect().foreach(println)//teenagers.map(t=>"Name:"+t.getAs[String]("name")).collect().foreach(println) //row.getValueMap[T] Map[String,T]teenagers.map(_.getValuesMap[Any](List("name","age"))).collect().foreach(println)

7 . 8

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_04_convert_rdd2df.txt

7 . 9

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_05_datasource_load_save.txt

// , "parquet" Sparkvaldf=sqlContext.read.load("users.parquet") // DataFrame "parquet"df.select("name","favorite_color").write.save("namesAndFavColors.parquet")

7 . 9

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_05_datasource_load_save.txt

7 . 10

7 . 10

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_06_json_load_save.txt

// , "parquet" Sparkvaldf=sqlContext.read.format("json").load("people.json")// DataFrame "parquet"df.select("name","age").write.save("namesAndAges.parquet")

7 . 10

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_06_json_load_save.txt

7 . 11

7 . 11

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_07_dataframe_savemode.txt

importorg.apache.spark.sql.SaveMode// , "parquet" Sparkvaldf=sqlContext.read.load("users.parquet") // DataFrame "parquet" ( SaveMode.Overwrite)df.select("name","favorite_color").write.mode(SaveMode.Overwrite).save("namesAndFavColors.parquet")

7 . 11

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_07_dataframe_savemode.txt

8 . 2

http://www.modelingonlineauctions.com/datasets

8 . 3

https://www.mapr.com/blog/using-apache-spark-dataframes-processing-tabular-data

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_08_ebay_auction_analysis.txt

8 . 4


//definetheschemausingacaseclasscaseclassAuction(auctionid:String,bid:Float,bidtime:Float,bidder:String,bidderrate:// ebay auctionvalebayText=sc.textFile("ebay.csv")// Auctionvalebay=ebayText.map(_.split(",")).map(p=>Auction(p(0),p(1).toFloat,p(2).toFloat,p(3),p(// DataFramevalauction=ebay.toDF()auction.registerTempTable("auction")// ?valcount=auction.select("auctionid").distinct.countSystem.out.println(count)// (item)valresults=sqlContext.sql("SELECTauctionid,item,count(bid)asbid_countFROMauctionGROUPBYauctionid,item"results.show()// ( / / )valresults2=sqlContext.sql("SELECTauctionid,MAX(price)asprice_max,MIN(price)asprice_min,AVG(price)asprice_avgFROMauctionGROUPBYitem,auctionid"

8 . 4


8 . 5

https://www.mapr.com/blog/using-apache-spark-dataframes-processing-tabular-data

https://github.com/databricks/spark-csv

http://192.168.0.100:3000/apps/e2-spk-v01/present/e2-spk-s02/assets/files/df_09_sfpd_crime_analysis.txt

8 . 6


importcom.databricks.spark.csv// 3rdpartylibrary "CSV" Dataframevaldf=sqlContext.read.format("com.databricks.spark.csv").option("header","true")//Usefirstlineofallfilesasheader.option("inferSchema","true")//Automaticallyinferdatatypes.load("sfpd.csv")// Schemadf.printSchema// Distinct Categorydf.select("Category").distinct().collect().foreach(println)// temptabledf.registerTempTable("sfpd")//sqlContext.sql("SELECTdistinctCategoryFROMsfpd").collect().foreach(println)// Top10sqlContext.sql("SELECTResolution,count(Resolution)asrescountFROMsfpdgroupbyResolutionorderbyrescountdesclimit10"// Top10sqlContext.sql("SELECTCategory,count(Category)ascatcountFROMsfpdgroupbyCategoryorderbycatcountdesclimit10"

8 . 6


spark手把手:[e2-spk-s02]

Engineering