juanignaciosl · February 15, 2022 07:09
diff --git a/spark_notes.md b/spark_notes.md
diff --git a/spark_quick_start_examples.scala b/spark_quick_start_examples.scala
 // Examples with GitHub tops: https://github.com/JJ/top-github-users-data/
 def file = sc.textFile("../top-github-users-data/data/all-users-data.csv")
 def data = file.filter(line => line.split(";")(2).forall(_.isDigit))

 val biggestContributor = data.map { line => val splitted = line.split(";"); (splitted(0), splitted(2).toInt) }.reduce((a, b) => if (a._2 >= b._2) a else b)
 // biggestContributor: (String, Int) = (mmoreram,5503)

 val totalContributions = data.map(line => line.split(";")(2).toInt).reduce((a, b) => a + b)
 // totalContributions: Int = 496723

 val contributionsByCity = data.map { line => val splitted = line.split(";"); (splitted(1).trim(), splitted(2).toInt) }.reduceByKey((a, b) => a + b)
 contributionsByCity.collect()
 // res16: Array[(String, Int)] = Array((Soria,229), (Las Palmas,3693), (Asturias,10475), (Pontevedra,3827), (León,909), (Tenerife,5720), (Cáceres,542), (Jaén,2366), (Sevilla,14970), (Valladolid,4876), (Granada,33739), (Burgos,671), (Córdoba,4978), (Ciudad Real,2199), (Zamora,45), (Gerona,2425), (Segovia,437), (Alicante,4941), (Bilbao,10791), (Salamanca,826), (Palencia,372), (Coruña,5162), (Cantabria,2598), (Castellón,1333), (Lugo,1222), (Tarragona,1778), (Málaga,9766), (Murcia,2100), (Barcelona,124291), (Ourense,1590), (Zaragoza,16643), (Cádiz,2989), (Badajoz,391), (Ávila,25), (Toledo,1275), (Madrid,170902), (Rioja,1159), (Cuenca,164), (Albacete,1193), (Huesca,707), (Lleida,1797), (Almería,4025), (Baleares,2489), (Donostia,5209), (Huelva,1924), (Valencia,21684), (Navarra,2945), (Álava,2331))

 val biggestContributorCity = contributionsByCity.reduce((a, b) => if (a._2 >= b._2) a else b)
 // biggestContributorCity: (String, Int) = (Madrid,170902)

 val mostFollowed = data.map { line => val splitted = line.split(";"); (splitted(0), splitted(4).toInt) }.reduce((a, b) => if (a._2 >= b._2) a else b)
 // mostFollowed: (String, Int) = (mrdoob,5600)
	// Examples with GitHub tops: https://github.com/JJ/top-github-users-data/
	def file = sc.textFile("../top-github-users-data/data/all-users-data.csv")
	def data = file.filter(line => line.split(";")(2).forall(_.isDigit))

	val biggestContributor = data.map { line => val splitted = line.split(";"); (splitted(0), splitted(2).toInt) }.reduce((a, b) => if (a._2 >= b._2) a else b)
	// biggestContributor: (String, Int) = (mmoreram,5503)

	val totalContributions = data.map(line => line.split(";")(2).toInt).reduce((a, b) => a + b)
	// totalContributions: Int = 496723

	val contributionsByCity = data.map { line => val splitted = line.split(";"); (splitted(1).trim(), splitted(2).toInt) }.reduceByKey((a, b) => a + b)
	contributionsByCity.collect()
	// res16: Array[(String, Int)] = Array((Soria,229), (Las Palmas,3693), (Asturias,10475), (Pontevedra,3827), (León,909), (Tenerife,5720), (Cáceres,542), (Jaén,2366), (Sevilla,14970), (Valladolid,4876), (Granada,33739), (Burgos,671), (Córdoba,4978), (Ciudad Real,2199), (Zamora,45), (Gerona,2425), (Segovia,437), (Alicante,4941), (Bilbao,10791), (Salamanca,826), (Palencia,372), (Coruña,5162), (Cantabria,2598), (Castellón,1333), (Lugo,1222), (Tarragona,1778), (Málaga,9766), (Murcia,2100), (Barcelona,124291), (Ourense,1590), (Zaragoza,16643), (Cádiz,2989), (Badajoz,391), (Ávila,25), (Toledo,1275), (Madrid,170902), (Rioja,1159), (Cuenca,164), (Albacete,1193), (Huesca,707), (Lleida,1797), (Almería,4025), (Baleares,2489), (Donostia,5209), (Huelva,1924), (Valencia,21684), (Navarra,2945), (Álava,2331))

	val biggestContributorCity = contributionsByCity.reduce((a, b) => if (a._2 >= b._2) a else b)
	// biggestContributorCity: (String, Int) = (Madrid,170902)

	val mostFollowed = data.map { line => val splitted = line.split(";"); (splitted(0), splitted(4).toInt) }.reduce((a, b) => if (a._2 >= b._2) a else b)
	// mostFollowed: (String, Int) = (mrdoob,5600)