欧日韩不卡在线视频,欧美96一区二区免费视频,视频一区二区三区在线

主頁 > 知識庫 > windowns使用PySpark環境配置和基本操作

windowns使用PySpark環境配置和基本操作

下載依賴

首先需要下載hadoop和spark，解壓，然后設置環境變量。
hadoop清華源下載
spark清華源下載

HADOOP_HOME => /path/hadoop
SPARK_HOME => /path/spark

安裝pyspark。

pip install pyspark

基本使用

可以在shell終端，輸入pyspark，有如下回顯：

輸入以下指令進行測試，并創建SparkContext，SparkContext是任何spark功能的入口點。

>>> from pyspark import SparkContext
>>> sc = SparkContext("local", "First App")

如果以上不會報錯，恭喜可以開始使用pyspark編寫代碼了。
不過，我這里使用IDE來編寫代碼，首先我們先在終端執行以下代碼關閉SparkContext。

>>> sc.stop()

下面使用pycharm編寫代碼，如果修改了環境變量需要先重啟pycharm。
在pycharm運行如下程序，程序會起本地模式的spark計算引擎，通過spark統計abc.txt文件中a和b出現行的數量，文件路徑需要自己指定。

from pyspark import SparkContext

sc = SparkContext("local", "First App")
logFile = "abc.txt"
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Line with a:%i,line with b:%i" % (numAs, numBs))

運行結果如下：

20/03/11 16:15:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
20/03/11 16:15:58 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
Line with a:3,line with b:1

這里說一下，同樣的工作使用python可以做，spark也可以做，使用spark主要是為了高效的進行分布式計算。
戳pyspark教程
戳spark教程

RDD

RDD代表Resilient Distributed Dataset，它們是在多個節點上運行和操作以在集群上進行并行處理的元素，RDD是spark計算的操作對象。
一般，我們先使用數據創建RDD，然后對RDD進行操作。
對RDD操作有兩種方法：
Transformation（轉換） - 這些操作應用于RDD以創建新的RDD。例如filter，groupBy和map。
Action（操作） - 這些是應用于RDD的操作，它指示Spark執行計算并將結果發送回驅動程序，例如count，collect等。

創建RDD

parallelize是從列表創建RDD，先看一個例子：

from pyspark import SparkContext


sc = SparkContext("local", "count app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
print(words)

結果中我們得到一個對象，就是我們列表數據的RDD對象，spark之后可以對他進行操作。

ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:195

Count

count方法返回RDD中的元素個數。

from pyspark import SparkContext


sc = SparkContext("local", "count app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
print(words)

counts = words.count()
print("Number of elements in RDD -> %i" % counts)

返回結果：

Number of elements in RDD -> 8

Collect

collect返回RDD中的所有元素。

from pyspark import SparkContext


sc = SparkContext("local", "collect app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
coll = words.collect()
print("Elements in RDD -> %s" % coll)

返回結果：

Elements in RDD -> ['scala', 'java', 'hadoop', 'spark', 'akka', 'spark vs hadoop', 'pyspark', 'pyspark and spark']

foreach

每個元素會使用foreach內的函數進行處理，但是不會返回任何對象。
下面的程序中，我們定義的一個累加器accumulator，用于儲存在foreach執行過程中的值。

from pyspark import SparkContext
sc = SparkContext("local", "ForEach app")

accum = sc.accumulator(0)
data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)


def increment_counter(x):
    print(x)
    accum.add(x)
 return 0

s = rdd.foreach(increment_counter)
print(s)  # None
print("Counter value: ", accum)

返回結果：

None
Counter value: 15

filter

返回一個包含元素的新RDD，滿足過濾器的條件。

from pyspark import SparkContext
sc = SparkContext("local", "Filter app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"]
)
words_filter = words.filter(lambda x: 'spark' in x)
filtered = words_filter.collect()
print("Fitered RDD -> %s" % (filtered))

 

Fitered RDD -> ['spark', 'spark vs hadoop', 'pyspark', 'pyspark and spark']

也可以改寫成這樣：

from pyspark import SparkContext
sc = SparkContext("local", "Filter app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"]
)


def g(x):
    for i in x:
        if "spark" in x:
            return i

words_filter = words.filter(g)
filtered = words_filter.collect()
print("Fitered RDD -> %s" % (filtered))

map

將函數應用于RDD中的每個元素并返回新的RDD。

from pyspark import SparkContext
sc = SparkContext("local", "Map app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"]
)
words_map = words.map(lambda x: (x, 1, "_{}".format(x)))
mapping = words_map.collect()
print("Key value pair -> %s" % (mapping))

返回結果：

Key value pair -> [('scala', 1, '_scala'), ('java', 1, '_java'), ('hadoop', 1, '_hadoop'), ('spark', 1, '_spark'), ('akka', 1, '_akka'), ('spark vs hadoop', 1, '_spark vs hadoop'), ('pyspark', 1, '_pyspark'), ('pyspark and spark', 1, '_pyspark and spark')]

Reduce

執行指定的可交換和關聯二元操作后，然后返回RDD中的元素。

from pyspark import SparkContext
from operator import add


sc = SparkContext("local", "Reduce app")
nums = sc.parallelize([1, 2, 3, 4, 5])
adding = nums.reduce(add)
print("Adding all the elements -> %i" % (adding))

這里的add是python內置的函數，可以使用ide查看：

def add(a, b):
    "Same as a + b."
    return a + b

reduce會依次對元素相加，相加后的結果加上其他元素，最后返回結果（RDD中的元素）。

Adding all the elements -> 15

Join

返回RDD，包含兩者同時匹配的鍵，鍵包含對應的所有元素。

from pyspark import SparkContext


sc = SparkContext("local", "Join app")
x = sc.parallelize([("spark", 1), ("hadoop", 4), ("python", 4)])
y = sc.parallelize([("spark", 2), ("hadoop", 5)])
print("x =>", x.collect())
print("y =>", y.collect())
joined = x.join(y)
final = joined.collect()
print( "Join RDD -> %s" % (final))

返回結果：