რა არის კოლექციონირება PySpark?
რა არის კოლექციონირება PySpark?

Სარჩევი:

Anonim

Შეგროვება (მოქმედება) - დააბრუნეთ მონაცემთა ნაკრების ყველა ელემენტი მასივის სახით მძღოლის პროგრამაში. ეს ჩვეულებრივ სასარგებლოა ფილტრის ან სხვა ოპერაციის შემდეგ, რომელიც აბრუნებს მონაცემთა საკმარისად მცირე ქვეჯგუფს.

ამ გზით, რა არის PySpark?

PySpark პროგრამირება. PySpark არის Apache Spark-ისა და Python-ის თანამშრომლობა. Apache Spark არის ღია კოდის კლასტერული გამოთვლითი ჩარჩო, რომელიც აგებულია სიჩქარის, გამოყენების სიმარტივის და ნაკადის ანალიტიკის გარშემო, ხოლო Python არის ზოგადი დანიშნულების, მაღალი დონის პროგრამირების ენა.

ასევე, რა არის რუკა PySpark-ში? ნაპერწკალი რუკა ტრანსფორმაცია. ა რუკა არის ტრანსფორმაციის ოპერაცია Apache Spark-ში. ის ვრცელდება RDD-ის თითოეულ ელემენტზე და ის აბრუნებს შედეგს, როგორც ახალი RDD. რუკა გარდაქმნის N სიგრძის RDD-ს N სიგრძის სხვა RDD-ად. შემავალ და გამომავალ RDD-ებს, როგორც წესი, ექნებათ ჩანაწერების იგივე რაოდენობა.

ამ გზით, რა არის SparkContext PySpark-ში?

PySpark - SparkContext . რეკლამები. SparkContext არის ნებისმიერი შესვლის წერტილი ნაპერწკალი ფუნქციონირება. როცა რომელიმეს ვატარებთ ნაპერწკალი აპლიკაცია იწყება დრაივერის პროგრამა, რომელსაც აქვს მთავარი ფუნქცია და თქვენი SparkContext აქ იწყება. შემდეგ დრაივერების პროგრამა აწარმოებს ოპერაციებს შემსრულებლების შიგნით მუშა კვანძებზე.

როგორ შევამოწმო PySpark ვერსია?

2 პასუხი

  1. გახსენით Spark shell Terminal და შეიყვანეთ ბრძანება.
  2. sc.version ან spark-submit --ვერსია.
  3. უმარტივესი გზაა უბრალოდ გაუშვათ "spark-shell" ბრძანების ხაზში. ის აჩვენებს.
  4. Spark-ის მიმდინარე აქტიური ვერსია.

გირჩევთ: