რა არის RDD სკალაში?
რა არის RDD სკალაში?

ვიდეო: რა არის RDD სკალაში?

ვიდეო: რა არის RDD სკალაში?
ვიდეო: POTS Research Update 2024, მაისი
Anonim

ელასტიური განაწილებული მონაცემთა ნაკრები ( RDD ) არის Spark-ის ფუნდამენტური მონაცემთა სტრუქტურა. ეს არის ობიექტების უცვლელი განაწილებული კოლექცია. RDD-ები შეიძლება შეიცავდეს ნებისმიერი ტიპის პითონს, ჯავას ან სკალა ობიექტები, მომხმარებლის მიერ განსაზღვრული კლასების ჩათვლით. ფორმალურად, ა RDD არის ჩანაწერების მხოლოდ წაკითხვადი, დანაწევრებული კოლექცია.

ასევე კითხვაა, რა განსხვავებაა RDD-სა და DataFrame-ს შორის?

RDD – RDD არის მონაცემთა ელემენტების განაწილებული კოლექცია, რომელიც გავრცელებულია ბევრ მანქანაში წელს კასეტური. RDD-ები არის Java ან Scala ობიექტების ნაკრები, რომელიც წარმოადგენს მონაცემებს. DataFrame – ა DataFrame არის მონაცემთა განაწილებული კოლექცია, რომელიც ორგანიზებულია დასახელებულ სვეტებად. ის კონცეპტუალურად უდრის ცხრილს ში ურთიერთობითი მონაცემთა ბაზა.

გარდა ამისა, როგორ ნაწილდება RDD? მდგრადია Განაწილებული მონაცემთა ნაკრები ( RDD-ები ) ისინი არიან ა განაწილებული ობიექტების კოლექცია, რომლებიც ინახება მეხსიერებაში ან კლასტერის სხვადასხვა მანქანების დისკებზე. სინგლი RDD შეიძლება დაიყოს მრავალ ლოგიკურ დანაყოფად ისე, რომ ეს დანაყოფები შეინახოს და დამუშავდეს კლასტერის სხვადასხვა მანქანებზე.

როგორ მუშაობს ნაპერწკალი RDD?

RDD-ები in ნაპერწკალი აქვს ჩანაწერების კოლექცია, რომელიც შეიცავს დანაყოფებს. RDD-ები in ნაპერწკალი იყოფა მონაცემთა მცირე ლოგიკურ ნაწილებად - ცნობილია როგორც ტიხრები, როდესაც მოქმედება შესრულდება, დავალება ამოქმედდება თითო დანაყოფზე. ტიხრები შიგნით RDD-ები პარალელიზმის ძირითადი ერთეულებია.

რომელია უფრო სწრაფი RDD თუ DataFrame?

RDD - მარტივი დაჯგუფებისა და აგრეგაციის ოპერაციების შესრულებისას RDD API უფრო ნელია. DataFrame - საძიებო ანალიზის განხორციელებისას, მონაცემთა აგრეგირებული სტატისტიკის შექმნისას, მონაცემთა ჩარჩოები არიან უფრო სწრაფად . RDD - როცა გინდა დაბალი დონის ტრანსფორმაცია და მოქმედებები, ჩვენ ვიყენებთ RDD-ები . ასევე, როცა გვჭირდება მაღალი დონის აბსტრაქციები, ვიყენებთ RDD-ები.

გირჩევთ: