რა არის DataFrame spark Scala-ში?
რა არის DataFrame spark Scala-ში?

ვიდეო: რა არის DataFrame spark Scala-ში?

ვიდეო: რა არის DataFrame spark Scala-ში?
ვიდეო: Spark Tutorial - Introduction to Dataframes 2024, მაისი
Anonim

ა Spark DataFrame არის დასახელებულ სვეტებად ორგანიზებული მონაცემების განაწილებული კოლექცია, რომელიც უზრუნველყოფს ოპერაციებს აგრეგატების გაფილტვრის, დაჯგუფების ან გამოთვლის მიზნით და შეიძლება გამოყენებულ იქნას ნაპერწკალი SQL. მონაცემთა ჩარჩოები შეიძლება შეიქმნას სტრუქტურირებული მონაცემთა ფაილებიდან, არსებული RDD-ებიდან, ცხრილებიდან Hive-ში ან გარე მონაცემთა ბაზებიდან.

ანალოგიურად, შეიძლება იკითხოთ, რა არის DataFrame Scala-ში?

დასახელებულ სვეტებად ორგანიზებული მონაცემთა განაწილებული კოლექცია. ა DataFrame Spark SQL-ის მიმართებითი ცხრილის ტოლფასია. სვეტის ასარჩევად მონაცემთა ჩარჩო , გამოიყენეთ განაცხადის მეთოდი სკალა და col ჯავაში.

რა სარგებლობა აქვს განათებულს სკალაში? ( განათებული არის გამოყენებული in ნაპერწკალი ლიტერალური მნიშვნელობის ახალ სვეტად გადასაყვანად.) ვინაიდან concat არგუმენტებად იღებს სვეტებს განათებული უნდა იყოს გამოყენებული აქ.

გარდა ზემოთ, რა განსხვავებაა RDD-სა და DataFrame-ს შორის ნაპერწკალში?

Spark RDD API – An RDD დგას Resilient Distributed Datasets. ეს არის ჩანაწერების მხოლოდ წაკითხვადი დანაყოფი. RDD არის მონაცემთა ფუნდამენტური სტრუქტურა ნაპერწკალი . DataFrame Spark-ში დეველოპერებს საშუალებას აძლევს დააწესონ სტრუქტურა მონაცემთა განაწილებულ კოლექციაზე, რაც უფრო მაღალი დონის აბსტრაქციის საშუალებას იძლევა.

რას აკეთებს withColumn Spark-ში?

Spark withColumn () ფუნქცია არის გამოიყენება სახელის გადარქმევის, მნიშვნელობის შესაცვლელად, არსებული DataFrame სვეტის მონაცემთა ტიპის კონვერტაციისთვის და ასევე შეუძლია გამოიყენება ახალი სვეტის შესაქმნელად, ამ პოსტზე, I ნება გაგაცნობთ ჩვეულებრივ გამოყენებულ DataFrame სვეტის ოპერაციებს სკალა და Pyspark-ის მაგალითები.

გირჩევთ: