Სარჩევი:

როგორ გავაკეთო PySpark DataFrame სიიდან?
როგორ გავაკეთო PySpark DataFrame სიიდან?

ვიდეო: როგორ გავაკეთო PySpark DataFrame სიიდან?

ვიდეო: როგორ გავაკეთო PySpark DataFrame სიიდან?
ვიდეო: PySpark Tutorial 5: Create PySpark DataFrame | PySpark with Python 2024, მაისი
Anonim

მე მივყვები ამ ნაბიჯებს DataFrame-ის შესაქმნელად ტოპების სიიდან:

  1. Შექმნა ა სია ტოპების. თითოეული ტილო შეიცავს ასაკის პირის სახელს.
  2. Შექმნა RDD-დან სია ზემოთ.
  3. კონვერტაცია თითოეული tuple ზედიზედ.
  4. Შექმნა ა DataFrame RDD-ზე createDataFrame-ის გამოყენებით sqlContext-ის დახმარებით.

ამის გათვალისწინებით, როგორ გადააკეთოთ DataFrame სიაში Python-ში?

  1. ნაბიჯი 1: გადაიყვანეთ Dataframe ჩადგმულ Numpy მასივში DataFrame.to_numpy()-ის გამოყენებით, ე.ი.
  2. ნაბიჯი 2: გადააკეთეთ 2D Numpy მასივი სიების სიაში.
  3. ნაბიჯი 1: გადაიტანეთ მონაცემთა ჩარჩო, რათა გადაიყვანოთ რიგები სვეტებად და სვეტები მწკრივად.
  4. ნაბიჯი 2: გადააკეთეთ Dataframe ჩადგმულ Numpy მასივში DataFrame.to_numpy() გამოყენებით.

გარდა ამისა, რა არის spark DataFrame? ა Spark DataFrame არის დასახელებულ სვეტებად ორგანიზებული მონაცემების განაწილებული კოლექცია, რომელიც უზრუნველყოფს ოპერაციებს აგრეგატების გაფილტვრის, დაჯგუფების ან გამოთვლის მიზნით და შეიძლება გამოყენებულ იქნას ნაპერწკალი SQL. მონაცემთა ჩარჩოები შეიძლება შეიქმნას სტრუქტურირებული მონაცემთა ფაილებიდან, არსებული RDD-ებიდან, ცხრილებიდან Hive-ში ან გარე მონაცემთა ბაზებიდან.

ასევე იცით, რა არის PySpark SQL?

Spark SQL არის ნაპერწკალი მოდული სტრუქტურირებული მონაცემთა დამუშავებისთვის. ის უზრუნველყოფს პროგრამირების აბსტრაქციას სახელწოდებით DataFrames და ასევე შეუძლია იმოქმედოს როგორც განაწილებული SQL შეკითხვის ძრავა. ის საშუალებას აძლევს Hadoop Hive-ის შეუცვლელი მოთხოვნების გაშვებას 100-ჯერ უფრო სწრაფად არსებულ განლაგებაზე და მონაცემებზე.

spark DataFrames უცვლელია?

In ნაპერწკალი არ შეგიძლია - მონაცემთა ჩარჩოები არიან შეუცვლელი . თქვენ უნდა გამოიყენოთ.

გირჩევთ: