Სარჩევი:

რა არის სხვადასხვა ფაილის ფორმატი Hadoop-ში?
რა არის სხვადასხვა ფაილის ფორმატი Hadoop-ში?

ვიდეო: რა არის სხვადასხვა ფაილის ფორმატი Hadoop-ში?

ვიდეო: რა არის სხვადასხვა ფაილის ფორმატი Hadoop-ში?
ვიდეო: Parquet file, Avro file, RC, ORC file formats in Hadoop | Different file formats in Hadoop 2024, მაისი
Anonim

თქვენთვის საბედნიეროდ, დიდი მონაცემების საზოგადოება ძირითადად დასახლდა სამ ოპტიმიზებულზე ფაილის ფორმატები გამოსაყენებლად ჰადოპ კლასტერები: ოპტიმიზებული მწკრივის სვეტი (ORC), Avro და პარკეტი.

შემდგომში, შეიძლება ასევე იკითხოთ, რა არის სხვადასხვა ტიპის მონაცემთა ფორმატები?

არის სამი მონაცემების ტიპები რუკა და GIS მონაცემთა ფორმატები . თითოეული ტიპი განსხვავებულად განიხილება.

მონაცემთა ფორმატის ტიპები

  • ფაილებზე დაფუძნებული- Shapefiles, Microstation Design Files (DGN), GeoTIFF სურათები.
  • დირექტორიაზე დაფუძნებული - ESRI ArcInfo Coverages, US Census TIGER.
  • მონაცემთა ბაზის კავშირები - PostGIS, ESRI ArcSDE, MySQL.

გარდა ამისა, რომელი ფაილის ფორმატია საუკეთესო hive-ში? RCFile არის მწკრივის სვეტი ფაილის ფორმატი . ეს არის კიდევ ერთი ფორმა Hive ფაილის ფორმატი რომელიც გთავაზობთ მაღალი დონის შეკუმშვის მაჩვენებლებს. თუ თქვენ გაქვთ მოთხოვნა ერთდროულად შეასრულოთ რამდენიმე მწკრივი, შეგიძლიათ გამოიყენოთ RCFile ფორმატი.

ამის გათვალისწინებით, რა არის Hadoop-ში შეყვანის საერთო ფორმატები?

InputFormat ქმნის Inputsplit-ს

  • ყველაზე გავრცელებული შეყვანის ფორმატია:
  • FileInputFormat- ეს არის საბაზისო კლასი ყველა ფაილზე დაფუძნებულიInputFormat-ისთვის.
  • TextInputFormat- ეს არის MapReduce-ის ნაგულისხმევი შეყვანის ფორმატი.
  • KeyValueTextInputFormat-ის მსგავსია TextInputFormat.
  • მიჰყევით ბმულს, რომ შეიტყოთ მეტი InputFormat-ის შესახებ Hadoop-ში.

რა არის orc ფაილის ფორმატი Hadoop-ში?

ORC ფაილის ფორმატი მწკრივის ოპტიმიზებული სვეტი ( ORC ) ფაილის ფორმატი უზრუნველყოფს მაღალეფექტურ გზას Hive მონაცემების შესანახად. იგი შექმნილია სხვა Hive-ის შეზღუდვების დასაძლევად ფაილის ფორმატები . გამოყენება ORC ფაილები აუმჯობესებს მუშაობას, როდესაც Hiveis კითხულობს, წერს და ამუშავებს მონაცემებს.

გირჩევთ: