რა არის პარკეტის მონაცემთა ფორმატი?
რა არის პარკეტის მონაცემთა ფორმატი?

ვიდეო: რა არის პარკეტის მონაცემთა ფორმატი?

ვიდეო: რა არის პარკეტის მონაცემთა ფორმატი?
ვიდეო: An introduction to Apache Parquet 2024, ნოემბერი
Anonim

აპაჩი პარკეტი არის თავისუფალი და ღია კოდის სვეტზე ორიენტირებული მონაცემები შენახვა ფორმატი Apache Hadoop ეკოსისტემის. ის თავსებადია უმეტესობასთან მონაცემები დამუშავების ჩარჩოები Hadoop-ის გარემოში. ის უზრუნველყოფს ეფექტურს მონაცემები შეკუმშვისა და კოდირების სქემები გაუმჯობესებული შესრულებით კომპლექსების დასამუშავებლად მონაცემები ნაყარად.

უბრალოდ, რა არის პარკეტის ფაილის ფორმატი?

პარკეტი , ღია წყარო ფაილის ფორმატი ჰადოპისთვის. პარკეტი ინახავს ჩადგმულ მონაცემთა სტრუქტურებს ბრტყელ სვეტად ფორმატი . ტრადიციულ მიდგომასთან შედარებით, სადაც მონაცემები ინახება მწკრივზე ორიენტირებული მიდგომით, პარკეტი უფრო ეფექტურია შენახვისა და შესრულების თვალსაზრისით.

გარდა ამისა, რისთვის გამოიყენება პარკეტი? პარკეტი არის ღია კოდის ფაილის ფორმატი, რომელიც ხელმისაწვდომია ნებისმიერი პროექტისთვის Hadoop ეკოსისტემაში. აპაჩი პარკეტი შექმნილია მონაცემთა ეფექტური და ასევე ეფექტური ბრტყელი სვეტური შენახვის ფორმატისთვის მწკრივზე დაფუძნებულ ფაილებთან შედარებით, როგორიცაა CSV ან TSV ფაილები.

დამატებით, როგორ ინახავს მონაცემებს პარკეტის ფორმატი?

DATA BLOCK თითოეული ბლოკი პარკეტი ფაილი არის შენახული რიგების ჯგუფების სახით. Ისე, მონაცემები ში პარკეტი ფაილი იყოფა რამდენიმე რიგის ჯგუფად. მწკრივების ეს ჯგუფები თავის მხრივ შედგება ერთი ან მეტი სვეტისაგან, რომელიც შეესაბამება სვეტის სვეტს მონაცემები კომპლექტი. The მონაცემები გვერდების სახით დაწერილი თითოეული სვეტის ნაწილისთვის.

იკითხება თუ არა პარკეტი ადამიანისათვის?

ORC, პარკეტი და ავროც მანქანაა- იკითხებადი ორობითი ფორმატები, რაც იმას ნიშნავს, რომ ფაილები უაზროა ადამიანები . Თუ გჭირდება ადამიანი - იკითხებადი ფორმატი, როგორიცაა JSON ან XML, მაშინ ალბათ თავიდან უნდა დაფიქრდეთ, რატომ იყენებთ Hadoop-ს.

გირჩევთ: