რა პრობლემაა პატარა ფაილებთან Hadoop-ში?
რა პრობლემაა პატარა ფაილებთან Hadoop-ში?

ვიდეო: რა პრობლემაა პატარა ფაილებთან Hadoop-ში?

ვიდეო: რა პრობლემაა პატარა ფაილებთან Hadoop-ში?
ვიდეო: Hadoop Small File Issue | Hadoop Interview Questions 2024, მაისი
Anonim

1) მცირე ფაილის პრობლემა in HDFS : ბევრის შენახვა პატარა ფაილები რომლებიც უკიდურესად უფრო პატარა ვიდრე ბლოკის ზომა არ შეიძლება ეფექტურად დამუშავდეს HDFS . კითხულობს მეშვეობით პატარა ფაილები მოიცავს უამრავ ძიებას და უამრავ გადახტომას მონაცემთა კვანძიდან მონაცემთა კვანძს შორის, რაც თავის მხრივ მონაცემთა არაეფექტური დამუშავებაა.

ამის გარდა, რომელი ფაილები ეხება მცირე ფაილურ პრობლემებს Hadoop-ში?

1) HAR ( ჰადოპ არქივი) ფაილები გააცნო გაუმკლავდეთ მცირე ფაილების პრობლემას . HAR-მა შემოიტანა ფენა თავზე HDFS , რომელიც უზრუნველყოფს ინტერფეისს ფაილი წვდომა. გამოყენება ჰადოპ არქივის ბრძანება, HAR ფაილები იქმნება, რომელიც გადის ა MapReduce სამუშაო შეფუთვა ფაილები არქივდება უფრო პატარა რაოდენობა HDFS ფაილები.

გარდა ამისა, შემიძლია თუ არა მრავალი ფაილი HDFS-ში სხვადასხვა ზომის ბლოკის გამოყენებით? ნაგულისხმევი ზომა დან ბლოკი არის 64 მბ. შენ შეუძლია შეცვალეთ იგი თქვენი მოთხოვნიდან გამომდინარე. შენს კითხვაზე რომ მოვედი, კი შენ შეუძლია შექმნას მრავალი ფაილი ცვალებადობით ბლოკის ზომები მაგრამ რეალურ დროში ეს ნება არ ემხრობა წარმოებას.

უფრო მეტიც, რატომ არ ამუშავებს HDFS მცირე ფაილებს ოპტიმალურად?

პრობლემები პატარა ფაილები და HDFS ყოველი ფაილი , დირექტორია და დაბლოკე HDFS არის წარმოდგენილია როგორც ობიექტი namenode-ის მეხსიერებაში, რომელთაგან თითოეული იკავებს 150 ბაიტს, როგორც წესი. გარდა ამისა, HDFS არ არის ეფექტური წვდომისთვის პატარა ფაილები : ეს არის უპირველეს ყოვლისა, შექმნილია დიდი სტრიმინგის წვდომისთვის ფაილები.

რატომ არის Hadoop ნელი?

ნელი დამუშავების სიჩქარე ამ დისკს დრო სჭირდება, რითაც მთელი პროცესი ძალიან ხდება ნელი . თუ ჰადოპ ამუშავებს მონაცემებს მცირე მოცულობით, ეს ძალიან ნელი შედარებით. იდეალურია დიდი მონაცემთა ნაკრებისთვის. როგორც ჰადოპ აქვს პარტიული გადამამუშავებელი ძრავა მისი რეალურ დროში დამუშავების სიჩქარე ნაკლებია.

გირჩევთ: