Სარჩევი:

როგორ იყენებთ ლამაზ სუპს პითონში?
როგორ იყენებთ ლამაზ სუპს პითონში?

ვიდეო: როგორ იყენებთ ლამაზ სუპს პითონში?

ვიდეო: როგორ იყენებთ ლამაზ სუპს პითონში?
ვიდეო: How To Use Beautiful Soup In Python | Part 1 2024, აპრილი
Anonim

თუ იყენებთ Debian-ის ან Ubuntu Linux-ის უახლეს ვერსიას, შეგიძლიათ დააინსტალიროთ Beautiful Soup სისტემის პაკეტის მენეჯერით:

  1. $ apt-get ინსტალაცია პითონი -bs4 (ამისთვის პითონი 2)
  2. $ apt-get დააინსტალირეთ python3-bs4 (ამისთვის პითონი 3)
  3. $ easy_install beautifulsoup4.
  4. $ pip install beautifulsoup4.
  5. $ პითონი setup.py ინსტალაცია.

ანალოგიურად, ხალხი იკითხავს, როგორ ამზადებთ ლამაზ სუპს პითონში?

Გამოყენება ლამაზი წვნიანი , თქვენ უნდა დააინსტალიროთ: $ pip install beautifulsoup4. ულამაზესი სუპი ასევე ეყრდნობა პარსერს, ნაგულისხმევი არის lxml. შეიძლება უკვე აქვს ის, მაგრამ თქვენ უნდა შეამოწმოთ (გახსენით IDLE და სცადეთ lxml იმპორტი). თუ არა, გააკეთეთ: $pip install lxml ან $ apt- მიიღეთ დაინსტალირება პითონი -lxml.

ანალოგიურად, როგორ შემოიტანეთ ლამაზი სუპი? Დაწყება, იმპორტი The ულამაზესი სუპი ბიბლიოთეკა, გახსენით HTML ფაილი და გადასვით მას ულამაზესი სუპი და შემდეგ დაბეჭდეთ ლამაზი ” ვერსია ტერმინალში. თქვენ უნდა ნახოთ, რომ თქვენი ტერმინალის ფანჯარა ივსება ორიგინალური html ტექსტის ლამაზად შეჭრილი ვერსიით (იხ. სურათი 3).

ანალოგიურად, ისმება კითხვა, რისთვის გამოიყენება ლამაზი წვნიანი?

ულამაზესი სუპი არის Python-ის პაკეტი HTML და XML დოკუმენტების გასაანალიზებლად (მათ შორის, არასწორი მარკირების, ანუ დახურული ტეგების მქონე, ასე რომ დასახელებულია ტეგის მიხედვით. სუპი ). ის ქმნის ანალიზის ხეს გაანალიზებული გვერდებისთვის, რომლებიც შეიძლება იყოს გამოყენებული მონაცემების ამოღება HTML-დან, რომელიც სასარგებლოა ვებ სკრაპინგისთვის.

როგორ ასუფთავებთ ვებსაიტს Python-ით და BeautifulSoup-ით?

პირველ რიგში, ჩვენ უნდა შემოვიტანოთ ყველა ბიბლიოთეკა, რომელთა გამოყენებასაც ვაპირებთ. შემდეგი, გამოაცხადეთ ცვლადი გვერდის url-ისთვის. შემდეგ გამოიყენეთ პითონი urllib2, რომ მიიღოთ url-ის HTML გვერდი გამოცხადებული. და ბოლოს, გააანალიზეთ გვერდი ლამაზი წვნიანი ფორმატი, რათა გამოვიყენოთ ლამაზი წვნიანი მასზე მუშაობა.

გირჩევთ: