Парсинг сайта на Python

29.10.201928.01.2025 Editor_1 2292 просмотров surgical magnet mat

Сегодня мы будем парсить сайт на Python

для парсинга нам понадобятся следующие библиотеки :

 urllib.request и  BeautifulSoup
эти библиотеки нужно импортировать в проект

from urllib.request import urlopen
from bs4 import BeautifulSoup

далее мы инициализируем переменную html в которую сохраняем значение страницы которую парсим

html = urlopen("http://hernia.moscow")

затем следующей переменной мы присваиваем значение равное всему HTML содержимому страницы  

bsObj = BeautifulSoup(html,"html.parser")

затем берем и из всего HTML содержимого выводим текст HTML тега h1
 
print(bsObj.find("h1").get_text())

результат который пойдет в консоль это и есть текст который хранится внутри тега h1  

так-же  мы можем посмотреть есть ли на странице фраза "грыжа" , если добавим еще одну строку в нашу программу

print(bsObj.find(text="грыжа"))

Вам также понравится