Ничего не найдено

Понятие веб-скрапинга в Python

Учимся извлекать нужные нам данные из интернета путём скрапинга и парсинга сайтов.

Николай Свиридов
Преподаватель

Николай Свиридов

Бывший инженер лабораторных медицинских систем, ставший разработчиком. Ментор. Блогер. Зажигаю таланты с помощью канала YouTube.com/luchanos

4часа
17видео
39упражнений
4500опыта
Описание курсаСпособность создавать инструменты, способные извлекать и анализировать информацию, хранящуюся в Интернете, была и остается ценной во многих областях науки о данных. В этом курсе вы научитесь ориентироваться и анализировать HTML-код, а также создавать инструменты для автоматического перехода от страницы к странице, перемещаясь между веб-сайтами. Хотя наш скрапинг будет проводиться с использованием универсальной библиотеки Python scrapy, многие методы, которые вы изучите в этом курсе, вы сможете применить и к другим популярным библиотекам Python, включая BeautifulSoup и Selenium. По окончании этого курса у вас будет полное понимание модели структуры HTML, вы сможете создавать инструменты для анализа html-кода и доступа к нужной информации, а также создавать простые Scrapy Spiders для масштабного сканирования веб-сайтов.
1.  Знакомство с HTML
Изучите структуру HTML (HyperText Markup Language – язык гипертекстовой разметки). Мы начнем с объяснения, почему веб-скрапинг может быть ценным дополнением к вашему набору инструментов для обработки данных, а затем углубимся в некоторые основы HTML. Мы заканчиваем главу кратким введением в использование XPath (XML Path Language – язык запросов к элементам XML-документа), которое используется для навигации по элементам в HTML коде.

3.  CSS локаторы, чейнинг и Response объекты
Изучите синтаксис CSS локатора и начните работать с идеей объединить цепочку методов CSS локаторов с синтаксисом XPath. Мы также представляем Response объекты (объекты ответа сервера), которые ведут себя как Селекторы, но дают нам дополнительные инструменты для мобилизации наших усилий по очистке нескольких веб-сайтов.

4.  Spiders(“веб-пауки”)
Научитесь создавать поисковые модули с помощью scrapy. Эти скрапи спайдерс будут сканировать сеть сквозь несколько страниц, следуя по ссылкам, чтобы автоматически очищать каждую из этих страниц в соответствии с процедурами, которые мы изучили в предыдущих главах.

ООО «Дипскиллс»
г. Москва, ул. Измайловский Вал, д. 2
© DeepSkills, 2023