Понятие веб-скрапинга в Python
Учимся извлекать нужные нам данные из интернета путём скрапинга и парсинга сайтов..
Преподаватель
Николай Свиридов
Бывший инженер лабораторных медицинских систем, ставший разработчиком. Ментор. Блогер. Зажигаю таланты с помощью канала YouTube.com/luchanos
4часа
17видео
39упражнений
4500опыта
Описание курсаСпособность создавать инструменты, способные извлекать и анализировать информацию, хранящуюся в Интернете, была и остается ценной во многих областях науки о данных. В этом курсе вы научитесь ориентироваться и анализировать HTML-код, а также создавать инструменты для автоматического
перехода от страницы к странице, перемещаясь между веб-сайтами.
Хотя наш скрапинг будет проводиться с использованием универсальной библиотеки Python scrapy, многие методы, которые вы изучите в этом курсе, вы сможете применить и к другим популярным библиотекам Python, включая BeautifulSoup и Selenium. По окончании этого курса у вас будет полное понимание модели структуры HTML, вы сможете создавать инструменты для анализа html-кода и доступа к нужной информации, а также создавать простые Scrapy Spiders для масштабного сканирования веб-сайтов.
1. Знакомство с HTML
Изучите структуру HTML (HyperText Markup Language – язык гипертекстовой разметки). Мы начнем с объяснения, почему веб-скрапинг может быть ценным дополнением к вашему набору инструментов для обработки данных, а затем углубимся в некоторые основы HTML. Мы заканчиваем главу кратким введением в использование XPath (XML Path Language – язык запросов к элементам XML-документа), которое используется для навигации по элементам в HTML коде.
2. Xpath и Селекторы
Используйте синтаксис XPath, чтобы изучить scrapy селекторы. Обе эти концепции помогут вам извлечь HTML-документ.XPпатология
50
Подсчет элементов в дикой природе
50
Контент тега <body>
100
Выбирай Deep Skills
100
Возвращение к XPath
50
Где они?
100
Проверь свой класс
100
Активная гиперссылка
100
Секретные ссылки
100
Селектор объектов
50
Xpath чейнинг
100
Упражнение из 2-х частей
100
Источник источника
50
Проверка заголовка курса с помощью класса
50
Запрос селектора
100
3. CSS локаторы, чейнинг и Response объекты
Изучите синтаксис CSS локатора и начните работать с идеей объединить цепочку методов CSS локаторов с синтаксисом XPath. Мы также представляем Response объекты (объекты ответа сервера), которые ведут себя как Селекторы, но дают нам дополнительные инструменты для мобилизации наших усилий по очистке нескольких веб-сайтов.От Xpath к CSS
50
От Xpath к CSS локаторам
100
Получим ссылку тега <a>
100
CSS символ
100
CSS атрибуты и выделение текста
50
Поработаем с href
100
Текст высшего уровня
100
Все уровни текста
100
Response!
50
Отобразить по Response
100
Ответ с помощью селекторов
100
Выбор из выбора
100
Скрапинг в реальности
50
Обратимся ко всем заголовкам
100
Поскрапим дочерние элементы
100
4. Spiders(“веб-пауки”)
Научитесь создавать поисковые модули с помощью scrapy. Эти скрапи спайдерс будут сканировать сеть сквозь несколько страниц, следуя по ссылкам, чтобы автоматически очищать каждую из этих страниц в соответствии с процедурами, которые мы изучили в предыдущих главах.Что вы узнаете
- 1. Основы веб-скрапинга. Курс начинается с разъяснения базовых концепций и принципов веб-скрапинга, создавая прочную основу для дальнейшего изучения.
- 2. Инструменты и библиотеки. Вы узнаете о популярных библиотеках Python, таких как Beautiful Soup и Requests, а также научитесь использовать их в синергии с универсальным инструментом Python scrapy для эффективного извлечения данных.
- 3. Практические упражнения. Составленные с учетом реальных сценариев использования, 39 практических упражнений помогут вам закрепить полученные знания, применяя их на практике.
- 4. Этика веб-скрапинга. Курс также охватывает вопросы этики веб-скрапинга, чтобы вы могли использовать полученные навыки с уважением к правилам и законам.
Отзывы выпускников
Преимущества курса
- 1. Оптимизированное время: курс, длительностью 4 часа, разбит на 17 видео-уроков, что обеспечивает эффективное и удобное усвоение материала.
- 2. Практическая направленность большое количество практических упражнений обеспечивает глубокое понимание темы и формирует навыки, готовые к немедленному применению.
- 3. Обратная связь: возможность получить обратную связь от опытных инструкторов и общение с другими учащимися создают обучающую среду, способствующую быстрому и эффективному усвоению материала.
Отзывы выпускников
Как использовать полученные знания
После завершения курса вы сможете применять веб-скрапинг для:
- • Извлечения данных для анализа: получайте ценные данные для принятия обоснованных бизнес-решений или проведения исследований.
- • Автоматизации задач: автоматизируйте процессы сбора данных, что позволит вам сэкономить время и ресурсы.
- • Создания персонализированных приложений: используйте извлеченные данные для разработки персонализированных приложений и сервисов.
Курс «Понятие веб-скрапинга в Python» — ваш ключ к миру данных, где каждый бит информации может быть использован для достижения ваших целей.
Отзывы выпускников