Голосов: 0
#1
Web Scraping с Python с использованием Requests, LXML и Splash
Станьте ниндзя в Web Scraping / Crawling с Python, используя Requests, мощный LXML и Splash для JavaScript веб-сайтов
05/2019
Язык - Английский с субтитрами
Описание
Что такое веб-скрапинг?
Допустим, ваш начальник на работе дал вам задание, в котором он хочет, чтобы вы извлекли около 1000 продуктов с веб-сайта, структурировали данные и сохранили их в базе данных. Не могли бы вы скопировать и вставить вручную всю информацию о продукте из названия продукта, URL-адреса и цены? ? Я могу представить, что вы работали бы дни и ночи и не справились бы с задачей, так что именно здесь проскальзывает паутина. Таким образом, очистка веб-страниц, сбор веб-данных или извлечение веб-данных - это все равно, что написать скрипт, который автоматизирует извлечение данных с веб-сайтов в считанные минуты!
Зачем изучать веб-скрапинг?
Независимо от того, являетесь ли вы аналитиком данных, веб-разработчиком или кем-то, кто хочет работать в качестве фрилансера, вы должны научиться веб-фишингу.
Для аналитика данных создание набора данных чрезвычайно важно, поэтому без веб-скретинга вы просто не сможете сгенерировать его в дополнение к тому, что добавление веб-скрепинга в ваше резюме является плюсом для вас.
Соскреб в Интернете можно использовать в самых разных областях, поэтому позвольте мне привести несколько примеров того, что вы можете с ним сделать:
Конечно, есть тонны и тонны и разнообразные области, где очистка сети может быть чрезвычайно полезной.
- Генерировать лиды,
- Дропшипинг, где вы будете постоянно собирать товары из разных интернет-магазинов и показывать их на своем сайте, чтобы заработать деньги,
- Следите за ценами на продукты, чтобы получить лучшие предложения,
- автоматизация,
- Машинное обучение,
- Web scraping freelancer
Этот курс подходит именно вам?
Я тщательно спланировал и разработал этот курс так, чтобы он был удобен для начинающих. Из своего опыта я знаю, что те, кто занимается веб-очисткой, в основном занимаются анализом данных, не имея никаких базовых знаний о том, как работает сеть, как создаются запросы, как находить и анализировать данные. из Интернета и многое другое, в дополнение к этому это самый обновленный курс, касающийся включенного материала и используемых инструментов, поэтому в этом курсе
Наконец, этот курс основан на проектах, в каждом разделе, начиная со второго, мы будем экспериментировать с разными веб-сайтами, каждый проект имеет определенную степень сложности, и каждый полностью независим от других проектов.
- Я представлю вам наиболее часто используемые инструменты / фреймворки
- Мы настроим среду разработки с нуля
- Вы изучите и поймете основные принципы LXML
- Как использовать XPath & CSS-селекторы для выбора данных на веб-странице
- Как работает Интернет (Запрос / Ответ)
- Как скрести простые HTML веб-страницы
- Как очистить несколько веб-страниц
- Извлечение данных из API
- Вы изучите Splash (ускоренный курс), чтобы использовать его для очистки JavaScript-сайтов.
- Аутентификация / Login
- Сохраните извлеченные данные в файлах JSON / CSV или MongoDb / SQLite3
- Эксклюзивные советы и подсказки, касающиеся очистки веб-страниц
Есть ли какие-либо задания / упражнения, включенные в этот курс?
Да, в каждом разделе есть задание, которое поможет вам испачкать руки, и к концу каждого раздела после выполнения задания вы будете чувствовать себя более уверенно и комфортно при просмотре веб-страниц.
Почему LXML, а не BeautifulSoup?
LXML - это легкий анализатор HTML, даже самая популярная платформа для очистки веб-страниц (Scrapy) построена на основе LXML, BeautifulSoup немного перегружен количеством представленных нам функций, у него есть больше функций для использования, да, это верно! однако в Web Scraping большую часть времени мы используем XPath и CSS-селекторы для навигации и выбора того, что нужно чистить с веб-страницы (дерева) HTML, поэтому нет необходимости изучать новые функции и тратить все это время на ознакомление с BeautifulSoup. API и внутренняя архитектура, в дополнение ко всему этому LXML с точки зрения производительности, намного лучше, чем BeautifulSoup.
Кто твой инструктор?
Привет! Мне приятно познакомиться с Ахмедом, мои ученики предпочитают называть меня веб-скребком, ниндзя, и в настоящее время я научил более 2000 студентов по всему миру, как это делать. Я лично занимаюсь веб-скребком ежедневно, для развлечения, для личных проектов или как фрилансер, и угадайте, что? У меня даже есть степень магистра в области компьютерных наук.
Для кого этот курс:
- Любой желающий может научиться веб-скрепингу, используя Python, Requests и LXML
- Любой хочет узнать, как использовать Splash для очистки веб-сайтов JavaScript
- Полные новички, не имеющие опыта работы в Интернете
- Те, кто уже имеет базовые знания о веб-очистке и хочет заполнить пробелы
Для просмотра содержимого вам необходимо зарегистрироваться!Для просмотра содержимого вам необходимо зарегистрироваться!
Последнее редактирование модератором:
- Статус
- В этой теме нельзя размещать новые ответы.