Голосов: 0
#1
Улучшенный парсинг веб-страниц с помощью Asyncio и Python
Изучите основы асинхронного парсинга веб-страниц и интеллектуального анализа данных в Python, чтобы значительно повысить скорость извлечения.
Язык: Английский + англ. субтитры
Описание
Веб-скрапинг - это просто автоматическое открытие любого веб-сайта и сбор данных, которые вы считаете важными на этом веб-сайте. Это фундаментально для Интернета, поисковых систем, Data Science, автоматизации, машинного обучения и многого другого.
Открытие веб-сайтов и извлечение данных - это только часть того, что делает веб-парсинг отличным. В этом и заключается значение анализа данных.
Этот проект будет охватывать:
Но почему асинхронный код? Что это? Чем это нам выгодно?
- Базовый парсинг веб-страниц с помощью Python
- Веб-парсинг с помощью Selenium
- Синхронизация против асинхронной
- Асинхронный парсинг веб-страниц с помощью Asyncio
Асинхронный код - это способ выполнять сразу несколько функций. Это не совсем то же самое время, но это близко. (На самом деле они работают одновременно). Это означает, что мы можем делать больше за меньшее время, и, когда дело доходит до интеллектуального анализа или очистки данных, эта экономия времени является абсолютно значительной.
Представьте на мгновение, что вы воссоздаете поисковую систему Google. Вам придется регулярно очищать триллионы (если не больше) веб-страниц, чтобы улучшить результаты поиска. Конечно, вы не собираетесь очищать все триллионы страниц одновременно, но идея состоит в том, что очистка событий 1000 страниц займет очень много времени, выполняя это синхронно (например, с использованием запросов Python и / или просто селена).
Если вы раньше много раз занимались парсингом веб-страниц, но никогда не использовали Python aysncio, этот курс поможет вам лучше понять основы и вывести вашу парсинг-игру на новый уровень.
Для просмотра содержимого вам необходимо зарегистрироваться!Для просмотра содержимого вам необходимо зарегистрироваться!
Последнее редактирование модератором:
- Статус
- В этой теме нельзя размещать новые ответы.