Скоро Content Downloader проект для парсинга с aliexpress.com

  • Автор темы VkurseBot
  • Дата начала
Статус
В этой теме нельзя размещать новые ответы.
VkurseBot

VkurseBot

Модератор
20 Сен 2020
0
780
50
Голосов: 0
#1
добрый день,

Предлагаю скинуться на создание проекта для работы с программой Content Downloader для парсинга информации о товарах и отзывов с aliexpress.com

всем кому интересно и нужен такой проект,
в excel файле 1 есть 4 колоноки не относящихся к парсингу, они нужны для переноса в магазин на opencart, думаю их легко можно будет удалить из выдачи шаблона, если они вам не нужны.

КРАТКО проект будет парсить
excel файл 1
ID товара на aliexpress.com, имя товара, рейтинг товара, кол-во отзывов о товаре, язык отзыва, имя покупателя, текст отзыва, рейтинг отзыва, дату и время отзыва
+сохранять в папку все картинки из отзывав загруженные покупателями

excel файл 2
ID товара на aliexpress.com, имя товара, рейтинг товара, кол-во отзывов о товаре, кол-во заказов товара, стоимость, валюта стоимости, кол-во в наличии, даставка в срок (дней), время обработки заказа (дней)?, имя продавца, положительные отзыва продавца в %, рейтинг продавца, title, meta name keywords, meta name description, кол-ва добавивших товар в виш лист
+сохранять все картинки каждого продукта

я связалась с потенциальным исполнителем Фёдор Алексеевич , которые вроде через javascript подгружаются


прилагаю картинку и эксель файл со структурой данных

в предложенном примере парсер обрабатывает отдельные ссылки на товары,

также хотелось бы, чтобы забить слово в поиск алиэкспресс, например, стул, отсортировать по заказам и уже из этой ссылки, каталога продуктов (как бы вид как у категории, когда несколько продуктов на странице) извлекать ссылки на продукты с которыми потом проделывать все как для отдельной ссылки на продукт

там при поиске происходит выгрузка из 12 строк в каждой по 4 продукта, потом переход на след страницу, так вот чтобы автоматически вытаскивать ссылки на продукты и переходить на след страницу, может задавать мах кол-во просматриваемых страниц, чтоб он до бесконечности не парсил


в эксель файл 1

ссылка на продукт из примера



в эксель файле 1 верхняя серая колонка с нумерацией колонок не нужна, она просто, чтобы более понятно было, этими номерами пронумеровала данные, которые парсить

колонка 6 - просто последовательная нумерация отзывов
колонка 7 - оставлять пустой
колонка 8 - для всех, загружаемых строк значение 1
колонка 12 - для всех, загружаемых строк значение 1
колонка 13 - это как бы сводная колонок 14 и 15, но обязательно с форматом ячеек yyyy-mm-dd hh:mm


необходимо в одну отдельную папку, сохранять большие фотографии, выложенные покупателями, если такие есть.

Сделать возможность задавать 2 разных шаблона для именования выгружаемых фотографий
1) именовать их как Product name.jpeg Product name-2.jpeg имя берется с дефисами flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker.jpeg
flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker-2.jpeg

2) именовать их как Product ID.jpeg Product ID-2.jpeg из примера 32249522818.jpeg и 32249522818-2.jpeg

- возможно, у каждого отзыва есть свой ID, его тоже можно в отдельную колонку выгружать, чтобы при повторном парсинге одного продукта, уже спарсенные отзывы не выгружать, какую-то проверку для этого, если возможно

- возможность задавать ограничение для выгружаемых отзывов на продукт, выгружать только отзывы с текстом или картинками, а в конце отзывы просто без текста их выгружать не нужно.

или по другому, если как-то можно пропускать отзывы без текста, и избегать повторной загрузки отзывов при повторном парсинге ссылок уже пропарсенных продуктов


в эксель файл 2, для тех же ссылок на продукты сохранять

в эксель файле 1 верхняя серая колонка с нумерацией колонок не нужна, она просто, чтобы более понятно было, этими номерами пронумеровала данные, которые парсить

колонка 1 - просто нумерация строк таблицы начиная со второй, те не считая строку заголовка
колонка 9 - если можно выгружать валюту цены
колонка 12 - время обработки заказа, уточните, если можно его сюда парсить, оно выскакивает при нажатии на кнопку купить, как видно на картинке проект файла 2.2.jpeg
колонка 16,17,18 - берутся значения прописанные из кода страницы

Также как и с отзывами необходимо в отдельную папку сохранять все большие фотографии со страницы продукта, т.е. в данном примере это 6 фотографий.

Сделать возможность задавать 2 разных шаблона для именования выгружаемых фотографий

1) именовать их как Product name.jpeg Product name-2.jpeg имя берется с дефисами flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker.jpeg
flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker-2.jpeg

2) именовать их как Product ID.jpeg Product ID-2.jpeg из примера 32249522818.jpeg и 32249522818-2.jpeg


- При возникновении какой-либо ошибки должна быть возможность запустить парсер с последнего записанного товара.

- Должны формироваться отчеты после завершения работы парсера – какие товары/ссылки обработаны, сколько ссылок обработано.


пожалуйста уточните стоимость и все ли можно реализовать, если что-то нельзя напишите.

организатору нужно связаться с исполнителем и заказать проект по ТЗ выше

excel файл 1.jpg проект файл 1.jpg excel файл 2.jpg проект файл 2.jpg проект файл 2.2.jpg проект файл 2 код страницы продукта.jpg
 
Последнее редактирование модератором:
Статус
В этой теме нельзя размещать новые ответы.

О нас

Слив платных курсов - скачать бесплатно

На форуме мы делимся сливами популярных курсов в различных областях знаний! Если вы хотите повысить свою профессиональную квалификацию, но не хотите тратить много на курсы, то вы попали по адресу.

VKURSE.INFO регулярно публикует:

  • слив курсов от лучших онлайн-школ, инфобизнесменов и блогеров;
  • вебинары, марафоны, мануалы, от популярных блогеров на тему здоровья и саморазвития;
  • торрент-курсы, книги и гайды, обучения веб-дизайну, программированию, создания сайтов, бизнеса, продвижения в социальных сетях актуальных сегодня.

Мы ежедневно обновляем нашу коллекцию, чтобы вы могли бесплатно найти и скачать необходимый слив курсов обучения

Быстрая навигация

Меню пользователя