Скоро [ZennoPoster] Барсик - парсер Яндекс.Карт + Геокодер (многопоток, без браузера)

Статус
В этой теме нельзя размещать новые ответы.
VkurseBot

VkurseBot

Модератор
20 Сен 2020
0
862
50
Голосов: 0
#1
[​IMG]

Технические особенности шаблона:
  1. Шаблон делался в ProjectMaker RU 5.17.1.0 (так как последняя 5.17.2.0 версия слишком сырая и с багами, не рекомендую на ней запускать). Тестировался и на старых версиях (5.10.0.1). Стоит ограничение по запуску минимум 5.9.9.1, но как поведет себя на такой старой версии – хз. Закрытого типа (только выполнение). Если у вас нет ZennoPoster, то можно выписать лицензию вместе с Zennobox (мини-версия ZennoPoster), но это стоит +10$ к цене шаблона.
  2. Шаблон работает исключительно на запросах (без запуска вкладок браузера), что позитивно отражается на использовании ресурсов ПК и позволяет неплохо поднимать быстродействие парсинга в многопотоке, ибо основана нагрузка идет только на CPU.
  3. В работе шаблона используется свой алгоритм на основе C#-библиотек HtmlAgilityPack.dll (для работы с XML-ответами сервиса) и Newtonsoft.Json.dll (для обработки JSON ответов).
  4. Ключей API или логинов Яндекса здесь НЕ надо.
Алгоритм поиска такой: шаблон сначала берет название объекта (города\региона), в пределах которого будем искать, получает координаты его размеров (прямоугольника, или условно «квадрата», в который вписаны границы объекта), и ищет в нем нужные фразы.
Минусы такого метода: если мы ищем в какой-то области, то в пределы ее квадрата могут попасть мелкие пограничные части соседних областей. А если эта область на границе с другой страной, то соответственно поиск затронет эту маленькую часть соседней страны. Потом ети «левые» объекты можно удалить по столбце адресов вручную, но в ~10% адресов может быть нестандартный синтаксис адреса (иногда нет указания страны, только город\область). То есть для чистоты результатов лучше все же парсить «по городам» а не «по областям». Хотя даже в ситуации с городом в квадрат поиска могут попасть пригородные поселки, но это уже не так критично.

Чтобы спарсить почти все организации в нужном регионе хватит просто использовать для поиска разнообразные фразы-ключи, под которые наиболее логично подходит список разделов Яндекс.Справочника (~ 1200 фраз, выдается в комплекте с файлами парсера). Используя этот метод получается за пару минут собрать практически все организации любого крупного города. Например, у меня на 100 потоках такие результаты (без пост-парсинга Email):
  1. Москва: 20 минут ~ 400 000 объектов (400 000 со словом «Москва» в адресе, но 530 000 в самом квадрате вокруг города Москва).
  2. Санкт-Петербург: 10 минут ~ 228 000 объектов (233 000).
  3. Самара: 3 минуты ~ 52 000 объектов (59 000).
  4. Сочи - 2 минуты ~28 880 объектов (29 180).
Варианты использования:
  1. Поиск конкурентов в своей нише\городе.
  2. Поиск фирм под рассылку\спам по телефону\Email.
  3. Поиск соц-страниц и сайтов организаций.
  4. Заполнение собственных сайтов\досок характеристиками объектов из Яндекс.Карт (есть же картинки-миниатюры, можно все аккуратно оформить).
  5. Заработок на указании услуг по парсингу Яндекс.Карт (создаёте темы по форумах, на Kwork).
1. Фраза поиска
2. Регион поиска
3. Название
4. Категории
5. Адрес полностью
6. Район области
7. Населённый пункт
8. Улица
9. Отдельный дом
10. Все услуги
11. Время работы
12. Телефоны (мобильные из России)
13. Телефоны (бесплатная линия справки)
14. Телефоны остальные (городские и нераспознанные)
15. Главный сайт
16. Все сайты
17. Вконтакте
18. Facebook
19. Instagram
20. Twitter
21. Одноклассники
22. Мой мир
23. YouTube
24. Все соц. и бизнес ссылки
25. Страничка на Яндекс. Карты
26. ID на Яндекс. Карты
27. Координаты Широта
28. Координаты Долгота
29. Мини-фото из поиска
30. Все мини-фото (макс. 3)
31. Мини-фото из панорамы
32. Картинка-логотип
33. Email (собираются отдельно из страниц ячейки [16. Все сайты])

Пример случайной выборки на 4000 строк из результатов парсинга разных фраз по нескольким городам\областям + результат работы в режиме [2. Геокодер]:
(файл CSV + XLSX, последний вручную заполнил и раскрасил).
Или посмотреть на гугл-докс:
1.
2.

Подсказки по работе с крупными CSV файлами ищите в теме: Справочная: выборка из файловых баз, крупные *.txt файлы, регулярки, EmEditor, *.csv.

[​IMG]

[​IMG]

[​IMG]

[​IMG]

[​IMG]

[​IMG]

[​IMG]

[​IMG]

[​IMG]

Видео-инструкция с примером первого запуска шаблона:




Я открыт к критике, и если будут актуальные пожелания в расширении функционала, то постараюсь их внедрить. Но это зависит от трудности правок и общего количества складчиков на продукт. Чем вас больше, там у меня больше мотивации возится с шаблоном <img src=" title="Smile :)">.

Отзывы:
Отзыв 1
Отзыв 2
Отзыв 3
Отзыв 4 (неофициальный, но самый развёрнутый)
 
Последнее редактирование модератором:
Статус
В этой теме нельзя размещать новые ответы.

О нас

Слив платных курсов - скачать бесплатно

На форуме мы делимся сливами популярных курсов в различных областях знаний! Если вы хотите повысить свою профессиональную квалификацию, но не хотите тратить много на курсы, то вы попали по адресу.

VKURSE.INFO регулярно публикует:

  • слив курсов от лучших онлайн-школ, инфобизнесменов и блогеров;
  • вебинары, марафоны, мануалы, от популярных блогеров на тему здоровья и саморазвития;
  • торрент-курсы, книги и гайды, обучения веб-дизайну, программированию, создания сайтов, бизнеса, продвижения в социальных сетях актуальных сегодня.

Мы ежедневно обновляем нашу коллекцию, чтобы вы могли бесплатно найти и скачать необходимый слив курсов обучения

Быстрая навигация

Меню пользователя