Голосов: 0
#1
Предлагаю скинуться на актуальную версию базы ЯК.
Продается, свежая база сайтов Яндекс каталога (Сентябрь, 2015)
Что вы получите:
База предоставляется в виде одного .xls файла разбитого на листы/категории.
Основная категория - количество уникальных URL адресов:
Hi-Tech - 10822 (-22)
Работа - 1016 (-16)
Учёба - 10955 (+48)
Дом - 34288 (+1486)
Общество - 5760 (+12)
Развлечения - 4993 (-498)
Отдых - 9935 (+357)
Культура - 16769 (-120)
Спорт - 6734 (-101)
СМИ - 4231 (-74)
Бизнес - 48738 (-259)
Справки - 3935 (-130)
Авто - 5738 (+35)
Порталы - 793 (-11)
Универсальное - 1000
Дополнительная выборка:
Новые сайты - 1000
Мобильный ЯК - 1321 (-91)
Новые и снятые с публикации URL адреса:
Новые - 6154
Снятые с публикации - 6613
Всего (URL адресов):основной ЯК- 165707 (+707),мобильный ЯК- 1321 (-91).
В скобках указаны изменения, по сравнению с предыдущим обновлением базы.
Описание полей в таблице:
1. Название категории в Яндекс каталоге, вида: категория/подкатегория/субкатегория/... полный уровень вложенности
2. Количество сайтов присутствующих в данной категории на момент парсинга
3. URL адрес категории в ЯК
4. URL адрес сайта
5. ТИц сайта (по яндекс бару)
6. Google PageRank сайта
7. Присвоенный регион (по яндекс бару)
8. Присвоенная тематика (по яндекс бару)
9. Название сайта в каталоге
10. Описание сайта в каталоге
11. Ссылка на скриншот сайта в каталоге
12. Ссылка на Whois данные сайта (для поддоменов и различных экзотических доменных зон ссылка может быть некорректна)
Особенности:
- С целью уменьшения количества дублей в процессе парсинга были исключены ссылки на категории, содержащие в себе /synt2/ и /geo/
- База почищена на дубли (по полному совпадению URL адреса). Дубли вычищаются в пределах основной категории (например, Hi-Tech) начиная от самых маленьких и заканчивая самыми крупными категориями/подкатегориями. Размер категории определяется по количеству сайтов присутствующих в данной категории на момент парсинга.
- Дополнительно предоставляется нечищеный на дубли вариант базы в .txt формате. Помимо наличия дублей в таком варианте отсутствуют следующие параметры: ТИц, PageRank, Присвоенный регион и тематика, Ссылка на whois.
- Добавлены списки новых и снятых с публикации сайтов в .txt формате (только URL адреса). Списки составлялись путем проверки каждого URL адреса из предыдущей выборки на предмет наличия его в новой выборке и наоборот. Эта информация не может быть на 100% верна, так как сайты могут временно сниматься с публикации и возвращаться обратно.
Обновление базы:
Обновление раз в три месяца или чаще. Обновление платное – всем ранее купившим базу скидка 50% от стоимости базы на момент обновления.
Стоимость базы: 12 WMZ
Для просмотра содержимого вам необходимо зарегистрироваться!Для просмотра содержимого вам необходимо зарегистрироваться!
Последнее редактирование модератором:
- Статус
- В этой теме нельзя размещать новые ответы.