Обновление индексатора в MegaIndex.ru

10 2
23:44 20 января 2015 — Хиврин Николай
15 января в MegaIndex.ru была запущена новая версия индексатора, который собирает внешние ссылки по сайтам рунета и всего мира.

Новая версия реализована на низкоуровневых языках, что позволило увеличить производительность в несколько раз.

За 5 дней индексатор уже обработал более 60% сайтов в СНГ и более 7% сайтов в мире. Для справки, мы оцениваем количество уникальных документов в СНГ в 8 млрд и в 150 млрд в мире. Обновленные или новые ссылки помечаются актуальной датой индексации в отчете по входящим ссылкам:



Заметим, что в таблице Вы видите только уникальные внешние ссылки. Для удобства анализа, все сквозные ссылки мы отображаем в таблице в виде одной строки. При этом выводится страница с минимальным уровнем вложенности, а в колонке "С других страниц" Вы увидите количество других страниц на сайте, где размещена ссылка с такие же текстом на эту же страницу.

Также, в отчете добавлена информация по общему количеству ссылающихся страниц и доменов.

Все данные по внешним ссылка можно также получить через наше API в методе получения входящих ссылок

В настоящее время, отчет по входящим ссылкам ограничен 6000 строк. Из-за этого Вы не сможете увидеть все ссылки на популярные сайты. Мы работаем над расширением этого ограничения.

Индексацию Вашего сайта роботом MegaIndex Вы можете идентифицировать по User Agent "Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +https://www.megaindex.ru/?tab=linkAnalyze)"

После завершения обновления всей базы (ожидается через 7-10 дней), мы проведем обновление параметров сайтов, таких как количество внешних ссылок. Эти данные используется в сервисе анализа доноров

Наша команда также работает и над новым отчетом по входящим и исходящим ссылкам, который позволит Вам более наглядно и удобно получать всю необходимую информацию.

До конца февраля мы запланировали расширение парка серверов, что позволит индексировать весь мировой Интернет с полнотой на уровне Google в течение месяца. Следите за нашими обновлениями.

18 комментариев

+ Добавить комментарий
Спасибо за обновление и полезный сервис!)
  • roof
  • |
  • 15:29 21 января 2015
Ваш бот сильно нагрузил сервер 15-01, хостер прислал предупреждение о превышении нагрузки в 3 раза по причине именно Вашего бота MegaIndex.ru/2.0 с ip 192.162.241.253
Активность нашего бота не может приводить к отказу сервера, так как он индексирует в один поток. Следовательно параллельных запросов быть не может.
Повышение нагрузки при запросе страниц - это нормальное явление. Оно возникает и при индексации поисковыми системами.
  • roof
  • |
  • 18:21 21 января 2015
Отказа сервера не было. Но факт остается фактом. После блокировки данного ip нагрузка пришла в норму. Боты ПС присутствуют на сайте постоянно, но при этом нагрузка на сервер не превышает лимитов.
  • roof
  • |
  • 12:59 4 февраля 2015
Ребят, опять Ваш бот нагружает сервер! Сегодня с 10 часов ходит. Никаким законам, прописанным в htaccess (кроме блокировки ip) и роботс, он не подчиняется (тот же Crawl-delay ему по барабану).
Хостинг нормально работает, но хостер шлет предупреждения о превышении нагрузки. Такое редко бывает, только если какой-то сумасшедший бот заходит, как этот например.
Такое было последний раз 15 января, как раз от Вашего бота.
Скажите, как от него можно защититься? Какие он у Вас команды понимает?
  • wefsgf
  • |
  • 17:45 9 апреля 2015
впишите в .htaccess
туда где редиректы и баны у вас (должно помочь):
SetEnvIfNoCase User-Agent ".*MegaIndex" badbingbot
Deny from env=badbingbot
А вот тут уже стоит задуматься. Если так слабоват хостинг то при увеличении посетителей тоже всё работать перестанет.
Либо софт кривоват. Либо хостинг слабоват.
ИМХО.
  • roof
  • |
  • 13:01 4 февраля 2015
Читайте выше. Посетителей он нормально переваривает и поисковых роботов тоже. Но вот такие боты, которые никакие команды не слушают и жрут по 10-20 страниц в секунду, любой хостинг напрягут.
Бред, Бред, Бред!!!
Ребят, Ваш бот загружает одну страницу с сайта в секунду! Это хорошо, но он настолько "Глуп", что его пришлось грохнуть на шлюзе.
Есть сайт domain.ru, на нём поддомены для каждого города в отдельности "город.domain.ru" - все лежат на одном сервере, поддоменов чёртова гора. Час назад наблюдал картину: 570 запросов в секунду, нагрузка на сервер 100%... SQL кипит... Это с учётом того, что на этом сервере много и других доменов...
Решил проблему добавив IP бота в Black List на шлюзе и избавил более 100 серверов от этих головняков :).
Когда научите бота обращаться хотя бы к 3 страницам одновременно по одному IP - напишите новость, почищу BL.
С Уважением, хостер )))))
Бот продолжает нагружать сайты с других IP, поэтому приходится блокировать подсетями, уже 3 в BL.
  • roof
  • |
  • 11:30 19 февраля 2015
А можно их сюда, я тоже все подсети себе в блэклист добавлю.
Ну невозможно так! Не хочу я, чтобы этот бот меня индексировал и напрягал хостинг!
  • roof
  • |
  • 11:28 19 февраля 2015
Аналогично!
Выложите все Ваши ip, чтобы я все их добавил в черный список!
Как приходит Ваш бот, так нагрузка на базу возрастает раз в 10!
Сегодня пришел с ip 148.251.236.167
Но похоже Хиврину Николайю все равно. У них свои цели, а на проблемы хозяев сайтов и пользователей Мегаиндексу все равно.
  • info
  • |
  • 12:35 24 февраля 2015
А наши сисадмины закрыли к чертям собачьим доступ вашему индексатору к нашим серверам. Хреново он работает. Нагружает серверы. И внимания не обращает на файлы robots.txt
  • my-tool
  • |
  • 19:20 14 марта 2015
Подобные письма приходят от хостера. Ваши проделки перегружают процессор даже на VIP-хостинге. Все логи могу вам предоставить. Сайт: www.big-road.shop.ru
Уважаемый пользователь хостинга 1Gb.ru,
Данное письмо относится к следующему аккаунту:
********** (контактный адрес **********)
Номер договора: 2767**/08Н
В вашем аккаунте зафиксировано превышение квоты на загрузку
процессора сервера.
Сайт, превышающий квоту: 1GB_780574_1gb_*****
Зафиксированы следующие показатели:
Процессорная нагрузка в течение часа: 10.26 %
(нагрузка на 1 процессор)
Дата и время нагрузки: 2015-03-13 23:00
детализация по IP адресам:
10.06 % - 5.9.151.67 (static.67.151.9.5.clients.your-server.de)
(compatible; MegaIndex.ru/2.0; +https://www.megaindex.ru/?tab=linkAnalyze)
  • wefsgf
  • |
  • 17:41 9 апреля 2015
Ваш бот ведет себя как вандал!
Такого себе даже мутант от мягко-мелкого не позволял.
Выкачивать по 15 страниц в секунду, еще и в во времена пиковой вечерней нагрузки, это форменное безобразие так себя ведут гоп-стоп боты, которые сразу получают БАНАН без разговоров.
Разумеется на моих сайтах я вашему боту тоже выписал банан без разговоров.
Увольте ваших программеров и наберите пряморуких, дабы настроили вам бота что бы вел себя прилично.
А пока всем советую БАНИТЬ ЕГО по IP, если пытается залезть с другого IP баньте подсеть, а еще лучше баньте его по Юзерагенту (именно так удалось обуздать неадэквата - Bingbot-а)
Всем удачи!
Присоединяюсь ко всем возмущенным. Веу около 100 клиентских сайтов, + десяток своих. На 30% хостинг просит поменять тарифный план. Разве так дела делаются. Сижу везде вас блокирую. Вы бы лучше полезное что то сделали, а так только работу вебмастерам подкидываете.
  • sd
  • |
  • 13:22 9 июля 2015
Капец просто! Который день приходит бот и валит сайт! Так же присоединяюсь к недовольным и ставлю бан, вчера был временный бан, теперь постоянный, до выяснения/изменения политики с вашей стороны!
  • sd
  • |
  • 13:23 9 июля 2015
Да, ip 148.251.236.167

Только зарегистрированные пользователи могут добавлять комментарии.