Обновление индексатора в MegaIndex.ru |
||
23:44 20 января 2015 — Хиврин Николай |
15 января в MegaIndex.ru была запущена новая версия индексатора, который собирает внешние ссылки по сайтам рунета и всего мира.
Новая версия реализована на низкоуровневых языках, что позволило увеличить производительность в несколько раз.
За 5 дней индексатор уже обработал более 60% сайтов в СНГ и более 7% сайтов в мире. Для справки, мы оцениваем количество уникальных документов в СНГ в 8 млрд и в 150 млрд в мире. Обновленные или новые ссылки помечаются актуальной датой индексации в отчете по входящим ссылкам:

Заметим, что в таблице Вы видите только уникальные внешние ссылки. Для удобства анализа, все сквозные ссылки мы отображаем в таблице в виде одной строки. При этом выводится страница с минимальным уровнем вложенности, а в колонке "С других страниц" Вы увидите количество других страниц на сайте, где размещена ссылка с такие же текстом на эту же страницу.
Также, в отчете добавлена информация по общему количеству ссылающихся страниц и доменов.
Все данные по внешним ссылка можно также получить через наше API в методе получения входящих ссылок
В настоящее время, отчет по входящим ссылкам ограничен 6000 строк. Из-за этого Вы не сможете увидеть все ссылки на популярные сайты. Мы работаем над расширением этого ограничения.
Индексацию Вашего сайта роботом MegaIndex Вы можете идентифицировать по User Agent "Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +https://www.megaindex.ru/?tab=linkAnalyze)"
После завершения обновления всей базы (ожидается через 7-10 дней), мы проведем обновление параметров сайтов, таких как количество внешних ссылок. Эти данные используется в сервисе анализа доноров
Наша команда также работает и над новым отчетом по входящим и исходящим ссылкам, который позволит Вам более наглядно и удобно получать всю необходимую информацию.
До конца февраля мы запланировали расширение парка серверов, что позволит индексировать весь мировой Интернет с полнотой на уровне Google в течение месяца. Следите за нашими обновлениями.
Новая версия реализована на низкоуровневых языках, что позволило увеличить производительность в несколько раз.
За 5 дней индексатор уже обработал более 60% сайтов в СНГ и более 7% сайтов в мире. Для справки, мы оцениваем количество уникальных документов в СНГ в 8 млрд и в 150 млрд в мире. Обновленные или новые ссылки помечаются актуальной датой индексации в отчете по входящим ссылкам:

Заметим, что в таблице Вы видите только уникальные внешние ссылки. Для удобства анализа, все сквозные ссылки мы отображаем в таблице в виде одной строки. При этом выводится страница с минимальным уровнем вложенности, а в колонке "С других страниц" Вы увидите количество других страниц на сайте, где размещена ссылка с такие же текстом на эту же страницу.
Также, в отчете добавлена информация по общему количеству ссылающихся страниц и доменов.
Все данные по внешним ссылка можно также получить через наше API в методе получения входящих ссылок
В настоящее время, отчет по входящим ссылкам ограничен 6000 строк. Из-за этого Вы не сможете увидеть все ссылки на популярные сайты. Мы работаем над расширением этого ограничения.
Индексацию Вашего сайта роботом MegaIndex Вы можете идентифицировать по User Agent "Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +https://www.megaindex.ru/?tab=linkAnalyze)"
После завершения обновления всей базы (ожидается через 7-10 дней), мы проведем обновление параметров сайтов, таких как количество внешних ссылок. Эти данные используется в сервисе анализа доноров
Наша команда также работает и над новым отчетом по входящим и исходящим ссылкам, который позволит Вам более наглядно и удобно получать всю необходимую информацию.
До конца февраля мы запланировали расширение парка серверов, что позволит индексировать весь мировой Интернет с полнотой на уровне Google в течение месяца. Следите за нашими обновлениями.
Понравился пост?Да НетПонравилось 10, не понравилось 2 |
Расскажите о нас... |
18 комментариев
+ Добавить комментарийПовышение нагрузки при запросе страниц - это нормальное явление. Оно возникает и при индексации поисковыми системами.
Хостинг нормально работает, но хостер шлет предупреждения о превышении нагрузки. Такое редко бывает, только если какой-то сумасшедший бот заходит, как этот например.
Такое было последний раз 15 января, как раз от Вашего бота.
Скажите, как от него можно защититься? Какие он у Вас команды понимает?
туда где редиректы и баны у вас (должно помочь):
SetEnvIfNoCase User-Agent ".*MegaIndex" badbingbot
Deny from env=badbingbot
Либо софт кривоват. Либо хостинг слабоват.
ИМХО.
Ребят, Ваш бот загружает одну страницу с сайта в секунду! Это хорошо, но он настолько "Глуп", что его пришлось грохнуть на шлюзе.
Есть сайт domain.ru, на нём поддомены для каждого города в отдельности "город.domain.ru" - все лежат на одном сервере, поддоменов чёртова гора. Час назад наблюдал картину: 570 запросов в секунду, нагрузка на сервер 100%... SQL кипит... Это с учётом того, что на этом сервере много и других доменов...
Решил проблему добавив IP бота в Black List на шлюзе и избавил более 100 серверов от этих головняков :).
Когда научите бота обращаться хотя бы к 3 страницам одновременно по одному IP - напишите новость, почищу BL.
С Уважением, хостер )))))
Ну невозможно так! Не хочу я, чтобы этот бот меня индексировал и напрягал хостинг!
Выложите все Ваши ip, чтобы я все их добавил в черный список!
Как приходит Ваш бот, так нагрузка на базу возрастает раз в 10!
Сегодня пришел с ip 148.251.236.167
Но похоже Хиврину Николайю все равно. У них свои цели, а на проблемы хозяев сайтов и пользователей Мегаиндексу все равно.
Уважаемый пользователь хостинга 1Gb.ru,
Данное письмо относится к следующему аккаунту:
********** (контактный адрес **********)
Номер договора: 2767**/08Н
В вашем аккаунте зафиксировано превышение квоты на загрузку
процессора сервера.
Сайт, превышающий квоту: 1GB_780574_1gb_*****
Зафиксированы следующие показатели:
Процессорная нагрузка в течение часа: 10.26 %
(нагрузка на 1 процессор)
Дата и время нагрузки: 2015-03-13 23:00
детализация по IP адресам:
10.06 % - 5.9.151.67 (static.67.151.9.5.clients.your-server.de)
(compatible; MegaIndex.ru/2.0; +https://www.megaindex.ru/?tab=linkAnalyze)
Такого себе даже мутант от мягко-мелкого не позволял.
Выкачивать по 15 страниц в секунду, еще и в во времена пиковой вечерней нагрузки, это форменное безобразие так себя ведут гоп-стоп боты, которые сразу получают БАНАН без разговоров.
Разумеется на моих сайтах я вашему боту тоже выписал банан без разговоров.
Увольте ваших программеров и наберите пряморуких, дабы настроили вам бота что бы вел себя прилично.
А пока всем советую БАНИТЬ ЕГО по IP, если пытается залезть с другого IP баньте подсеть, а еще лучше баньте его по Юзерагенту (именно так удалось обуздать неадэквата - Bingbot-а)
Всем удачи!