Заработок в интернете, обзор партнерских программ, гэмблинг.

Как добыть уникальный контент из вебархива

Добавлено | Февраль 16, 2015 | 14 комментариев

Как искать непродленные сайты вебархив?

Всем привет =) Сегодня хочется вам рассказать, как можно совершенно бесплатно добывать уникальный контент для своих проектов! Сразу скажу, этот способ я подглядел на одном из форумов, но немного модифицировал его под себя, чем и хочу поделиться с читателями.

Для начала пару слов о WebArchive. Это глобальный архив интернет сайтов. Боты вебархива периодически обходят глобальную паутину и сохраняют на свои сервера все что смогли найти. Потом это все хранится для потомков 😉

Адрес ВебАрхива — http://archive.org/web/ На главной странице, на момент написания статьи, написано — 452 billion web pages saved over time. По-русски говоря, 452 миллиарда страниц закачал себе этот сервис. Этим мы и будем пользоваться.

Суть этого метода проста — мы ищем уже неработающие сайты, которые были закачаны вебархивом и стараемся найти там уникальные статьи, которые уже давно не в индексе поисковых систем.

Итак, поехали, первый способ, прочитанный на форуме:

Идем сюда — nic.ru

Скачиваем список освобождающихся доменов в зоне .ru Можно брать и другие зоны, но там не так много доменов…

Получение уникального контента из вебархива

Полученный файл открываем с помощью Excel и жмем «ctrl+F», в поиске вводим ключевое слово, в моем примере это «Forex».

Как найти в вебархиве русские сайты?

Нажали «найти все» и перед нами появился список нужных ячеек

Как искать уникальный контент в вебархиве?

Теперь нужно получить из этого списка сайты в архиве.

Первый вариант — бесплатный сервис, проверяет только 30 ссылок за раз

Закачать сайт из вебархива

Но этого вполне хватает, ведь по вашей теме не будет слишком много доменов, да и можно проверять пачками.

Второй вариант, это купить недорогую прогу, которая проверяет по 2000 ссылок за пару минут. Купить можно на форуме.

Вот и все, найденные страницы в вебархиве, через сервис или программу, мы мониторим уже глазками и ищем в куче файлов страницу со статьями или главную. Обязательно проверяйте домен на работоспособность, так как владельцы могли уже успеть продлить его.

Сервис показывает количество документов в вебархиве, цифры ниже 10 нас не интересуют. Старайтесь проверять как можно бОльшие цифры. К примеру, недавно я нашел сайт в вебархиве, нужной мне тематики, с 22000 документов, ох я и накопал оттуда хороших статеек!

Как найти брошенные домены с вебархивом?

Вот так выглядят файлы в вебархиве.

Посмотреть список сайтов в веб архиве

Стараемся попасть на сайте на главную страницу или найти карту сайта. Далее методично открываем статьи и проверяем их на уникальность. Я делаю это антиплагиатором от eTXT.

Второй способ, которым ищу именно я. Суть остается прежней, просто я беру домены ТУТ.

Самый жирный плюс этого сервиса в том, что мы можем пройтись по разным датам, а не качать домены освобождающиеся только в один день. Чем дальше по датам мы уходим, тем больше вероятность того, что домены не продлили.

В это сервисе все проще — выбираем дату, жмем Ctrl+A — копируем все что есть на странице и вставляем в NotePad++, так же жмем Ctrl+F и вводим нужный нам ключ и жмем — Найти ВСЕ в текущем документе.

После поиска это выглядит так:

Как найти в вебархиве русские сайты?

Вот и все =) Советую вам не париться с эксель и работать в нотпаде, а так же юзать сервис доменов по датам. Данным способом я нашел больше сотни отличных и уникальных статей на нужную мне тематику. На эти статьи, если бы я их заказал, у меня бы ушла не одна тысяча рублей… Всем благ и большого профита!

Чтобы получать актуальную информацию не забывайте подписываться на мою RSS рассылку!

Блог находят по запросам:

Комментарии

14 комментариев для “Как добыть уникальный контент из вебархива”

  1. Ivan
    Февраль 18th, 2015 @ 10:44

    Большое спасибо за «тему». Ушло в закладки.

  2. master
    Февраль 21st, 2015 @ 12:23

    вебархив блочит. надо чистить кэш.менять айпи. что успел проверить, домены на самом деле большинство продлены.
    Народ даже спец софтом мало что может оттуда вытянуть. Ибо тема заезжана уже давно.

  3. admin
    Февраль 21st, 2015 @ 12:28

    Не знаю кто спец софтом не может вытянуть, я ручками за несколько дней достал 100+ отличных уникальных статей на дорогую тематику! Можете не пробовать, я не заставляю никого 😉

  4. Сергей
    Март 2nd, 2015 @ 14:52

    А как к такому контенту относятся ПС? Вот примером создать сдл…

  5. admin
    Март 3rd, 2015 @ 23:35

    Да отлично относится. Ведь ПС не хранит все тексты где-то, откуда ПС знать, что текст, когда-то уже был… Проверьте антиплагиаторами, если они показывают уник, значит и для ПС это новый и уникальный текст.

  6. Александр
    Июнь 14th, 2015 @ 00:57

    А как из блокнота скопировать, что бы не было номеров строк

  7. admin
    Июнь 14th, 2015 @ 22:00

    Так в блокноте нет номеров сторк ) Да и в нотпаде эти строки никак не копируются

  8. Tikey
    Август 10th, 2015 @ 16:14

    Ещё как хранит. Проверяйте в Etxt Антиплагиат

  9. vasya
    Декабрь 20th, 2015 @ 22:53

    ля ПС это новый и уникальный текст.

  10. Сергей
    Июль 2nd, 2016 @ 06:23

    Специально для манеймэкеров я откопал в интернете наш аналог вебархива . Там правда только ру зона и сайтов меньше — но домены зато на которых эти сайты раньше размещались, в настоящий момент свободные. Но есть и свои плюсы: качество копий лучше, сохранен флэш, картинки, навигация по страницам и ненадо мучится с кучей файлов.

    Кстати в сети есть сайт, адрес правда не помню, он за небольшую плату даёт выкачивать страницы с оригинального вебархива, но там такая каша получается.

    А поповоду уникальности — адвего плагиатус вам в помощь.

  11. Сергей
    Июль 2nd, 2016 @ 06:26

    http://sitedrop.info/archive

    ссылка на архив брошенных сайтов к коментарию выше.

    p/s уважаемый админ этого сайта, вы хоть напишите что из тела сообщения ссылки трутся. Спасибо

  12. Владимир мастер пвх окон
    Сентябрь 3rd, 2016 @ 17:24

    Пользуясь сервисом domcop нахожу дропы. Смотрю по вебархиву, проверяю их на text.ru — контент не уник. Проверял кучу сайтов. Можно канибудб процесс автоматизировать?

  13. Makhambet
    Апрель 7th, 2017 @ 03:52

    Спасибо за статью. Не думал что так можно.

  14. Михаил
    Сентябрь 14th, 2017 @ 16:54

    Сорян за некропостинг, но вдруг тема еще жива и интересна) Сейчас делаю автоматизатор для вебархива, вдруг будет интересным кому-то. Ща пока первая часть — беру свежие дроп-домены и ищу их в архиве.

Форма комментирования





Наверх
Вверх