Поиск уникального контента

Вернемся к проблеме дублированного контента.

Рано или поздно перед каждым вебмастером становится вопрос, где брать уникальный контент. Тырить — невыгодно, переписывать — долго, заказывать на стороне — дорого… Замкнутый круг получается.

Эли, автор блога Blue Hat Seo, предлагает два варианта решения проблемы. Этой записи уже больше чем полгода, поэтому тема наверняка проскакивала в Рунете. Однако если такое было, я это определенно пропустил 🙂

Archive.org

Сайт Archive.org — идеальное место для поиска заброшенного контента. С его помощью вы можете просмотреть архивы многих авторитетных каталогов статей и новостных сайтов и найти записи, которые когда-то покоряли топы поисковиков, но уже навсегда выпали из выдачи. Для примера возьмем сайт CNN.com.

1. Откройте сайт Archive.org и введите в поиск название интересующего вас сайта.

Поиск Archive.org

2. Выберите дату постарше. Вероятность выпадения старых страниц из поиска очень высока.

Архив сайта

3. Выберите нужную категорию.

Категория Travel

4. Выберите статью, соответствующую тематике вашего сайта.

Статья из архива

5. Введите в Google запрос site:_адрес_статьи_ и посмотрите результат. В идеале он должен выглядеть так:

Результат поиска

Правда, если убрать из запроса www, то Google все-таки находит 1 страницу 🙂 , поэтому данный пример несколько неудачен.

6. Скопируйте текст статьи на свой сайт.

Вот и все. Проблема уникального контента решена 🙂

Для данного метода выбирайте крупные авторитетные сайты. Так вы быстрее найдете, что вам нужно. Учитывайте то, что Archive.org не всегда выдает необходимые страницы, хотя они и присутствуют в его архиве. Кроме того, некоторые сайты, например, ezinearticles.com, закрывают свои архивы через robots.txt.

Если вы собираетесь генерировать контент в промышленных масштабах, вам подойдет следующий метод.

Карта сайта

Если на сайте присутствует карта, вы можете легко найти все адреса страниц с данного домена. Когда у вас будет список адресов, вы сможете прогнать его по запросу site:… и найти страницы, которые выпали из индекса.

  1. Найдите карту сайта и распарсите с нее адреса отдельных страниц.
  2. Напишите скрипт, который смог бы прогнать все эти адреса по запросу site:…
  3. Если поисковик показывает результат выше нуля, удаляйте адрес.
  4. Проверьте список оставшихся адресов вручную и найдите среди них интересующие вас статьи.

Недостаток данного метода в том, что парсинг карты выдает очень много бесполезных результатов, вроде поисковых запросов по сайту. Чтобы избежать этого, выберите папку или поддомен по вашей тематике и работайте только с ней. Если вам, например, нужны статьи по автомобилестроению, выберите раздел карты, содержащий папку domain.com/autos или поддомен autos.domain.com.

Как вариант, вы можете искать “уникальный” контент в кэше удаленных страниц. На многих сайтах используется стандартная страница ошибки 404. Введите запрос site:domain.com “Sorry this page cannot be found” и проверьте кэш этих же страниц в других поисковиках.

Этический момент: Не забывайте ставить ссылку на оригинал (хотя бы на главную страницу сайта). Несмотря на то, что для поисковика ваш контент будет 100% уникальным, у него все же есть автор, которого нужно хоть как-то отблагодарить.

Записи по теме:

Нравятся статьи? Подписывайтесь на рассылку!

1 Star2 Stars3 Stars4 Stars5 Stars (Пока оценок нет)
loadingЗагрузка...
Логотип сайта

45 комментариев

  1. Ну изчезла страница из индекса поисковика, но статью с этой страницы уже скопировали в свое время на другие сайты.
    Выходит она неуникальна нискока ?!
    Надо еще проверять на плагиат значит все найденные страницы?
    Тогда это совсем не легкий способ.
    Или я не понял совсем что здесь написано :-)?

  2. sanek, если страницу скопировали и она в индексе, тогда да, неуникальна. Хотя такое маловероятно, но все же, возможно.

    На плагиат при нужде можно быстро проверить с помощью Google: скопировать пару строк из текста и забить их в поиск. Выдача сразу покажет степень уникальности контента. 🙂

  3. Я сама ищу уникальный контент для сайта на английском. Постоянно сотрудничаю с Aero Translate. Они мне и статьи переводят на ура, и пишут уникальные материалы по любым темам, которые я присылаю. Самый лучший контент – это переведенные статьи, они нигде не «светятся».

  4. Огромный респект автору данного ресурса за вклад в развитие рунета, и сео оптимизации в частности. Хотелось бы узнать о способах получения уникального контента на русском языке…и не отходя от темы данной статьи… 🙂 но рассматривая рунет как источник информации

    Все-таки большая часть посетителей данного блога в своем распоряжении имеет русскоязычное “детище” и все эти разговоры об уникальном контенте сродни беслатному сыру когда речь заходит о нерусских ресурсах типа archive.org…согласитесь, перевод материала у среднестатистического юзверя, вебмастера занимает времени никак не меньше, чем скажем рерайтинг…причем первое все-таки требует знаний языка, а обращаться к переводчикам не есть выход из ситуации.

  5. Самый оптимальный вариант для получения уникального контента на русском языке в большом количестве это обработка его синомайзером. Если хорошая база, то на выходе получается полностью уникальный и читаемый текст. Конечно в нем есть ошибки стилистические, и немного надо расставить пунктуацию. Под каждую тему необходима своя база синонимов, под пластиковые окна своя, под бытовую технику своя и т.д. Готовых баз не существует, необходимо все выбирать вручную. Те, что существуют в свободном доступе необходимо полностью перерабатывать. По пластиковым окнам базу готовил где – то два месяца. Труд конечно нелегкий с этими базами, но оно того стоило. Сейчас любой текст по пластиковым окнам прогнав через базу на выходе получается уникальный и читаемый текст, для сателлитов первый сорт. А если немного поработать, то 300 000 знаков без пробелов за пару дней можно подготовить для СДЛ. За такой объем рерайта как минимум необходимо заплатить 300 американских рублей, у меня же в 10 раз дешевле получается.

  6. Уведомление: Bestron // 11 способов заработка в Интернете — Стратегии обогащения читать обязательно!
  7. В архивах ИМХО находятся устаревшие новости, которые потеряли свою актуальность и не будут представлять особого интереса для читателя. Хотя, как вариант, тоже можно попробовать

  8. Кто нибудь в курсе что за программа “Уникум”, видел на каком то форуме как ее расхваивали. Генерирует текст уникальный миним на 80% на заданую тему, совершенно логичные и читаемые, стоит около 100 у.е. Никак не могу найти ссылок на нее :(((

  9. Есть ещё один способ добычи уникального контента. Это программы распознавания речи. Правда под винду боле менее адекватного софта пока ещё нет, но думаю через годок другой всё наладится. Потому как под андроид на смартфонах распознавание чуть ли не 99% правильное. Не даром гугл вводит голосовой поиск направо и налево.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Получать новые комментарии по электронной почте. Вы можете подписатьсяi без комментирования.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.