Списки поисковых систем: смогут ли пауки проиндексировать ваш web-сайт
 

Смогут ли пауки проиндексировать ваш web-сайт?

Основа вашей уверенности в том, что сайт появится в индексной базе поисковой системы, это "успешный" программный код. В конце концов, если робот не может проиндексировать ваших страниц, тогда поисковик не может включить его в свою поисковую базу.

К сожалению, множество web-сайтов используют технологии или архитектуру, делающие их враждебными по отношению к паукам (crawler) поисковой системы. Робот поисковика в действительности, всего лишь автоматический web-броузер, который должен интерпретировать HTML код вашей страницы, так же, как и обычный броузер.

Но поисковые роботы удивительные тугодумы. Большинство продвинутых поисковиков, как полагают многие, достигли развития близкого к версии 2.0 web-броузера. Это означает, что паук не может понимать множество web-технологий и не может читать некоторые страницы. Это особенно наносит вред, если именно эти части включают некоторые, или же все ссылки на вашей странице. Если паук не может прочесть ваши ссылки - он не может пройтись по всем страницам проекта.

Будучи консультантом по маркетингу поисковых систем, меня часто просили оценить новые сайты вскоре после их запуска. Оптимизацией под поисковые системы часто пренебрегают во время процесса разработки. В это время дизайнеры сфокусированы на навигации, удобстве и брэнду. В результате, множество сайтов запускаются с уже встроенными проблемами. А исправить эти проблемы гораздо труднее, чем не сделать их на стадии проектирования.

И лишь тогда, когда сайт не появляется в списках поисковика, многие компании обращаются к SEO.

В этом им стыдно признаться, поскольку для малого бизнеса поисковые машины едва ли не самый важный источник трафика. Почти 85% пользователей интернета ищут сайты через поисковики. Ценность web-сайта, не дружественного поисковикам значительно падает.

В этой статье я дам обзор некоторых ключевых моментов, которые могут препятствовать роботу поисковика индексировать ваше детище. Данный список ни в коем случае не является исчерпывающим, но он может выделить наиболее общие моменты, которые будут удерживать пауков от индексирования вашего сайта.


Ссылки, написанные на JavaScript

JavaScript - прекрасная технология, но невидимая для всех поисковых машин. Если для контроля навигации вашего сайта вы используете JavaScript, у пауков могут быть серьезные проблемы с индексированием скриптов.

Похоже, что ссылки, написанные на JavaScript, игнорируются поисковыми роботами. И это верно.

Например, представьте, что у вас есть следующий скрипт, который перенаправляет пользователя на определенную страницу вашего сайта:

script
language="JavaScript"
function goToPage(page) {
window.location = "http://www.mysite.com" + page
+ "?tracking=" + trackingCode;
}
/script

Данный скрипт использует функцию goToPage() для добавления кода направления в конец URLа, прежде чем отослать посетителей на страницу.

Я видел сайты, где каждая ссылка на странице была написана на JavaScript подобным образом. В некоторых случаях JavaScript используется для включения кода направления, в других - для перенаправления пользователей на другие адреса, расположенне на странице. Но во всех случаях первая страница сайта была единственной, которая находилась в индексной базе поисковой системы.

Ни один из пауков не индексирует ссылочный механизм на JavaScript. Даже если бы паук мог интерпретировать данный скрипт, все равно для него трудно интерпретировать всевозможные нажатия мышки, которые запускают функцию goToPage() с различным кодом направления.

Пауки или будут игнорировать содержание SCRIPT-tag, или читать содержание скрипта, как будто это видимый текст.

Как правило, лучше всего избегать навигации при помощи JavaScript.


Меню на DHTML

Выпадающие меню DHTML исключительно популярны при построении навигационной структуры сайта. К сожалению, они также враждебны паукам поисковика, поскольку опять же имеют проблемы с поиском ссылок на JavaScript, используемом при их создании.

Меню DHTML имеют дополнительную проблему в том, что их код часто расположен во внешних файлах JavaScript. Хотя и существуют весомые причины разместить скрипт во внешнем файле, некоторые пауки не поддерживают этот механизм построения ссылочной структуры.

Если вы используете меню DHTML на вашем сайте и хотите убедиться, какой эффект они оказывают на поисковые системы, попробуйте, выключить JavaScript в броузере - выпадающая часть вашего меню исчезнет и есть вероятность того, что с ней пропадет и верхнее меню. Хлоп! И моментально большинство страниц вашего сайта стали недоступны. То же самое происходит и у поисковых машин.


Строки адресов

Если у вас динамический сайт, который использует такие технологии, как ASP, PHP, Cold Fusion, или JSP, существует большая вероятность того, что ваши URLы включают строку запроса следующего вида:

www.mysite.com/catalog.asp?item=320&category=23

Это может послужить проблемой, поскольку многие пауки поисковых машин не индексируют подобные ссылки, включающие в себя строки запроса. Это верно даже в том случае, если страница, на которую указывает ссылка не содержит ничего, кроме стандартного HTML. URL, сам по себе, является барьером для паука.

Почему? Большинство поисковиков имеют сознательное разработанное решение не индексировать ссылки со строками запроса, поскольку им требуется дополнительная запись для их интерпретации. Пауки содержат список всех проиндексированных страниц и стараются избегать повторного индексирования страницы при уникальном посещении сайта. Они делают это, сравнивая все новые URLы со списком тех, что они уже видели.

Теперь, предположим, что паук видит URL, подобный этому на вашем сайте:

www.mysite.com/catalog.asp?category=23&item=320

Этот URL ведет к той же самой странице, как и наш первый URL, даже не смотря на то, что URLы не идентичны (Заметьте, что пары имя/ценность в строке запроса стоят в разном порядке).

Для определения, что этот URL ведет к той же самой странице, паук должен разделить строку запроса и сохранить каждую пару имя/ценность. Затем, всякий раз, когда он видит URL с той же самой траницей-родителем, ему потребуется сравнить ее пары имя/ценность со строками запроса всех предыдущих, имеющимися в файле.

Имейте в виду, что наш пример запроса весьма небольшой, строка запроса может быть гораздо больше. Я видела строки запроса, состоявшие из 200 символов и относящиеся к дюжине различных пар имя/ценность.

Итак, индексирование страниц по строкам запроса означает большую неоправданную работу для робота.

Некоторые роботы, например Googlebot, будут работать с URLами, которые имеют ограниченное количество пар имя/ценность в адресе запроса. Другие пауки будут игнорировать все URLы, содержащие строки запроса.


Flash-технология

Flash это здорово, гораздо лучше, чем HTML. Это динамическое и острое преимущество. К сожалению, пауки используют технологию преследования преимуществ. Помните: грубо говоря, паук поисковика эквивалентен версии 2.0 web-броузера. Пауки попросту не в состоянии интерпретировать новейшие технологии, такие, как Flash.

Итак, даже несмотря на то, что анимация Flash может потрясти ваших посетителей, она невидима поисковикам. Если вы используете Flash, чтобы немного приукрасить ваш сайт, но большинство ваших страниц написаны на стандартном HTML, это не станет проблемой. Но если вы создали весь сайт, используя Flash, у вас будут серьезные затруднения с его индексированием.

Фреймы

Разве я не упоминала, что пауки поисковых машин используют слабую технологию? Именно так, они на столько низко технологичны, что также не поддерживают фреймы. Если вы используете фреймы, поисковик сможет пройтись по вашей заглавной странице, содержащей FRAME-теги. Но не сможет отыскать индивидуальные FRAME-теги, которые могут составлять остальную часть вашего сайта.

В этом случае вы сможете, по крайней мере, поработать над проблемой, включая NOFRAMES на первой странице вашего сайта. Этот раздел вашей страницы будет невидим кому-либо, использующему броузер, поддерживающий фреймы. С другой стороны, это не мешает вам в разделе NOFRAMES разместить содержимое, которое смогут занести в свою индексную базу поисковые системы.

Если вы включаете раздел NOFRAMES, позаботьтесь вложить туда настоящее содержимое. Как минимум, вы должны разместить стандартные гипертекстовые ссылки (A HREF), указывающие на ваши индивидуальные Frame-страницы.

Удивительно, но достаточно часто люди включают раздел NOFRAMES, который, казалось бы говорит: «Данный сайт использует Frame-технологию. Пожалуйста, усовершенствуйте ваш броузер». Если желаете поэкспериментировать, сделайте запрос в Google по фразе "requires frames." Вы найдете около 160 000 страниц, все из которых включают текст "this site requires frames."(этот сайт использует Frame-технологию) Каждый из этих сайтов имеет ограниченную видимость поисковиком.


С www или без www?

Адрес моего web-сайта www.keyrelevance.com, но могут ли люди зайти на его, если они отбрасывают «WWW.» в адресной строке? Для большинства серверных конфигураций ответ - «да», но некоторые говорят «нет». Убедитесь, что ваш сайт работает как с www, так и без www.

Данная работа рассматривает некоторые из наиболее обычных причин, которые могут послужить причиной не индексации сайта. Другие факторы, такие как способ создания иерархии web-страниц, так же повлияют на то, сколько страниц вашего сайта попадет в индексную базу поисковой системы.

Каждая из этих проблем имеет решение, и в будущих статьях я коснусь каждой, чтобы помочь вам получить больше проиндексированных страниц.

Если в данный момент вы переделываете ваш сайт, я хочу подбодрить вас, чтобы вы приняли во внимание эти заметки, прежде чем вдохнете жизнь в сайт. Хотя каждый из этих поисковых барьеров может быть устранен, лучше начать с разработки, дружественной поисковой системе, чем чинить сотни страниц после запуска проекта.

 
Автор: Christine Churchill
 
Оригинал статьи: http://www.webmasterpro.com.ua/pro/17/1279_1.html