Запретные слова
 

27 ноября 2001 г. пресс-служба холдинга ALG опубликовала пресс-релиз, который рассказывал о том, что информация о последней разработке Студии Артемия Лебедева в области промышленного дизайна — часах Sexaginta — теперь располагается по новому адресу: www.design.ru/id/sxaginta/ вместо прежнего www.design.ru/id/sexaginta/. «Почувствуйте разницу» — с иронией заметила пресс-лужба ALG.

Смена адреса произошла из-за того, что «почтовые ящики Студии Лебедева и пресс-службы ALG распухли от писем служащих крупных коммерческих банков, международных финансовых корпораций, трансатлантических инвестиционных холдингов и т.п. Служащие жаловались на невозможность посмотреть новую замечательную разработку Студии Лебедева в области промышленного дизайна, «поскольку их @#%$&^$ системные администраторы установили #%^$%@# прокси, которые режут все урлы, в которых обнаруживается слово sex». Соответственно, часы Sexaginta («шестьдесят», лат.) были приравнены к голым теткам, гомосексуализму, художественному произведению «Глубокая глотка», University of Sussex и детской порнографии».

Изумительный пресс-релиз! И очень поучительный — на мой взгляд, его можно без всякой дополнительной правки включать в качественные пособия для веб-разработчиков. Но я расскажу о проблеме чуть поподробнее.

Итак, чтобы люди, работающие в различных организациях, и имеющие доступ в интернет за счет фирмы, не тратили свое рабочее время и деньги своей компании на лазанье по развлекательным ресурсам, в прокси-серверах, через которые осуществляется доступ в интернет, настраиваются специальные фильтры. Эти фильтры не пропускают запросы на просмотр URL'ов, в которых содержатся определенные ключевые слова. Самые популярные и чуть ли не обязательные — это, конечно, sex, porno, erotic, xxx, а дальше — «по вкусу» — games, chat, MP3 и т.п.

Однако медаль, получаемая прокси-серверами организаций за успешную борьбу за чистоту корпоративного трафика, имеет и обратную сторону: часто «запретные» слова обнаруживаются в адресах страниц, которые на самом деле к темам «sex» или «games» никакого отношения не имеют. Таким образом, вполне приличные и серьезные веб-страницы оказываются недоступными для корпоративных пользователей.

Как подметил Рома Воронежский в своем юморном «Словаре программиста», «Корпоративный пользователь — жалкое, затюканное существо, которое не имеет права выбирать себе компьютер и программы для него». К этому можно добавить — «которое не имеет права выбирать веб-сайты, которые можно посетить». Но, тем не менее, пользователи, выходящие в Сеть со своих рабочих мест, составляют значительную часть всей российской аудитории интернета: в выходные дни посещаемость веб-сайтов по сравнению с буднями падает в среднем в два раза. А у проектов, ориентированных на бизнес, корпоративные пользователи составляют даже больше, чем 50% аудитории.

Так что, волей-неволей, а с корпоративными пользователями (точнее, системными администраторами, устанавливающими фильтры на прокси-серверах), приходится считаться — это вам не 5%, использующих браузер Netscape 4.x. К тому же, если уж говорить о старых или экзотических браузерах, то в них большинство сайтов все-таки можно просмотреть, а вот корпоративные прокси-серверы вообще не пропускают адреса с «запретными» словами, показывая вместо них стандартную страницу с сообщением о запрете доступа.

На «грабли» корпоративных прокси наступают очень многие веб-разработчики. Кто-то слишком увлекается творческим процессом — страница с информацией о часах «Sexaginta» — как раз такой случай. А вот еще один пример из этой категории: в 1998 г. на сайте студии РусАрт (http://www.studio.ru/, теперь она называется Индивид) был опубликован рассказ об интересном эпизоде из практики компании. Дизайнеры фирмы при верстке страниц использовали цветные графические распорки, названия которых представляли собой коды соответствующих цветов: например, файл черной распорки назывался «000000.gif». А вот прозрачную распорку дизайнеры назвали «xxxxxx.gif», что было вполне логичным, учитывая то, что цвет у прозрачной распорки отсутствует, а отсутствующее или неизвестное традиционно обозначается символом «x». Но корпоративные прокси, конечно, с такой логикой не были знакомы, и, «видя» в имени файла «запретную» комбинацию «xxx», блокировали загрузку файла, в результате чего макет страницы в браузере искажался.

Другой частый случай неоправданной блокировки приличных и серьезных страниц корпоративными прокси-серверами — необдуманный подход веб-разработчиков к наименованию файлов веб-страниц, графики и т.п. Желая поиграть в креатив, авторы присваивают файлам «красивые» имена, хотя в этом нет никакой надобности. Например, в разгар скандала с участием президента США Билла Клинтона и Моники Левински на сервере Cityline была создана страница с подборкой материалов по данному делу — www.cityline.ru/sexybill/. Присвоение такого названия («Сексуальный Билл») разделу, имеющему чисто политический характер — довольно сомнительный шаг. Сегодня страница www.cityline.ru/sexybill/ удалена — наверное, из-за посещаемости, которая в два раза ниже, чем планировали авторы.

Возможно, кто-то из разработчиков дает своим документам такие названия в надежде, что страница получит хороший рейтинг в запросах поисковых систем (ведь ключевые слова эротической и развлекательной тематики пользуются повышенным спросом у посетителей поисковиков). Только зачем гнаться за хорошей позицией веб-страницы в результатах поисковых запросов, если половина пользователей все равно не сможет ее (страницу) посмотреть?

Таким образом, получается интересная ситуация: оказывается, веб-разработчик должен думать не только о том, как будет смотреться веб-страница в браузере пользователя, но и о том, будет ли она вообще показываться и не «зарубит» ли ее корпоративный прокси-сервер. Чтобы уменьшить вероятность попасть в «опалу» у прокси-серверов организаций, не следует без особой надобности применять в названиях своих документов такие слова, как sex, porno, erotic, chat, game, mp3 и их варианты.

И, напоследок, для самостоятельного изучения, список фильтров одного реально существующего корпоративного прокси-сервера. Это еще относительно мягкий вариант, блокирующий только эротику и чаты и кое-что другое по мелочи. Ни MP3, ни игры этот сервер не «режет».

^http://.*sex..*
^http://.*.sex.*
^http://.*/sex/.*
^http://.*.playboy.*
^http://.*.penthouse.*
^http://.*sexshop.*
^http://.*livesex.*
^http://.*/sex.*
^http://.*.xxx.*
^http://.*erotic.*
^http://.*xxx..*/.*
^http://.*.eros.*
^http://.*porno..*
^http://.*.porno.*
^http://.*krovatka.*
^http://.*divan.*
^http://.*zavalinka.*
^http://.*.ru/.*/chat..*
^http://.*/chat/.*
^http://.*/Chat/.*
^http://chat..*
^http://ns2.caravan.ru.*
^http://www.mtrros.msk.ru/cgi-bin/chat.*
^http://.*chat.portal.*
^http://.*/vcclient/.*
^http://.*.nude.*
^http://monah.fsn.net.*
^http://.*girlz..*
^http://.*spedia.net.*

 
Автор: Станислав Жарков
 
Оригинал статьи: http://woweb.ru/publ/26-1-0-540
 
Мешки для пылесосов