Студия креативного WEB-дизайна "PM-Studio" - Статьи - Предпосылки семантической паутины

Предпосылки семантической паутины

В последнее время появляется все больше задач программирования, в которых тем или иным образом надлежит столкнуться с обработкой текста.
Особенно много таких задач присутствует в ВЭБ - разработке, что в свою очередь связано с тем, что подавляющая масса информации в Интернете представлена в текстовом виде. Для этих задач входными данными и/или результатом является текст (текст в том смысле этого слова, как рассматривается в лингвистике, то есть с точки зрения морфологии, синтаксиса и семантики ), а также метаданные. Например, для задачи представления текста в виде системы знаний входными данными является текст, а результатом — система знаний в виде набора метаданных, (существуют обратные задачи – генерация правильно построенных текстов из системы знаний) которые позволяют осуществить онтологию всех ресурсов Интернета ,необходимую для машинной обработки большого количества накопившейся в Интернете текстовой информации, ее идентификацию и упорядочивание.
Сейчас, технически основная масса подобных задач решается обработкой текста регулярными выражениями, в основе языка которых лежит серьезный математический аппарат конечных автоматов, что сильно сказывается на быстроте обработки больших объемов текста. Для примера, поисковик на плановую индексацию тратит недели, и это при том что используются мощности сотен серверов. Сложность обработки является следствием отсутствия единых стандартов структуры хранения и протоколов передачи высших уровней информации , поэтому для того, чтобы системы, решающие различные задачи смысловой обработки могли эффективно взаимодействовать (предоставлять результаты своей работы для решения других задач и, соответственно, использовать результаты других систем для своих нужд), необходимы стандарты. Стандартом, обеспечивающим интерпорабельность (возможность взаимодействия) на уровне синтаксиса пока является XML. Следующим шагом, обеспечивающим интерпорабельность на уровне семантики, может стать Semantic Web. Такие стандарты как XML и Semantic Web разрабатываются консорциумом W3C прежде всего в расчёте на использование в Интернет. Поэтому разработчики Semantic Web пишут о том, что до сих пор Интернет (WWW) был ориентирован на работу человека, а Semantic Web рассчитана на машинную обработку информации и в условиях глобальности задачи распределенной обработки информации может дать огромный экономический эффект.

Автор: Ничников Александр

Оригинал статьи: http://woweb.ru/publ/49-1-0-781