Интернет и информационные системы. КИС и Internet, Intranet-технологии. «релком» — национальная компьютерная сеть

Для Windows Phone 15.03.2019

Для Windows Phone

| Планирование уроков и материалы к урокам | 11 классы | Планирование уроков на учебный год (по учебнику Семакина И.Г.) 2 часа в неделю |

Уроки 24 - 29
Организация и услуги Интернет (§§ 10 - 12)
Практическая работа 2.1. "Интернет. Работа с электронной почтой и телеконференциями"
Практическая работа 2.2. "Интернет. Работа с браузером. Просмотр Web-страниц"
Практическая работа 2.3. "Интернет. Сохранение загруженных Web-страниц"
Практическая работа 2.4. "Интернет. Работа с поисковыми системами"

Интернет как глобальная информационная система (§ 11)

Интернет как глобальная информационная система (§ 11)

Далее мы будем говорить об Интернете с точки зрения выполнения им своего главного назначения: быть глобальной информационной системой. Системой, дающей пользователю неограниченные возможности как для информационных коммуникаций с другими людьми, так и для получения любой интересующей его информации.

Средства обеспечения определенных информационных услуг для пользователей Сети принято называть службами (сервисами) Интернета. Число различных служб в Сети непрерывно растет. Опишем лишь некоторые самые известные службы, разделив их на коммуникационные и информационные.

Всякая услуга в Интернете предоставляется с помощью программ-серверов. Серверы делятся на несколько видов, в зависимости от типа услуги, которая предоставляется пользователям: web-серверы предоставляют доступ к информации в виде web-страниц, файловые серверы обеспечивают доступ к файлам, почтовые серверы выполняют обмен почтовыми сообщениями, игровые серверы служат для одновременной игры нескольких пользователей и др. С сервером взаимодействует программа-клиент, работающая на компьютере пользователя.

Неотъемлемой чертой современных КИС стало применение технологий Internet . Использование Internet /Intranet-технологий в качестве базиса для построения КИС открывает новые возможности. Основной проблемой реализации подобной стратегии в рамках КИС является тот факт, что большинство данных, с которыми работает информационная система, относятся к операционной деятельности в узких рамках самой компании, и накопление и анализ всесторонних данных о круге потребителей представляет собой задачу, выходящую из этих рамок. Учитывая этот факт, при выборе составляющих КИС необходимо отдавать предпочтение программам, которые поддерживают полноценную работу из обычного браузера, фактически, имеют тонкий клиент и специальное серверное программное обеспечение, обеспечивающее функционирование данного клиента. Такое техническое решение позволяет использовать стандартные хранилища данных из локальных, корпоративных и глобальных сетей, не требуя существенных затрат на дополнительное администрирование и поддержание целостности, надежности и безопасности хранения данных.

Использование технологий Internet позволяет организовать в Internet полнофункциональное виртуальное представительство, т.е. полный спектр информационной поддержки всех поставщиков, дистрибуторов и потребителей продукции компании. Таким образом, осуществляется функция полной обратной связи по всему жизненному циклу изделий:

Управление сбытом/поставкой

Дистрибьюторы и потребители продукции могут напрямую заказывать продукцию через Internet . При этом заказ, после его ввода и подтверждения становится документом в КИС и встает в очередь на обработку. Заказчик в любое время сможет контролировать этапы выполнения заказа, вплоть до отгрузки.

Поставщики сырья и материалов, могут незамедлительно информировать КИС о переносах сроках поставки тех или иных комплектующих, для того, чтобы система успела переформировать производственный план и/или запустить в производство имеющиеся запасы комплектующих.

Поддержка продукции на протяжении всего жизненного цикла

Через сервер виртуального представительства, потребители продукции могут получать любую техническую и информационную поддержку, заполнять заказы на гарантийное и постгарантийное обслуживание, вносить свои предложения и замечания, участвовать в дискуссиях, касающихся обсуждения тех или иных изделий. Кроме того, может быть организована оперативная "горячая" линия поддержки всех потребителей, как по электронной почте, так и online . На основании анализа предложений и материалов дискуссии могут быть оперативно сделаны выводы о выпуске новых видов продукции или смене конфигурации существующих

Налаживание тесного взаимодействия с сетью распределения, контроль всей цепочки поставок

Одним из самых тривиальных и действенных методов конкурентной борьбы является снижение конечной цены продукции за счет снижения различных элементов спектра затрат, влияющих на ее себестоимость. Однако, если предприятие даже и добилось существенного уменьшения затрат, очень часто случается, что до конечного потребителя продукция доходит по прежней цене, а весь выигрыш в рентабельности распределяется замысловатым образом по цепочке распределения. Тем самым, обороты предприятия изготовителя не растут, а адекватной информации о том, почему это происходит, у руководства нет. Исходя из этого, очень важно налаживать регулярный обмен информацией между всеми участниками логистической цепочки, чтобы четко представлять себе все ее элементы, где возникает дополнительное ценообразование. С помощью виртуальных представительств, может быть налажен оперативный мониторинг движения товара по всей цепочке поставок, и проанализирована эффективность данного канала распределения в целом.

Применения Internet-технологий требует обеспечение информационной безопасности. Для предотвращения несанкционированного доступа к документам встроенных средств недостаточно. Поэтому в состав КИС обязательно должны войти специальные программно-аппаратные средства защиты.

Они, в частности, позволяют шифровать данные, поддерживают электронную цифровую подпись и могут проводить на ее основе аутентификацию пользователей. Все это обеспечивает достоверность и целостность информации внутри КИС. Эффективность программных средств защиты может быть существенно повышена за счет применения аппаратных и биометрических средств: аппаратных ключей, смарт-карт, устройств распознавания отпечатков пальцев, сетчатки глаза, голоса, лица, оцифрованной подписи.

В дополнение к ним на стыке сегментов локальных сетей и Internet желательна установка брандмауэров - средств контроля за внешними (входящими и исходящими) соединениями. Они позволяют отслеживать передачу информации практически всех известных на сегодняшний день протоколов Internet.

17.03.1996 Павел Храмцов

Пользователям Internet хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek и др. - без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos. Архитектура современных ИПС для WWW Информационные ресурсы и их представление в ИПС Индекс поиска Информационно-поисковый язык системы Интерфейс системы Заключение Литература Пользователям Internet уже хорошо известны названия таких сервисов

Информационно-поисковые системы появились на свет достаточно давно. Теории и практике построения таких систем посвящено множество статей, основная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечественных источников следует выделить научно-технический сборник "Научно-техническая информация. Серия 2", который выходит до сих пор. На русском языке издана так же и "библия" по разработке ИПС - "Динамические библиотечно-информационные системы" Ж. Солтона , в которой рассмотрены основные принципы построения информационно-поисковых систем и моделирования процессов их функционирования. Таким образом, нельзя сказать, что с появлением Internet и бурным вхождением его в практику информационного обеспечения появилось нечто принципиально новое, чего не было раньше. Если быть точным, то ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекстовая модель World Wide Web еще не решают проблему поиска информации в больших объемах разнородных документов. И на сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам.

При использовании иерархической модели Gopher приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Учитывая анархичность Internet и огромное количество всевозможных интересов у пользователей Сети, понятно, что кому-то может и не повезти и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала "Communication of the ACM" среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital , главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например , приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы (рис.).

Рис. Типовая схема информационно-поисковой системы.

Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

Информационные ресурсы и их представление в ИПС

Как видно из рисунка, документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet и статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных: тексты, графическая и аудиоинформация и вообще все, что имеется в указанных хранилищах. Естественно возникает вопрос - как информационно-поисковая система должна со всем этим работать?

В традиционных системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель , в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Internet .

Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска и модель поиска в нечетких множествах . Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результаты которых отражены в работах . Таким образом, первая задача, которую должна решить ИПС, - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы, и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.

Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОД для документов Gopher. В WWW ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики . Разработка роботов - это довольно нетривиальная задача; существует опасность зацикливания робота или его попадания на виртуальные страницы. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, что за термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно используют для индексирования следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах . Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все термины из перечисленных элементов документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не могут быть употреблены для индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с набором различных словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое понятие, как вес термина . Документ обычно индексируется через 40 - 100 наиболее "тяжелых" терминов.

Индекс поиска

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы , для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентификатор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле - это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным - хеширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью. Для того чтобы убедиться в этом, достаточно почитать материалы OpenText .

Информационно-поисковый язык системы

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно ".

Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Интерфейс системы

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На схеме из рисунка указаны сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры коррекции запросов по релевантности . Релевантность - это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле , где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.

Заключение

В обзорной статье были рассмотрены основные элементы информационно-поисковых систем и принципы их построения. Сегодня ИПС являются наиболее мощным механизмом поиска сетевых информационных ресурсов Internet. К сожалению, в российском секторе Internet пока не наблюдается активного изучения этой проблемы за исключением, может быть, проекта LIBWEB, финансируемого РФФИ и системы "Паук", которая работает недостаточно надежно. Наибольшим опытом разработки такого сорта систем безусловно обладает ВИНИТИ, но здесь работа сосредоточена пока на размещении своих собственных ресурсов в Сети, что принципиально отличается от информационно-поисковых систем Internet типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось бы, что такая работа могла быть сосредоточена в рамках таких проектов, как Россия On-line компании SovamTeleport, но здесь мы пока наблюдаются ссылки на чужие поисковые машины. Развитие ИПС для Internet в США началось два года назад, учитывая отечественные реалии и темпы развития технологий Сети в России, можно надеяться, что у нас еще все впереди.

Литература

1. Дж. Солтон. Динамические библиотечно-информационные системы. Мир, Москва, 1979.
2. Frank G. Halasz. Reflection notecards: seven issues for the next generation of hypermedia systems. Communication of the acm, V31, N7, 1988, p.836-852.
3. Tim Berners-Lee. World Wide Web: Proposal for HyperText Project. 1990.
4. Alta Vista . Digital Equipment Corporation, 1996.
5. Brain Pinkerton. Finding What People Want: Experiences with the WebCrawler .
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985,p.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Web Agent Related Research at the Center for Machine Translation .
9. Ian R.Winship. World Wide Web searching tools -an evaluation . VINE (99).
10. G.Salton, C.Buckley. Term-Weighting Approachs in Automatic Text Retrieval. Information Processing & Management, 24(5), pp. 513-523, 1988.
11. Open Text Corporation Releases Industry"s Highest Performance Text Retrieval System.

Павел Храмцов ([email protected]) - независимый эксперт, (Москва).

Создание информационных систем (часто говорят служб) связано
с разработкой новых протоколов обмена данными. В настоящее время создано много сетевых протоколов, среди которых можно отметить следующие основные:

1) HTTP (Hyper Text Transfer Protocol) – протокол передачи гипертекста;

2) FTP (File Transfer Protocol) – протокол передачи файлов;

3) SMTP (Simple Mail Transfer Protocol) – простой протокол пере-сылки электронной почты;

4) NNTP (Network News Transfer Protocol) – протокол передачи но-востей;

5) TELNET (TErminaL over NETwork Protocol) – протокол удаленного доступа, т.е. дистанционного исполнения команд на удаленном компь-ютере;

6) Gopher – протокол поиска серверов.

В зависимости от протокола обмена данными различают следующие основные информационные системы (службы), реализованные в сети «Интернет»:

1) WWW – гипертекстовая информационная система;

2) Е- мail – электронная почта;

3) BBS (Bulletin Board System) – электронные доски объявлений;

4) Usenet – система телеконференций;

5) FTP – система пересылки файлов;

6) IRC , ISQ – системы прямого общения пользователей;

7) TELNET – система удаленного доступа;

8) Gopher – система поиска серверов;

9) WAIS (Wide Area Information System) – система поиска баз данных.

Гипертекстовая информационная система WWW

Самым удобным, интересным и эффективным ресурсом Интернета является в настоящее время гипертекстовая информационная система WWW (World Wide Web) – «всемирная паутина».

WWW – это гипертекстовая информационная система, содер-жащая связанные между собой документы, которые могут созда-ваться в различных программных средах и находиться в любом из компьютеров сети «Интернет».

Интернет и «всемирная паутина WWW» – не одно и то же. Интернет включает в себя компьютеры, линии связи, программное обеспечение и данные, находящиеся в компьютерах сети. «Всемирная паутина WWW» – это только одна из возможностей Интернета.

WWW – информационная система, реализованная в рамках глобаль-ной сети «Интернет».

Гипертекстовые документы, содержащиеся во «всемирной паутине WWW», называются Web-документами. Гипер текстовый документ – это текстовый документ, содержащий гиперссылки . Гиперссылки позво-ляют указать:

1) другие части данного документа;

2) другие документы;

3) объекты нетекстового формата (звук, графику, видео).

В качестве гиперссылок могут выступать: текст и графические изображения. Щелчок по гиперссылке приводит к переходу к тому документу (или его части), на который указывает гиперссылка.

Web-документы бывают двух видов: Web-страницы и Web-сайты.

Web-страница – это основная единица передаваемой по «всемирной паутине» информации. Web-страница может иметь любую «длину». Это значит, что часто на экране монитора нельзя целиком увидеть всю страницу. Web-страница хранится в виде отдельного файла с расширением.html или.htm. Файлы Web-страниц хранятся на специальных компь-ютерах, называемых Web-серверами. Web-сервером может служить любой подключенный к сети Интернет компьютер, на котором установлено специальное программное обеспечение, такое как Microsoft Internet Information Services или Apache . Web-сервер должен быть постоянно подключен к сети Интернет или большую часть суток.

Группа тематически взаимосвязанных Web-страниц называется Web-сайтом или Web-узлом . Сайт может содержать произвольное коли-чество Web-страниц. Доступ на каждый сайт всегда производится через главную (часто говорят домашнюю или стартовую) страницу.

Сайты, обеспечивающие удобный доступ к разным ресурсам Интернета (электронной почте и др.), называются порталами. Например, TUT.BY – белорусский портал, MAIL.RU – российский портал.

URL-адреса и браузеры

Каждая Web-страница представляет собой файл, находящийся на одном из дисковых устройств Web-сервера. Следовательно, чтобы по-лучить доступ к какой-либо странице, необходимо знать адрес файла, содержащего эту страницу. Для этих целей используются так называемые унифицированные указатели ресурсов или URL-адреса (Uniform Resource Locator – универсальный указатель ресурсов).

URL-адрес представляет собой стандартизованную строку симво-лов, указывающую местонахождение документа в сети Интернет .

Структура URL-адреса имеет вид.

Интернет привычен типичному жителю современного города, но данному положению дел предшествовал довольно долгий и сложный путь становления и развития технологий, благодаря которым оказалось возможным обеспечить развертывание Всемирной паутины в мировом масштабе. Что представляют собой данные решения? Как развивалась в России?

Определение интернета

Интернет как глобальная информационная система представляет собой компьютерную сеть, узлы которой распределены по всему миру, и при этом связаны логически благодаря использованию особого адресного пространства. Функционирование данной глобальной сети возможно прежде всего благодаря унификации стандартов связи: так, в качестве главного используется TCP/IP, реализуемый одинаково на любых компьютерах, объединенных во Всемирную сеть.

В современном виде интернет как глобальная информационная система существует порядка 30 лет. Но к моменту его появления инфраструктура, на базе которой разворачивалась Всемирная сеть, была достаточно развитой во многих странах мира.

Будет полезно рассмотреть то, каким образом она выстраивалась в тех или иных государствах. Примечательно, что история развития инфраструктуры, на базе которой начал выстраиваться современный интернет, практически совпадает с периодом противостояния двух крупнейших мировых технологических систем — западной и советской. Конечно, это очень упрощенная классификация, так как и в рамках первой системы, и во второй активно развивались региональные, национальные технологии, весьма различающиеся в ряде случаев.

В конечном итоге основой для развития современного интернета стала все же западная модель — однако к моменту ее внедрения в СССР советские специалисты уже имели опыт развертывания компьютерных сетей, в некоторой степени схожих с западной моделью интернета. Рассмотрим, таким образом, то, как развивалась Всемирная сеть в рамках западной технологической системы, а также то, когда появился интернет в России исходя из специфики развития национальной инфраструктуры компьютерных сетей.

История интернета в западных странах

В конце 50-х годов, в один из самых сложных периодов холодной войны, правительство США поставило перед американскими учеными задачу: создать инфраструктуру передачи данных, которая могла бы функционировать даже в условиях глобального вооруженного конфликта. Ученые предложили концепцию подобной системы — проект получил название ARPANET.

В 1969 году компьютеры нескольких крупных американских университетов были объединены в сеть по схемам, которые были разработаны учеными в рамках указанного проекта. Впоследствии опыт, полученный исследователями, был перенят многими другими заинтересованными структурами: это привело к разрастанию компьютерных сетей, функционирующих по стандартам ARPANET, в национальном масштабе.

Появлялись и специализированные программы для данной инфраструктуры: например, уже в 1971 году для ARPANET было написано ПО, предназначенное для отправки сообщений. Фактически речь идет о появлении первой электронной почты — основные функции интернета сегодня до сих пор включают организацию обмена данными в соответствующем формате. В 70-х годах электронная почта была, как считают исследователи, и вовсе самой востребованной функцией разворачиваемой в рамках американского проекта.

Постепенно масштабы ARPANET вышли за пределы США: к сети начали подключаться различные европейские организации. Связь с американской инфраструктурой при этом организовывалась через телефонный кабель, проложенный через Атлантический океан.

Фактически с момента подключения европейцев к ARPANET, в частности в 1973 году, обмен данными с сетью начали организовывать британские и норвежские организации, проект стал международным. Однако коммуникации между компьютерами, расположенными в разных частях планеты, не всегда были стабильны по причине отсутствия общепринятых стандартов обмена данными.

Соответствующая проблема была устранена после внедрения универсального протокола TCP/IP. Его до сих пор используют практически все интернет-ресурсы.

К моменту внедрения TCP-IP еще американо-европейская сеть была, скорее, межрегиональной, чем глобальной — несмотря на то, что в 1983 году за ней закрепилось название «Интернет». Но дальнейшее ее развертывание было стремительным. Данному процессу способствовало изобретение в 1984 году стандарта DNS — на его основе стала функционировать служба доменных имен. Можно отметить, что в том же году у проекта ARPANET появился серьезный конкурент в лице сети NSFNet, объединявшей компьютеры различных университетов.

NSFNet как инфраструктурная основа интернета

Инфраструктура NSFNet позволяла обеспечивать существенно более высокую динамику Росла она при этом самыми активными темпами. Постепенно «Интернетом» стала именоваться как раз-таки разрастающаяся сеть NSFNet. В 1988 году ее ресурсы стало возможно использовать для организации мгновенной передачи сообщений в формате чата — по протоколу IRC.

В 1989 году британский ученый Тим Бернерс-Ли разработал концепцию глобальной компьютерной сети, Всемирной паутины. В течение 2 последующих лет он создает протокол передачи гипертекста — HTTP, язык HTML, а также идентификаторы URL. Как считают многие исследователи, именно благодаря изобретениям Тима Бернерса-Ли интернет как глобальная информационная система начал стремительное шествие по планете.

Указанные стандарты, а также возможности универсального протокола TCP/IP позволили масштабировать Всемирную паутину в глобальном масштабе гигантскими темпами. В начале 90-х годов сформировались основные возможности интернета, доступные современным пользователям: получение доступа к веб-страницам через браузеры, размещение информации на них, прием и передача файлов. Разумеется, остались востребованными сервисы e-mail, IRC.

Совершенствовал ся язык гипертекста, технологии управления сайтами. В качестве инфраструктурной основы интернета долгое время использовались серверы NSFNet, но в 1995 году данная функция была передана сетевым провайдерам. В 1996 году общераспространенным стал стандарт WWW, посредством которого было возможно передавать практически любые данные с использованием каналов интернета. Но свою актуальность сохранил и стандарт FTP. И сегодня многие интернет-ресурсы продолжают его использовать в целях организации эффективного обмена файлами.

В привычном нам виде Всемирная паутина в целом сформировалась к началу 2000-х годов. По мере увеличения скорости доступа пользователей к онлайн-ресурсам за счет таких технологий, как DSL, оптоволокно, 3G, 4G, особенно популярными становились ресурсы для размещения видеоконтента, такие как YouTube, игровые порталы, облачные сервисы. Через интернет организуется не только обмен данными между людьми, но и между различными устройствами — от простых бытовых вещей до крупной промышленной инфраструктуры. Существует большое количество научных концепций относительно того, как будет развиваться интернет как глобальная информационная система в будущем. Они очень разные, и во многом их реализация зависит от хода развития собственно компьютерных технологий.

История интернета в России

Изучим теперь то, когда появился интернет в России. С западной моделью развития онлайновых коммуникаций мы ознакомились, сейчас нам важно понять, каким образом внедрялась соответствующая инфраструктура в нашей стране.

Как мы отметили в начале статьи, в течение долгого времени информационные технологии в Советском Союзе развивались параллельно с западными. Надо отметить, что в значительной степени их развитие стало возможным благодаря появлению у СССР ресурсов для воспроизводства западной микропроцессорной базы, которая начала активно внедряться на различных уровнях управления коммуникациями в 60-70-х годах, хотя до этого у советских ученых имелись весьма прогрессивные собственные разработки. Но так или иначе, суть интернета в западной интерпретации могла существенно отличаться от концепций развития компьютерных сетей в СССР.

Еще в 1950-х годах советские ученые формировали компьютерные сети в рамках проектов по созданию инфраструктуры противоракетной обороны. Данные сети базировались на советских ЭВМ типа «Диана-I», «Диана-II» и других решениях. Обмен информацией между соответствующими ЭВМ осуществлялся в целях вычисления траектории полета противоракет.

В 1970-х годах компьютерные сети активно задействовались и в гражданской сфере — в частности как инфраструктура в рамках систем типа АСУ-Экспресс и «Сирена», позволяющих резервировать, соответственно, железнодорожные и авиабилеты. В 1974 году была изобретена компьютерная кодировка КОИ-8.

В первой половине 80-х институт ВНИИПАС начал осуществлять, используя компьютеры, удаленный обмен данными с зарубежными организациями. В целом в 80-х годах развертывание советских сетевых компьютерных систем шло достаточно активно, во многом благодаря появлению в СССР локализованных версий операционной системы UNIX (на принципах которой функционируют современные ОС Linux и, в свою очередь базирующиеся на ней ОС Android, которые можно отнести к самым распространенным в мире, если брать рынок мобильных устройств). Фактически к 1990 году в СССР была сформирована вся необходимая инфраструктура для последующего объединения советских компьютерных сетей и Интернета, функционировавшего на основе ресурсов NSFNet.

«РЕЛКОМ» — национальная компьютерная сеть

Появляется всесоюзная компьютерная сеть «РЕЛКОМ», в которой задействуются протоколы и технологии Интернета. Связь между компьютерами обеспечивается посредством телефонных каналов. Важнейшую роль в выстраивании данной инфраструктуры играли разработчики кооператива «Демос», осуществлявшего разработку различных программных решений.

В августе 1990 года исследователи из установили связь с Университетом Хельсинки в целях обеспечения функционирования каналов передачи почтовых сообщений в рамках, собственно, Интернета. В сентябре 1990 года специалисты «РЕЛКОМ», а также компании «Демос» зарегистрировали домен Советского Союза.Su, который до сих пор используется — и есть версии, что его популярность будет расти.

В СССР наряду с «РЕЛКОМ» развиваются пользовательские сети ФИДО. К 1991 году для советских пользователей, подключающихся к «РЕЛКОМ», становятся доступными ресурсы с доменной адресацией — как в современном интернете. В 1992 году уже в Российской Федерации появляются первые провайдеры.

Использование международного стандарта TCP/IP в России становится повсеместным. В апреле 1994 года был зарегистрирован национальный домен.Ru. С тех пор интернет в России развивался в целом так же, как и в западных странах. При этом российские специалисты также внесли значимый вклад в развитие Всемирной паутины, в частности на уровне разработки антивирусных, серверных решений.

Итак, мы изучили то, как работает сеть Интернет, особенности развития соответствующих коммуникационных технологий в России и на Западе. Изучим теперь, что представляет собой Всемирная паутина сегодня.

Современный интернет: провайдеры

Доступ в интернет для пользователей предоставляют провайдеры. Изучим специфику решаемых ими задач.

Кто такой провайдер интернета? В первые годы развития Всемирной паутины таковым считалась компания, предоставляющая коммутационные сервисы для обеспечения связи пользователя и ближайших серверов интернета. Сейчас провайдер — поставщик высокотехнологичных коммуникационных ресурсов, обеспечивающих функционирование в региональном, а иногда и в национальном масштабе. Компании, предоставляющие соответствующие услуги, могут быть как очень крупными, международными, так и локальными, которые могут работать в масштабах одного города.

Есть большое количество технологий, посредством которых провайдеры могут оказывать свои услуги: оптические и телефонные каналы, спутниковый, сотовый интернет. Каждый из них имеет свои преимущества и недостатки. От того, какие именно каналы используются, в значительной степени зависят цены на интернет, формируемые провайдером. Как правило, самыми доступными по стоимости для пользователя являются проводные каналы, немного дороже — сотовые, самые дорогие — спутниковые. При этом оплата за услуги провайдера может осуществляться:

в формате абонентской платы;
за трафик;
в ряде случаев — за время доступа к Сети.

Роль интернета в современном мире заключается прежде всего в предоставлении пользователям возможности посещать различные сайты.

Современный интернет: сайты

Размещенный в интернете сайт — это совокупность файлов (текстовых, графических, видео- и аудиозаписей, содержащих иные мультимедийные компоненты), доступ к которым осуществляется посредством таких протоколов как WWW, HTTP, FTP и иных, что являются оптимальными в том или ином случае. Разумеется, данные файлы определенным образом систематизированы для облегчения восприятия информации пользователем.

Основной системный элемент сайта — веб-страница. В большинстве случаев она составляется на языке HTML, часто с применением различных скриптов. Сайт может иметь разную тематику. Это может быть интернет-газета, блог, видеохостинг, спортивный, развлекательный портал — есть огромное количество видов ресурсов, которые могут размещаться во Всемирной паутине.

Современный интернет: радио и телевидение

Выше мы отметили, что по мере развития коммуникационных технологий и увеличения скорости передачи данных, набирают популярность различные видеоресурсы в интернете. Таковым можно считать, к примеру, интернет-телевидение, а также онлайн-радио. Данные технологии позволяют осуществить трансляцию теле- и радиопередач на специальных сайтах с задействованием особых технологий.

Примечательно, что многие из современных сервисов позволяют организовать собственное вещание любому желающему пользователю. Интернет-телевидение с учетом распространенности высокоскоростных линий — это уже не привилегия, а обычный ресурс. Который вместе с тем может потребовать от пользователей значительных вложений (трудовых, финансовых) в его продвижение и развитие. То же можно сказать и о сайтах. Интернет-газета или развлекательный портал могут быть зарегистрированы любым желающим пользователем, но превращение их в узнаваемый бренд — задача непростая.

Современный интернет: мобильные приложения

Одним из самых выраженных трендов развития современного интернета можно считать повсеместное распространение мобильных приложений — специального ПО, запускаемого со смартфонов или планшетов. Функционально данные приложения во многих случаях могут быть аналогичны веб-страницам. Но есть и специализированные решения соответствующего типа, например приспособленные для того, чтобы организовать защищенный доступ в какой-либо персональный аккаунт, например банковский. Интернет сегодня — это коммуникационная среда, в рамках которой можно передавать практически любые цифровые данные, и во многих случаях это требует применения особых протоколов и технологий, в том числе реализуемых в мобильных приложениях.

Резюме

Итак, мы изучили, в чем заключается концепция Всемирной паутины, а также основные технологии, которые задействуются в целях обеспечения ее функционирования. Суть интернета — в предоставлении пользователям со всего мира стабильного недорогого доступа к различным типам полезной информации, файлам, мультимедийному контенту, а также к ресурсам, посредством которых люди могут общаться между собой и обмениваться различными данными. Подобная возможность сегодня уже привычна жителям, наверное, всех стран мира, хотя ранее она была доступна очень немногим людям, во многих случаях ею можно было пользоваться только при наличии высокой квалификации в области информационных технологий.

Кто такой провайдер интернета, к какому из них можно подключиться и по какой цене — вопросы, на которые почти наверняка знает типичный житель современного мегаполиса. Всемирная паутина продолжает развиваться: появляются новые сервисы, технологии, концепции организации общения пользователей, совершенствуются устройства для передачи данных. То, каким образом будет идти технический прогресс, то, как будет развиваться мировая экономика, определит векторы для дальнейшего развития интернета.