Интернет: основная терминология

Интернет (inter - меж- + net - сеть) - сеть, объединяющая много компьютерных сетей.

История появления и развития Интернета типична для ХХ века и может служить яркой иллюстрацией к тому, как в эти годы переплетались интересы военных и ученых и какие неожиданно мирные и общественно значимые результаты получались при решении весьма специфических проблем.

Началось все с заказа Министерства обороны США на создание системы компьютеризованной связи, устойчивой в условиях возможного ядерного конфликта. В 1962 г. впервые прозвучала мысль, что новая коммуникационная система должна представлять собою не цепочку приемопередающих устройств, а двумерную самоуправляемую сеть, причем состоящую из равноправных компьютеров. Эта сеть не содержала бы командных пунктов и сохраняла бы свою работоспособность даже при утере отдельных ее частей. Сообщения по сети должны были бы пересылаться небольшими фрагментами ("пакетами"); каждый пакет добирался бы к месту назначения самостоятельно и своим путем, наиболее удобным в конкретный момент. Так были провозглашены идеи всеобщего компьютерного и информационного равенства.

Второй поворотный пункт в истории датируется концом 60-х гг., когда несколько университетов США приступили к реализации этих идей, объединив свою мощную технику в общую компьютерную сеть. Исследователи, подавая команды со своего терминала, управляли вычислительными процессами на удаленных компьютерах - так возник первый метод работы в сети, получивший название телнет (telnet). Для переноса файлов с одного компьютера на другой был разработан протокол FTP, который до сих пор используется при извлечении информации из многочисленных общедоступных ftp-архивов. (Протокол - это свод правил, в соответствии с которыми передаются и принимаются данные). Обмен индивидуальной корреспонденцией неожиданно быстро вырос в целую систему электронной почты (e-mail). Успех первой компьютерной сети был настолько очевиден, что, поначалу в США, потом в других странах пошли процессы формирования новых сетей, их объединения - наступила эпоха Интернета.

Компьютеры совершенствовались, научились обрабатывать не только числа, а и тексты, в результате Интернет стал приобретать черты огромной библиотеки. Но он бы оставался исключительно научным инструментом, если бы в начале 90-х годов английский ученый Т.Бернерс-Ли не разработал новый алгоритм обмена информацией - протокол HTTP (HyperText Transfer Protocol) - и, на этой основе, новую - гипертекстовую - форму функционирования Сети - World Wide Web ("Всемирную Паутину"), или WWW, или просто Web.

Гипертекстовая структура документа не является изобретением компьютерной эры. Конечно же, абсолютное большинство нашей печатной литературы построено по линейному принципу: прочитав первое предложение, мы последовательно переходим ко второму предложению, затем к третьему и т.д. Но, например, в энциклопедии мы встречаемся и с иной методикой объединения тематически зависимых текстов: здесь термины, набранные курсивом, логически связывают статьи, расположенные  в разных местах тома или в нескольких томах. Такое слово, которое является органической частью одного информационного блока и направляет читателя к иному информационному блоку, дает начало гиперсвязи (hyperlink, или просто link) между документами. Документ, который содержит в своем теле гиперсвязи, или ссылки, называется гипертекстовым (hypertext). Таким образом, энциклопедия - это печатный гипертекст. World Wide Web - высшая форма существования гипертекста: в WWW сотни миллионов текстовых, графических, аудио-, видео- и иных файлов, находящихся на разных компьютерах, объединены гиперсвязями в единое информационное поле.

В настоящее время Интернет охватывает практически весь земной шар; информационные потоки в нем не знают государственных границ и лимитируются лишь пропускной способностью коммуникационных линий. С точки зрения методов переноса данных, Интернет - это совокупность нескольких систем; предметом нашего рассмотрения будет одна из них, самая интересная - World Wide Web.

Если оставить за рамками обсуждения аппаратуру, координирующую работу сети, остальная часть WWW имеет двухуровневую структуру: в узлах находятся веб-серверы - компьютеры, на которых хранится информация,- а к ним тем или иным способом присоединены персональные компьютеры пользователей. Любой пользователь может войти в контакт с любым веб-сервером - если, конечно, умеет ориентироваться в сети.

Каждый сервер имеет свой числовой IP-адрес (например, 195.50.4.38), по которому компьютеры находят друг друга. Человеку же более удобна буквенная запись, поэтому серверу, кроме IP-адреса, приписывается уникальное название - доменное имя.

Доменное имя состоит из нескольких частей (минимум - двух), объединенных точками. Веб-сервер БГУ, например, имеет имя www.bsu.by, а компании Microsoft - www.microsoft.com. Обычно - но не обязательно - имя веб-сервера начинается с букв www, затем указывается полное или сокращенное название учреждения - владельца сервера. Последняя часть имени (в наших примерах .by и .com) называется суффиксом, или доменом высшего уровня. Двухбуквенный суффикс - это код страны, в которой зарегистрирован сервер (.by - Беларусь, .uk - Великобритания, .de - Германия, .ru - Россия и т.д.). Соединенные Штаты почти не используют свой географический суффикс .us, но вместо него записывают трехбуквенный функциональный: .com означает коммерческое учреждение, .gov - правительственное, .edu - образовательное, .org - иное некоммерческое, .net - связанное с координацией работы всей сети. (Отметим, что сервер, зарегистрированный в какой-либо стране, реально может находиться в совершенно иной точке земного шара. Причины бывают разные, обсуждать их здесь не будем, только приведем, хотя и далекую, но аналогию: немалая часть мирового торгового флота ходит не под своим, а под панамским флагом).

Все чаще мы можем встретить и иные суффиксы, такие как .biz (сфера бизнеса), .info (информационное обслуживание), .museum (музеи), .eu (относящееся к Евросоюзу).

Весь информационный массив, находящийся на сервере и доступный внешним пользователям, называется сайтом (site). Сайтами же называют и автономные тематические разделы; так, например, на типичном университетском сайте обычно размещаются сайты факультетов, лабораторий, научных коллективов и даже отдельных сотрудников.

Веб-сервер хранит информацию в файлах и базах данных; по запросу требуемые сведения копируются и пересылаются на компьютер пользователя. Документ, который можно получить в ходе одного обращения к серверу, называется веб-страницей (Web page), или просто страницей. Обычно размер страницы соответствует такому объему материала, который способен разместиться на 1-3 экранах монитора. Страница не обязательно состоит только из текста; она может включать в себя графические, аудио-, видеофрагменты и даже исполняемые программные модули.

Каждая веб-страница имеет свой идентификатор - URL (Uniform Resource Locator). Это ее адрес в сети; в некоторой степени URL выполняет функции библиографического описания, применяющегося в печатной литературе.

Какова может быть структура URL  в простейших случаях, разберем на следующем примере:

http://www.abc.chemistry.bsu.by/webpage/index.html

Здесь первая группа символов, отделенная двоеточием и двумя косыми чертами (http://), означает, что с данным документом компьютер должен работать по протоколу HTTP. Это стандартный протокол, чаще всего встречающийся в World Wide Web.

Вторая группа (www.abc.chemistry.bsu.by) - доменное имя веб-сервера, на котором находится данная порция информации.

Третья группа (/webpage/index.html) указывает, в каком именно каталоге, файле хранится документ на сервере.

Для получения требуемой информации пользователь в идеальном случае должен знать URL конкретной веб-страницы. World Wide Web - система огромная и к тому же очень динамичная, поэтому полного перечня абсолютно всех ресурсов WWW нет и быть не может в принципе. Тем не менее, есть способы ориентации и в этом океане материала.

Проблема решается сравнительно просто, если пользователю известно имя сервера, на котором находятся нужные сведения. Дело в том, что каждый правильно организованный сайт имеет так называемую Главную страницу (Home Page), от которой разрастается система гиперсвязей. Если сравнить сумму информационных ресурсов сервера с книгой, то Главная страница была бы аналогом титульному листу, оглавлению и, нередко, аннотации. Как правило, URL Главной страницы имеет вид http://доменное_имя_сервера/. Например, поиск сведений о химическом факультете Белгосуниверситета логично было бы начинать с Главной страницы сервера БГУ, находящейся по адресу http://www.bsu.by/ .

А если мы не знаем имя сервера ? А если нас интересует некая информация, но мы даже не предполагаем, где она находится ? Здесь на помощь могут прийти поисковые системы, тематические каталоги и метасайты.

В Интернет есть организации, которые постоянно сканируют веб-ресурсы специальными программами ("роботами", или "пауками") и в результате создают базы данных - списки обнаруженных сайтов и веб-страниц. Любой пользователь может обратиться к такой базе данных с запросом. Если в поисковом бланке указать слова, которые должны присутствовать в нужном документе, то поисковая система (search engine) проанализирует имеющийся у нее материал и сообщит адреса подходящих сайтов и страниц.

Существует много поисковых систем - и универсальных, и специализированных; каждая характеризуется своими плюсами и минусами, связанными с объемом, тематикой, глубиной индексирования и т.д. В настоящее время наибольшую базу данных имеет поисковая система Google (http://www.google.com/) - более 10 миллиардов ссылок на документы, написанные на разных языках. WWW Беларуси проиндексирован, в частности, в TUT.by (http://www.tut.by/) и All.by (http://all.by/), а русскоязычные ресурсы World Wide Web - в Яндексе (http://www.yandex.ru/). Примером поисковой системы, специализирующейся на научной информации, является Scirus (http://www.scirus.com).

Базы данных поисковых систем создаются, в основном, автоматически, а вот тематические каталоги (Directories) составляются человеком. Самый популярный универсальный тематический каталог - это Yahoo! (http://dir.yahoo.com/). Веб-страницы и сайты в Yahoo! не просто рассортированы по тематическим разделам и подразделам, но и снабжены краткими содержательными аннотациями. Подобным образом построен каталоги ресурсов Беларуси TUT.by и Акавiта.

Следует отметить, что у больших каталогов есть свои собственные поисковые программы, а часть материала поисковой системы может быть скомпонована в форме тематического каталога, поэтому трудно провести четкую линию раздела между обоими средствами сетевой навигации.

Небольшие по размеру сайты, содержащие только ссылки на внешние веб-страницы, называются метасайтами (metasite).  Те из них, которые имеют узкую специализацию, оказываются особенно полезными при поиске информации по определенной тематике. В качестве примера рекомендуем ознакомиться с метасайтом ресурсов по термодинамике.

И поисковая система, и тематический каталог, и метасайт - это лишь отправные точки в трудоемком, но увлекательном процессе информационного поиска. Передвигаясь далее по гиперсвязям - "листая" страницы (browsing), пользователь анализирует обнаруженный материал, оценивает его достоверность и выбирает рациональный путь к цели работы. На этом этапе совершенно не обязательно знать адреса извлекаемых документов - щелчок (click) по ссылке, и  компьютерная программа - браузер (browser) - доставит требуемую страницу.  (Отметим, что самые популярные браузеры - Microsoft Internet Explorer, Firefox, Opera - функционально близки; MS Internet Explorer у нас более известен, поскольку входит в состав стандартного инсталляционного пакета операционной системы Windows).

  По материалу статьи:  А.А. Рагойша. Интернет: структура, проблемы использования в школе // Хiмiя: праблемы выкладання.- №4, 2001.- C. 20-29.

ABC Chemistry :: Азбука веб-поиска для химиков