d9e5a92d

Средства архивации и восстановления информации

Груп.
слов
( ) ( ) ( ) ( ) не
используется
Расстоя
ние
между
ключ.
словами
/(n m) - в словах, /( n m) - в предложениях (назад, + вперед) в расшир.
поиске -
выдача док.
только с
миним.
расстоянием
между
словами
сл2(...), с2(...), w2(...), [2,...]
(- назад, +
вперед)
NEAR
(только при сложном
поиске в пределах 10
слов)
не
используется
Поиск
фразы
!! !! нет !! !! ! !
?
!! !! !! !! ! !
? 5 - -
Замена
части
слова
нет *, ? (замена
любого
символа)
* (только в
конце слова)
* нет
Язык
док-та
выбор: любой,
кириллица,
латиница
выбор:
любой,
русский,
английский
выбор:
русский,
английский
выбор из 25 языков выбор из 25 языков
Поиск
по полям
заголовки,
ссылки, мета
тэги, файлы и подписи
картинок, в
текстах ссылок, в
названиях
скриптов, объектов и
апплетов., поиск
похожих док.,
сужение поиска на выбранные
сайты
заголовки,
адреса,
названия док. (только при расшир. поиске), поиск
похожих
доку.
заголовки,
ссылки, метатэги, файлы и подписи картинок,
адреса,
тексты
ссылок,
сужение
поиска на
выбранные
сайты
заголовки,
ссылки, метатэги, файлы и подписи картинок,
адреса,
тексты
ссылок,
названия
скрип-тов, объектов и
апплетов
ссылки и
поиск похожих
документов,
сужение
поиска на
выбранные
сайты
Морфо
логия
все склонения и
спряжения по
умолч.
! (точн.
словоформа)
# (все формы слов),
@
(однокоренн ые слова)
! (указание
нормальной
формы)
нет нет
Поиск по
датам
есть есть есть есть нет
Возможности расширенной формы, качество помощи
Расшир.
форма
поиска
словарный фильтр, дата,
сайт, ссылка,
изображение, специальный объект
документ, дата, режимы AND, OR,
расстояние между
словами,
усечение
слова
документ,
заго-ловок, изображение, дата,
5 разделов
(сайты, МР3, картинки, това-ры, новости)
булевский вопросник, дата, сайт,
ссылка, изображение, текст и пр.
ограничения по сайту,
языку,
ссылкам


Вывод
списка
ссылок
задание числа
результатов на
странице, всех элементов формы вывода
задание числа
результатов на странице, формы вывода
задание
формы
выдачи
задание числа
результатов на странице,
всех
элементов
формы
вывода
задание числа
результатов на странице, всех
элементов формы вывода
Ранжиро
вание
рез-тов
поиска
сортировка по
релевантности
или по дате
сортировка
по
релевантност
и или дате
по популяр
ности сайта
по терминам, указанным в SORT по числу
ссылок на
страницу с
других страниц (цитируемость )
Поиск в
рез-тах
поиска
Да-
С помощью
установки
флажка
Да-
С помощью переключател я области
поиска
Да-
С помощью уст. флажка
Да.
С помощью SORT BY
нет
Качество
раздела
помощи
детальное
описание языка запросов, таблица синтаксиса и
раздел по поиску в категориях
краткий раздел HELP подробный справ. по
языку
запросов,
много
русских синони-мов для основ
ных
операторов
самый
большой из рассмотренных в этой таблице учебник online по языку запросов
очень
ограниченный раздел HELP
Семейн.
фильтр
есть нет нет есть нет

Перспективы развития средств поиска в Интернет
Несомненными являются следующие тенденции Интернет:
- рост объема доступной информации и информационных потребностей пользователей
- расширение границ Интернет за счет присоединения новых стран
- усиление коммерциализации сервисов
- увеличение скорости, пропускной способности и числа способов доступа в Сеть
- углубление дифференциации сервисов по целевым аудиториям (кружки по интересам)
- объединение однородных сервисов в единые порталы (места массового обслуживания)
- влияния "дай"-протокола отразиться на развитии средств сбора информации о поведении пользователей в Сети
Все это подтолкнет автоматизацию средств поиска и семантической обработки информации таких, как:
- персональные автономные интеллектуальные агенты (типа "Search+")
- персонализация и интеллектуализация поисковых механизмов на поисковых порталах (настройка способа вывода списка ссылок, использование механизма Cookies, заполнение специальных анкет и "подписка на запрос", семантическое ранжирование результатов запроса)

2.9. Средства архивации и восстановления информации.

Архивация файлов - это способ уменьшения их размеров (сжатия). Архивация необходима для сокращения объема информации при размещении ее на магнитных носителях, и для сокращения времени на передачу файлов по каналам связи.

Для использования архивированных файлов необходимо их восстановление (т. е. извлечение из архива).
Сжатие файлов при архивации происходит за счет того, что в файле все повторяющиеся комбинации символов (или двоичных знаков) заменяются числом, характеризующим кратность повторения и вид повторяющегося символа (или повторяющейся комбинации символов). Например, строку:
ААААААВВВВВВВВ
можно заменить на 6А8В, в результате чего длина строки сократится с 14 символов до 4, т.е. исходная информация будет сжата более, чем в 3 раза. В реальной информации повторяемость символов имеет небольшую кратность. Но поскольку каждый символ в ЭВМ представляется 8 двоичными знаками, среди этих двоичных знаков кратность повторения бывает более высокой.



Более высокую кратность повторения могут иметь графические и звуковые файлы.
Для повышения степени сжатия используются более сложные методы архивирования. Так например, фрактальное сжатие позволяет в некоторых случаях сжимать информацию в десятки тысяч раз.
Среди программ, выполняющих архивацию и восстановление файлов, наиболее широкое применение в WWW нашла WinZip (Windows - версия популярной в MS DOS утилиты сжатия PKZIP). Файлы, сжимаемые этой утилитой, получают расширение .zip . Программа WinZip может работать с архивными файлами, имеющими расширения .arj , .lzh , .arc и может распаковывать архивы, созданные на платформах, отличных от IBM PC (это форматы TAR, gzip и UNIX compress).
Утилита WinZip является shareware - продуктом. Ее можно найти в Internet по адресу: . Утилита поставляется в самораскрывающемся архиве WinZip95.exe . Инсталляция ее заключается в выполнении полученного файла, как программы и ответе на вопросы, выводимые на экран.
Для архивирования файлов с помощью программы WinZip необходимо активировать ее (Пуск - Программы - WinZip), выбрать опцию File - New Archive, набрать имя архива выбрать папку для хранения архивного файла, выбрать нужные файлы и поместив их в выбранную папку, нажать ОК.
Эту операцию необходимо будет проделывать для пересылки созданного Web-сайта на host-компьютер провайдера.
Для восстановления полученных архивированных файлов (для извлечения их из архива) необходимо, находясь в окне WinZip, пометить извлекаемые из архива файлы и на панели инструментов программы нажать кнопку Extract.
Самораскрывающиеся архивные файлы создаются с помощью дополнительной утилиты WinZip Self-Extractor. Архивный файл в этом случае будет иметь расширение .exe , а для восстановления находящихся в нем файлов программа WinZip будет не нужна.

2.10. Мультимедиа в Интернет-технологии

До появления WWW наиболее популярными способами обмена информацией в Internet были электронная почта и дискуссионные группы Usenet. Они позволяли использовать только текст.

Единственным способом обмена графикой, аудиофайлами и другой бинарной информацией была пересылка данных в закодированном виде, требующая, чтобы отправитель закодировал ее (архивировал), а получатель - раскодировал (восстановил).
Появление WWW изменило ситуацию, создав возможность разработки и использования в Internet мультимедийных узлов, использующих текст, изображение, звук в режиме реального времени. Для работы с изображением и звуком возможностей браузера может оказаться недостаточно, нужны будут дополнительные программы.

Встраивание их в браузер заключается в инсталляции программ и указании, какому типу файлов эти программы необходимы.
Для просмотра графики Internet Explorer имеет встроенные средства показа изображений в форматах GIF и JPEG. Для просмотра анимации встроены возможности показа файлов формата AVI. Для проигрывания звука встроены возможности для форматов WAV, MID, AU, SND, AIF, AIFF.

Если встречается незнакомый формат, Internet Explorer просит указать, с какой программой надо связать данный тип файла.
Используя под WWW такие программы, как Microsoft NetMeeting, можно проводить видеоконференции и междугородние переговоры (цены на которые значительно ниже, чем при использовании телефонной связи). Мультимедиа - технологии позволяют использовать компьютер для приема радиопередач. National Public Radio (NPR), Internet Talk Radio (ITR), Realaudio ведут регулярные радиопередачи в Internet.

Правда, из-за низкой скорости модема, прослушать их можно часто лишь в записи. Для этого Internet - радиостанции записывают свои радиопередачи в файлах с различными аудиоформатами.

Получить эти файлы для дальнейшего прослушивания можно через сервис FTP.
В последнее время активно развивается новое направление, расширяющее возможности мультимедиа - это VRML (Virtual Reality Modelling Language - язык моделирования виртуальной реальности). Гипертекстовые ссылки HTML и использующие их Web-браузеры позволяют создать лишь двухмерный интерфейс к содержащейся в Internet информации. VRML расширяет эти возможности до трехмерных.

Путешествие по миру VRML отличается от путешествия по обычной Web-странице: в Web-странице можно перемещаться только вперед или назад (может быть - вправо и влево). В VRML-среде можно ходить и летать, т.е. вводится третье измерение.
Работа в VRML-среде ведется с помощью VRML-браузера, который может быть выполнен в виде самостоятельного программного продукта или в виде добавления к HTML-браузеру. Так например, добавляемый модуль VRML для Internet Explorer (и Windows 95) можно получить по адресу: . Самостоятельный браузер VR Scout и подключаемый модуль Netscape Navigator, работающие под Windows 3.1 и Windows 95, доступны через Web-сайт "Chaco Communications, Inc.": . Один из первых VRML-браузеров для Windows - "Word View" можно получить по адресу: .
Установив VRML-браузер, можно познакомиться с VRML-мирами на примере мира "road.wrl", который можно найти по адресу:
. Особенно ярко новые возможности проявляются в режиме "fly" (полет).
Более подробное описание VRML можно найти в [11].

Глава 3. Инструментарий для создания Web - представительств.

В зависимости от характера использования электронные информационные системы могут относиться к средствам массовой информации (СМИ), средствам общения, справочникам, учебникам или специальным информационным системам. По назначению электронные информационные системы могут быть различных видов: информационные выпуски, репортажи о текущих общеполитических, экономических, специальных событиях; компьютерные журналы; телетекст; телеконференции; телесеминары; компьютерная реклама; презентации; анимационные ролики, видеофильмы; электронная почта и системы непосредственного общения; базы данных (информационносправочные системы); информационно-поисковые системы; учебники; экзаменаторы; демонстраторы, тренажеры; игры, и др.
Каждый из этих видов имеет свои особенности, например, информационная система, содержащая информационные выпуски и репортажи о текущих событиях (News, "новости") является средством массовой информации, в котором работают штатные сотрудники, которые собирают информацию, размещают ее в информационной системе, следят за ее достоверностью и актуальностью, и др. - в реальном масштабе времени; компьютерные журналы так же относятся к средствам массовой информации, но для них характерно замедленное течение времени, так как период обновления информации в них значительно увеличен (в некоторых случаях информационные выпуски обновляются через каждые 15 минут, тогда, как компьютерные журналы обновляются раз в месяц). В компьютерных журналах размещается более стабильная информация, срок старения которой значительно превышает срок старения репортажей.

Информационные системы с телетекстом отличаются тем, что в них текст выводится на экран в виде "бегущей строки" или скроллинга. Движение информации с оптимальной скоростью привлекает внимание. Период обновления информации в системах с телетекстом занимает промежуточное значение между репортажами и информацией, помещаемой в компьютерные журналы. Однако, это тоже средства массовой информации, персонал которых работает в напряженном ритме.

Телеконференции занимают промежуточное место между средствами массовой информации и средствами общения, хотя и тяготеют к последним. Это связано с тем, что назначение телеконференций - обмен мнениями по обсуждаемой теме.

Тема для обсуждения может возникать стихийно, или может быть предложена осознанно, на основе одной из новостей (News) или какой-либо возникшей проблемы. В Internet, например, телеконференции используются для обсуждения документов, которые предлагаются в качестве стандарта - после обсуждения документа и его доработки с учетом высказанных замечаний, документ утверждается в виде стандарта, и становится обязательным для всех. Сам термин "телеконференции" может обозначать вид информационной системы (эхопочту), или сервис Internet (аналог электронных досок объявлений - BBS), в котором телеконференции (как и BBS) являются местом, на котором могут размещаться информационные выпуски, компьютерные журналы и эхопочта. Телесеминары являются средством общения.

Отличаются от телеконференций тем, что проводятся в назначенное время сразу со всеми участниками (например, на основе Chat).
Все электронные информационные системы первоначально были предназначены для работы с текстом. При появлении сервиса WWW стал наблюдаться отход от текста, как основного вида информации в пользу широкого использования средств мультимедиа.

Текст в сервисе WWW так же претерпел изменения: вместо линейного текста стал использоваться гипертекст.

3.1. Гипертекст, последовательность создания гипертекстовыхсистем.

Идея гипертекста была описана в 1945 году Vannevar Bush в его предложениях по созданию электромеханической информационной системы Memex. В 1965г. Ted Nelson ввел в обращение сам термин "гипертекст", развил и даже реализовал некоторые идеи нелинейного текста.

В 1975г. идея гипертекста нашла воплощение в информационной системе внутреннего распорядка атомного авианосца "Карл Винстон", которая получила название ZOG (в коммерческом варианте система известна, как KMS).
Идея гипертекстовой информационной системы состоит в том, что пользователь имеет возможность просматривать документы (страницы текста) в том порядке, в котором ему больше нравится, а не последовательно, как это принято при чтении книг. Поэтому Т. Нельсон и определил гипертекст, как нелинейный текст.
Достигается нелинейность за счет использования специального механизма связи различных страниц текста при помощи гипертекстовых ссылок: у обычного текста есть ссылки типа "следующий -предыдущий", а у гипертекста можно построить еще сколь угодно много других ссылок.
Простой механизм построения ссылок является сложным в реализации, так как ссылки могут быть статическими, динамическими, ассоциированными с документом в целом, контекстными (т.е. ассоциированными с отдельными частями документа).
Гипертекст можно рассматривать и как сетевую форму организации информации, при которой текст делится на фрагменты с явно указанными для них возможными связями. Допускается переход от
одного фрагмента к нескольким другим, что придает материалу сетевую форму.
Гипертекст можно рассматривать и как базу знаний (любую предметную область можно представить как совокупность некоторых объектов (предметов, явлений, процессов), которые находятся между собой в различных смысловых отношениях). Упрощенно можно считать, что знания состоят из двух типов элементов: фактов и смысловых (семантических) связей между ними.

При установлении связей можно опираться на разные основания, но в любом случае при формировании гипертекста речь идет о смысловой близости связываемых фрагментов текста.
Вся информация о данной предметной области может быть разбита на фрагменты, описывающие каждый выделенный объект. Сочетание этих фрагментов со связями, установленными между этими объектами, образуют базу знаний: новое гипертекстовое представление информации.
Гипертекст не имеет ни начала, ни конца, ни определенной последовательности, в которой его надо читать. Он полон развилок.
Гипертекстовые системы - открытые. Все, что надо сделать для включения новой информации - это ввести ее и связать с другими единицами информации.

Эта операция называется "дописывание знаний" (в отличие от операции "ввода данных" в СУБД). Аналогично вместо операции "удаление данных" в гипертектовых системах вводится операция "вычеркивания знаний", так как при удалении какой-либо информации из базы знаний необходимо убрать и все связи ее с другими единицами информации.
Для гипертекстовых систем характерно, что на место поиска информации через ее соответствие поисковому образу гипертекстовая технология ставит навигацию - перемещение от одних элементов накопленной информации к другим с учетом их "семантической смежности", с запоминанием "следов" перемещения в гипертекстовой сети, образующих виртуальные, заранее не выделенные структуры. Сохраненные следы перемещения используются в системах логического вывода для реализации "бэктрекинга" (поиска с возвратами при неуспехе) и для объяснения хода рассуждений.
Смысловые связи в базе знаний могут быть различных типов. Основными среди них являются классификационные (родо-видовые), структурные (типа "часть - целое"), причинно-следственные, и др.
Благодаря своим возможностям гипертекстовая технология является самой прогрессивной в сфере неформализованной интеллектуальной деятельности.
Для создания гипертекстовых систем в условиях глобальных вычислительных систем Бернерс-Ли заложил три краеугольных камня, предложив:
1) язык гипертекстовой разметки документов HTML (HyperText Markup Language);
2) универсальный способ адресации ресурсов в сети - URL (Universal Resource Locator);
3) протокол обмена гипертекстовой информацией HTTP (HyperText Transfer Protocol).
Позже группа сотрудников NCSA (Национального Центра Суперкомьютерных Приложений) добавила к этим трем компонентам четвертый:
4) универсальный интерфейс шлюзов CGI (Common Gateway Interface).
В HTML в отличие от предшествующих систем гипертекстовые ссылки встроены в тело документа и хранятся как его часть. Сам документ хранится в виде ASCII - файла, который можно подготовить любым текстовым редактором. HTML позволяет выделять параграфы, устанавливать шрифты, использовать различные виды ссылок, стилей, встроенную графику, производить поиск по ключам.

Этот язык постоянно совершенствуется: в новых версиях увеличивается число элементов разметки, развиваются средства описания нетекстовых информационных ресурсов, способы взаимодействия с прикладным программным обеспечением.
Протокол обмена гипертекстовой информацией HTTP учитывает, что в гипертекстовых документах ссылки делаются по доменным адресам, в том числе - к внешним адресам относительно данной Web -страницы. При перемещении Web - стреницы может возникнуть необходимость корректировки адресов ресурсов сети.

Это и реализуется протоколом HTTP.
Универсальный интерфейс шлюзов CGI был разработан для расширения возможностей WWW за счет подключения внешнего программного обеспечения. Предложенный в CGI способ подключения не требует дополнительных библиотек: сервер взаимодействует с программами через стандартные потоки ввода-вывода.

Реализован CGI на основе методов доступа HTTP.

3.2. Архитектура сервиса WWW.

Сервис WWW (Word Wide Web, или 3W - всемирная паутина) позволяет организовать огромное количество информации в компактное хранилище с легким доступом к имеющимся материалам.
Наименьшей единицей информации в сервисе 3W является Web -страница. Она может иметь разные размеры - от одного экрана до бесконечного их количества.

Главная особенность Web - страницы -наличие на ней гипертекстовых ссылок, активизация которых может перевести на другую часть Web - страницы, или на другую страницу.
Совокупность Web - страниц, объединенных единой темой и организованных для совместной работы, образует Web - сайт, или Web -представительство, или просто Web.
Каждая Web - страница хранится в файле, имя которого имеет расширение htm (для MS DOS и Windows - платформ) или html (для Unix - платформ).По этому расширению находят Web - страницы программы - клиенты сервиса WWW - браузеры (просмотрщики Web -страниц).
Web - страницы делятся на два вида: пассивные и активные. Пассивные Web - страницы содержат только информационное наполнение (текст, графику).

Причем, для хранения в ЭВМ графика оформляется в виде отдельных файлов (в основном - в формате GIF или JPEG). Сама же Web - страница (т.е. файл с расширением htm) содержит только размеченный текст.
Активные Web - страницы кроме информационного наполнения содержат программы, с помощью которых принимается информация от посетителей (интерактивная Web - страница), осуществляется связь с СУБД (динамически обновляемая Web - страница), выводится на экран в пространстве Web - страницы баннерная реклама (Web - страница с баннерами), реализуются некоторые спецэффекты, например, использующие скроллинг, и др.
Web - сайт кроме информационных страниц обязательно содержит корневую страницу - home page (или домашнюю страницу). Она имеет в Интернет стандартное имя: index.html или index.htm .
Web - сайт, который кроме домашней страницы не имеет информационных страниц, а вместо домашней страницы создана только ее заготовка, называется пустой Web.
Создание Web - страницы заключается в разметке содержащегося на ней текста, подготовленного любым текстовым редактором. Другие виды информации (графика, звук, анимация) готовятся соответствующими редакторами и оформляются в виде файлов с соответствующими расширениями, стандартными для используемого браузера.
Разметка заключается в форматировании текста - определении его места на странице и способа отображения, в указании, в какое место страницы должна быть вставлена графика, как она соотносится с текстом (вставляется на свободное место, является фоном, на который наносится текст, обтекается текстом, и т.д.), и вставке гиперссылок, осуществляющих переход на другие Web - страницы или на используемые программы. Для разметки используется язык HTML.

3.3. WYSIWYG - системы проектирования Web-сайтов.

Аббревиатура WYSIWIG (от What You See Is What You Get) обозначает системы, в которых экранная форма не программируется, а "собирается" на экране. После окончания сборки формы система сама сотавляет программу вывода этой формы на экран. Получается, что человек не составляет программы вывода на экран формы заданного вида, а просто рисует нужную ему форму.

Это значительно упрощает процесс создания экранной формы и не требует от создающего ее человека знания программирования.
В последнее время для создания Web-страниц все чаще стали использоваться системы WYSIWYG. Кроме того, необходимые для таких систем функции стали встраиваться в существующие пакеты. Так, во всех программных продуктах Microsoft Office предусмотрен вывод в формате htm - это значит, что в выводимую информацию добавляются команды языка HTML, определяющие порядок размещения информации на экране. Благодаря этому, используя Microsoft Word, можно создавать отдельные Web - страницы.

Фирма Microsoft разработала технологию ActivX, которая позволяет преобразовывать документы Word, Access, Excel, Power Point в html-документы. Кроме того, в состав Windows 95/98 стал включаться пакет FrontPage, специально предназначенный для создания многостраничных Web (так называемых Web-сайтов).

3.4. Состав, структура и функциональные возможности FrontPage.

Пакет FrontPage предназначен для создания не очень сложных Web-сайтов. Он состоит из трех частей: редактора FrontPage Editor, проводника FrontPage Explorer, и WEB-сервера Microsoft Personal Web Server.



Содержание раздела