Реферат как найти информацию в сети интернет

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ
РОССИЙСКОЙ ФЕДЕРАЦИИ

МУНИЦИПАЛЬНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ПЕТРЯКСИНСКАЯ СРЕДНЯЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ ШКОЛА

РЕФЕРАТ

по теме:

«Поиск информации в Интернете»

Выполнила: ученица 10 класса

Матвеева Д. А

Учитель: Айнетдинова Х. А

Петряксы

2015г.

Содержани

Введение 3

Поисковые системы общего назначения 4

Типология методов поиска 5

Специализированные поисковые системы 7

Заключение 10

Список литературы 11

Введение

Основная задача Интернет – предоставление необходимой информации. Интернет – это информационное пространство, в котором можно отыскать ответ практически на любой интересующий пользователя вопрос. Это огромная глобальная сеть, в которую как информационные ручейки, стекаются потоки более мелких сетей. Любой пользователь, располагающий ПК и соответствующими программами, сможет подключиться к сети, используя её возможности для самых разных целей – проведения досуга, обучения, чтения научных работ, отправки электронной почты и т.д. По различным данным, в 2004 г. количество пользователей глобальной системы Интернет составило от 600 до 900 миллионов человек. Это число продолжает стремительно расти и уже в 2014 г. оно достигло
3 миллиарда человек. Сегодня глобальная сеть превращается в важный социальный и политический фактор современного информационного общества. С развитием Интернет-технологий появился новый гигантский источник информационных ресурсов, доступ к которым является не только относительно дешевым, но и очень быстрым.

Поисковые системы общего назначения

Поисковые системы общего назначения являются базами данных, содержащим тематически сгруппированную информацию об информационных ресурсах Всемирной паутины. Такие поисковые системы позволяют находить Web-страницы по ключевым словам в базе данных или путем поиска в иерархической системе каталогов.

Интерфейс таких поисковых систем общего назначения содержит список разделов каталога и поле поиска. В поле поиска пользователь может ввести ключевые слова для поиска документа, а в каталоге выбрать определенный раздел, что сужает поле поиска и таким образом ускоряет его.

Заполнение баз данных осуществляется с помощью специальных программ-роботов, которые периодически «обходят» Web-серверы Интернета. Программы-роботы читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных, содержащую URL-адреса документов.

Так как информация в Интернете постоянно меняется (создаются новые Web-сайты и страницы, удаляются старые, меняются их URL-адреса и так далее), поисковые роботы не всегда успевают отследить все эти изменения. Информация, хранящаяся в базе данных поисковой системы, может отличаться от реального состояния Интернета, и тогда пользователь в результате поиска может получить адрес уже не существующего или перемещённого документа.

В целях обеспечения большего соответствия между содержанием базы данных поисковой системы и реальным состоянием Интернета большинство поисковых систем разрешают автору нового или перемещенного Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит URL-адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт. Сайты в базе данных ранжируются по количеству их посещений в день, неделю или месяц. Посещаемость сайтов определяется с помощью специальных счетчиков, которые могут быть установлены на сайте. Счетчики фиксирует каждое посещение сайта и передают информацию о количестве посещений на сервер поисковой системы.

Поиск по ключевым словам. Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска. Простой запрос содержит одно или несколько ключевых слов, которые являются главными для этого документа. Можно также использовать сложные запросы, использующие логические операции, шаблоны и так далее. Через некоторое время после отправки запроса поисковая система вернет аннотированный список URL-адресов документов, в которых были найдены указанные ключевые слова. Для просмотра этого документа в браузере достаточно активизировать указывающую на документ ссылку. Если ключевые слова были выбраны неудачно, то список URL-адресов документов может быть слишком большим (может содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.

Наиболее мощными поисковыми системами общего назначения в русскоязычной части Интернета являются серверы Rambler (http://www.rambler.ru), Апорт (http://www.aport.ru), Яндекс (http://www.yandex.ru), Сервер Yahoo (http://www.yahoo.com).

Типология методов поиска

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие – результат того стоит. Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

1. Непосредственный поиск с использованием гипертекстовых ссылок.

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, “ручной” просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое “копание” уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

2. Использование поисковых машин. Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов сети, подлежащих детальному рассмотрению.
Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

3. Поиск с применением специальных средств. Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ-спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.
Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен. Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

Специализированные поисковые системы

С появлением cистем пользовательского поиска от Google (Google Custom Search Engine) специализированные поисковые системы стали появляться как грибы после дождя. В чем же их преимущества перед обычными поисковыми системами? По сути оно только одно, но весьма весомое – если искать информацию по какой-то узкой теме в специализированной поисковой системе, выдача, которая получается в результате запроса, будет гораздо более чистой – не придется отсеивать десятки, а то и сотни ссылок рекламного характера и прочего мусора.

Небольшой список специализированных поисковых систем:

beeMP3 – специализированный поисковые системы по музыке. Можно искать по альбому, исполнителю, песне или всему сразу. У beeMP3 достаточно интересна организована выдача — сразу получаются ссылки на конкретный файл (а не на страницу с ним). Кроме того, наведя курсор мышки на ссылку, можно узнать жанр песни, альбом, год выпуска, битрейт и др.

Tagoo – русскоязычная специализированная поисковая система по музыке

keeperweb.com – специализированная медиа поисковая системы по mp3 музыке, кино, клипам, мелодиям для мобильных телефонов и много другого.

FindSounds – поиск звуковых эффектов и музыкальных сэмплов. В отличие от других мультимедийных поисковых систем, которые ищут песни, радиопередачи и тому подобное, FindSounds ищет только простые звуки и короткие отрывки.

eBdb – поиск электронных книг.

poiskknig.ru – поиск электронных книг, свободно распространяемых в Интернете.

WikiPoisk – поиск по энциклопедиям.

Qwika – специализированныя поисковая система, предназначенная для работы с онлайновой энциклопедией Wikipedia. Является единственной в мире поисковой системой, индексирующей информацию, полученную посредством систем автоматического перевода.

Scirus – поисковая система для ученых, ищет web-страницы с научным содержанием (ищет и русскоязычные сайты): сайты университетов, библиотек и т.д.

ILIGENT – поиск информации на бизнес-сайтах. Для поиска доступны материалы по маркетингу, менеджменту, бухгалтерскому учету, финансам, управлению кадрами предприятия, законодательству. Результаты поиска разделены на 9 типов информации: материалы (статьи), новости, словари, сообщения на форумах, право, рефераты, книги в продаже, платные материалы и мероприятия.

PureVideo – поиск видеофайлов.

Киновед – поиск всего, что связанного с фильмами: отзывов, рецензий и описаний фильмов, информации об актерах кино, биографий, кадров из фильмов, фотографий актеров, постеров, обоев для рабочего стола.

DVD-поиск – специализированная поисковая система фильмов. В базе поиска содержатся базы фильмов самых известных Интернет-магазинов. В результатах поиска выводятся: название фильма, магазин, формат и цена. У некоторых позиций также присутствует небольшая аннотация.

PicSearch – поиск изображений.

Заключение

В сети Интернет хранится очень большой объем информации по различной тематике в виде статей в электронных газетах, отчетов, справочников, графических изображений, аудио и видеофайлов и многого другого. Путешествуя по Интернет, можно найти любую информацию, не выходя из дома или офиса, иначе говоря, если какие-либо данные вводились когда-либо в компьютер, то вероятнее всего их можно найти где-то на необозримых просторах Интернет. Для этого нужен только непосредственно сам компьютер, подключенный к Интернет с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

С появлением World Wide Web (WWW) – гипертекстовой информационной системы, опутавшей весь мир, связавшей сотни и сотни компьютеров, тысячи и тысячи страниц гипертекстовых документов – без высокоэффективных средств поиска просто не обойтись. Благодаря разнообразию поисковых систем, специально разработанных для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

Список литературы

  1. Угринович Н. Д. Информатика и ИКТ. Базовый уровень: учебник для
    10 класса.

  2. Интернет глазами пользователя. Режим доступа: http://yandex.ru/

  3. Средства поиска информации в INTERNET // Афанасий-биржа (Тверь). – 28 марта 1997.

  4. Википедия – свободная энциклопедия http://ru.wikipedia.org/

Реферат

на тему: “Методы поиска информации в сети интернет.
Информационно-поисковые системы”

Выполнил:

Расулов Хайрула Рамазанович

Поиск информации в
Интернете может быть произведен по нескольким методам, значительно
различающимся как по эффективности и качеству поиска, так и по типу извлекаемой
информации.

Введение
Глава 1. Основные методы поиска информации в Интернете
1.1. Непосредственный поиск с использованием гипертекстовых ссылок
1.2. Использование поисковых машин
1.3. Поиск с применением специальных средств
1.4. Анализ новых ресурсов
Глава 2. Поисковые системы
2.1. Использование поисковых систем на Западе
2.2. История поисковых систем
Глава 3. Русскоязычные поисковые системы
Заключение
Список использованных источников

Введение

В
наш ХХI век, владение информацией, говорит о том, что человек образован и
респектабелен.

Более
или менее серьезный подход к любой задаче начинается с анализа возможных
методов ее решения.

Поиск
информации в Интернете может быть произведен по нескольким методам, значительно
различающимся как по эффективности и качеству поиска, так и по типу извлекаемой
информации.

В
ряде случаев приходится использовать весьма трудоемкие методы – результат того
стоит.

Поисковая
система —
 программно-аппаратный комплекс с веб-интерфейсом,
предоставляющий возможность поиска информации в Интернете.

В
просторечии под поисковой системой –
 подразумевают
веб-сайт, на которой размещён интерфейс (фронт-энд) системы.

Программной
частью поисковой системы –
 является поисковая
машина (поисковый движок) — комплекс программ, обеспечивающий функциональность
поисковой системы и являющийся коммерческой тайной компании-разработчика
поисковой системы.

Глава
1. Основные методы поиска информации в Интернете

Можно
выделить следующие основные методы поиска информации в Интернете, которые, в
зависимости от целей и задач ищущего, используются по отдельности или в
комбинации друг с другом:

  • Непосредственный
    поиск с использованием гипертекстовых ссылок.
  • Использование
    поисковых машин.
  • Поиск
    с применением специальных средств.
  • Анализ
    новых ресурсов.

1.1.
Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку
все сайты в пространстве WWW фактически оказываются связанными между собой,
поиск информации может быть произведен путем последовательного просмотра
связанных страниц с помощью браузера.

Хотя
этот полностью ручной метод поиска выглядит полным анахронизмом в Сети,
содержащей более 60 млн. узлов, “ручной” просмотр Web-страниц часто оказывается
единственно возможным на заключительных этапах информационного поиска, когда
механическое “копание” уступает место более глубокому анализу.

Использование
каталогов, классифицированных и тематических списков и всевозможных небольших
справочников также относится к этому виду поиска.

1.2.
Использование поисковых машин

Сегодня
этот метод является одним из основных и фактически единственным при проведении
предварительного поиска. Результатом последнего может являться список ресурсов
Cети, подлежащих детальному рассмотрению.

Как
правило, применение поисковых машин основано на использовании ключевых слов,
которые передаются поисковым серверам в качестве аргументов поиска: что искать.

Если
делать все правильно, то формирование списка ключевых слов требует
предварительной работы по составлению тезауруса.

1.3.
Поиск с применением специальных средств

Этот
полностью автоматизированный метод может оказаться весьма эффективным для
проведения первичного поиска.

Одна
из технологий этого метода основана на применении специализированных программ –
 спайдеров,
которые в автоматическом режиме просматривают Web-страницы, отыскивая на них
искомую информацию.

Фактически
это автоматизированный вариант просмотра с помощью гипертекстовых ссылок,
описанный выше (поисковые машины для построения своих индексных таблиц используют
похожие методы).

Нет
нужды говорить, что результаты автоматического поиска обязательно требуют
последующей обработки.

Применение
данного метода целесообразно, если использование поисковых машин не может дать
необходимых результатов (например, в силу нестандартности запроса, который не
может быть адекватно задан существующими средствами поисковых машин).

В
ряде случаев этот метод может быть очень эффективен.

Выбор
между использованием спайдера или поисковых серверов являет собой вариант
классического выбора между применением универсальных или специализированных
средств.

1.4.
Анализ новых ресурсов

Поиск
по новообразованным ресурсам может оказаться необходимым при проведении
повторных циклов поиска, поиска наиболее свежей информации или для анализа
тенденций развития объекта исследования в динамике.

Другой
возможной причиной может явиться то, что большинство поисковых машин обновляет
свои индексы со значительной задержкой, вызванной гигантскими объемами
обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна
интересующая тема.

Это
соображение может оказаться весьма существенным при проведении поиска в
узкоспециальной предметной области.

Глава
2. Поисковые системы

Большинство
поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют
также системы, способные искать файлы на ftp-серверах, товары в
интернет-магазинах, а также информацию в группах новостей Usenet.

Основными
критериями качества работы поисковой машины –
 являются
релевантность (степень соответствия запроса и найденного, то есть уместность
результата), полнота базы, учёт морфологии языка.

Индексация
информации осуществляется специальными поисковыми роботами.

В
последнее время появился новый тип поисковых движков, основанных на технологии
RSS, а также среди XML – данных разного типа.

Улучшение
поиска —
 это одна из приоритетных задач сегодняшнего Интернета.

2.1.
Использование поисковых систем на Западе

По
данным компании Net Applications в декабре 2007 года использование поисковых
систем на Западе распределялось следующим образом:

  • Google
    — 77,04 %
  • Yahoo
    — 12,46 %
  • MSN —
    3,33 %
  • Microsoft
    Live Search — 2,57 %
  • AOL —
    2,12 %
  • Ask —
    1,38 %
  • AltaVista
    — 0,13 %
  • Excite
    — 0,07 %
  • Lycos
    — 0,02 %
  • All
    the Web — 0,02 %

В
вышеприведенный отчёт не входят российские поисковики, такие как, например,
Яндекс, Рамблер или Nigma.

По
данным аналитической компании comScore все поисковые сайты в декабре 2007 года
обработали 66 млрд 221 млн поисковых запросов.

Яндекс
попал в статистику и находится на 9-ом месте.

2.2.
История поисковых систем

Одним
из первых инструментов поиска в интернете (до WWW) был Archie.

Первой
поисковой системой для Всемирной паутины был «Wandex», уже не существующий
индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью
Грэем (англ. Matthew Gray) из Массачусетского технологического института в
1993.

Также
в 1993 году появилась поисковая система «Aliweb», работающая до сих пор.

Первой
полнотекстовой, то есть индексирующей ресурсы при помощи робота, поисковой
системой стала «WebCrawler», запущенная в 1994.

В
отличие от своих предшественников, она позволяла пользователям искать по любым
ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех
основных поисковых системах.

Кроме
того, это был первый поисковик, о котором было известно в широких кругах.

В
1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре
появилось множество других конкурирующих поисковых машин, таких как «Excite»,
«Infoseek», «Inktomi», «Northern Light» и «AltaVista».

В
некотором смысле они конкурировали с популярными интернет-каталогами, такими,
как «Yahoo!».

Позже
каталоги соединились или добавили к себе поисковые машины, чтобы увеличить
функциональность.

В
1996 году русскоязычным пользователям интернета стало доступно морфологическое
расширение к поисковой машине Altavista и оригинальные российские поисковые
машины Rambler и Aport.

23
сентября 1997 была открыта поисковая машина Яндекс.

В
последнее время завоёвывает всё большую популярность практика применения
методов кластерного анализа и метапоиска.

Из
международных машин такого плана наибольшую известность получила «Clusty»
компании Vivísimo.

В
2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma,
поддерживающий автоматическую кластеризацию.

В
2006 году открылась российская метамашина Quintura, предлагающая визуальную
кластеризацию в виде облака ключевых слов.

Nigma
тоже экспериментировала с визуальной кластеризацией.

Глава
3. Русскоязычные поисковые системы

Большинство
«русскоязычных» поисковых систем индексируют и ищут тексты на многих языках:

  • украинском;
  • белорусском;
  • английском
    и др.

Отличаются
же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в
основном индексируют ресурсы, расположенные в доменных зонах, где доминирует
русский язык или другими способами ограничивают своих роботов русскоязычными
сайтами:

  • Яндекс
    (46,3 % Рунета);
  • Mail.ru
    (8,9 % Рунета);
  • Rambler
    (3,3 % Рунета);
  • Nigma
    (0,5 % Рунета);
  • Генон
    (0,1 % Рунета);
  • Gogo.ru
    (<0,1 % Рунета);
  • Aport
    (<0,1 % Рунета).

Из
перечисленных поисковых систем не все имеют собственный поисковый алгоритм —
так QIP.ru используют поисковый механизм Яндекса, Mail.ru использует Google, а
Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других
поисковиков.

Заключение

Поиск,
с применением поисковых машин –
 является самым
распространенным и эффективным методом поиска чего-то конкретного в сети
Интернет.

Хотя
остальные методы ничем не хуже, только они применяются очень редко и только в
том случае, если при помощи поисковой машины ничего нельзя найти.

Пользоваться
поисковыми машинами удобно и легко.

Список
использованных источников

1.
http://www.ucheba.ru – Учёба.RU
2. http://textbook.vadimstepanov.ru/index.html – интернет в
профессиональной информационной деятельности
3. http://www.proweb.ru/articles/oglavlenie/glava4/poisk – Группа компаний
“Вебдом”
4. http://newsmir.ucoz.ru/load/1-1-0-9 – Лента новостей
5. http://simbiont-club.webzone.ru/search.htm – поисковые системы
6. http://www.seoded.ru/ssilki/poiskoviki.html – seoded.ru

        
Содержание
:                            стр

Введение.                                        
– 4

1.
Информационно-поисковая система.               – 5

 1.1.
Документографическая ИПС.                   – 6

 1.2. Фактографическая
ИПС.                       – 8

2.  Поисковая система
глобальной сети “Интернет”. – 9

 2.1. Как работают
механизмы поиска.              – 9

 2.2. Технология
поиска.                          – 14  

3. Поисковые машины
глобальной сети “Интернет”.   – 18

 3.1.
Как искать в Интернете                      – 18     

 3.2. Поисковые
каталоги.                         – 21

 3.3. Поисковые
указатели.                        – 23

4.
Сравнительная характеристика двух поисковых   

  
систем на базе  Rаmbler.ru
и Yandex.ru.       
– 29

 4.1.
Rаmbler.ru                                 
– 29

 4.2.
Yandex.ru.                                  – 35

Заключение.                                      

40

Литература.                                      
– 42

Приложение.                        
              – 43

Введение

         Интернет
во многом упростил жизнь современного общества, глобализовал его, увеличил
возможности одних людей и уменьшил возможности других. Сегодня гораздо удобнее
и выгоднее пользоваться почтовыми услугами через Интернет (к примеру, письмо из
Тобольска в Лондон дойдет за 5 секунд).

         По
моим наблюдениям Интернет стал источником бизнеса,
источником мировой культуры, источником обучения, средством массовой
информации.

Сегодня
любой пользователь в Интернете может за пару секунд получить доступ ко всем
мировым биржам, музеям.  Любой пользователь может получить образование через
Интернет, ознакомится с ведущими мировыми электронными газетами.

         Информация
стала виртуальным золотом наших дней, и тот добьется быстрого и большего
успеха, кто сможет быстрее ее раздобыть. И не важно кто вы, бизнесмен, ищущий
новый рынок сбыта или студент, ищущий материал к курсовой работе, обоим нужна
информация и Интернет может дать ее им если они будут обладать достаточными
знаниями чтобы взять ее.

         Мне
долго
бы пришлось перечислять выгоды Интернета для граждан Земли, но боюсь что
нескоро бы закончил.

Я
хочу отметить главное в Интернете, некий его “краеугольный
камень”,
это – информация и главные ее свойства:

          
1)
Широкая доступность 

          
2)
Быстрота

У
неопытных пользователей есть миф о том, что в Интернете есть все. На самом
деле, мой опыт работы в Интернете доказал, что это не так. Материалы для
размещения в Сети готовят живые люди, и потому там можно найти лишь то, что они
сочли нужным (в смысле полезным или выгодным для себя) опубликовать. Впрочем,
река питается ручьями, и благодаря их творчеству сегодня в Интернете уже
образовалось около двух миллиардов Web-страниц. В результате каталогизация
имеющихся в Сети ресурсов стала серьезной проблемой. Несмотря на то, что ею
занимаются тысячи организаций, проблема не только не приближается к разрешению,
но и становится острее. Процент каталогизированных (или индексированных)
ресурсов неуклонно падает. В последние два года это падение стало катастрофическим.
Так, если в 2000 г. процент индексированных ресурсов приближался к 40%, то
всего лишь за один следующий год он опустился до 25% [2]. Вывод простой: пространство
Web быстрее наполняется, чем систематизируется. К сожалению, у
Internet-специалистов нет оснований предполагать, что в ближайшее время
что-нибудь может измениться к лучшему. В итоге поиск информации в World Wide
Web можно считать самой трудной задачей в Интернете.

         В
связи с вышесказанным, качественный поиск информации в Интернете одна из самых
актуальнейших тем в наше время, эта проблема не раз затрагивала и меня.

Тема
моей курсовой заинтересовала меня своей нестандартностью и новизной и я хочу
постараться раскрыть ее. Моей задачей  будет качественная организация поиска информации
в сети Интернет.

1.
Информационно-поисковая система

         Прежде
чем дойти до конкретных механизмов поиска в глобальной сети
“Интернет” необходимо разобрать теоретическую основу таких вопросы,
как “что такое информация?”, “Информационные процессы?”,
“Информационно-поисковая система и ее типы ?”.

         Однозначного
ответа что такое информация нет, можно лишь привести часть свойств
характеризующий данный термин:

         ”
Информация – это сведения, являющиеся объектом хранения; это содержание
сообщения, сигнала, памяти, а также сведения, содержащиеся в сообщении,
сигнале, памяти.”  [4.с.23]

         Процессы
передачи, хранения и переработки информации, всегда играли важную роль в жизни
общества. Люди обмениваются устными сообщениями, записками, посланиями. Они
передают друг другу просьбы, приказы, отчеты о проделанной работе, описи
имущества; публикуют рекламные объявления и научные статьи; хранят старые
письма и документы; долго размышляют над полученными известиями или немедленно
кидаются выполнять указания начальства. Все это – информационные процессы.
Информация всегда связана с материальным носителем, а ее передача – с затратами
энергии. Однако одну и ту же информацию можно хранить в различном материальном
виде (на бумаге, в виде фотонегатива, на магнитной ленте, …) и передавать с
различными энергетическими затратами (по почте, по телефону, с курьером и
т.д.), причем последствия – в том числе и материальные – переданной информации
совершенно не зависят от физических затрат на ее передачу. Например, легкое
нажатие кнопки опускает тяжелый театральный занавес или взрывает большое
здание, красный свет светофора останавливает поезд, а неожиданное неприятное известие
может вызвать инфаркт. Поэтому информационные процессы не сводимы к физическим,
и информация, наряду с материей и энергией, является одной из фундаментальных
сущностей окружающего нас мира. В 20 в. с развитием техники появились новые устройства:
средства связи, устройства автоматики, а с 40-х гг. – вычислительной техники.
Выяснилось, что эффективность их работы с помощью физических понятий описать невозможно
и что существенные характеристики таких устройств нужно описывать совсем
другими способами. В результате впервые возникли точное понятие информации и
математическая теория информации. Стало ясно, что средства связи, какие бы физические
процессы они ни использовали, – это средства передачи информации. Объединение
понятий “информация” и “управление” привело Н.Винера в 40-х
гг. к созданию кибернетики, которая, в частности, впервые указала на общность
информационных процессов в технике, обществе и живых организмах.

Использование
понятия информации оказало существенное влияние на развитие современной
биологии, особенно таких ее разделов, как нейрофизиология и генетика. И
наконец, в связи с развитием вычислительной техники, стимулировавшей
информатизацию всего общества, возник комплекс наук о различных аспектах работы
с информацией – информатика.

         ”
Информационно-поисковая система – это система, где хранится информационный
массив, из которого по требованиям пользователей выдается нужная информация.”  
[4.с.75]

 Поиск
информации по требованию пользователя осуществляется либо автоматически, либо
вручную (как в библиотеках, когда с запросом к работнику справочного фонда
обращается читатель, а работник пользуется системой каталогов). Во втором
случае используются ЭВМ, снабженные специальными программными средствами,
анализирующими процессы запросов, поиска и выдачи нужных документов. Таким
образом, информационно-поисковые системы (ИПС) реализуют вопросно-ответное
отношение, что сближает задачи, стоящие перед создателями таких систем, с теми
задачами, которые решают создатели человеко-машинных систем.

 Информационно-поисковые
системы делятся на два типа:

         1.
Документографическая ИПС.

         2.
Фактографическая ИПС.

 1.1
Документографическая ИПС

         В
такой ИПС все хранимые документы индексируются некоторым специальным образом.
Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный
код, составляющий поисковый образ документа. Поиск идет не по самим документам,
а по их поисковым образам, которые содержат информацию (адрес) о
местонахождении документа. Именно так ищут книги по заказам читателя в больших
библиотеках (в маленьких библиотеках библиотекарь обычно ищет книги сам). По
требованию читателя сначала находят карточку в каталоге, а потом по шифру,
указанному на ней, отыскивается и сама книга.

         Различия
документографических ИПС определяются тем, как устроен поисковый образ
документа. В простейшем случае это просто его индивидуальное название
(например, название, автор, год издания книги). В более сложных случаях нет
однозначного соответствия между поисковым образом документа и самим документом.
Вполне возможен случай, когда поисковый образ документа соответствует
нескольким различным документам и, наоборот, один и тот же документ
соответствует не одному, а нескольким поисковым образам.

 

         Такой
неоднозначностью обладают, например, поисковые образы документов в дескрипторных
системах. “Дескриптор – слово или словосочетание, которое тесно связано с
содержанием документа. Совокупность дескрипторов определяет группу документов
со сходным содержанием.”[4.с.75] В последнее время журналы, публикующие
научные статьи, требуют от своих авторов, чтобы для каждой статьи они указывали
список ключевых слов, которые и играют роль дескрипторов. Если, например,
описать статью, которую вы читаете с помощью ключевых слов, то один из
возможных списков будет следующим:  информационный поиск,
информационно-поисковая система, дескриптор, тезаурус, поисковый образ
документа.

         По
набору этих ключевых слов (набору дескрипторов) можно найти данную статью среди
всех статей книги, если ввести ее постатейное содержание в какую-либо ИПС дескрипторного
типа.

Общая
блок-схема ИПС дескрипторного типа показана на  рис-1. Эта схема имеет два входа.
По одному происходит пополнение хранящегося в системе информационного массива
документов, а по второму поступают запросы пользователей.

 1.2
Фактографическая ИПС

 В
отличие от документо-графических ИПС в ИПС такого типа хранятся не документы, а
факты, относящиеся к какой-либо предметной области. Хранимые факты могут быть извлечены
из различных документов. К примеру необходимо переработав историю восемнадцатого
века в базе фактов они связываются между собой системой разнообразных отношений.
Такая сеть в ИПС носит название тезауруса предметной области. Запросы поступающие
в фактографические ИПС, используют тезаурус для поиска ответов на запросы.
Поиск осуществляется методом поиска, по образцу широко применяющемуся в базах
знаний систем искусственного интеллекта. 

К
примеру необходимо переработав историю восемнадцатого века, собрать все
сведения о Екатерине-II.

         ИПС
фактографического типа постепенно приближаются по своей организации и
функционированию к развитым базам данных и знаний.[4.с.76]

2.
Поисковая система глобальной сети “Интернет”.

         Я
не хочу влезать в дебри внутренней работы поисковой системы (на электронном
уровне), т.к. это не отвечает целям моей работы, и на мой взгляд эта работа
программистов высшего уровня к которому я сейчас стремлюсь.

Я
хочу разобрать и разложить по “полочкам”, то как мне стала понята
технология поиска информации, и сам механизм поиска информации.

 2.1
Технология поиска информации в Интернете

Сама
технология поиска становится более понятной на рис-2.

1)
Для начала пользователь решает такую задачу, что он хочет найти , и где это
может находится.

         2)
Затем заходит в Интернет, в обыкновенное Internet Exploer окно(Браузер).(Рис-3).
Если пользователь знает имя сайта на котором находится интересующая его
информация, то он просто сообщает его имя и заходит в его.

 Пример.
Пользователь желает узнать кинопрокат на  сегодняшний день и заходит на сайт
film.ru.(рис-3).

Это
самый примитивный способ поиска информации в Интернете, на этом поиск может и
закончится.

Существуют
и внутри сайтовые(локальные) системы поиска.

 Пример.
В том же film.ru есть возможность просмотреть 

информацию
о фильме давно вышедшем из проката, к примеру найти фильм “Брат-2” ,
достаточно в окне

 поиска
набрать слово Брат-2 .(рис-3)

         3)
Если пользователь не знает имя сайта где он может найти интересующую его информацию,
то он прибегает к помощи какой-нибудь поисковой системы. В сети работает
значительное число справочных систем. Зайдя на указанный сервер, он получит на
экране форму запроса, в которую надо ввести информацию для поиска. Обычно в
форме существует возможность ограничения зоны поиска (например, по тематике).
Он можете ввести нужный термин, определить область поиска и попытаться получить
ответ.

 

Поиск
производится автоматически на базе учета количества найденных слов на сервере.
На его компьютер будет передана первая группа найденных ссылок с лучшими показателями
по числу найденных вхождений искомых слов.

Часто
вместе с ссылкой может быть выведена краткая информация по документу. Если
среди найденных документов нет нужных, то можно вывести следующую группу –
общее число документов обычно исчисляется тысячами. Для того, чтобы перейти на
сервер, на котором находится найденная информация, достаточно просто щелкнуть
по ссылке в результате поиска.

 Это
самый примитивный способ поиска информации в интернете, на этом поиск может и
закончится.

Существуют
и внутри сайтовые(локальные) системы поиска.

 Пример.
В том же film.ru есть возможность просмотреть 

информацию
о фильме давно вышедшем из проката, к

примеру
найти фильм “Брат-2” , достаточно в окне

поиска
набрать слово Брат-2 .(рис-3)

         3)
Если пользователь не знает имя сайта где он может найти интересующую его информацию,
то он прибегает к помощи какой-нибудь поисковой системы. В сети работает
значительное число справочных систем. Зайдя на указанный сервер, он получит на
экране форму запроса, в которую надо ввести информацию для поиска. Обычно в
форме существует возможность ограничения зоны поиска (например, по тематике).
Он можете ввести нужный термин, определить область поиска и попытаться получить
ответ.

         Поиск
производится автоматически на базе учета количества найденных слов на сервере.
На его компьютер будет передана первая группа найденных ссылок с лучшими показателями
по числу найденных вхождений искомых слов. Часто вместе с ссылкой может быть
выведена краткая информация по документу. Если среди найденных документов нет
нужных, то можно вывести следующую группу – общее число документов обычно исчисляется
тысячами. Для того, чтобы перейти на сервер, на котором находится найденная информация,
достаточно просто щелкнуть по ссылке в результате поиска.

         Обычно
поиск по паре ключевых слов приводит к получению десятков тысяч ссылок на документы,
содержащие эти термины. Такой объем результатов редко позволяет эффективно
отыскать “жемчужину” среди не имеющих отношения к теме поиска
материалов. Что можно посоветовать?

         Во-первых,
пользователю необходимо сузить зону поиска. Попытаться определить на серверах
какого профиля, в какой стране и т.п. наиболее вероятно можно встретить интересуемые
материалы. Подумать, какие другие ключевые слова могут характеризовать объекты
поиска, использовать несколько ключевых слов.

         Если
объектом поиска указаны несколько терминов, то поисковая система ищет вхождение
каждого слова в документ независимо. То есть, можно результатом поиска получить
документ, который содержит только одно слово, но несколько раз. Поэтому при определении
терминов, по которым производится поиск, можно и нужно использовать логические
операции.  

 Например,
ввод слово_1&слово_2 заставит искать те страницы, где употреблен как первый,
так и второй термин.    

         Во-вторых,
необходимо провести поиск по всем известным поисковым системам. В каждой из них
используется своя, несколько отличающаяся от других технология поиска. Поэтому
абсолютно аналогичные поиски могут привести к различающимся результатам.
Большинство поисковых систем бесплатны, поэтому ничто не мешает проводить
столько операций поиска, сколько нужно.

         В-третьих,
очень часто результат может принести поиск документов на основе возможных
ссылок на них.

Пользователь
должен пытаться определить, какие известные документы могут содержать
упоминание его тем. И уже через гипертекстовые связи в документах выйти на
желаемый источник. Часто этот путь эффективен. Попытайтесь найти организации
(WWW-сервера), имеющие профиль, сходный с темой поиска. Иногда, через ссылки в
документах этих серверов можно выйти на нужные материалы.

         В-четвертых,
попытаться найти конференцию по сходной тематике т.е. просто зайти в
какой-нибудь CHAT. Например в www.anekdotov.net.ru. Часто вопрос,
“брошенный” в телеконференцию, позволяет получить достаточно
справочной информации.

         И,
наконец, не забывать спросить своих знакомых. Они могут  подсказать неожиданное
решение.

         В
любом случае нужно настроиться на то, что поиск может занять достаточно длительный
период времени и потребовать от, него немалых усилий.

 Пример.
Пользователь заходит в поисковую систему   Yandex.ru , и в поисковом окне набирает
слово Брат-2,  дальше происходит поиск всего что может хоть как- нибудь связано
с данным словом. Yandex порекомендует  обратится ко многим сайтам и в том числе
и к film.ru и  непосредственно к сайту о самом фильме. (рис-4)

 2.2
Как работают механизмы поиска

         Поисковая
система обычно ищет нужную информацию с помощью трех этапов :

 
I) Этап: Робот (агент, паук или кроулер) перемещается по Сети и
собирает информацию.

 II)
Этап:
Вся информация, собираемая роботами поступает в базу данных в
виде ссылок – индексируется. 

III)
Этап:
Запускается поисковый механизм, который
пользователи используют как интерфейс для взаимодействия с базой данных. т.е.
произошла выдача базой данных гиперссылок и дальше идет обыкновенный перебор
нужных ссылок пользователем.

Эти
этапы ярко выражены в работе блок-схемы (рис-2)

Два
первых являются подготовительными и незаметны для пользователя.[5.с.139]

Рассмотрим
более подробно этапы поиска информации в

Поисковой
системе:

         I)
Этап.
Поисковая система собирает информацию из World Wide
Web. Для этого используют специальные программы, аналогичные браузерам. Они
способны скопировать заданную Web-страницу на сервер поискового указателя,
просмотреть ее, найти все гиперссылки, которые на ней имеются, перейти по
указанным в них URL-адресам, скопировать те ресурсы, которые найдены там, снова
разыскать имеющиеся в них гиперссылки и т.д. Это специальные программы, типа
агентов, пауков, кроулеров и роботов, которые занимаются поиском страниц в
Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически
индексируют информацию, которую они находят для построения базы данных. Каждый
поисковый механизм имеет собственный набор правил, определяющих, как собирать
документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и
затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и
так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым
файлам, файлам мультипликации;  другие проинструктированы, что нужно
просматривать прежде всего наиболее популярные страницы.

 
Агенты – самые “интеллектуальные” из поисковых средств.
Они могут делать больше, чем просто искать: они могут оставлять сообщение о
вашем посещении сайта. Уже сейчас они могут искать cайты специфической тематики
и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут
обрабатывать содержание документов, находить и индексировать другие виды
ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения
информации из уже существующих баз данных. Независимо от информации, которую
агенты индексируют, они передают ее обратно базе данных поискового механизма.

 
Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки
сообщают о содержании найденного документа, индексируют его и извлекают
итоговую информацию. Также они просматривают заголовки, некоторые ссылки и
посылают проиндексированную информацию базе данных поискового механизма.

 
Кроулеры просматривают заголовки и возвращают только первую
ссылку.

 
Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам
различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе.
Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им
нужны значительные ресурсы Сети. Однако, имеются методы,   предназначенные для
того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают,
чтобы они были проиндексированы.

 
Роботы извлекают и индексируют различные виды информации.
Некоторые, например, индексируют каждое отдельное слово во встречающемся
документе, в то время как другие индексируют только наиболее важных 100 слов в
каждом, индексируют размер документа и число слов в нем, название, заголовки и
подзаголовки и так далее.

Вид
построенного индекса определяет, какой поиск может быть сделан поисковым механизмом
и как полученная информация будет интерпретирована.

         Люди
желающие предоставить информацию широкой общественности, или желающие большей
посещаемости своего сайта, помещают краткие выдержки о чем этот сайт прямо в
индекс, заполняя особую форму для того раздела, в который по их предположению
обратится поисковый робот и вытащит в базу данных этот сайт и предоставит ее какому-нибудь
пользователю.

         Когда
кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу
поисковой системы и заполняет форму, детализирующую информацию, которая ему
необходима. Здесь могут использоваться ключевые слова, даты и другие критерии.
Критерии в форме поиска должны соответствовать критериям, используемым роботами
при индексации информации, которую они нашли при перемещении по Сети.

 Проиндексированная
информация отсылается базе данных поискового механизма так же, как было описано
выше.

         II)
Этап:
После копирования разысканных Web-ресурсов на
сервер поисковой системы начинается второй этап работы – индексация. В ходе
индексации создаются специальные базы данных, с помощью которых можно установить,
где и когда в Интернете встречалось то или иное слово.  Индексированная база
данных – это своего рода словарь. Она необходима для того, чтобы поисковая
система могла очень быстро отвечать на запросы пользователей.

База
данных отыскивает предмет запроса, основанный на информации, указанной в заполненной
форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы
определить порядок, в котором список документов будет показан, база данных
применяет алгоритм ранжирования. В идеальном случае, документы, наиболее
релевантные пользовательскому запросу будут помещены первыми в списке.

“Операция
сортировки полученных результатов называется ранжированием.”[3]

Различные
поисковые системы используют различные алгоритмы ранжирования, однако основные
принципы определения релевантности следующие:

         –
Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

         –
Тэги, в которых эти слова располагаются.

         –
Местоположение искомых слов в документе.


Удельный вес слов, относительно которых определяется релевантность, в общем
количестве слов документа.

  Эти
принципы применяются всеми поисковыми системами. А представленные ниже используются
некоторыми, но достаточно известными (вроде AltaVista, HotBot).

 
        – Время – как долго страница находится в базе поискового сервера. Поначалу
кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много
существует в Интернете сайтов, которые живут максимум месяц! Если же сайт
существует довольно долго, это означает, что владелец весьма опытен в данной
теме и пользователю больше подойдет сайт, который пару лет вещает миру о
правилах поведения за столом, чем тот, который появился неделю назад с этой  же
темой.

         –
Индекс цитируемости – как много ссылок на данную страницу ведет с других страниц,
зарегистрированных в базе поисковика. База данных выводит ранжированный подобным
образом список документов с HTML и возвращает его пользователю, сделавшему запрос.
Различные поисковые механизмы также выбирают различные способы показа полученного
списка – некоторые показывают только ссылки; другие выводят ссылки с первыми
несколькими предложениями, содержащимися в документе или заголовок документа вместе
с ссылкой.

         III)
Этап.
Происходит обработка запроса пользователя и выдача
ему результатов поиска в виде списка гиперссылок. Затем идет работа
пользователя по переработке ссылок, предоставленной базой данных. Когда он
щелкает на ссылку к одному из документов, который его интересует, этот документ
запрашивается у того сервера, на котором он находится, если информация пользователя
на данном сайте его не удовлетворила, он щелкает на другую ссылку. Этот этап
может затянутся и оказаться самым сложным для пользователя.  [1]

3.
Поисковые машины

В
Интернете великое множество поисковых машин(поисковых систем),  они имеют
разные виды, у каждой свои возможности преимущества и недостатки. Пользователя
всегда будут одолевать такие вопросы: как  искать в Интернете,
какая машина лучше. Так что постараюсь ответить на эти вопросы.    

3.1
Как искать в Интернете

          При
поиске в Интернет важны две составляющие – полнота (ничего не потеряно) и
точность (не найдено ничего лишнего). Обычно это все называют одним словом –
релевантность, то есть соответствие ответа  вопросу.

         1.
Охват и глубина.
Под охватом имеется в виду объем базы
поисковой машины: который  измеряется тремя показателями – общим объемом проиндексированной
информации, количеством уникальных серверов и количеством уникальных
документов. Под глубиной понимается – существует ли ограничение на

количество
страниц или на глубину вложенности директорий на одном сервере.

         Как
проверить:
Некоторые машины пишут на своем сайте статистику робота.
Но можно проверить и самому – надо задать несколько поисковых запросов,
состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе
– различного трактования пробела), и при этом смотреть на  статистику
результатов, выдаваемую машиной – обычно в начале списка указано, сколько всего
было найдено документов. Помимо того, что слова должны быть из разных областей,
хорошо еще взять слова разных “весов” – редкие, “средние” и
“тяжелые” (частотные), и сравнить количество найденного. Тяжелые слова,
в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой
машины.

 Глубину
хождения робота проверить сложнее – для этого надо взять какие-то сайты, например,
с разветвленной структурой архивов, и проверить, проиндексированы ли документы,
на которые можно попасть только, например, за 6 переходов по ссылкам.

         2.
Скорость обхода и актуальность ссылок.

 Скорость
обхода Сети показывает, насколько быстро происходит индексация
свеже-добавленного ресурса и насколько быстро обновляется информация в базе.
Важным показателем качества поисковой машины (ее робота) является не только
“захват” новых территорий: но и

отслеживание
состояния уже охваченных. Сервера исчезают и появляются, страницы на них
обновляются. Ссылки, которые выдает  поисковая машина в списке найденного,
должны, во-первых, существовать, и, во-вторых, их содержание должно
соответствовать запросу.

         Как
проверить:
Объективную информацию можно получить, проанализировав
логи серверов – робот поисковой машины представляется обычно именем своей
машины  (или похожим образом), так что можно увидеть, как часто он бывает на
сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения
бывает доступен лог только своего сайта, поэтому остается экспериментальный
способ.

Для
определения скорости обхода надо создать где-нибудь страничку текста, добавить
ее в поисковики и посмотреть, как быстро она начнет находиться. Или изменить
уже имеющуюся страничку. Для определения  актуальности ссылок – проверить
документы хотя бы на первой странице списка найденного по нескольким запросам.
Сообщение “Not Found” свидетельствует о том, что документ более не
существует.

         3.
Качество поиска
(субъективный показатель).

 Каждая
поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к
началу списка оказывается нужный вам документ, тем лучше работает
релевантность.

Как
проверить:
Только путем эксперимента. Рекомендуется
для сравнения делать запросы разной длины. Можно также использовать язык
запросов, при этом те, кому неохота читать описание, могут воспользоваться
развернутой страницей запроса (“расширенный поиск” в Апорте и
Яндексе, “детальный запрос” в Рэмблере – варианты перевода на русский
язык “advanced search”).

          Кроме
релевантности, существуют важные пользовательские  характеристики.

     
1. Скорость поиска. Если поисковая машина отвечает медленно, работать с
ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не
только от самой поисковой машины, но и от Интернет-каналов.

     
Как проверить: Путем эксперимента – надо поискать запросы разной длины,
разной “тяжести” слов и в разное время суток (загрузка серверов
существенно неравномерна по суткам, пик – около трех-четырех часов дня).

     
2. Поисковые возможности (работа с языком документа, язык запросов). Еще
один пункт сравнения – что именно и как поисковая машина вносит в индекс.
Полнотекстовая поисковая машина индексирует все слова видимого пользователю
текста. Наличие морфологии дает возможность находить искомые слова во всех
склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые
также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к
картинкам и т.д.). Язык запросов в виде стандартных логических операторов (И,
ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания
или слова на заданном расстоянии – это часто важно для получения разумного
результата. Дополнительной возможностью является поиск в зонах документа –
заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная
возможность языка запросов – естественно-языковый запрос, который не требует
знания операторов.

         Как
проверить:
Обычно эта информация публикуется на
сервере поисковой машины (в Help’е). Тем не менее, рекомендуется проверить на
реальных запросах, поскольку иногда желаемое выдается за действительное.

         3.
Дополнительные удобства.
Это – дополнительные возможности,
которые предоставляет пользователям поисковая машина. Сюда входит   всевозможные
варианты поиска (специализированные страницы, поиск похожих документов,
ограничение области поиска), и список найденных серверов, и поиск по датам и
серверам, и удобный интерфейс поисковой машины, и возможность его
персонализации.

         Как
проверить:
 Информация может быть частично
опубликована на сервере поисковой машины, но лучше всего попробовать самому
поработать с этими возможностями.

         Поисковые
машины состоят из поисковых каталогов и поисковых указателей, многие
поисковые указатели содержат в себе и каталоги. Рассмотрим их. [6]

 3.1
Поисковые каталоги

         Любая
книга начинается с содержания и заканчивается Алфавитным указателем. Несмотря
на то, что они расположены в разных местах книги и выглядят совершенно
по-разному, задача у них одна: помочь найти в книге именно тот раздел, который
в данный момент нужен. Содержание – это пример каталогизации.

Когда
человек выбирает тему, которая ему интересна, по ней он находит номер страницы,
где эта тема раскрывается. Алфавитный указатель – пример индексации
(по-английски, index – это и есть указатель). Человек находит в указателе
нужный термин и получает номер страницы, на которой он встречается.

         Каталоги
(directories) и отличаются от поисковых систем. Каталоги представляют собой
совокупность сайтов, собранных в тематические рубрики. Эти рубрики в свою очередь
могут быть разбиты на подрубрики, которые тоже могут иметь еще более мелкие подкаталоги
и т.д.

Каталоги
с точки зрения пользователя – те же поисковики. Но вот заполняются эти каталоги
не “роботами”, как на указателях, а самыми что ни на есть живыми
людьми. Это очень хорошо для пользователей, так как дает более релевантные
результаты по сравнению с поисковыми серверами. От части в поисковом указателе
тоже содержится каталог, он представлен в виде оглавлений(гиперссылок) по самым
популярным темам.

(рис-5)
[2]

         При
каталогизации ресурса опытный редактор внимательно просматривает его, определяет,
к какой области знаний относится данный ресурс, устанавливает его категорию в
этой отрасли и вносит ресурс в каталог. Самый крупный каталог Интернета – Yahoo
(www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это
большая организация, но и ее усилий хватает лишь на то, чтобы поддерживать
каталог на уровне примерно 1 миллиона ресурсов. Дальнейшее расширение
сдерживается необходимостью

 

поддерживать
уровень актуальности. Сегодня редакторы Yahoo! заняты не столько наполнением
каталога новыми ресурсами, сколько проверкой актуальности ресурсов, каталогизированных
ранее.

Приведу
пример самых используемых каталогов

Рис-6.  Крупнейший поисковый каталог России Mail.ru

 в
российской части Интернета в таблице-1.[приложение]

 3.3
Поисковые указатели

Поисковые
указатели – это автоматизированные системы. Они способны функционировать без
участия человека, и потому их знание о подлинных ресурсах Сети намного (на
несколько порядков) больше, чем у каталогов. Количество проиндексированных
Web-страниц может измеряться сотнями миллионов.

Работа
поискового указателя происходит в три этапа, которые указаны в пункте 2.2.

Конкретные
рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в
Интернете меняется буквально на глазах. Не проходит и полугода, чтобы
что-нибудь не изменилось и в поисковых системах. Та система, которая была
наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра. В
тоже время, популярность – вещь хитрая. Она трудно зарабатывается, но потом и
долго живет. В итоге мы очень часто встречаемся с ситуацией, когда самой
популярной является далеко не лучшая система. Мы поможем читателю научиться
самостоятельно проверять разные поисковые системы и выбирать для работы те,
которые дают лучшие результаты. При проверке размер поискового указателя не
имеет решающего значения. Нам ведь нужны не миллионы ссылок, а всего две-три,
но желательно самые лучшие. Поэтому важно не только то, как много Web-страниц
проиндексировала поисковая система, но и то, когда она это делала в последний
раз, как часто потом проверяла актуальность ссылок и насколько корректно
представляет результаты поиска.

 Сравнительный
обзор поисковых систем.

         Подробно
рассказывать о том, как пользоваться поисковыми каталогами, нет никакой
необходимости. Так как надо просто зайти на сайт выбрать категорию, которая интересует,
в ней выбрать раздел, и так далее, пока не откроется список конкретных ссылок.

         Значительно
интереснее рассмотреть приемы использования поисковых указателей, тем более что
для разных указателей эти приемы разные. Но прежде чем приступать к изучению
конкретной системы, необходимо рассмотреть общие концепции, равно относящиеся
ко всем поисковым указателям, в качестве примера я буду рассматривать такие популярные,
и на мой взгляд самые удобные, поисковые уазатели как Yandex и Rambler .

И
начну с рассмотрения основных видов поиска. В основном всего четыре вида
поиска.

Все
поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой
поиск, расширенный поиск, контекстный поиск и специальный поиск.

         Простой
поиск.
При простом поиске в поле запроса вводится одно или несколько слов, которые
могут характеризовать содержание документа. Если это слово одно, то, как
правило, в ответ выдается такое большое количество ссылок, с которым непонятно
что делать. Если вводится несколько слов, то результат зависит от того, как эти
слова введены, а это, в свою очередь, зависит от конкретной используемой
системы. Приемы простого поиска в разных поисковых системах, как правило, свои,
и прежде чем ими пользоваться, желательно почитать инструкцию. Простой поиск в
Rambler представлен на

рис-8.
При введении фразы: Все смешалось в доме Облонских, поисковые указатели выдают
следующие результаты: Rambler
9(документов)

           
Yandex  2400(документов)

         Расширенный
поиск.
Расширенный поиск всегда подразумевает запрос из группы слов. При
расширенном поиске в большинстве случаев разрешается связывать ключевые слова
логическими операторами AND (И), OR(ИЛИ), NOT(НЕ) и другими. Основное достоинство
расширенного поиска состоит в том, что как правила записи ключевых слов и логических
операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив
один раз приемы расширенного поиска, можно ими пользоваться где угодно. Надо
только предварительно переключить систему в нужный режим (рис-9.)

 При
введении фразы: Все смешалось в доме Облонских, в расширенном поиске, поисковые
указатели выдают следующие результаты: Rambler
9(документов)

                     
Yandex  2400(документов)

         
Рис-8  Простой поиск в Rambler

    
Рис-9 Переключение системы в режим расширенного поиска.

         Контекстный
поиск.
Это очень полезный вид поиска, который, к сожалению,
реализован не во всех поисковых указателях. Системы, которые его поддерживают,
следует ценить особо. При контекстном поиске требуется точное совпадение фразы
или группы слов, например “Все

смешалось
в доме Облонских”. В большинстве поисковых систем, включающих этот метод,
ключевая фраза должна быть заключена в кавычки: “Все смешалось в доме Облонских”.(Рис-10)

 При
введении фразы: ”Все смешалось в доме Облонских”, поисковые указатели выдают
следующие результаты:  

           
Rambler 0(документов)

           
Yandex 
8(документов)

Рис-10. Контекстный поиск в RAMDLER.RU

    

         Специальный
поиск.
С помощью команд специального поиска разыскивают дополнительную
информацию. Например, такие команды позволяют определить, как часто в Сети
встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно
найти ключевые слова,

входящие
в заголовки Web-страниц и т.п. Как правило, команды специального поиска в
различных поисковых системах свои.

Также
необходимо рассмотреть общие правила записи команд поиска.

 Общие
правила записи команд поиска:

         Слова
разделенные пробелами

Допустим,
пользователю необходимо разыскать Web-страницу, на которых что-то говорится об
операционной системе Microsoft Windows. Логично ввести в поле поиска слова
Microsoft Windows и ждать результата. Но результат может быть обескураживающим.
Одни поисковые системы понимают такую запись как Microsoft И Windows – они
дадут то, что пользователь ищет. Другие могут понимать эту запись как Microsoft
ИЛИ Windows – тогда будут разысканы все Web-страницы, на которых встречается
либо первое слово, либо второе, либо оба вместе. Пользователя, конечно,
интересуют только те страницы, на которых оба слова встречаются вместе, но они
будут буквально похоронены среди прочих, не нужных ему страниц.

Приступая
к работе с незнакомой системой, нужно начинать с проверки, как она обрабатывает
группы ключевых слов. Сначала вводится одно слово: Microsoft. Просматривается,
сколько результатов выдаст система.

 При
введении фразы: Microsoft,
поисковые указатели выдают следующие результаты:

           
Rambler 28184(документов)

           
Yandex  1048379(документов)

Затем
вводится второе слово: Windows. Опять проверяется количество. Вводятся оба
слова: Microsoft Windows.

 При
введении фразы: Microsoft,
поисковые указатели выдают следующие результаты:

           
Rambler 6641(документов)

           
Yandex  259276(документов)

Если
количество найденных Web-страниц будет больше, чем в первом и во втором случае,
значит, система считает, что ключевые слова связаны соотношением ИЛИ (множества
объединяются). Если результат будет меньше, чем в каждом из первых испытаний,
то система использует соотношение И (множества пересекаются). И в том, и в
другом случае  придется ознакомиться со справочной информацией, чтобы узнать,
как получить противоположный результат.  Например, все основные российские
поисковые системы по умолчанию между словами ставят оператор И, хотя у системы
“Яндекс” есть свои особенности (см. таблицу-2). Там считается, что
эти два слова должны одновременно присутствовать не в документе, а в одном
предложении. Если достаточно, чтобы они присутствовали в документе, перед
каждым словом надо поставить знак <+>. Одновременно возникает обратная
задача: как сделать, чтобы разыскивались документы, содержащие одно из заданных
–   ключевых слов, то есть, как задать соотношение ИЛИ?

 “Рамблер”:
Microsoft OR Windows; (50986 документов)

 “Яндекс”:
Microsoft | Windows;
(2034641 документов)

         Роль
прописных букв

В
большинстве поисковых систем “хлеб” не равен “ХЛЕБ”, но “ХЛЕБ”*“хлеб”. Общее правило
такое: если клиент ввел строчные символы, то разыскиваются как строчные, так и
прописные символы, но если клиент использовал прописные буквы, то ищется точное
совпадение только с прописными буквами. Классический пример – Красная Шапочка.
Если их ввести именно так, с использованием прописных букв, то будут разысканы
только документы, в которых встречается

сочетание
Красная Шапочка. Однако если ключевые слова записать как красная шапочка, то
будет разыскано больше документов. Через сито отбора пройдут все документы, в которых
встречаются сочетания: красная шапочка, Красная шапочка, красная Шапочка и
Красная Шапочка. Поэтому  не надо злоупотреблять применением прописных букв в запросе
и использовать их лишь тогда, когда есть абсолютная уверенность в результате.

Однако
некоторые поисковые системы имеют отличия. Так, например, в системе
“Рамблер” при индексации все прописные буквы принудительно “понижаются”
до строчных. Это означает, что использовать в запросе прописные буквы в этой
системе бесполезно.

 При
введении фразы: Красная Шапочка, поисковые указатели выдают следующие результаты:

           
Rambler 2921(документов)

           
Yandex  16458(документов)

         Роль
зарезервированных слов

Зарезервированные
слова – это слова, которые не учитываются при обработке запроса. Во время
индексации Web-Страниц программа выбрасывает их из текста, что значительно
уменьшает размеры указателей и сокращает время поиска. К зарезервированным
словам обычно

относятся
неинформативные слова: предлоги, союзы, местоимения, артикли и другие слова
малого размера. Так, например, если в системе “Яндекс” задать поиск
фразы “Все смешалось в доме Облонских”, то будут также разысканы
документы, содержащие Что смешалось в доме Облонских? – и Где смешалось? В доме
у Облонских? В некоторых системах могут быть зарезервированы слова, которые
встречаются исключительно часто и потому не являются информативными. Если,
например, система ориентирована на поиск книг, то слово книга для нее не
информативное. Слово авто неинформативно для поисковой системы, занимающейся
делами автомобильными, а слова компьютер и Интернет неинформативны для систем,
ориентированных на поиск информации по вычислительной технике. Особенно важно
учитывать роль зарезервированных слов при проведении контекстного поиска т.к.
при контекстном поиске необходимо точное соответствие между тем, что заказал
пользователь, и тем, что встречается в Web-документах. Если поисковая система
на этапе индексации “зачистила” Web-документы от зарезервированных
слов, то с контекстным поиском она справиться не может, разве что только
“заглянув” в копии Web-страниц, если таковые у нее хранятся, но на
это уходит много времени. Поэтому честный контекстный поиск в поисковых системах
редкость. В России, например, и Яндекс, и Рамблер только делают вид, что
предоставляют возможность контекстного поиска, для этого искомую фразу надо
заключить в кавычки. Однако после нехитрых испытаний легко убедиться, что это
на самом деле не контекстный поиск, а поиск с точностью до зарезервированных
слов. Пример, когда на запрос “Все смешалось в доме Облонских”
выдается результат Что смешалось в доме Облонских. В таблице-2 я привожу
сравнительную характеристику основных поисковых машин(поисковых систем).[приложение][6] 

4.
Сравнительная характеристика двух поисковых систем на базе 
Rаmbler.ru
и
Yandex.ru

 4.1
RAMBLER

         Rambler.ru
– исторически (до появления Yandex)
наиболее популярная поисковая система в России. Она начала работать раньше
других и долгое время лидировала по размеру поискового указателя и качеству
услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер
поискового указателя “Рамблер” примерно равен 12 миллионам
Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты.
Сегодня “Рамблер” – это популярный портал, лучшая в России
классификационно-рейтинговая система плюс рекламная площадка. (Рис-10) [3]

Приемы
поиска в системе Рамблер:

          Язык
поисковых запросов

 Поисковый
запрос может состоять из одного или нескольких слов, в нем могут присутствовать
знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости
языка запросов. Так, если ввести в поисковую строку несколько слов без знаков
препинания и логических операторов, будут найдены документы, содержащие все эти
слова (причем на ограниченном расстоянии друг от друга).

Однако
знание и правильное применение языка запросов поисковой машины поможет сделать
поиск на Рамблере быстрым и эффективным.

 Регистр

 В
общем случае, регистр написания поисковых слов и операторов значения не имеет,
то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях
повышения качества поиска, регистр слов поискового запроса принимается во
внимание.

 Например,
если запрос состоит из двух, трех или четырех слов, каждое из которых написано
с большой буквы, то предполагается поиск по имени собственному, и автоматически
производится изменение ограничения расстояния между словами запроса со значения
по умолчанию на величину (n-1)*2, где n – количество слов запроса. Это
позволяет находить группу слов запроса, внутри которой есть не более одного
“лишнего” слова или знака препинания, например
“Баден-Баден”, “А. Пушкин”, “Федор Михайлович
Достоевский”.

         Операторы

 
Запрос, состоящий из нескольких слов, может содержать операторы. Поиск
операторов в документе не производится, они служат лишь инструкцией поисковой
машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую
часть, каждая из которых также является запросом (по умолчанию состоящим из
одного слова). Для изменения сферы действия операторов (группировки нескольких
слов запроса в аргумент оператора) применяются скобки и кавычки. Два запроса,
соединенные оператором AND (логическое И) образуют сложный запрос, которому
удовлетворяют только те документы, которые одновременно удовлетворяют обоим
этим запросам. Иными словами, по запросу ‘собака AND кошка’ найдутся только те
документы, которые содержат и слово ‘собака’, и слово ‘кошка’.

Сложному
запросу, состоящему из двух запросов, соединенных оператором OR (логическое
ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух
запросов. По запросу ‘собака OR кошка’ найдутся документы, в которых есть хотя
бы одно из слов ‘собака’ или ‘кошка’ (либо оба эти слова вместе). Оператор NOT
(логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие
левой части запроса и не удовлетворяющие правой. Так, результатом поиска по
запросу ‘собака NOT кошка’ будут все документы, в которых есть слово ‘собака’ и
нет слова ‘кошка’.  Если оператор явно не указан, используется оператор по
умолчанию AND: находятся только документы, содержащие все слова запроса. Так,
запрос ‘информация технологии кредит’ будет истолкован как ‘информация AND
технологии AND кредит’. На странице Расширенного поиска оператор по умолчанию
можно заменить на OR (Искать слова запроса: хотя бы одно).

 
Каждый из операторов имеет сокращенное обозначение:

       
Оператор сокращенное обозначение

       
AND    &

        
OR    |

       
NOT    !

 Запрос
из нескольких слов, перемежающихся операторами, будет истолкован в соответствии
с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет,
поэтому запрос из нескольких слов при обработке сначала группируется по операторам
AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно
использованием скобок.

         Кавычки

 
Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного
в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в
которых они встретились в запросе. Таким образом, двойные кавычки можно
использовать и просто для поиска слова в заданной форме (по умолчанию слова
находятся во всех формах). Например, запросу ‘самолет “заправился”
посадка’ удовлетворяет документ, содержащий текст ‘… самолет совершил посадку
и заправился …’, и не удовлетворяет документ, содержащий ‘.. самолет совершил
посадку, чтобы заправиться …’.

         Скобки

 При
построении запросов иногда возникает необходимость объединения слов запроса в
группы, которые будут аргументами некоторого оператора. Такие группы
заключаются в скобки. Часть запроса, заключенная в скобки, сама является
запросом, и на нее распространяются правила языка построения запросов.
Использование скобок

позволяет
строить вложенные запросы и передавать их операторам в качестве аргументов, а
также перекрывать приоритеты операторов, принятые по умолчанию. Если запрос без
скобок ‘машина самолет | аэродром’ эквивалентен запросу ‘машина AND самолет OR
аэродром’ и, в соответствии с приоритетами операторов,  означает “найти
документы, содержащие либо слова ‘машина’ и ‘самолет’, либо слово аэродром, то
запрос со скобками ‘машина (самолет | аэродром)’ равносилен запросу ‘машина AND
(самолет OR аэродром)’, что означает “найти документы, содержащие слово
‘машина’ и одно из слов ‘самолет’ или ‘аэродром'”.

          Метасимволы

 
Рамблер пока не поддерживает поиск строк с использованием метасимволов (‘*’,
‘?’), которые обычно используются в значении “любая подстрока” и
“произвольный одиночный символ” соответственно. Тем не менее, эти
операторы зарезервированы  для подобного использования в будущем.

         Применение
языка запросов

 
Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в
соответствии с правилами языка запросов. Некоторые слова и символы трактуются 
как операторы языка запросов и обрабатываются специальным образом. Фактически,
языком запросов описывается некая формула, которая используется при поиске – 
каждый из документов “сопоставляется” с ней, и результатом поиска
являются только те документы, которые ей удовлетворяют. Например, запросу
‘самолет’ удовлетворяют все документы, в которых хотя бы раз встретилось слово
‘самолет’ в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют
документы, содержащие каждое из этих слов в любой форме (при некоторых
условиях). Вопрос соответствия документа более сложному запросу определяется
логикой операторов и конструкций языка запросов.

         Морфология

 
По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего
языка. Рамблер понимает и различает слова русского и  английского языков – по
умолчанию, поиск ведется по всем формам слова. Например, при поиске по слову
‘человек’ будут также найдены документы,  содержащие слова ‘человеку’,
‘человеком’, ‘человека’ и даже ‘люди’. Чтобы  провести поиск только по одной
определенной форме слова, нужно взять его в двойные кавычки или воспользоваться
поиском точной фразы в расширенном поиске.

 Стоп-слова

 
Некоторые слова и символы по умолчанию исключаются из запроса в связи с их
малой информативностью. Это так называемые стоп-слова – самые частотные слова 
русского и английского языков, например, предлоги, частицы и артикли.
Присутствие этих слов может замедлить поиск и негативно повлиять на полноту
результатов. Есть возможность обозначить необходимость этих слов в запросе,
взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в
расширенном поиске.

          Ограничение
расстояния

 Если
запрос составлен из одного или нескольких слов без применения операторов и конструкций
языка запросов, то будут найдены документы, в которых встречаются все слова
запроса. При этом для каждого запроса всегда существует так называемое
ограничение контекста – положительное число, по умолчанию  равное расстоянию в
40 слов. Документ, в котором встретились все слова  запроса, будет выдан только
в том случае, если расстояние в словах между вхождениями слов запроса будет
меньше этого числа. Например, по запросу ‘красная армия’ будут найдены те
документы, в которых слова ‘красная’ и ‘армия’ хотя бы один раз встретятся
менее чем в 40 словах друг от друга. Значение ограничения контекста можно
изменять конструкцией ‘(число, запрос)’, где число – любое положительное число,
запрос – любой корректный с точки зрения поисковой машины запрос, состоящий
более чем из одного слова (очевидно, ограничение расстояния между словами в случае
однословного запроса не имеет смысла). Таким образом, по запросу ‘(2, красная армия)’
найдутся только те документы, в которых между словами ‘красная’ и ‘армия’ хотя
бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства
разница  в  порядковых  номерах  слов  меньше  2, т.е.равна 1)

          Ненайденные
слова

 
Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не
удалось найти в Интернете, то выдаются результаты поиска по частичному 
запросу, из которого отсутствующие в Интернете слова исключены. При этом на
странице результатов поиска выдается соответствующая диагностика.

         Сортировка
результатов

 
По умолчанию найденные документы сортируются по релевантности (соответствию запросу).
Однако Вы можете потребовать, чтобы вместо этого в начало списка были помещены
самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую
установку в меню “Сортировать по…” на странице детального запроса.
Можно также ограничить поиск документами, созданными в определенный период времени:
для этого необходимо на странице детального запроса указать “От даты …
до даты …”.

         Расстояние
между словами

 Можно
потребовать, чтобы Рамблер возвращал только те документы, где слова из запроса
находятся на минимальном расстоянии друг от друга. Режим “Ограничить
расстояние между словами” может быть включен в детальном запросе. Все
перечисленные выше правила могут быть использованы совместно друг с другом в
необходимой последовательности.

         Выдача
результатов

 
По умолчанию результаты поиска выдаются порциями по 15 документов. Меню
“Выдавать по…” на странице детального запроса позволяет увеличить
это число до 30 или 50. Меню “Форма вывода…” позволяет получать
описания документов с увеличенной или уменьшенной подробностью.

 4.2
YANDEX

Yandex.ru
–  поисковая машина, способная по запросу найти наиболее подходящие
web-страницы в русской части Интернета. Яндекс ежедневно просматривает сотни
тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок
постоянно растет.  Яндекс не требует   знания специальных команд для поиска.
Яндекс отыщет всех, кто сослался на  страницу, файлы с нужной картинкой,
последние новости или товары в электронных магазинах. В основе системы
“Яндекс” самый большой указатель  – примерно 27 миллионов
Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а
указатель на самые актуальные ресурсы. По уровню актуальности “Яндекс”
сегодня безусловный лидер (рис.4)[3]

         Приемы
поиска в системе Яндекс

Прежде
чем приступать к описанию языка запросов системы Яндекс, отмечу, что он заметно
мощнее и сложнее языков запросов других отечественных поисковых систем. Впрочем,
обыкновенному пользователю не надо пугаться. Даже если он очень не любите
читать и, тем более, изучать инструкции, то он может работать с системой
интуитивно.

 В
принципе, система Яндекс использует в работе эвристические алгоритмы, которые
не совсем строгие математической точки зрения. В результате пользователь может
получить разные результаты, например, если будет искать документы со словами
Буш Гор выборы и выборы Буш Гор. Зато благодаря этим алгоритмам интуитивный
подход к созданию запросов (без чтения инструкций) дает очень хороший
результат, к тому же за очень краткое время.

Поиск
по одному слову

Когда
пользователь вводит искомое слово в поле поиска и нажимает кнопку Найти, то слова
разыскиваются с учетом всех возможных словоформ, что особенно важно для
русского языка. Например, если введено слово снег, то будут найдены документы,
в состав которых входят слова снега, снегов и т. п., но не снежный, заснеженный
и т. п. Если же поиск словоформ не требуется, то его можно отменить с помощью
восклицательного знака, например !снегом.

         Поиск
по группе слов

 Если
слова разделены пробелом, то разыскиваются документы, в которых в одном предложении
встречаются все введенные слова. Так, по запросу Буш Гор выборы

система
выдает документы с фразами типа … Накануне выборов хакеры взломали сайты Буша
и Гора. Среди результатов такого поиска возможны нестрогие соответствия – поисковая
система проявляет свой интеллект. Чтобы строго обеспечить появление слов в предложении,
надо перед ними поставить знак +, например так: +Буш +Гор +выборы. Знак +
должен записываться слитно с тем словом, к которому относится (без пробела).
Пробел выполняет роль оператора И, который также можно ввести явно (символ
&), например так: +Буш& +Гор& +выборы. Справа и слева от
логического оператора должны быть пробелы.

Если
же требуется одновременное присутствие слов не только в предложении, но и во
всем документе, применяется оператор &&, например: +Буш&&
+Гор&& +выборы.

Теперь
рассмотрю приемы исключения слов из поиска. Для этого применяются: знак –
(строгое исключение из предложения), знак ~ (нестрогое исключение из
предложения) и знак ~~ (исключение из всего документа). Так, например, запрос
+Буш +Гор ~~выборы позволит

отобрать
документы, в которых в одном предложении встречаются слова Буш и Гор, но во
всем документе нет слова выборы и его производных (выбор, на выборах, после
выборов и т. п.).

В
тех случаях, когда надо объединить ключевые слова с помощью оператора ИЛИ,
используется символ | (вертикальная черта). Так, например, запрос Буш |
Гор&& +выборы отберет документы, в которых упоминается либо Джордж Буш,
либо Алъберт Гор, но обязательно

встречается
слово выборы.

         Поиск
с указанием расстояния

 Давным-давно
в поисковых Системах появился оператор NEAR, позволяющий находить документы, в
которых два слова расположены близко друг к другу. Правда, что такое
“близко” каждая система понимает по-разному. В поисковой системе
Яндекс можно конкретно указать, на каком расстоянии друг от друга эти слова
должны находиться.

В
документе у каждого слова есть свой номер позиции. Номера позиций двух соседних
слов различаются на единицу (номер позиции слова, находящегося справа, больше).
Оператор расстояния записывается как /+n, где n – число, соответствующее
расстоянию. Например, оператор /+1 соответствует двум словам, идущим подряд, то
есть Microsoft/+1 Windows – это то же самое, что и “Microsoft
Windows”.

Оператор
расстояния может иметь и отрицательное значение. Это означает, что второе
слово, указанное в запросе, должно в документе располагаться раньше первого. Например
запрос Microsoft/-5 Windows может дать ссылку на документ, содержащий фразу об
операционных системах, которые заменят Windows, рассказал ответственный
представитель компании Microsoft.

При
проведении поиска с указанием расстояния можно задавать не точное расстояние
между словами, а диапазон, например /(-5 +5). В этом случае будут отобраны
документы, в которых слова, указанные в запросе в качестве ключевых, попадают в
заданный диапазон. На самом деле, если знак параметра не указан, то это тоже
поиск в диапазоне. Так, оператор /5 надо рассматривать на самом деле как
диапазон /(-5 +5). Запрос Буш/ 5 Гор разыщет предложения типа: Женщины
симпатизировали Бушу, а мужчины – Гору или Гор Буша не слаще.

 Система
– Яндекс имеет довольно сложные правила языка запросов (по сравнению с
Рамблером), но зато у нее обширные возможности. К примеру, расстояния можно измерять
не только между словами, но и между предложениями. Эта единица измерения используется,
когда в запросе применен двойной знак && или ~~. Так, запрос
Буш/+1&&Гор выдаст документы, в которых слова Буш и Гор встречаются
либо в одном предложении, либо в соседних.

         Использование
скобок

 Задание
на поиск – это, по сути дела, логическое выражение, которое работает как фильтр
при просмотре документов, входящих в базу данных поисковой системы. В

логическом
выражении точно так же, как и в арифметическом, можно применять круглые скобки.
Они служат для управления порядком действий. Характерный пример:
Буш&Гор&(выборы | голосование). Такой запрос вернет ссылки на Web-страницы,
содержащие предложения, в составе которых есть слова Буш, Гор, выборы или Буш,
Гор, голосование.

         Управление
ранжированием

 Цель
ранжирования – сделать так, чтобы Web-страницы,

наиболее
оптимально соответствующие запросу, отображались в списке результатов как можно
раньше. Какие алгоритмы при ранжировании применяет поисковая система, это ее
дело. Пользователи либо довольны их работой, либо обращаются к другой поисковой
системе. В системе Яндекс есть возможность самостоятельно изменить алгоритм
механизма ранжирования с помощью весовых коэффициентов. Такой коэффициент можно
присвоить любому ключевому слову или целому выражению, если оно заключено в
скобки: Весовые коэффициенты вводятся через двоеточие, например Буш:5 Гор
выборы. При таком запросе документы, в которых слово Буш встречается чаще,
получают преимущество и отображаются в результирующем списке на более высоких
позициях.

 Еще
один прием управления ранжированием связан с уточняющим словом. Это такое слово,
которое не обязательно должно содержаться в отбираемых документах, но если оно
там есть, то этот документ получает преимущество при ранжировании. Уточняющее
слово вводится после знаков <_. Например, при поиске по ключевым словам Гор
Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет
не просто о Джордже Буше, а о Джордже Буше-младшем.

         Специальный
поиск

 Особняком
стоят приемы поиска информации, содержащейся в специальных полях заголовков
Web-страниц (каждая Web-страница имеет служебные поля в своем заголовке) или
поиск специальных элементов, входящих в Web-страницы, например гиперссылок. В
системе Яндекс команды специального поиска в полях заголовка начинаются

с
символа $, а команды поиска отдельных элементов Web-страниц – со знака #. Все
средства специального поиска работают заметно медленнее по сравнению с
обычными.[6]

 Команда

Описание

Пример

Пояснение

$title (выражение)

Поиск ключевых
слов, указанных в выражении, выполняется только в заголовках Web-страниц

$title (Космос)

Разыскиваются
только Web-страницы, в заголовках которых имеется слово Космос (рис. 7.10)

$anchor

Поиск ключевых
слов, указанных в выражении, выполняется только в якорях внутренних ссылок
Web-страниц

$anchor (вступление)

Внутренние (выражение)

гиперссылки
(ссылки внутри документа) используют для создания внутренней структуры
документа (аналог содержания). Эта команда разыщет Web-страницы, в которых имеется
якорь “Вступление”

#keywords = (выражение)

Поиск среди
ключевых слов, заданных автором Web-страницы

#keywords – (новости)

Автор Web-страницы
может сам задать ключевые слова, описывающие его материал. При просмотре в броузере
мы их не видим, но они учитываются поисковыми системами при индексации

#abstract = (выражение)

Поиск в аннотации
Web-страницы

#abstract
= (Буш | Гор)

Автор WеЬ-страницы
может дать ей краткую аннотацию, которая на экране не отображается, но
учитывается поисковыми системами при индексации и представлении

#image
= “имя ‘файла”

Поиск файлов
иллюстраций по их имени

#image -“Bush.*”

Если заранее
неизвестно, какое расширение может иметь имя файла, применяют подстановочный
символ “*”, который замещает любое количество произвольных символов

#hint –(выражение)

Поиск слов в
альтернативном тексте иллюстраций

#hint =

(Буш | Гор)

Автор может
связать с иллюстрацией текст, называемый альтернативным. Он воспроизводится,
если графика в броузере отключена или при наведении указателя мыши на рисунок.Считайте
его подрисуночной подписью

#url = URL-адрес”

Поиск сайта или
Web-страницы

#uri.=
“www.anysite.ru”

Обычно используется
для локализации поиска. Например,чтобы ограничить круг поиска одним сайтом
или, наоборот, исключить его из области поиска

#link –адрес”

Поиск
Web-страниц, содержащих гиперссылки на заданный URL-адрес сайта или
Web-страницы

#url
=

“www.mysite.ru”

Обычно
используется URLдля
выявления Web-страниц, на которых имеются гиперссылки, ведущие к собственной
странице

Заключение

Мне
удалось полностью раскрыть поставленные вопросы и разобрался в данной теме(как
осуществить эффективный поиск в Интернете?). Я убедился на своем опыте, что в
наш век высоких технологий эффективный поиск информации не разрешим и остался одной
из главнейших проблем. Это я могу объяснить следующим.

Во-первых, 
это не совершенство самих поисковых машин, ставящих под сомнение вообще какой
либо поиск.

Поисковым
машинам не хватает упорядоченности, структуры, структурности, структуризации, а
также системы, систематизации, систематизированности, роботы большинства поисковых
машин приносят огромное число бесполезных гиперссылок,  

         Во-вторых,
неопытность пользователей т.к. искать и находить нужное в ворохе текстов в
Интернете – умение не только поисковой системы, но и пользователя, задающего
вопрос.

         В-третих,
алчность пограмистов, и рекламных агенств их нанимающих, желающих чтобы их
сайты запрашивались как можно чаще. Эти “алчные” програмисты
обманывают роботов и выдают в Интернет сайт в котором якобы есть нужная для
пользователя информация, а там рекламные буклеты или автоматическая гиперссылка
запрашивающая рекламный сайт или еще хуже платный сайт. Хотя специалисты
обслуживающие поисковые машины и борются с таким явлением, оно все равно с
каждым днем приобретает все масштабные размеры.

         На
сегодня, Интернетом используются как справочником 23% пользователей, инструментом
исследования 15%, развлечением 14%, и только как источником новостей 12%.[6]

Не
мнение оптимистично звучит что 10% пользователей всегда, а 73% часто удается
найти нужную информацию.[3]

         На
такой вопрос какая поисковая машина лучшая и какой я предпочту пользоваться,
отвечу таким образом: пользоваться надо той машиной какой удобнее, и мне
удобнее пользоваться Яндексом.

         Интернет
облегчил поиск, и потребовал специфических знаний о поиске, на сегодня он не
всегда эффективен, мы находимся только на заре его развития. И поэтому не стоит
забывать о старом не менее эффективном поиске информации это книги и
библиотеки, этот источник информации оправдывал себя со времен
“Александрийской библиотеки”,  а Интернет только в скором будущем
будет более эффективен и станет почти незаменим. 

Список
использованной литературы

1.Андрей
Аликберов “Несколько слов о том, как работают роботы поисковых
машин”.

#”#”>Используется язык поисковой машины
Яndex

Используется язык поисковой машины
Апорт

Используется язык поисковой машины
Яndex

Используется язык поисковой машины
Rambler

Нет

Нет

Поиск
по фразе

” “

” “

Префиксы

+,

+,

Итеративный
поиск (в результатах)

Есть
поиск внутри категории

После
входа щелкните More…

замена
части слова

*

*
(не всегда корректно)

Таблица-2
[6]

Сводная
таблица по ведущим поисковым машинам

Яндекс

Rambler

Апорт!

AltaVista

Google

Зона
поиска, объем базы данных

Русская
часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам.
Специальный поиск по новостям, товарам, картинкам.

Русская
часть Интернета.

Русская
часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам,
MP3

Специализи-рованный
поиск по новостям, товарам, развлечениям, аудио (MP3) и видео.

Специализи-рованный
поиск по университе-там США, Apple, Linux, BSD

Объем
базы на начало 2001 года

Более
31 миллионов документов

Более
12 миллионов документов

Более
14 миллионов документов

Более
250 миллионов документов

1,25
миллиарда страниц

Тип
индексации

полнотекстовая
индексация

полнотекстовая
индексация

полнотекстовая
индексация и индексация по ссылкам

полнотекстовая
индексация

полнотекстовая
индексация и индексация по ссылкам

Наличие
дополнительных сервисов

Система
объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру,
Народ.Ру, система интеллектуального выбора товаров, CY и пр.).

Система
объединяет поисковую машину и рейтинг-классификатор Top100

Система
объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки
и др.)

Система
объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг,
регистрация доменного имени, перевод и др.)

Система
объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона
Web-страниц.

Синтаксис
языка поиска

логическое
И

пробел
или & (в пределах предложения)&&(в пределах документа)

AND,
&, пробел между словами по умолчанию

И,
AND, &,+, пробел между словами по умолчанию

AND,
& (только при сложном поиске)

по
умолчанию для всех слов поиска

логическое
ИЛИ

|

OR,
|

ИЛИ,
OR, |

OR
(по умолчанию при простом поиске), | (только при сложном поиске)

OR

бинарный
оператор И-НЕ

~
(в пределах предложения)

~
~ (в пределах документа)

не
используется

заменяется
префиксным оператором “-” (AND – пробел по умолчанию)

AND
NOT, ! (только при сложном поиске)

заменяется
префиксным оператором “-“

префиксы
обязательных (+) и запрещенных (-) слов

+,

не
используются

+,

+,
– (только при простом поиске)

+,

группирование
слов

(
)

(
)

(
)

(
)

не
используется

расстояние
между ключевыми словами при поиске

/(n
m) – в словах, &&/(n m) – в предложениях (- назад, + вперед)

при
расширенном поиске – выдача документов только с минимальным расстоянием между
словами

сл2(…),
с2(…), w2(…), [2,…] (- назад, + вперед)

NEAR
(в пределах10 слов, только при сложном поиске)

не
используется

поиск
фразы

” “

нет

” “,
‘ ‘

” “

” “,
‘ ‘, -..-

символы
замены части слова

нет

*,
? (замена любого символа)

*
(только в конце слова)

*

нет

ограничение
по языку документа

выбор:
любой, кириллица, латиница

выбор:
любой, русский, английский

выбор:
русский, английский

выбор
из 25 языков

выбор
из 25 языков

морфология

все
склонения и спряжения по умолчанию, ! (поиск точной словоформы)

#
(все формы слов), @ (однокоренные слова)

!
(указание нормальной формы)

нет

нет

поиск
по датам

есть

есть

есть

есть

нет

ограничение
поиска по полям

Поиск
в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в текстах ссылок,
в названиях скриптов, объектов и апплетов. Поиск похожих документов. Сужение
поиска на выбранные сайты.

Поиск
в заголовках, адресах, названиях документов (только при расширенном поиске).
Поиск похожих документов.

Поиск
в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в
текстах ссылок. Сужение поиска на выбранные сайты.

Поиск
в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в
текстах ссылок, в названиях скриптов, объектов и апплетов

Поиск
в ссылках и Поиск похожих документов. Сужение поиска на выбранные сайты.

Возможности
расширенной формы, качество помощи

настройка
расширенной формы

настройка
словарного фильтра , настройки по дате, по сайту, ссылке, изображению, специальному
объекту

по
документу, дате, режимам AND, OR, расстоянию между словами, усечению слова

по
документу, заголовку, изображению дате, 5 разделам (сайты, МР3, картинки, товары,
новости)

по
булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр.

ограничения
по сайту, языку, ссылкам

настройка
вывода результатов

задание
числа результатов на странице, всех элементов формы вывода

задание
числа результатов на странице, формы вывода

задание
формы выдачи

задание
числа результатов на странице, всех элементов формы вывода

задание
числа результатов на странице, всех элементов формы вывода

ранжирование
результатов поиска

сортировка
по релевантности или дате

сортировка
по релевантности или дате

по
популярности сайта

по
терминам, указанным в SORT

по
цитируемости (ссылок на страницу с других страниц)

итеративный
поиск (в результатах поиска)

Да.
Выполняется с помощью установки флажка

Да.
Выполняется с помощью переключателя области поиска

Да.

 Выполняется
с помощью установки флажка

Да.

Выполняется
с помощью

SORT
BY

нет

качество
раздела помощи

имеется
детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях

краткий
раздел HELP

подробный
справочник по языку запросов, есть много русских синонимов для основных
операторов

самый
большой из рассмотренных в этой таблице учебник on-line по языку запросов

очень
ограниченный раздел HELP

семейный
фильтр

есть

нет

нет

есть

нет

Методы поиска информации в Интернете

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

1.2 Средства WWW – World Wide Web (Всемирная сеть)

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

2.2 Методика поиска информации в Интернете

2.3 Развитие информационного ресурса

2.4 Требования к инструментам поиска

2.5 Структура поисковых сервисов

2.6 Глобальные поисковые машины WWW

2.7 Планирование поиска

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно,
но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем
случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не
существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и
это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в
сети используются специальные серверы, информация на которых поддерживается и
обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации,
поиск в Сети приобретает все большую практическую ценность. Но с быстрым
увеличением объема доступных данных все более усложняется и сама процедура
поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между
собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно,
но верно становится основным средством корпоративного общения, уступая пока
телефону.

В Сети наличествует гигантское количество информационных ресурсов. По
некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно
расти. Такой объем информации требует правильной организации процесса поиска и
применения специальных технических средств, таких как поисковые машины. Простой
поиск по достаточно распространенному ключевому слову дает обычно от десятков
тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим
количеством документов практически невозможна, тем более что подавляющая их
часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления
информации, а следовательно, и по методу доступа к ним.


1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера
может занять достаточно много времени. Для упрощения и ускорения поиска была
разработана поисковая служба Интернета Archie, представляющая
собой специальные Archie-сервера, хранящие содержание
каталогов анонимных ftp-серверов. При обращении с
поисковым запросом на Archie-сервер результатом поиска
является список адресов анонимных ftp-серверов, на
которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера
искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов
и каталогов. Для решения этой проблемы используется система Gopher,
позволяющая перемещаться по системе контекстных меню, показывающих содержимое
фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде
иерархически структурированных каталогов, упорядоченных по содержанию. Работа с
ними очень проста и соответствует работе с обычным отображением файловой
системы.

Существует расширение этой системы – Veronica, которое
содержит в своей базе данных каталоги всех Gopher-серверов.
После ввода поискового запроса Veronica автоматически просматривает все Gopher-каталоги
на наличие искомой информации и тем самым избавляет от долгого поиска вручную
по многим Gopher-серверам.

С таким способом навигации Gopher в определенной степени был предшественником WWW. В настоящее время применение Gopher уменьшается пропорционально росту использования WWW.


1.2 Средства WWW – World Wide Web (Всемирная
сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности
открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по
настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже
знакомого читателю), то есть на системе документов, связанных гиперссылками.
Гипертекст представляет собой ключевые Слова, особым образом выделенные из
обычного текста. Гипертекстовые ссылки отправляют пользователя на другие
документы того же сервера либо на другие сервера, которые могут располагаться в
любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его
ссылки позволяют перейти далее на соответствующие документы. Каждая
переадресация происходит для пользователя незаметно, так что он может
просматривать информационный состав Интернета но содержательному принципу, не
заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые
документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных:
текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной
сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс,
как, например, Netscape Navigator или Microsoft Internet Explorer.

Отправной точкой поиска информации служит, как правило, основная
(базовая, домашняя) страница (сайт) информационного ресурса, которой можно
достичь, введя соответствующий адрес в браузере (например, www.iparegistr.com). WWW-сайты
создаются и обновляются фирмами либо специальными организациями, публикующими
информацию и следящими за содержанием своих WWW-страниц.
Использование WWW, таким образом, не является
пассивным, и каждый пользователь Интернета при помощи специальных
программ-редакторов гипертекста может самостоятельно создавать собственные
интерактивные WWW-страницы. Это и открыло путь для
растущей коммерциализации и расширения Интернета.

В настоящее время вновь создаваемая информация, как правило,
изготавливается с учетом необходимости обеспечения WWW-доступа,
а более ранние документы постепенно преобразуются под него, однако во всем мире
существуют еще миллионы файлов в форм отличных от требований WWW.
Для использования этой информации и через WWW в
браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie,
Gopher). Через WWW можно
использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной
коммуникационной программой Интернета.

С появлением WWW-службы и начался бум в сети
Интернет. Благодаря этой простой в применении и единой для всех служб
пользовательской среде Интернет заинтересовал множество людей и организаций.
Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы
пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском Microsoft Windows в качестве графической
пользовательской оболочки. До появления Windows у
каждого DOS-приложения было собственное руководство
пользователя и тем самым требовалось отдельно изучать каждое приложение.

2 ОСНОВНЫЕ
ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

К результатам поиска предъявляются требования полноты охвата ресурсов,
достоверности полученной информации, минимальных затрат времени и максимальная
скорость поиска.

Требование полноты охвата ресурсов не нуждается в дополнительных
пояснениях, за исключением необходимости использовать при поиске ресурсы не
только WWW, но и других служб Интернета.

Достоверность информации, учитывая природу Интернета, становится
чрезвычайно важным требованием. Оценка достоверности может производиться как
традиционными методами (проверка легальности публикаций на бумажных носителях,
получение сведений об организациях и авторах, выяснение действительности их
электронных ресурсов и т.п.), так и с Использованием возможностей Интернета
(ознакомление с альтернативными источниками информации, сверка фактического
материала, установление частоты его использования другими источниками;
выяснение статуса документа и рейтинга источника средствами поисковых систем,
получение информации о компетентности и статусе автора материала с помощью
специальных поисковых сервисов Интернета; анализ отдельных элементов
организации сайта с целью оценки квалификации поддерживающих его специалистов и
другое).

Время поиска, не считая затрат времени, связанных с техническими
характеристиками подключения, в основном зависит от планирования поиска и
навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование
поиска заключается в определении требуемых для разрешения поискового требования
поисковых служб и порядка их применения. Кроме того, многое зависит от навыков
и опыта конкретного специалиста по поиску.

Как уже отмечалось, информация в Интернете доступна из источников разного
типа. Прежде всего – это WWW-ресурсы (гипертекстовая
система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные
читателю электронная почта, почтовые роботы, Usenet и
другие телеконференции, а также ftp-системы и архивы (с
применением Gopher и Veronica).
WWW позволяет производить поиск требуемых ресурсов на
основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с
использованием гиперссылок в автоматическом режиме, не исключая возможности
ручного просмотра. В WWW имеется целый ряд поисковых
сервисов как общего, так и специализированного назначения.

Каталоги ресурсов представляют собой базы данных с адресами ресурсов
Интернета и самыми разными тематиками. Обычно они имеют иерархическую
структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти
каталоги в большей своей части обслуживаются специалистами по классификации, то
есть предопределяется некоторый субъективный подход к отбору информации,
который, с одной стороны, несколько гарантирует достоверность информации, но с
другой – предопределяет возможность отсутствия (пропуска) части информации, а
также се запоздалое размещение в каталоге.

Поисковые машины – это механизм автоматического построения ссылок
(индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на
глобальные, специализированные или локальные ресурсы. По сути они являются
мощными ИПС, которые с помощью специальных программ-роботов (так называемых
“пауков”) постоянно осуществляют автоматический поиск требуемой
информации в Интернете. Созданные на этой основе специализированные БД
обеспечивают поиск информации по запросам пользователей на основе специальных
ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов
и даже для мощных поисковых машин оставляет желать лучшего.

Электронная почта применяется в Интернете и в WWW.
Адреса при этом попадают в поисковые системы и доступны поисковым машинам.

Почтовые роботы – это специальные программы, способные отвечать
определенными действиями на команды, поступающие им, но электронной почте. Их
основное назначение – пересылка данных по запросу в случае, когда те недоступны
иным способом, а также как альтернатива работы в режиме online
с каким-либо из известных ресурсов, например ftp-архивами.
Адрес почтового робота имеет формат электронной почты. При поиске почтовые
роботы обычно используются лишь как посредники при получении информации. Иногда
приходится сталкиваться с тем, что они оказываются единственным средством
получения нужных сведений.

Usenet и другие региональные и специализированные
телеконференции представляют собой электронные “доски объявлений”,
где пользователь размещает свою информацию в одной из тематических групп
новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс
наиболее значим для быстрого накопления информации, но узкому вопросу, а при
поиске – чаще для получения частной, неофициальной информации.

Ресурсы, доступные по telnet, в ряде случаев
представляют собой совершенно уникальную информацию, прежде всею по библиотечным
каталогам европейских и американских университетов, а также государственных
учреждений.

Как уже отмечалось, система файловых архивов ftp
имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной
в WWW. Архивы ftp представляют
собой в первую очередь источники получения программного обеспечения. Поиск в
них может представлять определенный интерес при знании структуры архивов;
построения файловых систем, имен файлов и каталогов, содержащих требуемые
ресурсы.


2.2 Методика поиска
информации в Интернете

Поиск необходимой информации в Интернете можно осуществлять различными
способами:

·
Поиск с помощью поисковых машин по ключевому слову

·
Поиск с помощью классификаторов поисковых машин

·
Каталоги и коллекции ссылок (более общие понятия)

·
Рейтинги (самые популярные ресурсы)

·
Конференции, чаты

·
Страницы ссылок (“Links”) на тематических сайтах (редкие,
специализированные вещи)

·
Несетевые способы (советы друзей, знакомых; реклама в печатных
изданиях)

В начале поиска информации необходимо определить ее тип. Условно можно
выделить 4 типа информации.

1 тип — общая (например: история Российской империи),

2 тип — менее общая (например: император Александр II),

3 тип — конкретная (например: реформы Александра II),

4 тип — более конкретная (например: отмена крепостного права).

В зависимости от типа информации определяются и пути поиска.

Информация 1 типа ищется с помощью классификаторов поисковых машин (из
российских — рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты с требуемой
информацией не находятся, то следует просматривать найденные по классификатору каталоги
и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти
сайты приводятся в классификаторе по теме и найденных каталогах.

Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом
поиска по каталогам и страницам ссылок.

Информация 3 типа — по ключевым словам, которые вводятся в строку поиска
поисковых машин, каталогам, страницам ссылок

Информация 4 типа — по подробным данным, которые вводятся в строку
поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.

Примеры:

Поиск по 1 типу. Требуемая информация: «История Российской империи».

Заходим в Яндекс — Наука и образование / Общественные науки / История. По
описанию темы находим сайт #”_Toc199165825″>2.3 Развитие информационного ресурса

Как и другие информационные технологии, Интернет создают разработчики, но
в данном случае в основном это создатели ресурсов (начиная от специалистов,
ведущих поддержку hard- и software,
дизайнеры, художники, редакторы и самое главное – авторы информационных
ресурсов). Естественно, создание ресурсов – не самоцель, ресурсы востребуются
пользователями сети, то есть теми же специалистами и потребителями ресурсов,
среди которых, как уже отмечалось, появляется новый слой – специалисты по data mining,
по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие,
в том числе неэлектронные информационные ресурсы (в частности, средства
массовой информации), характеризуются определенными состояниями своей
деятельности (рис. 9.3).

Ресурс зарождается в соответствии с потребностями общества и его
возможностями (в частности, связанными с уровнем технического и социального
состояния общества).

По мере возможности происходит “взросление”, становление
ресурса (или его исчезновение при полном отсутствии востребованности, то есть
исчезновение, возможно, не в физическом смысле – сайт может существовать, а
именно в смысле востребованности).

При определенном уровне востребованнности и (в том числе и стараниями
авторов сайта) происходит его каталогизация, то есть сведения о ресурсе
появляются в различных каталогах, соответствующих типу ресурса.

Индексирование, то есть появление ресурса в индексах поисковых машин,
происходит при достижении определенных объемов информационного наполнения и
востребованности.

При наличии постоянного роста востребованности происходит и постоянное
развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из
индексов и каталогов.

2.4 Требования к инструментам поиска

Как отмечалось ранее, чертами, присущими профессиональному поиску,
являются его полнота, достоверность и высокая скорость. Наиболее серьезным и
нетривиальным фактором, определяющим быстроту достижения цели поиска,
оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора
типа ресурсов, которые потенциально способны нести информацию, релевантную
поисковой задаче, а с другой – выбора инструментов поиска, обслуживающих
соответствующее информационное поле, в зависимости от их предполагаемой
результативности. Если говорить о наиболее емком на сегодняшний день с точки
зрения информационного наполнения WWW-пространстве, то
относительное изобилие его поисковых средств делает решение большинства
практических задач многовариантным. Построение оптимальной последовательности
применения тех или иных инструментов на каждом этапе поиска и предопределяет
его эффективность. Помочь решить проблему выбора может четкое представление о
видах, назначении и особенностях работы информационно-поисковых систем (ИПС)
Интернета.

Реальными носителями информации о ресурсах, которыми располагает
Интернет, являются поисковые машины и каталоги. Информационно-поисковые системы
Интернета различаются, но принципу отбора информации, который в той или иной
степени присутствует и в сканирующей программе поисковой машины, и в
деятельности специалистов, производящих каталогизацию. Как правило, различают
два основных показателя: пространственный масштаб системы и ее специализация.

При формировании информационного массива поисковая система может следить
за обновлением заранее заданного набора документов, каталогов или конечного
числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в
Интернете, несколько условно можно назвать локальным и. Глобальные поисковые
системы в отличие от локальных решают более трудоемкую задачу – по возможности
наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого
становится возрастание роли механизма, используемого такой системой для
постоянного увеличения числа просмотренных сайтов.

Построение региональных и специализированных поисковых сервисов
предполагает активную фильтрацию информации. Специализация поисковой системы на
базе какого-либо профиля ИЛИ тема тики, будь то правовая направленность, поиск
персоналий или файлов мультимедиа в формате МРЗ, может происходить как в
глобальном, так и на локальном масштабе. Разумеется, систему проще построить и
сопровождать на ограниченном пространстве обновляемых сайтов, что обычно и
реализуется на практике.

Региональными поисковыми службами информация фильтруется в основном по
имени домена верхнего уровня сервера, например by для
Беларуси, ru – для России. Серьезный недостаток таких
систем отсутствует учет большого количества ресурсов, размещаемых региональными
авторами ресурсов непосредственно в домене com.

Учет региональных особенностей зачастую присутствует и в глобальных
поисковых сервисах. Система Lycos, например, ранжирует
ответы по региону запроса.

Интернету, исходя из его природы, сопутствует информационный хаос. И
только современные средства автоматического индексирования документов способны,
учитывая применяемые алгоритмы и возможности технических средств, найти в этом
хаосе рациональное зерно. Применение же при поиске ресурсов без поиска по
ключевым словам напоминает серфинг, а не серьезную работу с информацией.

2.6 Глобальные поисковые машины WWW

После знакомства с несколькими глобальными поисковыми машинами
пользователь, как правило, останавливается на одной-двух, с которыми и
предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто
происходит совершенно произвольным способом, не на анализе действительных
возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista
отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового
индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на
английский.

Еще одна известная система – это Northern Light, имеющая достаточно
стандартный набор функций. Система дополнительно дает возможность работы с
уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из
периодических изданий. Индексное сопровождение кириллицы (в том числе и
русского языка) делает ее вместе с AltaVista неплохим
дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

2.7 Планирование поиска

Поиск и сбор информации в Интернете нуждаются в планировании. Ошибочная логика
построения запроса, неоптимизированная последовательность применения
инструментов поиска, попытки ускорить поиск – все это не просто затягивает
получение результата, но может поставить под угрозу смысл поисковой работы.

Остановимся на нескольких важных моментах, связанных с планированием и
первыми шагами таких работ.

Начинать необходимо со всестороннего лексического анализа искомой
информации. Следует использовать любое, достаточно достоверное и подробное
описание исследуемого вопроса для получения первичных сведений. Таким
источником вполне может стать как узкоспециальный справочник, так и электронная
энциклопедия общего профиля. На основе изученного материала необходимо
сформировать максимально широкий набор ключевых слов в виде отдельных терминов,
словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых
словесных штампов, при необходимости на нескольких языках. Заранее следует
определить и возможные уточнения поискового запроса- редкие слова, синонимы и
антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно
также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть
возможные характеристики поискового шума. После накопления этих предварительных
данных можно перейти к получению первичной информации из Интернета.

Основная задача этой стадии учесть особенности Интернета, который
является не только носителем технологий, но и традиций, и собственной этики.
Сетевая лексика, сленг и написание общеупотребительных слов здесь могут
отличатся от принятых.

Сведения о наличии в Интернете необходимых данных лучше всего искать в
ранее известном каталоге, поддерживающем поиск по ключевым словам. При решении,
например, простых задач типа “Получить текст Конституции Республики
Беларусь” или “В каких правовых актах употребляется название родного
города” известный сайт или каталог может быть более быстрым способом
получения информации, чем автоматический индекс, и обеспечит большую
достоверность.

После лексического анализа информации наступает технологический этап. Выбор
информационного поля Интернета и поисковых инструментов производится на основе
вышеизложенных подходов.

Используются тестовые запросы из одного-двух ключевых слов или фразы,
затем анализируется количественный отклик. Содержательный анализ данных позволяет
корректировать запросы, но релевантности отклика. В результате тестирования
выясняются наиболее представительные источники информации, после чего следует
уточнить последовательность применения поисковых инструментов. На этом этап
планирования завершается.

В заключение отметим, что при решении задачи сбора информации из
Интернета значительную роль играют региональные и специализированные поисковые
сервисы. Применение глобальных индексов не для прямого поиска нужных сведений,
а для локализации этих поисковых инструментов нередко позволяет сократить сроки
решения поставленной поисковой задачи.


ЗАКЛЮЧЕНИЕ

Принимая во внимания все выше сказанное, можно попытаться одним словом
определить суть Интернета: это – общение, общение между отдельными людьми и
целыми нациями без вмешательства правительственных авторитетов. Эта новая
технология с огромной скоростью изменяет облик цивилизации, коренным образом
меняя представление человечества о мире и самом себе. Сеть Интернет уже вобрала
в себя десятки миллионов человек, более сотни стран, она полностью изменила
процессы распространения и восприятия информации. В наш век информационных
технологий виртуальная реальность интернет, способствующая стиранию
государственных границ, сокращению географических расстояний, ликвидирующая
преграды между культурами, становится не менее явственной, чем
окружающий нас материальный мир.

С развитием INTERNET появилась возможность
быстрого и удобного поиска необходимой документальной информации. Теперь можно
не заниматься подбором и изучением огромного количества литературы в книжных
магазинах и библиотеках. Информацию можно получить, не выходя из дома или
офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначенной
для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для
рядового пользователя, каждый может без труда отсечь заведомо ненужный поток
информации, лишь правильно сформулировав цель поиска.

 

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1.
Гринберг А.С., Кашинский Ю.И., Славин
Б.С. Введение в правовую информатику. Мн.: НО ООО БИП-С, 2002. С. 303.

2.
Гусев В.С. Google: эффективный поиск. Краткое руководство. М.,
2006.

3.
Информатика для юристов и экономистов./
Под редакцией С. В. Симоновича. СПб.: Питер, 2001.

4.
Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

5.
Компьютерные технологии в юридической деятельности./Под редакцией
профессора Н. Полевого. М.: Издательство БЕК, 1994.

6.
Рассолов М.М. Информационное право. – М.М.: Юристъ, 1999.-321с.

7.
Энциклопедия Интернет, СПб, 2001

8.
How the browsers
compare//http://www.microsoft.com

Реферат: Поиск информации в Интернет

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

1 ОБЩИЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

1.1 Поиск информации в Интернет: стратегия и методика

1.2 Поиск с помощью каталогов

1.2.1 Принцип работы, преимущества и недостатки каталогов

1.2.2 Электронные каталоги глобального масштаба

1.2.3 Российские каталоги ресурсов Интернет

1.3 Поиск с помощью поисковых машин

1.3.1 Принцип работы, преимущества и недостатки поисковых машин

1.3.2 Глобальные поисковые машины

1.3.3 Российские поисковые машины

2 ПОИСК ИНФОРМАЦИИ. АНАЛИТИЧЕСКИЙ ОБЗОР НАЙДЕННЫХ ДОКУМЕНТОВЗАКЛЮЧЕНИЕСПИСОК ИСПОЛЬЗОВАННЫХ ИНТЕРЕНТ-РЕСУРСОВ

ВВЕДЕНИЕ

Интернет — глобальная компьютерная сеть, охватывающая весь мир. Она составлена из разнообразных компьютерных сетей, объединенных стандартными соглашениями о способах обмена информацией и единой системой адресации. Интернет образует ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире.

Для того, чтобы различные компьютеры в Интернете могли сообщаться друг с другом, используются протоколы, т.е. правила или условия коммуникации. Язык Интернета называется TCP/IP, что означает протокол Управления передачей/Интернет-протокол. Любой компьютер для того, чтобы общаться в Интернете, должен уметь «говорить» на языке TCP/IP. Этот стандарт является «открытым», что означает, что он не является фирменным продуктом какой-либо одной компании. Основная операционная система называется UNIX, но стандарт Интернета приспособлен для использования на всех наиболее распространенных системах, таких как UNIX, PC и Macintosh.

Интернет состоит из взаимосвязанных сетей, эксплуатируемых университетами, государственными учреждениями, военными, корпорациями и другими организациями. Эти сети связаны друг с другом различными видами оборудования такими, как маршрутизаторы, мосты и коммутаторы. Маршрутизаторы решают, в каком направлении отослать сетевые данные, предварительно посылая пакеты по нужному адресу и затем «маршрутизируя» данные в направлении соответствующего компьютера, где эти пакеты собираются вновь. Мосты предназначены для соединения двух каких-либо сегментов кабельной проводки внутри сети; коммутаторы – это приспособления для замыкания и размыкания цепей.

Одной из наиболее популярных служб, возникших на базе сети Интернет, стала «Вceмирнaя пaутинa» WWW (Wоrld Widе Wеb). Tипичнaя «Wеb-страница» представляет собой полный экран текстовой и графической информации, связанной с некоторым конкретным предметом или вопросом. Ключевые слова и (или) изображения на такой странице выделены. Если пользователь выбирает один из таких выделенных элементов, то на экране воспроизводится новая страница, посвященная выбранному слову или изображению. Пользователь может, следуя таким ссылкам, продолжить вывод на экран новых страниц. Программа, которая осуществляет поиск, выборку и воспроизведение Web-страниц, называется браузером, а компьютеры, хранящие информацию, – Web-серверами.

Концепцию «паутины» разработал в 1990 Т.Бернерс-Ли в Европейском центре ядерных исследований ЦЕРН в Женеве (Швейцария). Он хотел создать систему, которая помогала бы ученым сотрудничать, применяя упрощенные способы создания и использования мультимедиа-информации. Систему связей (ссылок) между документами называют гипертекстом. Для создания системы гипермедиа «паутина» сочетает гипертекст с мультимедиа (текст, изображения, звук и видео). Совместное пользование информацией, содержащейся в «паутине», стало возможным благодаря применению для создания Web-стpaниц oбщeгo языкa, пoлучившeгo нaзвaниe гипepтeкcтoвoгo языкaoписaния дoкумeнтoв НТML, общего протокола для обмена информацией, названного гипертекстовым транспортным протоколом HTTP, и стандартного формата адресов (унифицированного указателя ресурсов) URL. Важным достоинством URL является то, что он может работать с любым протоколом, а не только с HTTP; отсюда следует, что «Всемирная паутина» спроектирована так, чтобы ее можно было использовать со всеми существующими и будущими сетевыми службами.

«Паутина» приобрела в ЦЕРНе исключительно высокую популярность и вскоре появилась в других научно-исследовательских центрах, включая национальный центр США по применениям суперкомпьютерных вычислений NCSA. В 1993 группа сотрудников NCSA, возглавляемая М.Эндрессеном, начала разработку улучшенного Web-браузера, получившего название «Мозаик». «Мозаик» мог работать на большинстве типов рабочих станций и персональных компьютеров. Бесплатный доступ к этой программе просмотра сделал «паутину» исключительно популярной, и число обращений к сети начало расти с феноменальной скоростью. За несколько месяцев количество используемых экземпляров «Мозаик» превысило миллион, а трафик WWW вырос в 10 тыс. раз. Эндрессен и его группа ушли из NCSA, чтобы работать над коммерческой версией «Мозаик». Затем появились и другие коммерческие браузеры, способствовавшие быстрому росту и развитию «Всемирной паутины».

Спектр пользователей WWW довольно широк. Ее мультимедиа-возможности удобны для астрономов, заинтересованных в совместных наблюдениях за кометами, для математиков привлекательны воспроизводимые на экране геометрические фигуры, а для биологов – доступ к обширным базам данных по белкам. Благодаря тем же средствам стали возможными «виртуальные туры», посвященные осмотру коллекций произведений искусств в разных музеях. Такие государственные организации, как НАСА, Смитсоновский институт и Библиотека Конгресса используют WWW для публикации текстовой информации и изображений. Корпорации размещают в узлах WWW рекламу, информацию о продаже аппаратных или программных продуктов и принимают заказы. Для индивидуальных пользователей, располагающих собственными компьютерными идентификаторами, наиболее увлекательным представляется создание своих «базовых Web-страниц», открывающих новые возможности для самовыражения и совместного пользования информацией.

Цели выполнения курсовой работы:

1. ознакомиться с всемирной компьютерной сетью Интернет и используемыми в ней технологиями;

2. освоить приемы эффективного поиска необходимой информации в сетевых ресурсах;

3. получить практический опыт поиска информации по заданной теме;

4. освоить основы языка HTML и методы создания Web- документов;

5. получить практический опыт создания Web- страниц на основе найденных в сети документов;

6. получить более глубокую теоретическую и практическую подготовку по специальности на основе самостоятельного изучения и обобщения научной, учебной литературы и нормативных документов, а также формирования умений и навыков по работе в сети.

Задачами курсовой работы являются:

— рассмотрение общих принципов построения и функционирования Всемирной компьютерной сети Интернет;

— рассмотрение общих принципов организации поиска информации в сети Интернет;

— поиск информации по заданной теме в сети Интернет;

— аналитический обзор найденных документов;

— создание Web- страницы на основе найденных в сети документов.

1 ОБЩИЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

1.1 Поиск информации в Интернет: стратегия и методика

Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что мы потратим на чтение первых строк этого раздела, в виртуальной вселенной появится порядка сотни новых или измененных документов, десятки будут перемещены на новые адреса, а единицы — навсегда прекратят свое существование.

Необходимость и важность проблемы информационного поиска привела к образованию в самом Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на кaтaлoги (dirесtоriеs) и пoиcкoвыe мaшины (sеаrсh еnginеs).

Эти разновидности внешне очень похожи, поскольку каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина — собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии/неучастии человека. Поисковые машины запускают в Web программных «пауков» (spiders), которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст. Каталоги же формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации — каталоги или поисковые машины — не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого — постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.

Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью каталогов, можно провести более детальное их обследование, использовав локальный поисковый механизм. Таким образом, для достижения наиболее полных результатов следует применять каталоги и поисковые машины в сочетании друг с другом.

Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с каталогов.

2. Для получения более полных результатов по сложному запросу поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам.

4. Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.

При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью.

1.2 Поиск с помощью каталогов

1.2.1 Принцип работы, преимущества и недостатки каталогов

Каталоги – это пионеры навигации в Сети. Каталог представляет собой данные, структурированные по темам в виде иерархических структур. Пpи зaгpузкe кaтaлoгa нa экpaн вывoдитcя caмый oбщий пepечeнь oблacтeй чeлoвeчecкoй дeятeльнocти: ИCКУCCTВO, OБPAЗOВAHИE, БИЗHEC, HAУKA, ИГPЫ, CПOPT и т.д. Каталоги имеют иерархическую структуру, то есть пользователь, входя в любой раздел каталога, последовательно видит все более и более дробную его детализацию. Бoльшинcтвo кaтaлoгoв сoздaются путeм дoбaвлeния aвтopaми wеb-cтpaниц cвoeгo сaйтa к сущecтвующeму cпиcку ccылoк.

Поисковые кaтaлoги coздaются вpучную, т.e. инфopмaция в них зaнoсится людьми. Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог. Благодаря «человеческому» фактору, информация в каталогах организована достаточно четко, что позволяет в определенных случаях достичь требуемого результата быстрее, чем при помощи поисковых машин. Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. В каталоги попадают лишь лучшие страницы. Поэтому найти достаточно специфическую информацию в каталоге зачастую очень сложно.

Кроме основных разделов многие каталоги имеют дополнительные, в которых сайты классифицированы по другому основанию: региону, стране; алфавиту; популярности.

Особенность каталогов в том, что они более эффективны при поиске подборок информации на определенную общую тему, например, «профсоюзное движение», «редакции газет Урала», а не при поиске ответа на конкретный вопрос!

Каталоги могут быть:

· специализированными и включать только ссылки на сайты определенной, узкой тематики. Подобные каталоги удобны для поиска информации по конкретной тематике. Пример специализированного каталога: «Русский медицинский сервер» dir.rusmedserv.com.

· универсальными, которыепозволяют производить поиск по различным темам. Информация сгруппирована по разделам. Каждый раздел имеет несколько подразделов. Например, www.ru, referal.ru, www.freeedom.ru.

1.2.2 Электронные каталоги глобального масштаба

Созданием и актуализацией каталогов глобального масштаба в большинстве случаев занимаются информационные компании, прежде всего американские. Практически все каталоги декларируют всемирный охват материала, однако, практика показывает, что основной упор делается все-таки на североамериканские сайты. Естественно, что обращение к глобальным каталогам ресурсов требует минимального владения английским языком.

Yahoo! (http://www.yahoo.com/)

Yahoo! является одним из самых первых, надежных и авторитетных каталогов Всемирной паутины. У каталога два основных достоинства: — внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. Основной ряд Yahoo! включает 14 категорий, в числе которых: БИЗНЕС И ЭКОНОМИКА, КОМПЬЮТЕРЫ И ИНТЕРНЕТ, НОВОСТИ И СМИ, РАЗВЛЕЧЕНИЯ, ИСКУССТВО И ГУМАНИТАРНЫЕ НАУКИ, ОБРАЗОВАНИЕ, ПОЛИТИКА, ЗДРАВООХРАНЕНИЕ, ЕСТЕСТВЕННЫЕ НАУКИ, ОБЩЕСТВЕННЫЕ НАУКИ и т.д. Использование Yahoo!, как и любых других каталогов, наиболее эффективно для ознакомления с наполнением Интернет по различным областям деятельности, при размытости критериев пoиcкa — кoгдa нeизвecтнo пo кaким ключeвым cлoвaм ocущecтвлять пoиcк. Yahoo! — огромный транснациональный проект. В основном каталоге учитываются, главным образом, англоязычные ресурсы, представленные по всему миру. Для разысканий по отдельным странам выделены Local Yahoos! — региональные каталоги, обладающие иерархической структурой, аналогичной главному справочнику, но отражающие ресурсы в основном отдельных стран, большинство которых представлено на национальных языках. Учитывая гигантскую популярность и, следовательно, посещаемость Yahoo!, в последние несколько лет его владельцы уделяют все большее внимание побочным сервисам, среди которых электронные магазины, аукционы, службы новостей, агентства путешествий и т.п. (Приложение 1)

Оре n Dir ес t о ry Р r о j ус t (http://dmoz.org/)

Каталог ресурсов Интернет, являющийся на сегодня одним из наиболее полных в мире — порядка 4,5 миллионов сайтов в более чем 590 тысячах категорий. Главной особенностью проекта является его некоммерческая направленность: он практически полностью формируется силами добровольцев из числа пользователей Сети, считающих себя экспертами в различных областях знания. В этом одновременно сила и слабость проекта, поскольку степень и качество наполнения разных категорий каталога полностью определяются наличием, квалификацией и степенью ответственности редактора конкретной рубрики. Иерархическая структура Open Directory достаточно научна и логична. В каждой рубрике, помимо англоязычной части, как правило, представлены варианты каталога на нескольких десятках национальных языков, в числе которых и русский. Все они подготовлены региональными редакторами из числа жителей соответствующих стран. В настоящее время Open Directory является динамично развивающимся проектом, который перехватывает значительную долю популярности у коммерциализировавшегося Yahoo!. Усовершенствованный вариант Open Directory с успехом используется в качестве каталога в поисковой системе Google. (Приложение 2)

About (http://www.about.com/)

Каталог, поддерживаемый экспертами различных областей знания. Основная отличительная черта About — принципиальная ориентация на отражение не всех, а лишь наиболее ценных и заслуживающих доверия ресурсов. Основной ряд классификации включает 24 деления, которые выделены в соответствии с интересами среднестатистических пользователей Интернет. Среди них АВТОМОБИЛИ, ПОМОЩЬ В ВЫПОЛНЕНИИ ДОМАШНИХ ЗАДАНИЙ, ХОББИ И ИГРЫ, ДЕНЬГИ, ПУТЕШЕСТВИЯ, ПОДРОСТКИ и т.п. Внутри категорий подрубрики выделяются в виде перечней в правой стороне экрана. Очень квалифицированно составлены аннотации включенных сайтов. Главным недостатком About является огромное количество рекламы, как встроенной в интерфейс, так и самопроизвольно открывающейся в новых окнах, а также практически стопроцентная ориентация на североамериканские ресурсы. (Приложение 3)

1.2.3 Российские каталоги ресурсов Интернет

В большинстве стран мира существует множество собственных каталогов ресурсов, которые гораздо полнее отражают национальный информационный массив, нежели глобальные каталоги. В России на сегодняшний день существует несколько подобных источников, ни один из которых пока не отличается высоким качеством.

Ап op т (к a т a л o г) (http://aport.ru/)

Нaceгoдня этoeдинcтвeнный пpoфeccиoнaльнo пoддepживaeмый oтeчecтвeнный кaтaлoг Интepнeт-pecуpcoв. Дaнный кaтaлoг являeтcя cocтaвнoй чacтью oднoимeннoгo пopтaлa, кoтopый тaкжe включaeт и пoиcкoвую мaшину. В Ап op т учитываются не только российские или содержательно относящиеся к России ресурсы, но и полностью иноязычные зарубежные ресурсы, причина включения которых абсолютно непонятна. Каждая ссылка каталога cнaбжeнaaннoтaциeй. К сервисным функциям Апорт относится возможность сортировки ссылок в рубриках по дате поступления, в алфавите названий, по индексу цитирования или лиге. Каталог обладает хорошей возможностью непосредственного поиска, который можно осуществлять как в каталоге в целом, так и в отдельных его разделах. К числу главных недостатков справочника Апорт относится низкая скорость актуализации сведений. В ряде случаев до четверти ссылок из разделов уже устарели. (Приложение 4)

Все прочие российские каталоги ресурсов Интернет демонстрируют еще менее качественный уровень работы. К числу каталогов, в которых иногда можно обнаружить интересные сведения, относятся List.ru (list.mail.ru), Wеblist (Weblist.ru или www.yahoo.ru/), Иван Сусанин (http://www.susanin.net/). (Приложение 5) К их общим недостаткам oтнocятcя oтcутcтвиe чeтких пoдхoдoв в oтбope мaтepиaлoв, cepьeзныeoшибки в cиcтeмaтизaции дaнных, зaпaздывaниe в oтpaжeнии иcтoчникoв, низкий уровень аннотаций. Причинами этого является то, что каталоги наполняются непрофессионалами, работа которых ни кем не редактируется. Зачастую наполнение производится исключительно путем самостоятельного ввода данных создателями сайтов, что, естественно, не гарантирует даже минимальный качественный уровень представленных материалов. Coздaниe и пoддepжaниe в aктуaльнoм cocтoянии кaчecтвeнных кaтaлoгoв pecуpcoв Интeрнeт тpебуeт cepьeзных инвecтиций, кoтopых в Рoccии пoка eщe нeт.

1.3 Поиск с помощью поисковых машин

1.3.1 Принцип работы, преимущества и недостатки поисковых машин

Нapяду c кaтaлoгaми (и дaжe гopaздo чaщe) иcпoльзуютcя п o и c к o вы e м a шины. Это уже более современный и удобный способ навигации и поиска в Сети. В отличие от каталогов, поисковая система — это полностью автоматизированная структура.

К преимуществам поисковых машин следует отнести следующие: малое количество в результатах поиска устаревших ссылок; намного большее количество Web-узлов, по которым производится поиск; более высокая скорость поиска; высокая релевантность поиска; наличие дополнительных сервисных функций, облегчающих работу пользователя, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов «по образцу» и т.д.

В основу работы поисковых машин заложены совершенно иные технологические принципы. Задача поисковых машин — обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета (индексирования) всего содержания максимально возможного числа web-страниц. В отличие от каталогов, все они функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии «метод снежного кома». Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио- и видеофайлы и пр. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и cocтaвляют бaзу дaнных, к кoтopoй происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов.

Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту cтpaницы, a тaкжe чиcлo и aвтopитeтнocть внeшних ccылoк нa дaнную cтpаницу c дpугих caйтoв.

Однако у поисковых машин существуют некоторые недостатки: ограниченная область поиска. Если какой – либо сайт не был внесен в бaзу дaнных пoиcкoвoй мaшины, oн для нее не «существует», и его документы в результаты поиска попасть не могут; относительная сложность использования. Для того чтобы составленный запрос на поиск точно соответствовал тому, что именно требуется найти, нужно хотя бы немного представлять, как работает поисковая машинам, и уметь использовать простейшие логические операторы. Поисковые каталоги в этом смысле проще и привычнее; менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией. Результаты работы пoиcкoвoй мaшины мeнee нaглядны; пocкoльку бaзу дaнных пoиcкoвoй мaшины пополняют программы – роботы, нечестные владельцы рекламных сайтов могут их «обмануть», из-за чего релевантность поиска может быть значительно снижена.

1.3.2 Глобальные поисковые машины

Поисковые машины (sеаrch еnginуs) более распространены чем каталоги, и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных нaвыкoв, тaк кaк пpocтoй ввoд иcкoмoгo тepминa в пoиcкoвую cтpoку, cкopee вceгo, пpивeдeт к пoлучeнию cпиcка из coтeн тыcяч дoкумeнтoв, coдepжaщих дaннoe пoнятиe, что практически равносильно нулевому результату.

Google (http://www.google.com/)

Данная поисковая машина запущена в 1998 году. В настоящий момент эта система пo вceм знaчимым пapaмeтpaм являeтcя eдинoличным лидepoм cpeди глoбaльных пoиcкoвых cиcтeм. Oбъeм индекcнoгo фaйлaGооglе нaceгoдня cocтaвляeт бoлee 4,2 миллиapдoв wеb-cтpaниц и cтaтeй из гpупп нoвocтeй пo интeрeсaм. Дocтoинствoм Gооglе являeтся тo, чтooн cпoсoбeн индeкcиpoвaть дoкумeнты нe тoлькo в видe НТML-фaйлoв, нo тaкжe дoкумeнты в фopмaтaх РDF, RТF, РS, DОC, ХLS, РРТ, WР5 и pядe дpугих.Gооglе пoзвoляeт дaжe пpocмoтpeть пpoиндeкcиpoвaнную cтpaницу, кoтoрaя былa удaлeнa или cepвep, нa кoтopoм oнapacпoлoжeнa нeдocтупeн. Нecмoтpя нa тo, чтoGооglе этo глoбaльнaя пoиcкoвaя cиcтeмa, пoльзoвaтeли из нeaнглoязычных cтpaн aвтoмaтичecки пepeaдрecoвывaютcя нa интepфeйс нa их poднoм языкe. Нa сeгoдня Gооglе oблaдaeт лучшими вoзмoжнocтями пoиcкa иллюcтpaций c пoмoщью peжимa «Пoиcк изoбpaжeний» (Imаgеs, «Kapтинки»). (Приложение 6)

А llth е W е b / F а st S еа rch (http://www.alltheweb.com/)

Была основана в Норвегии в 1997 году. Имеет базу данных более 600 млн. URL и поэтому считается одной из крупнейших в Сети. Данная поисковая машина знаменита скоростью поиска информации, но частенько появляется абсолютный спам в результатах. Поисковый робот индексирует каждое слово на странице, кроме мета тегов. Поисковая система Fast отдает предпочтение следующим факторам при ранжировании: titles, расположение ключевых слов, линк популярити. Одно из наиболее заметных нововведений в поисковике AllTheWeb — это так называемый «универсальный поиск», когда поисковая машина автоматически выдает информацию из разных коллекций. Так, в дополнение к каталогу web-страниц AllTheWeb имеет базу картинок, видеоклипов, MP3 и FTP-файлов из разных ресурсов Сети. При осуществлении поиска результаты выдаются из всех этих источников. Cиcтeмacпocoбнaиндeкcиpoвaть фaйлы в различных фopмaтaх. Fast Search использует также тpaдициoнный язык зaпpocoв. Также имеется расширенный поиск. Cpеди cepвиcных функций Fast Search вoзмoжнocть уcтaнoвки пepcoнaльных peжимoв для пoиcка и их coхpaнeниe в cиcтeмe (нa кoнкpeтнoм кoмпьютeрe) для paбoты в дaльнeйшeм. (Приложение 7)

А lt а Vist а (http://www.altavista.com/)

В пepeвoдe дaннaя cиcтeмaoзнaчaeт «вид cвepху». Былa ввeдeнa в экcплуaтaцию в 1995 гoду. Нa пpoтяжeнии тpeх лeт былa лидepoм cpeди пoиcкoвых cиcтeм пooбъeму индeкcнoгo фaйлa и cepвиcным функциям. Имeннo в нeй был впepвыeoпpoбoвaн язык зaпpocoв: знaки “+” и “-“, уceчeниe с пoмoщью знaкa “*” и кaвычки для пoиcкa пo тoчнoй фpaзe. В фopмe углублeннoгo зaпpoсa были впepвыe эффeктивнo испoльзoвaны булeвыeoпepaтopы и oпepaтoppaccтoяния — NEАR. (Приложение 8)

Помимо перечисленных глобальных поисковых систем, в некоторых случаях, скорее по инерции, продолжают использоваться устаревшие поисковые сервисы, среди которых наиболее заметны HotBot (http://www.hotbot.com/) и Excite (http://www.excite.com/). Малый объем их индeкcных фaйлoв нaceгoдня не позволяет полагаться на предоставляемые ими сведения. «Молодая» поисковая система как Ask (http://www.ask.com/ ) несмотря на внушительный объем проиндексированных документов, пока не представляет особого интереса. Она, к примеру, не способна осуществлять поиск документов на русском языке. (Приложение 9)

1.3.3 Российские поисковые машины

Глобальные поисковые машины уделяют свое внимание на зарубежные ресурсы Сети. Поиск информации на серверах в пределах отдельной страны является задачей локальных машин, которые специально приспособлены к особенностям конкретного языка. В России к лидирующим поисковым системам на сегодня можно отнести Яндекс, Rambler и Апорт.

Яндекс (http://www.yandex.ru/)

Зaпущeн в сeнтябpe 1997 гoдa. Нa ceгoдня являeтcя лидepoм cpeди дpугих poccийcких пoиcкoвых cиcтeм. Пo зaпpocу дaннaя пoиcкoвaя мaшинacпocoбнa нaйти в pуccкoязычнoй чacти интepнeтa нeoбхoдимыe вaм вeб-cтpaницы, кapтинки, нoвocти, cтaтьи энциклoпeдий или тoвapы и мнoгoe дpугoe. Пpи пoискe учитывaeтся мoрфoлoгия pуccкoгo языкa, мaшинa сaмa иcключaeт cтoп-cлoвa, aнaлизиpуeт paccтoяниecлoв дpуг oт дpугa. Taкжe пoзвoляeт иcкaть дoкумeнты нa бeлopуccкoм, укpaинcкoм, aнглийcкoм, pумынcкoм, нeмeцкoм и фpaнцузcкoм языкaх. Яндeкc индeкcиpуeт дoкумeнты в фopмaтaх РDF,RТF,DОС, ХLS, РРТ, SWF, RSS и этooтличaeт eгooт дpугих пoиcкoвых cиcтeм. Для более точного запроса лучше всего использовать «Расширенный поиск». Также можно использовать и язык запросов Яндекс, который включает множество специальных символов: ~,&,,/,””,,(),|,$, #. Их употребление подробно описано в файле «Синтаксис языка запросов» (http://www.yandex.ru/info/syntax.html). Кроме стандартной сортировки результатов — по релевантности (то есть по степени соответствия запросу), можно отсортировать документы по дате обновления (чтобы получить самую свежую информацию). Появилась новая функция — группировка документов по серверам. Эта возможность, дополняющая список серверов, позволяет использовать широкий набор критериев сортировки. (Приложение 10)

Rambler (http://www.rambler.ru/)

Запущен в октябре 1996 года. Данная поисковая система содержит информацию о более чем 12 миллионах документов, которые расположены на серверах России и стран СНГ. К началу 2000 года Rambler устарел и утратил свои лидирующие позиции. Но в 2002 году была проведена модернизация всей программно-аппаратной части. Это позволило вернуть поисковой системе былой авторитет. Rambler поддерживает все кодировки русского языка. Данная поисковая машина обладает обычным и расширенным поиском. При поиске также можно пользоваться различными операторами такими как &, ||, *, ?, or, and, NOT, кавычки, скобки (так называемый язык запроса). Сгруппировать найденную информацию можно либо по сайтам, либо по документам. Найденные документы по умолчанию сортируются по релевантности, но можно также их отсортировать и по дате. Каждая найденная ссылка снабжена функциями «Восстановить текст», «Все документы с сайта» и «Найти похожие». Все функции работают очень надежно. (Приложение 11)

Апорт (http://www.aport.ru)

Поисковая машина запущена в феврале 1996 года. Ее особенностью является то, что документы индексируются не только на серверах России и стран СНГ, но и на зарубежных серверах. Именно Апорт один из первых в России применил язык запроса, позволяющий улучшить результаты поиска. Более подробно о языке запроса, о используемых операторах можно узнать на самом сайте поисковой машины Апорт (http://aport.ru/help.htm). Апорт позволяет также искать MP3-файлы, аудиофайлы. Найденные документы содержат сведения об адресе, дате опубликования и последней проверке документа. (Приложение 4)

Кроме перечисленных, в российском сегменте Сети существует еще несколько поисковых машин, которые не отличаются высокими показателями работы, но также могут быть применены в случаях, когда лидеры не дают результатов. К их числу относятся: КМ-поиск (go.km.ru), Лупа (http://www.lupa.ru/) и Tela Textorum (tela.dux.ru). (Приложение 12)

Практически все всемирно известные каталоги и поисковые машины в настоящее время превратились во внушительные информационные корпорации с многомиллионными доходами. Заработав авторитет наиболее посещаемых мест в Сети, они предоставляют свои страницы для размещения рекламной информации, доходы от которой и составляют основу их бюджета. Постепенно поисковые сервера превращаются в многофункциональные порталы, в которых поисковый сервис остается главной приманкой для пользователей, но далеко не единственной и даже не основной из предоставляемых услуг. Помимо разыскания информации, такие сервера обычно предоставляют пользователям бесплатную электронную почту, возможность бесплатно размещать собственные страницы, сведения о погоде, текущих новостях, биржевые котировки, карты местности и т.д.

2 ПОИСК ИНФОРМАЦИИ . АНАЛИТИЧЕСКИЙ ОБЗОР НАЙДЕННЫХ ДОКУМЕНТОВ При поиске информации по теме «Учет денежных средств, документов и переводов в пути» были использованы такие поисковые машины как www.google.com.by/, www.yandex.ru/, www.mail.ru/. Также был использован режим «расширенный поиск», который имеет каждая из названных поисковых систем.В качестве ключевых слов сначала вводилась полностью тема, потом более узко, например «учет денежных средств», учет переводов в пути». В одном из документов был найден перечень вопросов, который включает в себя тема «Учет денежных средств». Это облегчило дальнейший поиск, так как количество ключевых слов, которых можно было ввести, увеличилось. В некоторых найденных документах назывались нормативные акты, касающиеся данной темы, и эти акты искались тогда в правовых порталах, таких как pravo.by, www.lawbelarus.com, pravo.kulichki.com, на сайтах соответствующих министерств, сайте Национального банка Республики Беларусь.Сделаем далее аналитический обзор найденных документов по теме «Учет денежных средств, документов и переводов в пути».

www.minfin.gov.by/rmenu/business-accounting/plans/30_05_03_N89/

Постановление Министерства финансов Республики Беларусь от 30 мая 2003 г. №89 «Об утверждении Типового плана счетов бухгалтерского учета и Инструкции по применению типового плана счетов бухгалтерского учета»

В постановлении дано определение Типового плана счетов, приведен сам Типовой план счетов бухгалтерского учета. В Инструкции приведена краткая характеристика синтетических счетов и открываемых к ним субсчетов, раскрыты их структура и назначение, экономическое содержание обобщаемых фактов хозяйственной деятельности, порядок отражения наиболее распространенных из них.

Типовой план счетов и Инструкция предназначены для ведения бухгалтерского учета в организациях всех форм собственности и видов деятельности независимо от организационно-правовых форм, ведущих учет методом двойной записи.

V раздел Типового плана счетов бухгалтерского учета называется «Денежные средства». Счета этого раздела предназначены для обобщения информации о наличии и движении денежных средств в официальной денежной единице Республики Беларусь и иностранных валютах, находящихся в кассе, на расчетных, валютных и других счетах, открытых в кредитных организациях на территории Республики Беларусь и за ее пределами, а также ценных бумаг, платежных и денежных документов.

Данный раздел включает в себя следующие счета и субсчета:

— 50 «Касса»

50-1 «Касса организации»

50-2 «Операционная касса»

50-3 «Денежные документы»

50-4 «Валютная касса»

50-5 «Касса филиала»

— 51 «Расчетный счет»

— 52 «Валютные счета»

— 55 «Специальные счета в банках»

55-1 «Аккредитивы»

55-2 «Чековые книжки»

55-3 «Депозитные счета в официальной денежной единице РБ»

55-4 «Депозитные счета в иностранной валюте»

55-5 «Специальный счет средств целевого финансирования»

55-6 «Текущий счет филиала»

55-7 «Банковские карты»

— 57 «Переводы в пути»

57-1 «Инкассированные денежные средства»

57-2 «Денежные средства для покупки валюты»

57-3 «Валютные средства для продажи»

57-4 «Переводы в пути по банковским картам»

— 58 «Финансовые вложения»

58-1 «Паи и акции»

58-2 «Долговые ценные бумаги»

58-3 «Предоставленные займы»

58-4 «Вклады по договору простого товарищества»

— 59 «Резервы под обесценение финансовых вложений в ценные бумаги»

В Инструкции описано, для чего предназначен каждый из счетов, приведены корреспонденции счетов.

pravo.by/webnpa/text_txt.asp?RN=C20200018Постановление Совета Министров Республики Беларусь и Национального банка Республики Беларусь от 9 января 2002 г. № 18/1 «О приеме наличных денежных средств при реализации товаров (работ, услуг) и о некоторых вопросах использования кассовых суммирующих аппаратов и специальных компьютерных систем».Данным постановлением Государственный реестр кассовых суммирующих аппаратов и компьютерных систем, используемых на территории Республики Беларусь, переименовывается в Государственный реестр моделей (модификаций) кассовых суммирующих аппаратов и специальных компьютерных систем, используемых на территории Республики Беларусь. Функции утверждения и ведения Государственного реестра возлагаются на Государственный комитет по стандартизации.Согласно постановлению кассовые суммирующие аппараты, специальные компьютерные системы, билетопечатающие машины и таксометры подлежат регистрации в налоговом органе по месту постановки на учет юридического лица или индивидуального предпринимателя и при наличии договора на их техническое обслуживание и ремонт.В постановлении определены случаи, при которых юридические лица и индивидуальные предприниматели вправе принимать наличные денежные средства при продаже товаров, выполнении работ или оказании услуг без применения кассовых суммирующих аппаратов и (или) специальных компьютерных систем и платежных терминалов.В приложениях к постановлению приведены:· перечень объектов, подлежащих оснащению платежными терминалами для регистрации операций, производимых с использованием банковских пластиковых карточек;· перечень постановлений Правительства Республики Беларусь и Национального банка Республики Беларусь, признанных утратившими силу.http://www.minfin.gov.by/rmenu/business-accounting/standards/post51/Постановление Министерства финансов Республики Беларусь от 26 апреля 2006 г. № 51 «Об утверждении Инструкции об отражении в бухгалтерском учете начисленных и перечисленных денежных средств, полученных от проведения республиканских субботников»

Данная Инструкция разработана в целях определения единого порядка отражения в бухгалтерском учете начисления и перечисления денежных средств, полученных от проведения республиканских субботников.

Положения данной Инструкции распространяются на все организации, принимающие участие в республиканских субботниках.

В данном постановлении определен порядок отражения в бухгалтерском учете денежных средств, заработанных в дни республиканских субботников.

pravo.kulichki.com/otrasl/ban/ban00193.htm

Постановление Правления Национального банка Республики Беларусь от 26 марта 2003 г. №57 «Об утверждении правил ведения кассовых операций и расчетов наличными денежными средствами в Республике Беларусь»

Постановление содержит 4 главы. В первой главе «Общие положения» даны определения таких терминов как «предприятие», «выручка», «лимит», «остаток кассы», «кассовые операции», «обособленные подразделения», «оплата труда», «уполномоченные лица», «специализированный кооператив», «предприниматели». Во второй главе определен порядок приема и выдачи наличных денег, оформления кассовых документов. В третьей главе определен порядок ведения кассовой книги и хранения наличных денег. Четвертая глава постановления «Инвентаризация кассы и контроль за соблюдением правил ведения кассовых операций».В приложениях к постановлению приведены:· образец оформления всех страниц журнала регистрации приходных и расходных кассовых ордеров в белорусских рублях;· образец оформления всех четных страниц книги учета принятых и выданных кассиром наличных денег;· образец оформления всех нечетных страниц книги учета принятых и выданных кассиром наличных денег;· примерная форма акта инвентаризации наличных денег и других ценностей.

pravo.kulichki.com/otrasl/ban/ban00430.htm

Постановление Правления Национального банка Республики Беларусь от 22 мая 2001 г. №115 «Об утверждении правил ведения кассовых операций в наличной иностранной валюте на территории Республики Беларусь».

Постановление содержит 5 глав. В первой главе «Общие положения» даны определения таких терминов как «кассовые операции», «лимит остатка (предельный остаток) кассы», «обособленное подразделение», «предприятия», «предприниматели», «уполномоченный банк», «уполномоченные лица». Во второй главе определен порядок приема и выдачи наличной иностранной валюты и оформления кассовых документов. В третьей главе определен порядок ведения кассовой книги и хранения наличной иностранной валюты. Четвертая глава постановления «Ревизия кассы и контроль за соблюдением правил ведения кассовых операций». В пятой главе рассмотрено установление банками лимита, порядка и сроков сдачи наличной иностранной валюты; контроль банков за соблюдением правил ведения кассовых операций.

В приложениях к постановлению приведены:· образец оформления всех страниц журнала регистрации приходных и расходных кассовых ордеров в наличной иностранной валюте;· образец оформления всех четных страниц книги учета принятой и выданной кассиром наличной иностранной валюты;· образец оформления всех нечетных страниц книги учета принятой и выданной кассиром наличной иностранной валюты;· перечень требований по обеспечению сохранности наличной иностранной валюты при ее хранении и транспортировке;· примерная форма акта ревизии наличной иностранной валюты и других ценностей;· примерная форма заявки на установление лимита остатка (предельного остатка) кассы в иностранной валюте;· перечень вопросов по осуществлению уполномоченными банками проверок соблюдения предприятиями, предпринимателями правил ведения кассовых операций в наличной иностранной валюте на территории Республики Беларусь;· примерная форма акта проверки соблюдения предприятием, предпринимателем правил ведения кассовых операций в наличной иностранной валюте на территории Республики Беларусь.http://www.lawbelarus.com/repub/sub09/texb6063.htmПостановление Министерства связи Республики Беларусь от 29 декабря 2003 г. №27 «Об утверждении дополнительных счетов бухгалтерского учета и инструкции по их применению»В данном постановлении утвержден перечень дополнительных счетов бухгалтерского учета, предназначенных для использования Республиканским государственным объединением «Белпочта», и входящими в его состав республиканскими унитарными предприятиями почтовой связи и их обособленными подразделениями, а именно:- 54 «Счет в банке по переводным операциям»- 64 «Расчеты организаций связи с клиентами по переводным операциям»64-1 «Переводы принятые»64-2 «Переводы оплаченные»64-3 «Расчеты с юридическими лицами и индивидуальными предпринимателями по принятым переводам с выручкой»64-4 «Расчеты с органами по труду и социальной защите по выплате физическим лицам пенсий и пособий»64-5 «Расчеты с юридическими лицами и индивидуальными предпринимателями по принятым платежам (кроме расчетов с организациями электрической связи)64-6 «Расчеты с юридическими лицами и индивидуальными предпринимателями по принятым переводам»64-7 «Расчеты с клиентами по вкладам»64-8 «Расчеты с организациями электросвязи по принятым платежам»64-9 «Расчеты с банками по операциям с банковскими пластиковыми картами»

В Инструкции описано, для чего предназначен каждый из счетов, приведены корреспонденции счетов.

www.belinvestbank.by/bank-profile/legislative-acts/opening-account-statement

Постановление Правления Национального банка Республики Беларусь от 28 сентября 2000 г. №24.12 «Об утверждении правил открытия банками счетов клиентам в Республике Беларусь»

Данные Правила устанавливают единый порядок открытия банками в Республике Беларусь текущих (расчетных) счетов, счетов-контокоррентов, субсчетов, специальных счетов в иностранной валюте, благотворительных, временных, корреспондентских, вкладных (депозитных) счетов, карт-счетов, специальных счетов для аккумулирования денежных средств граждан и обязательны для исполнения всеми банками, иными юридическими лицами, индивидуальными предпринимателями, физическими лицами.

Постановление содержит 5 глав. В первой главе «Общие положения» даны определения таких терминов как «клиенты», «владельцы счетов», «предприятия», «физические лица», «нерезиденты». Во второй главе представлены документы, необходимые для открытия (переоформления) счетов предприятиям и предпринимателям. В третьей главе определен порядок открытия счетов предприятиям, предпринимателям. В четвертой главе рассмотрены особенности закрытия счетов некоторым предприятиям, например, таким как политические партии, профессиональные союзы, воинские части и др. В пятой главе изложены особенности оформления карточек с образцами подписей и заявлений на открытие счета. Шестая глава «Переоформление и закрытие счетов». В ней перечислены документы, необходимые для этих процедур. В седьмой главе рассмотрены особенности открытия и закрытия счетов физическим лицам

В приложениях к постановлению приведены:

· формы заявлений на открытие счета;

· форма карточки с образцами подписей и оттиска печати.

www2.ifc.org/europe/belarus/brosh/br9/9-7/9-7.html

Банковский счет

В данном документе рассматриваются:

1. Назначение и виды счетов

Правилами открытия счетов клиентам в Республике Беларусь предусмотрена возможность открытия в банке следующих видов счетов:

— текущего счета;

— счета-контокоррента;

— субсчета;

— специального счета в иностранной валюте;

— благотворительного счета;

— временного счета;

— корреспондентского счета,

— вкладного (депозитного) счета;

— карт-счета ;

— специального счета для аккумулирования денежных средств граждан.

Каждый из счетов рассмотрен в документе более подробно.

2. Порядок открытия счета

Дан перечень документов, которые должен представить в банк субъект хозяйствования для открытия текущего банковского счета.

3. Договор текущего банковского счета

Перечислены операции по обслуживанию счета клиента, которые банк осуществляет на основании заключенного договора; рассмотрены случаи, в которых банком производится контроль за соответствием операций по счету клиента условиям сделок, на основании которых они осуществляются.

4. Закрытие счета и особенности правового регулирования открытия и ведения счетов

Перечислены случаи, предусмотренные законодательством, когда банк может закрыть текущий счет клиента по собственной инициативе.

www.belinvestbank.by/bank-profile/legislative-acts/bank-transfer-statement

Постановление Правления Национального банка Республики Беларусь от 29 марта 2001 г. №66 «Об утверждении инструкции о банковском переводе»

Данная Инструкция определяет порядок осуществления безналичных расчетов в белорусских рублях и иностранной валюте в форме банковского перевода.

В постановлении даны определения следующих терминов: банковский перевод, уполномоченный банк, денежные средства, валюта, клиенты, плательщик, бенефициар, взыскатель, стороны по банковскому переводу, участники банковского перевода, международный банковский перевод, внутренний банковский перевод, банковский перевод за границу, банковский перевод из-за границы, прочие банковские переводы, банк-корреспондент, частный перевод, дата валютирования, зачисление (списание) денежных средств, покрытие, счет «Лоро», счет «Ностро», авизо, техническая ошибка, корреспондентские отношения, корреспондентский счет, межбанковский перевод, платежное поручение банка, банк-нерезидент, клиринг, международные клиринговые переводы, клиринговая валюта, клиринговый счет, урегулирование сальдо клирингового счета, расчетный период, лимит сальдо клирингового счета, платежные инструкции, расчетный документ, перевод с конверсией, покупкой, продажей, зачисление с конверсией, покупкой, обязательные реквизиты, кредитовый перевод, платежное поручение, платежное требование-поручение, дебетовый перевод, чек, чекодержатель, чекодатель, банковский чек, заявитель.

В постановлении отражены следующие моменты, касающиеся банковского перевода:

1. Кредитовый перевод:

· общие положения о кредитовом переводе;

· кредитовые переводы, осуществляемые на основании платежных поручений;

· кредитовые переводы, осуществляемые на основании платежных требований-поручений;· особенности осуществления кредитовых переводов юридическими лицами и индивидуальными предпринимателями без открытия ими счетов в банке-отправителе;· особенности осуществления кредитовых переводов в пользу и по поручению физических лиц;· отзыв (изменение) платежного поручения (требования-поручения);· зачисление средств в пользу бенефициара.2. Дебетовый перевод:· общие положения о дебетовом переводе;· дебетовые переводы, осуществляемые на основании платежных требований;· особенности осуществления дебетовых переводов в пользу и за счет физических лиц посредством платежных требований;· бесспорный порядок списания средств. Особенности проведения операций по безакцептной форме инкассо при осуществлении дебетовых переводов посредством платежных требований;· отзыв (изменение) акцептованных платежных требований;· дебетовые переводы, осуществляемые на основании чека.3. Порядок проведения операций с расчетными документами, помещенными в картотеку.4. Межбанковские переводы:· общие условия осуществления межбанковских переводов;· особенности осуществления международных клиринговых переводов.В приложениях к постановлению представлены формы платежного поручения, платежного требования-поручения, платежного требования, реестра платежных требований, изложено описание полей платежного поручения, платежного требования-поручения, платежного требования.http://www.nalog.by/ndok/PNB125-27062003.html

Постановление Правления Национального банка Республики Беларусь от 27 июня 2003 года № 125 «Об утверждении инструкции о мерах ответственности за нарушение правил ведения кассовых операций и расчетов наличными денежными средствами в Республике Беларусь»

Данная Инструкция устанавливает ответственность юридических лиц, их обособленных подразделений, индивидуальных предпринимателей и частных нотариусов за нарушение Правил ведения кассовых операций и расчетов наличными денежными средствами в Республике Беларусь.

В соответствии с постановление штраф взыскивается в следующих случаях:

· за осуществление расчетов наличными денежными средствами предприятиями с нарушением требований;

· за несвоевременное оприходование в кассу наличных денежных;

· за превышение установленных лимитов остатков касс;

· за несоблюдение установленных в соответствии с законодательством Республики Беларусь сроков сдачи выручки в кассу банка, службе инкассации банка либо эксплуатационным предприятиям Министерства связи Республики Беларусь;

· за несоблюдение срока возврата неиспользованных сумм, выданных под отчет на командировочные и другие предстоящие расходы;

· за выдачу наличных денежных средств под отчет на командировочные и другие предстоящие расходы без полного отчета по ранее выданным суммам;

· за использование выручки сверх установленных банком размеров использования выручки;

· за нецелевое использование наличных денежных средств, полученных из касс банков.

Размер штрафа (его процент и от какой суммы уплачивается) определен данным постановлением.

В приложении к постановлению представлена форма уведомления о нарушениях Правил ведения кассовых операций и расчетов наличными денежными средствами в Республике Беларусь.

ЗАКЛЮЧЕНИЕ

В результате выполнения курсовой работы была создана веб-страница по теме «Учет денежных средств, документов и переводов в пути».

В процессе выполнения работы были изучены основные принципы разметки документа при помощи языка HTML. Изучены его некоторые особенности и основные тэги, позволяющие соответственно настраивать текст документа. Страничка была создана основываясь на фреймах. Кроме этого были использованы различных рисунки для улучшения ее дизайна. Однако если исходить из соображения, что данная страничка будет находиться в Internet, необходимо соблюдать чувство меры в отношении ее украшения, применять цвета не раздражающие посетителя, не перегружать страничку элементами, которые могут затруднять процесс ее загрузки. Созданная страничка должна вызывать желание посетить ее еще раз.

Определенное значение имела бы размещенная на страничке реклама увязанная, например, с предоставлением предприятиям свободных площадей для организации складского хозяйства, обеспечивающего хранение, размещение, отпуск и отправку материалов. Т.е. основные направления дальнейшей работы по совершенствованию странички укладывались бы в русло ее дизайна и содержания.

Что касается дальнейшей корректировки дизайна страницы можно создать страничку с так называемыми «картированными изображениями» или Image-Map, когда рисунок разбит на несколько областей, каждая из которых является отдельной гиперссылкой. В случае умелого использования, картирование создает удобные и наглядные средства навигации, но загрузка изображений может потребовать значительного времени, а если в браузере отключен вывод рисунков, таким меню невозможно пользоваться.

СПИСОК ИСПОЛЬЗОВАННЫХ ИНТЕРНЕТ-РЕСУРСОВ

1. www.infousa.ru/information/rl30987.htm#org

2. www.ntdesign.ru/art/01.php

3. www.ntdesign.ru/art/02.php

4. textbook.vadimstepanov.ru/chapter2/glava2-1.html

5. textbook.vadimstepanov.ru/chapter2/glava2-2.html

6. textbook.vadimstepanov.ru/chapter2/glava2-3.html

7. www.nsu.ru/education/i4biol/noframes/search.html

8. nezachetov.net/public/i6a3.htm

9. www.minfin.gov.by/rmenu/business-accounting/plans/30_05_03_N89/

10. pravo.by/webnpa/text_txt.asp?RN=C20200018

11. www.minfin.gov.by/rmenu/business-accounting/standards/post51/

12. pravo.kulichki.com/otrasl/ban/ban00193.htm

13. pravo.kulichki.com/otrasl/ban/ban00430.htm

14. www.lawbelarus.com/repub/sub09/texb6063.htm

15. www.belinvestbank.by/bank-profile/legislative-acts/opening-account-statement

16. www2.ifc.org/europe/belarus/brosh/br9/9-7/9-7.html

17. www.belinvestbank.by/bank-profile/legislative-acts/bank-transfer-statement

18. www.nalog.by/ndok/PNB125-27062003.html

19. hostinfo.ru/articles/243

20. www.dreamweaver4.ru/frames/

Добавить комментарий