Лекция 5. Оптимизация информационного поиска: рекомендации
Процесс поиска информации обычно носит эмпирический характер. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется:
- информационной потребностью,
- разнообразием стратегий, технологий и средств, предоставляемых системой.
Чтобы оценить адекватность выражения запроса и полноту получаемого результата, пользователь может:
- отыскать дополнительные сведения,
- организовать процесс поиска так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.
Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа и поисковой образ запроса.
Поисковый образ документа – описание документа, выраженное средствами информационно-поискового языка и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу.
Технологии поиска информации – поисковые средства и технологии, используемые для реализации информационных потребностей. Определяются типом решаемой библиотекарем задачи: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия библиотекаря с системой определяется уровнем его знания функциональных возможностей системы как инструмента и знания содержания ресурса (полноты представления информации, достоверности источника и т.д.).
Процедуру поиска необходимой информации необходимо разделить на четыре основных этапа:
1. Организация поиска
- определение области знаний;
- выбор типа и источников данных;
2. Осуществление поискового процесса
- организация поиска по начальным фрагментам слова,
- формулировка «поискового образа»,
- итоговый уточняющий поиск
Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа). Например, вместо слова «библиотечный» можно ввести его фрагмент «библиоте*». При этом будут найдены документы, в которых содержится не только слово «библиотечный», но и «библиотека», «библиотекарь», «библиотековедение» и др. В каждом отдельном случае библиотекарь должен четко представлять, что нужно найти («формулировка поискового образа»), так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании слова полностью (без усечения). В полученном массиве информации можно провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.
3. Оценка результатов поиска
Результат поиска должен удовлетворять требованиям:
- единственности,
- полноты,
- непротиворечивости
Различные виды поиска определяют различные требования к функциональным возможностям поисковой системы в части оценивания результата. Однако, для случая предметного поиска доказательство полноты является априорным: сам результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. При этом результат тематического поиска множественен и требует последующей систематизации – ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определенного явно основания. В свою очередь, проблемный поиск предполагает уже двухуровневую систематизацию.
Усложнение, конкретизация и детализация запроса, в случае неудовлетворительного ответа, осуществляются путем модификации поискового образа, то есть реформулирования запроса и проведения повторного поиска в том же массиве данных, что был получен в результате осуществления первоначального поиска. Один и тот же запрос желательно перепроверять в разных посковых системах (например, сочетание Google и Яндекса).
4. Обработка результатов поиска
- отбор наиболее полезной информации;
- выбор метода обработки информации
- поиск закономерностей, формальных правил и структурных связей в собранной информации;
- творческая интерпретация полученных результатов;
- интеграция извлеченных «знаний».
Развитие процесса поиска осуществляется путем модификации выражения ПОЗ, путем реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска.
Методы обработки результатов поиска
По характеру преобразований (в контексте дальнейшего использования результатов обработки) методы обработки результатов поиска можно условно разделить на две группы:
- Структурно-форматные преобразования;
- Информационно-аналитические (логико-семантические, структурно-семантические преобразования).
Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.
Список литературы
- Берков П. Н. Статьи по библиографической эвристике / П.Н. Берков. – М.: Кн. палата, 1996. – 179 с.
- Бирюков, Б. M. Интернет-справочник по образованию. / Б.М. Бирюков. – М.: Экзамен, 2002. – 480 с.
- Вуль, В. Виртуальный поиск — вопросы и решения В.Вуль, 2003 [Электронный ресурс] // Библиотечное дело. – 2013. – № 7. URL: http://www.bibliograf.ru/issues/2003/7/18/2/60/. (дата обращения: 06.08.013).
- Ганзикова, Г. Развитие виртуальных сервисов детских библиотек.// Библиотечное дело. – 2011. – № 9. URL: http://www.bibliograf.ru/issues/2011/5/174/0/1687/ (дата обращения: 06.08.013).
- Грей, А. Интернет. Справочник. / А. Грей. – М.:АСТ, 2002. – 192 с.
- Гречихин А. А. Библиографическая эвристика: История, теория и методика информационного поиска: Конспект лекций. / А.А. Гречихин. – М.: Изд-во МПИ, 1984. – 48 с.
- Дворкина М. Я. Библиотечно-информационная деятельность: теоретические основы и особенности развития в традиционной и электронной среде / М. Я. Дворкина. – М. : ГРАНД ФАИР, 2009. – 256 с.
- Дворкина, М.Я. Информационное обслуживание: социокультурный подход / М.Я. Дворкина. – М.: Профиздат, 2000. – 112 с.
- Жабко, Е. Блуждающий библиограф, 2003 [Электронный ресурс] // Библиотечное дело. – 2003. – № 7. URL: http://www.bibliograf.ru/issues/2003/7/18/32/61/ (дата обращения: 06.08.13)
- Журавлева Е. Современные модели развития гуманитарных наук в цифровой среде // Вопросы философии. – 2011. – №5. – С. 91–98.
- Журавлева Е. К типологии методов интернет-исследования // Вопросы философии. – 2013. – №5. – С. 73–87.
- Ландэ Д.В. Интернетика. Навигация в сложных сетях. Модели и алгоритмы. М.: Либроком, 2009. – 264 с.
- Левин, М. Методы поиска информации в Интернет / Сост. М. Левин. – М.: Солон-Пресс, 2003. – 224 с.
- Найдина, Е. Л. Библиографическое обслуживание в виртуальной среде : современное состояние и перспективы [Текст] / Е. Л. Найдина // Научные и технические библиотеки. – 2001. – № 3. – С. 15 – 22. – Библиогр. : с. 22.
- Паршукова Г. Методика поиска профессиональной информации. // Г. Паршукова. – М.: Профессия, 2006. – 224 с.
- Поручи поиск человеку : виртуальные справочные службы в современных библиотеках / И. Б. Михнова [и др.]. – М. : ФАИР-ПРЕСС, 2005. – 249 с
- Романенко В. Н. Сетевой информационный поиск: Информация в Интернете; Поисковые машины; Электронные каталоги библиотек; Как формулировать запросы: Практическое пособие. // Романенко В. Н., Никитина Г. В. – Спб.: Профессия, 2003. – 288 с.
- Соколов А. В. Зачем библиотеки информационному обществу // А. В. Соколов. – Нева. – 2011. – № 9.
- Степанов, В.Применение Интернета в профессиональной информационной деятельности / В. К. Степанов. – Москва : ФАИР, 2009. – 301, [2] с. : ил.
- Сухотина, М. Электронные сетевые ресурсы Информкультуры РГБ в пространстве культуры, науки, образования [Текст] / М. Л. Сухотина // Научные и технические библиотеки. – 2011. – № 3. – С. 5-14
- Холмогоров В. Поиск в Интернете и сервисы Яндекс. / В. Холмогоров. – Спб.: Питер, 2006. – 128 с.
- Чачко, А.С. Развивающаяся библиотека в информационном обществе: научно-метод. пособие / А.С. Чачко. – М.: Либерия, 2004. – 172 с.
Начало XXI в. характеризуется распространением Интернет и Web-технологий для построения корпоративных информационных систем (КИС). Благодаря появлению беспроводной Интернет-технологии и высокой скорости передачи данных стал возможным стремительный переход от централизованных к распределенным системам хранения и передачи данных. В настоящее время не существует академического определения «распределенной системы». Э. Таненбаум в монографии, посвященной распределенным вычислительным системам (РВС) описал эту технологию так: «распределенная система – это набор независимых компьютеров, представляющийся их пользователям единой объединенной системой».[1, с 23]. Архитектура РВС позволяет легко соединять пользователей с ресурсами, скрывая тот факт, что они размещены далеко друг от друга.
Исходя из классического понимания распределенной вычислительной системы, определим понятие распределенные базы данных (РБД) как набор множества логически связанных данных (баз и банков данных), представляющихся их пользователям единой объединенной системой для поиска необходимой информации.
В крупном холдинге информационный центр представляет собой сложную структуру, состоящую из множества подразделений. В этой связи на первый план выдвигается своевременная обработка данных и доступ к информации, необходимой для принятия бизнес-решений. Целью создания, обновления и хранения информации в распределенных базах данных является совершенствование поисковой доступности [2] за счет создания общего распределенного пространства.
Понятие «поисковой доступности» является многозначным, но для нашего исследования под этим термином подразумевается «степень легкости обнаружения конкретного объекта» [2, с.20]. По нашему мнению, для информационных центров, удовлетворяющих информационные потребности корпорации, именно от быстроты и качества передачи данных зависит своевременная реакция на события, происходящие в мире.
В [3] приводится следующее определение термина «поисковый образ документа (ПОД) — текст на информационно-поисковом языке (ИПЯ), поставленный в однозначное соответствие документу и отражающий признаки документа, необходимые для поиска его по запросу в информационно-поисковой системе (ИПС). Кроме признаков, раскрывающих тему документа, ПОД обычно содержит некоторые дополнительные сведения (библиографическую запись, выходные данные, тип документа и т.д.) Содержание и структура ПОД, в нашем случае, определяется метаданными, которые могут выступать в качестве ИПЯ.
Библиографические метаданные являются описательными и извлекаются из титульного листа документа. РБД содержит описание ресурсов, которые могут быть логически связаны отношениями путем ссылок с разными объектами, при этом в представлении пользователя они находятся в единой базе данных. В этой связи актуальным является объектно-ориентированное моделирование элементов данных, представляющихся составной частью распределенной базы данных. Оно характеризуется индивидуальностью, таксономией, полиморфизмом и наследованием. Следует отметить, что перечисленные характеристики объектно-ориентированной технологии могут рассматриваться обособленно, как части большого и сложного конструктора, которые вместе представляют единый и исчерпывающий взгляд на конкретную предметную область, содержащуюся в РБД.
Основное назначение моделирования, применительно к поисковому образу документа, состоит в том, чтобы рассмотреть библиографические метаданные с точки зрения прикладной лингвистки как сложную систему со своим метаязыком. Такой подход позволяет сократить сложность представления библиографических данных, выделяя ограниченный набор важнейших свойств документа и представляя его ПОД. Следовательно, под моделью понимается абстракция, которая создается с целью создания ПОД информационного ресурса.
Библиографические метаданные можно рассмотреть с трех точек зрения, связанных между собой. Каждая из них описывает важные аспекты функционирования элементов данных в распределенных базах данных. Модель классов описывает статические, структурные аспекты, связанные с элементами данных, которые позволяют специалисту, описывающему ресурсы усовершенствовать их поисковую доступность. Модель состояний характеризует временные, поведенческие, управленческие аспекты, связанные с редакцией распределенной базой данных, внесением в базу данных новых записей и репликацией, с удалением записей и т.д. Модель взаимодействий представляет собой кооперацию всех аспектов взаимодействия библиографических метаданных, связанных с друг с другом, и обеспечивает поисковую доступность ресурса. Эта модель характеризуется процедурами, выполняемыми программным обеспечением и СУБД. Следует отметить, что каждая из моделей содержит ссылки на описанные выше модели. Они взаимосвязаны друг с другом и в то же время независимы [4].
В нашем исследовании мы акцентируем внимание на модели классов, поскольку именно эта модель является самой важной и позволяет сформировать поисковый образ документа. Кроме того она улучшает поисковую доступность объектов и ресурсов путем создания связей между разными свойствами описываемого объекта. Модель классов описывает структуру ресурсов, содержащихся в библиографических метаданных, их индивидуальность, отношения с другими объектами, атрибуты и операции.
В РБД под объектами имеют в виду «записанную информацию, имеющую определенные реквизиты и соответствующую требованиям жанра и вида документа, зафиксированную на (в) вещевом изделии»[5]. Это определение, на наш взгляд, очень точно характеризует поисковую доступность любого объекта, так как для поиска нужно задать координаты, чтобы найти ресурс.
Внутренняя индивидуальность ресурса определяется формой произведения, а также видом и типом описываемого документа. Благодаря этой особенности объекты можно отличить друг от друга даже при наличии одинаковых реквизитов (совпадающие ФИО автора и названия произведений). Таким образом объектом моделирования в объектно-ориентированной модели является информация о документах, представленная в форме библиографических метаданных, которые в сжатой форме представляют основной предмет содержания документа.
Отдельный объект, представленный в модели, является экземпляром класса. Класс описывает группу объектов с одинаковыми атрибутами, одинаковыми операциями, типами отношений и семантикой. В случае с библиографическими метаданными за основу класса принята форма произведения. В зависимости от объёма и сложности представления библиографических данных «форма произведения» может являться суперклассом, объединяющим произведения или ресурсы путем наследования определенных характеристик. В случае .простого описания «форма произведения» представляет собой класс, к которому относится описываемый или разыскиваемый объект.
Термин «Форма произведения» является атрибутом ER-модели «Функциональные требования к библиографическим записям – Functional Requirements for Bibliographic Records (FRBR)». Он описан FRBR как: «класс, к которому принадлежит произведение (например, роман, пьеса, поэма, очерк, биография, симфония, концерт, соната, карта, рисунок, картина, фотография)» [6, с. 50]. Чаще всего форма произведения в библиографических метаданных обозначается как «сведения, относящиеся к заглавию» и соответственно имеют на это указание. Она также играет роль уточнения формы, большой или малой в изобразительном и музыкальном искусстве. Следовательно, каждый ресурс «знает» свой собственный класс. Тем самым класс объекта является его неявным свойством.
Класс характеризуется общими атрибутами, операциями и связями и ассоциациями Подклассы, в свою очередь, добавляют к ним собственные атрибуты, операции и связи. Следовательно, под классификацией здесь понимается группировка объектов библиографического описания с одинаковыми структурами данных (атрибутами) и операциями в классы. Поэтому процессы обобщения информации, представленной в произведении, играют центральное место. [4]
Под обобщением понимают отношения между классом (суперклассом) и одной или несколькими его вариациями (подклассами). Часто эту связь можно представить словом «является» Например, «форма произведения является романом, пьесой, кинофильмом и т.п». Каждый экземпляр подкласса (роман, пьеса и т. п.) одновременно является экземпляром в суперклассе. Замечено, что простые обобщения упорядочивают классы в рамках определенной схемы. Иерархия со сложной структурой является библиографическим родом, который может быть представлен, помимо традиционных изданий кинофильмом, музыкальными и другими произведениями. В этом случае каждый подкласс может иметь одного непосредственного предка (его суперкласс). Термины «родитель» и «потомок» используются для описания классов, находящихся далеко друг от друга по уровням, но связанные отношениями обобщения (например, роман (класс) и снятый по его мотивам кинофильм). Такая структура иерархии данных называется наследованием. Следует отметить, что под этим термином понимают «полное или частичное копирование внутренней структуры и набора операций заданного класса (суперкласса) для подчиненного класса (подкласса)» [4].
Атрибуты характеризуют особенности суперкласса (класса) и его подклассов. Они являются «наименованным свойством класса, описывающим значение, которое может иметь каждый объект класса» [4, с. 45]. Атрибуты считаются прилагательными, которые раскрывают особенности класса. В нашей модели библиографических метаданных определены 24 атрибута, которые раскрывают суть классов, представленные в таблице 1.
Таблица 1
Атрибуты модели элементов библиографических метаданных
Суперкласс / класс | Атрибут | Значение атрибута |
Форма произведения | Форма произведения (formofwork) | Называет форму произведения и определяет общую структуру представления записи. Является родителем для всех последующих произведений. |
Лицо | Имя лица (nameofperson) | Имя лица |
Даты (dateofperson) | Даты, связанные с именем лица | |
Титул (titleofperson) | Титул лица | |
Коллективный автор (corporatename) | Коллективный автор | |
Конкретная форма произведения (роман, пьеса, кинофильм) как подкласс или самостоятельный класс | Название рукописи (nameofmanuscript) | Характеризует рабочее название произведения. |
Форма произведения (formofwork) | Обозначает форму произведения. | |
Автор (author) | Автор произведения, обозначенный на титульном листе. | |
Дата создания произведения (dateofcreation) | Дата создания произведения | |
Язык (language) | Язык произведения | |
Версия (version) | Версия произведения | |
Заглавие произведения (titleofwork) | Окончательное заглавие произведения | |
Издание | Издатель (publishinghouse) | Издатель, издательство |
Место издания (placeofedition) | Место издания | |
Страна публикации (countryofpublication) | Обозначает страну, в которой произведение впервые опубликовано. | |
Год издания (year) | Год издания | |
Том (value) | Том, если издание многотомное или многочастное. | |
Серия (series) | Заглавие серии | |
Описание (annotation) | Аннотация, краткое описание издания. | |
Носитель информации (holderofinformation) | Носитель информации, на котором представлено издание. | |
Формат (format) | Формат, в котором доступен электронный ресурс. | |
Объем (pagination) | Пагинация, количество страниц. | |
Классификационный индекс | Классификационный индекс
(classificationindex) |
Классификационный индекс |
Система классификации (systemclassification) | Система классификации, принятая в библиографирующей организации. | |
Предметная рубрика (subject) | Предметная рубрика, к которой относится классификационный индекс. | |
Ключевые слова (keywords) | Неконтролируемые или контролируемые ключевые слова. | |
Экземпляр | Организация (organization) | Организация – держатель экземпляра. |
Отдел (department) | Отдел, в котором храниться экземпляр издания. | |
Доступ (access) | Условия доступа. | |
Шифр хранения (pressmark) | Шифр хранения. |
Следует отметить, что предложенная модель библиографических метаданных имеет существенные различия с форматом метаданных Dublin Core – созданным для описания только ресурсов, представленных в сети Интернет. Объектно-ориентированная модель библиографических метаданных позволяет усовершенствовать поисковую доступность и качество поискового образа документа на документные ресурсы любого типа и вида. [7].
Рисунок. 2. Объектно-ориентированная модель библиографических метаданных
Приведенные в таблице 1 атрибуты описывают значения, которые принадлежат отдельным физическим единицам. Тем самым они не могут обладать индивидуальностью, присущей отдельным экземплярам, которые являются одновременно и объектами описания, и объектами поисковой доступности [7].
В описанной модели связь (link) — концептуальное и единичное соотношение между объектами. Ассоциации, возникающие между объектами, представляют собой группу отношений, обладающих общей структурой и семантикой. Замечено, что связи и ассоциации присутствуют в моделировании в качестве глаголов. Они могут быть различными и зависеть в некоторой степени от владения пользователем информационной грамотностью.
Таким образом создание поискового образа документа в распределенной системе базируется на объектно-ориентированной модели библиографических метаданных.[7]. Эта модель позволяет создавать поисковой образ документа, соответствующий запросу пользователя, что в свою очередь способствует совершенствованию поисковой доступности, что в конечном в итоге сэкономит время на принятие бизнес-решений сотрудниками крупных корпораций.
Список литературы
- Таненбаум. Э., Стен М. В. Распределенные системы : принципы и парадигмы / Э. Таненбаум, М. ванн Стеен.- СПб.: Питер. – 2003. – 877 с.: ил. – (Классика Computer science).
- Морвиль, П. Тотальная видимость / Питер Морвиль; пер. С. Иноземцева. — СПб.: Символ-Плюс, 2008. – 272 с. : цв. ил.
- Энциклопедия кибернетики / Ред коллегия: В. М. Глушков (отв. ред.) [и др.]; АН УССР. – Киев: Укр. сов. Энциклопедия, 1974 — .Т. 2 : Мих – Яч. – 1974. – 618 с.
- Рамбо Дж., Блаха М. UML 2.0 : объектно-ориентированное моделирование. – 2- изд / Дж. Рамбо, М. Блаха. – СПб.: Питер. – 2007.
- Швецова-Водка, Г. Н. Общая теория документа и книги : учеб. пособие / Г. Н. Швецова -Водка. – М.: Рыбари, Киев : Знання, 2009. – 487 с.
- Функциональные требования к библиографическим записям : окончат. отчет / Рос. библ. ассоц.; пер. с англ. [В. В. Арефьев]; науч. ред.: Т.А. Бахтурина, Н. Н. Каспарова, Н. Ю. Кулыгина. – М.: РГБ,2006. – 150 с.
- Халабия, Р.Ф., Халабия М.Л. Объектно-ориентированный подход к моделированию элементов библиографического описания в динамических распределенных базах данных / Халабия Рустам Фарук, Халабия Мария Леонидовна // Информатизация образования и науки. – 2012. — № 2. – с. 140-149.[schema type=»book» name=»СОЗДАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА В РАСПРЕДЕЛЕННОЙ СИСТЕМЕ» description=»В докладе даются определения поисковой доступности, распределенной вычислительной сети и базе данных. Представлена объектно-ориентированная модель библиографических метаданных, которая является средством достижения поисковой доступности. » author=»Халабия Мария Леонидовна» publisher=»euroasia-science_6(27)_23.06.2016″ pubdate=»2016-12-14″ edition=»euroasia-science_6(27)_23.06.2016″ ebook=»yes» ]
Автоматизированный документальный поиск может быть организован на основе различных технологий поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам. [c.501]
В документальных информационно-поисковых системах, их также называют библиографическими, поиск документа происходит по краткому формализованному описанию его содержания — так называемому поисковому образу документа (ПОД). [c.502]
При прямой организации каждому документу соответствует перечень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой организации для примера, приведенного в п. 20.4, будет выглядеть следующим образом (рис. 20.1). [c.518]
При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т. е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например, для включения нового документа в массив достаточна добавить новую запись в файл. [c.518]
В случае частичного инвертирования в индекс включают информативные ключевые слова, т. е. формируется поисковый образ документа. [c.519]
Чаще — индексирование в информационно-поисковых системах, операция составления поискового образа документа, т.е. выбор из текста этого документа ключевых слов, отражающих его содержание или тему. Применяется для машинного поиска нужного текста среди многих других. [c.124]
Поисковый образ документа 124, 267 [c.481]
В правильно организованном массиве информации каждый документ (единица хранения) или карточка имеют в его структуре постоянное место — адрес. Единицей хранения может быть дело (подшивка документов), документ по содержанию, лист или учетная страница, алфавитно-цифровой знак или двоичная единица (бит). Набор слов (дескрипторов) или составленная из них фраза определяет адрес документа в массиве и называется поисковым образом документа. Словари таких дескрипторов, в которых дается развернутое тол- [c.97]
Среди типовых недостатков в регистрации документов в организациях, можно отметить следующие многократность регистрации, отсутствие перечня документов, не подлежащих регистрации, отсутствие регистрации внутренних документов, отсутствие в индексах документов номеров дел по номенклатуре дел, что снижает поисковый образ документа и др. [c.94]
Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать. В традиционных системах есть понятие поискового образа документа (ПОД) – это нечто, что заменяет собой документ и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель, в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости [c.243]
Все хранимые в ИПС документы индексируются каким-либо образом. Каждому документу (статье, протоколу, видеокассете) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск в хранилищах идет не по самим документам, а по их поисковым образам, которые [c.18]
Блок формирования поисковых запросов Блок формирования поисковых образов документов [c.19]
Классифицирование (распределение документов по классам) сопровождается индексированием — проставлением условных обозначений, соответствующих подразделениям принятой классификации. Идентичные шифры присваиваются ограниченному количеству документов, обладающих идентичными сторонами принадлежащих к одной отрасли знания, предметной области, имеющих единую типовую форму, функциональное предназначение и т.д. Таким образом, достигается обособление небольшого количества документов, зашифрованных одним обозначением, логическая последовательность обозначений способствует структурированию массива. Индексирование должно проводиться на основе непосредственного анализа документа с учетом характера информационно-поискового массива, элементом которого становится поисковый образ документа (ПОД), характера информационных потребностей пользователей данной информационно-поисковой системы (ИПС) в соответствии с общими принципами индексирования и особенностями их применения в конкретной организации. [c.132]
Под поиском понимается совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных и т.п. в информационно-поисковом массиве. Информационно-поисковый массив представляет собой упорядоченную совокупность поисковых образов документов вместе с адресами их хранения. Примерами информационно-поискового массива могут служить каталоги библиотек, компьютерные базы данных. [c.138]
Прикладные исследования в области документоведения касаются вопросов классифицирования документов, их индексирования, реферирования, создания поискового образа документа, организации оптимального документооборота, отбора наиболее ценных документов, хранения, поиска их. [c.162]
Под избыточным индексированием понимается дополнение поискового образа документов или поискового предписания дополнительными дескрипторами, которые связаны по смыслу с основными дескрипторами. При этом более предпочтительным считается избыточное индексирование не документов, а информационных запросов. [c.207]
Принцип общезначимости чрезвычайно важен и при индексировании документов, вводимых в любую информационную систему, в том числе и экономическую. В этом случае он формулируется следующим образом поисковый образ документа отражает лишь те сведения, [c.62]
Большинство действующих автоматизированных ЭИС реализуют прямой критерий выдачи (во многих случаях условие (3.1) несколько ослаблено допускается отсутствие в поисковом образе документа одного или нескольких дескрипторов поискового предписания), т.е. обрабатываются видовые, а не родовые запросы. Это связано с историей развития поисковых систем и объясняется тем, что объем выдачи на видовой запрос в среднем значительно превышает объем выдачи на родовой запрос. [c.66]
Документальные ЭИС не могут достичь высокой эффективности, если при индексировании документов не руководствоваться принципом общезначимости. Обратным критерием при грубых нарушениях принципа общезначимости бессмысленно пользоваться он не сможет конкурировать с так называемыми ослабленными прямыми критериями выдачи, когда допускается отсутствие в поисковом образе документа одного или нескольких дескрипторов. [c.67]
Распространенные в настоящее время тезаурусы используются в работе с информационно-поисковым массивом для повышения полноты и точности информационного поиска. В гипертексте в отличие от традиционных информационных систем нет разделения поискового аппарата на тезаурус и массив поисковых образов документов. В гипертексте весь поисковый аппарат реализуется как тезаурус гипертекста. [c.73]
Тезаурус гипертекста как поисковый аппарат имеет ряд преимуществ по сравнению с традиционным массивом дескрипторных поисковых образов документов, в котором полнота информационного [c.75]
Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Этому подходу, соответствующему традиционному пониманию информационного поиска, и посвящена данная глава. [c.501]
На всех ступенях информационной службы создаются справочно-информационные фонды (СИФ), представляющие собой наиболее полное собрание документов и их поисковых образов по тематике соответствующего информационного органа. Эти фонды состоят из опубликованных и неопубликованных материалов и технических документов. [c.192]
Сформированные таким образом в памяти ЭВМ таблицы позволяют обеспечить автоматическую подготовку поисковых образов запросов (на уровне лексики рубрик) к любой из взаимосвязанных систем, а также автоматическое формирование массивов документов по запросу. [c.53]
По разделам годового плана подготавливаются информационно-поисковые массивы. Всем элементам поискового массива присваиваются отличительные координатные индексы, поставленные в однозначное соответствие массиву. В описание поискового образа элемента массива входят шифр данного массива и идентификатор. С помощью такой поисковой системы организуются доступ к информации и диалог плановика с банком данных. Наряду с работой, связанной с организацией и упорядочением массивов, отрабатывается комплект документов плановой информации. В результате создается банк форм годового плана. По каждой форме составляются алгоритмы — схемы счета, которые сводятся в банк алгоритмов. В результате завершаются два этапа технологии планирования — документальная подготовка и алгоритмизация. [c.27]
Индексация — процесс анализа спайдером поисковой системы содержимого web-страниц, отслеживания обнаруженных на них гиперссылок и внесения информации о найденных таким образом документах в базу данных (индекс) поискового сервера. [c.264]
В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая организация поиска документов имеет свои преимущества и недостатки. [c.512]
Некоторые из этих правил значительно экономят время при традиционных методах работы (проставление второго инициала при подписи документа избавляет от его поисков при ответе, указание телефона исполнителя облегчает крнтакт с ним при необходимости уточнений по полученному документу и т.д.), а другие — снижают затраты при автоматизации обработки документов (оформление даты тремя парами арабских цифр исключает необходимость ее кодирования, заголовки к тексту фактически представляют поисковый образ документа, нужный при вводе данных из него в ЭВМ, нумерацию участков текста можно также использовать в виде их кода и др.). -, [c.35]
Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы. Таким образом, все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени, и доступ к системе в момент ее актуализации закрывался. [c.244]
Для того чтобы при помощи ИПС можно было отыскать документы, соответствующие некоторому информационному запросу, сам запрос также должен быть заиндексирован. Процесс поиска осуществляется путем сопоставления поисковых образов документов с поисковым образом запроса. При полном или частичном совпадении образов документ считается соответствующим запросу и выдается пользователю. [c.17]
Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов. [c.505]
ДЕСКРИПТОР [des riptor] — единица языка информационно-поисковой системы, соответствующая определенному ключевому или базовому понятию, включенному в тезаурус этой системы. Это термин со строго фиксированным значением, без синонимов. Из дескрипторов для каждого документа, хранящегося в системе, составляется его поисковый образ. Напр., для статьи, посвященной применению экономико-математических методов в планировании технического прогресса на предприятиях металлургии, Д. (то же ключевыми словами) могли бы стать слова (либо их цифровые или иные обозначения, “понятные” компьютеру) экономико-математическая модель, эффективность, технология, металл. Для поиска с помощью ИПС материалов на эту тему надо также сопоставить поисковый образ запроса (предварительно отредактированный машиной) с поисковыми образами всех хранящихся в системе документов, машина выберет те документы, для которых они совпадут или будут достаточно близки к ним, что также проверяется автоматически. [c.79]
В результате обработки документов создается их поисковый образ — выделение ряда признаков, по которым документ можно однозначно идентифицировать, установить его форму и содержание, местонахождение в документном массиве. Это — обязательная процедура, предшествующая использованию, ибо в противном случае документ невозможно будет отыскать. Создаваемый ПОД представляет собой извлеченную и свернутую до различной степени информацию о документе, который получает после этой процедуры название первичной информации (первичного документа), а ПОД — вторичной. Таким образом, вторичная информация — это результат анали-тико-синтетической переработки первичной. Вторичная информация более компактна, более формализована, в силу этого более мобильна и более экономна в движении по системам коммуникаций. Из нее легко формируется информационно-поисковый массив, служащий базой для поиска информации о документах. [c.134]
Принцип объектографии. В гипертексте информация систематизируется не на библиографических принципах, когда единицей описания и хранения является документ, а на принципах объектографии. При этом единицей хранения является информация, извлеченная из различных документов-первоисточников и относящаяся к конкретному объекту (классу объектов), который является предметом описания в поисковом образе. [c.63]
Несоблюдение принципа общезначимости можно рассматривать как частный случай неправильного выбора глубины индексирования, когда тема документа, отражаемая в поисковом образе, неправомерно расширяется. Если при таком индексировании документов тему видового запроса заиндексировать буквально так, как просит абонент, не укрупняя ее, то при поиске может быть утеряна часть имеющихся в массиве сведений. [c.68]
Формирование поискового образа документа с помощью ипт
Первый
этап перевода содержания документа на
информационо-поисковый язык заключался
в полном и точном отражении явных
семантических аспектов документа с
помощью ключевых слов. На втором этапе
необходимо произвести процесс замены
ключевых слов дескрипторами тезауруса,
наиболее точно отразив понятия, выраженные
ключевыми словами. Это позволит достичь
меньшего искажения содержащейся в
документе информации при трансформировании
содержания документа в его ПОД. От этого
зависит эффективность информационно-поисковой
системы, а также уменьшение потерь и
шумов в процессе поиска.
Замена
ключевых слов дескрипторами тезаypyca
осуществляется двумя методами:
тождественных замен и нетождественных
замен.
На
этапе тождественных замен выполняется:
поиск
дескриптора, тождественного данному
ключевому слову по смысловому значению
и по форме (названию);
поиск
дескриптора, тождественного по смысловому
значению, но отличающегося по форме.
Эти
операции позволяют с помощью дескрипторов
наиболее точно отобразить основную
информацию, содержащуюся в документе.
Найденный дескриптор используется в
поисковом образе документа.
Допустима
и нетождественная замена ключевых слов
дескрипторами, так как невозможно
максимально точно отразить содержание
абсолютно всех документов.
Нa
этапе нетождественных замен осуществляется
поиск дескриптора среди всех имеющихся
в тезаурусе, наиболее близкого по
смысловому значению ключевому слову.
Этому этапу характерно искажение
смысловой информации, передаваемой
ключевым словом.
Системы автоматической обработки текстов Виды автоматического анализа текстов
Системы
автоматической обработки текстов
образуют основной класс лингвистических
процессоров и в основном предназначены
для автоматизации процессов создания
и ведения различных словарей (компьютерная
лексикография), индексирования,
рубрицирования и реферирования, а также
автоматической разметки документов на
языках разметки.
Для
автоматической обработки текстов
выполняют следующие виды анализа текста:
-
морфологический,
-
синтаксический,
-
позиционный,
-
семантический,
-
статистические.
Как
правило, используют не один метод, а
комбинацию нескольких.
Морфологический
анализ состоит в анализе структуры
словоформы. Словоформа – фрагмент
текста между двумя пробелами,
рассматриваемый изолированно от
остального текста. Наиболее распространенный
тип морфологического анализа – анализ
на основе словаря словоформ.
Синтаксический
анализ представляет собой исследование
структуры предложений с целью установления
синтаксических связей между членами
предложения и построения дерева
зависимостей членов предложения. Для
целей информационного поиска и
компьютерной лексикографии используется
частичный синтаксический анализ,
включающий отбор слов и словосочетаний,
предложений и других информативных
фрагментов текста. Синтаксический
анализ, как правило, выполняется на
основе результатов морфологического
анализа.
Позиционный
анализ основаны на предположении, что
информационный вес лингвистических
единиц зависит от их позиции в тексте,
а именно от их принадлежности к структурным
фрагментам текста. В частности, выдвигаются
предположения, что наибольший вес имеют
заглавие документа, введение, выводы,
библиография, первые и последние
предложения абзаца.
Семантический
анализ представляет собой анализ
смыслового содержания документа и
является самым сложным для автоматизации
методом, до сих пор не существует
практически работающих систем,
использующих данный вид анализа текста.
Статистический
анализ – самый распространенный вид
анализа, выполняемого для автоматической
обработки текстов. В основе статистического
анализа лежит гипотеза о взаимосвязи
между статистическими характеристиками
фрагментов текста и степенью их
информативности. Основные положения
данной гипотезы:
-
существует
зависимость между частотой использования
слова и его значимостью, при этом редкие
и часто используемые слова мало
информативны; -
существенным
параметром является расстояние между
значимыми словами в тексте, поэтому
используется критерий близости
расположения в тексте слов для выделения
скопления значимых слов; -
значимость
предложения определяется значимостью
входящих в него скоплений значимых
слов; -
важным
параметром является объем текста,
определяющий разрешающую силу частотных
характеристик слов.
Более
тонкая стратегия статистического
анализа текстов основана на законах
Дж. Зипфа.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #