Разработка
информационно-поискового тезауруса
включает несколько этапов:
-
построение
словаря (словника) ключевых слов; -
дескрипторизация
ключевых слов; -
установление
парадигматических отношений между
дескрипторами; -
оформление
тезауруса.
Разработка
тезауруса требует исследования системы
и логики знаний тех областей, которые
найдут отражение в нем. Терминология,
которая будет использована в тезаурусе,
должна быть полной, однородной и
охватывать все основные тематические
группы. В свою очередь, тематические
группы могут быть расширены в целях
охвата смежных проблем. При отборе
массива документов необходимо соблюдать:
-
точное
соответствие документов тематической
направленности работы; -
полный
охват каждой области знаний, а также
равномерное распределение их по
отдельным тематическим областям как
по характеру документов, так и по их
количеству; -
терминологическую
насыщенность информационных документов
и степень важности содержащейся в них
информации; -
освещение
тематики с учетом различных аспектов
(материалов исследований, сведений об
устройстве, применении и т. д.).
Критериями
количественных и качественных параметров
представительного массива документов
и словника являются:
-
скорость
роста массива документов и словника; -
дифференцированность
и устойчивость частотных характеристик
элементов; -
процентное
содержание в словнике специальных,
общих и смежных терминов; -
вероятность
использования элементов словника при
индексировании и поиске документов.
Процесс
создания тезауруса включает научную
разработку классификационных схем
понятий и выявление терминологического
фонда из представительного фонда
информационных документов. Кроме того,
предполагается дополнение его терминами,
которые позаимствованы из вспомогательных
источников:
-
тезаурусов
по родственной тематике; -
терминологических
и толковых словарей; -
энциклопедических
словарей; -
научно-технических
словарей и справочников; -
таблиц
универсальной десятичной (децимальной)
классификации (УДК); -
тематических
рубрикаторов; -
библиотечно-библиографической
классификации (ББК); -
государственных
стандартов и других источников
9.3.1 Составление словаря ключевых слов
Составление
словаря ключевых слов происходит путем
отбора из заглавий, аннотаций, рефератов
и текстов документов слов естественного
языка, которые могут использоваться в
поисковых образах документов (ПОД) и
поисковых предписаниях (ПП). Важнейшим
требованием к словарю ключевых слов
является полнота охвата терминологии,
так как в тезаурус включают терминологию,
фигурирующую в документах, вводимых в
ИПС. Таким образом, в тезаурусе могут
отсутствовать термины, требующиеся для
описания содержательных или формальных
аспектов вводимых в ИПС текстов. Такой
тезаурус может оказаться недостаточно
полным. Существует прямая зависимость
работоспособности тезауруса от методики
индексирования документов. Процесс
индексирования заключается в следующем:
-
составление
мысленной аннотации, в которой отражаются
основные и второстепенные темы документа,
представляющие интерес для пользователей
ИПС; -
выбор
из этой аннотации ключевых слов.
Составление
поисковых аннотаций считается творческим
процессом, поэтому результат этого
процесса в той или иной мере зависит от
субъективных качеств индексатора.
Результат обработки одного и того же
документа разными индексаторами может
быть различным. Для того чтобы предотвратить
расхождения в индексировании, необходимо
стандартизировать построение поисковых
образов. Для того чтобы отделить ключевые
слова от «неключевых» (не подлежащих
вводу в тезаурус), индексаторы используют
общие методические указания:
-
служебные
слова (предлоги, союзы, частицы и т. д.)
следует считать неключевыми; -
в
качестве ключевых слов могут выступать
существительные, прилагательные,
числительные, причастия и их сочетания,
наречия, деепричастия и местоимения в
состав ключевых слов не входят, глаголы
– очень редко; -
не
следует включать в словарь ключевых
слов термины, которые очень редко
встречаются в данном документном
массиве, их можно учесть в отдельном
списке в роли ключевых слов-кандидатов; -
часто
встречающиеся, но общие термины («метод»,
«система», «описание», «устройство» и
т. п.) надо либо исключить, либо использовать
в сочетании с другими словами, которые
сузили бы их значение; -
не
имеет смысла включать в словарь термины,
не относящиеся к данной терминологической
области; -
полисемичные
термины могут быть включены только в
тех значениях, в которых они употребляются
в данной тематической области, с
соответствующими пояснениями.
После
того как произведен отбор ключевых слов
из текстов, необходимо решить вопрос
об их формулировке.
Существует
два подхода к этой проблеме:
-
ориентироваться
на ключевые слова – развернутые
словосочетания. Например: «коммерческие
информационные службы»; -
ориентироваться
на ключевые слова – унитермы (отдельные
лексические единицы). Например:
«оформление», «механика», «логика».
В
зависимости от того, какой подход будет
использован при формулировке ключевых
слов, результат будет разным, т. е. будут
получены различные словари ключевых
слов, а значит и различные дескрипторные
языки. «Унитермная» ориентировка через
свободную манипуляцию элементами
поисковых образов обеспечит глубокое
и детальное индексирование и увеличит
количество точек доступа к разыскиваемым
документам. Но разделение устойчивых
словосочетаний, которые соответствуют
определенным научно- техническим
понятиям, грозит потерей информации
при поиске. Суть заключается в том, что
определенные понятия не всегда могут
быть выражены единичным термином. Иными
словами, ключевые слова, включаемые в
словарь, принимают с учетом точки зрения
интересов поиска информации для каждого
ключевого слова отдельно и с учетом их
лексикографической обработки.
Решение
о разделении или сохранении словосочетаний
или сложных слов принимают с учетом
лингвистических и прагматических
критериев. В лингвистике словосочетания
делятся на свободные
и устойчивые
(лексиколизованные) словосочетания.
Свободные словосочетания характерны
устной речи. Устойчивые словосочетания
являются цельными лексическими единицами
языка и по своим функциям эквивалентны
отдельным словам. Для координатного
индексирования рекомендуется вводить
в качестве ключевых слов устойчивые
словосочетания. При формировании
словника ключевых слов руководствуются
лингвистическими критериями. Словосочетание
является устойчивым, если:
-
при
его образовании одно из слов изменяет
свое значение – происходит переосмысление
одного из компонентов словосочетания.
Например: «легкая музыка», «легкая
промышленность» (переосмысливается
прилагательное «легкий»); -
употребляется
в единственном или во множественном
числе. Например: «немецкий язык»,
«европейские языки»; -
имеет
один или несколько синонимов. Например:
«перспективы» = «будущее» = «перспективы
развития» = «тенденции».
— при
замене составляющих его слов, изменении
порядка слов в нем или при преобразовании
прилагательного в существительное с
предлогом потеряется его смысл. Например:
«железная дорога».
К
устойчивым словосочетаниям относят
имена собственные или словосочетания,
включающие имена собственные. Например:
«Латинская Америка», «Таблица Менделеева».
Если
словосочетания соответствуют этим
критериям, они считаются устойчивыми.
На
решение о сохранении словосочетаний
влияют и прагматические соображения:
— рекомендуется
сохранять часто встречающиеся
словосочетания;
— рекомендуется
сохранять словосочетания, если их
компоненты не могут использоваться по
отдельности;
— рекомендуется
сохранять словосочетания как способ
устранения информационного шума.
Таким
образом, разработчикам тезауруса следует
ориентироваться на единичные ключевые
слова, сохраняя устойчивые словосочетания,
удовлетворяющие выше приведенным
лингвистическим и прагматическим
критериям.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Каков наилучший способ создать тезаурус, так как письмо всегда является самой сложной частью получения высоких баллов во многих языковых тестах?
Таким образом, многие учащиеся стараются как можно больше практиковаться в письме. Одним из многих советов по улучшению качества письма является использование тезауруса. Но что вы знаете о тезаурусе и о том, как эффективно создавать тезаурус?
В этой статье вы узнаете новое понимание тезауруса и полезные советы по созданию тезауруса, чтобы играть со словами как в формальном, так и в неформальном языковом употреблении.
Дополнительные советы с AhaSlides
- Живой генератор облака слов
- Генератор прилагательных
- Случайные английские слова
Содержание
- Что такое тезаурус?
- Список способов создания тезауруса
- №1. AhaSlides — инструмент создания тезауруса
- № 2. Thesaurus.com – инструмент для создания тезауруса
- №3. Monkeylearn — инструмент для создания тезауруса
- № 4. Synonyms.com – инструмент создания тезауруса
- № 5. Word Hippos — инструмент для создания тезауруса
- № 6. Визуальный тезаурус — инструмент создания тезауруса
- № 7. WordArt.com — инструмент создания тезауруса
- 4 альтернативы облаку слов AhaSlides
- №1. Только одно слово
- № 2. Синоним скремблировать
- №3. Генератор прилагательных
- № 4. Генератор синонимов имени
- Преимущества «Создать тезаурус»
- Заключение
Что такое тезаурус?
Если вы давно пользуетесь словарем, возможно, вы уже слышали о слове «тезаурус». Понятие тезауруса происходит от особого способа использования более функционального словаря, в котором люди могут искать ряд слов. синонимов и соответствующие концепции, а иногда антонимы слов в группе слов.
Слово тезаурус происходит от греческого слова «сокровище»; упрощенно, это также означает книгу. В 1852 году слово «тезаурус» стало популярным благодаря вкладу Питера Марка Роже, который использовал его в своем «Тезаурусе Роже». В современной жизни тезаурус является официальным словом в свете словаря синонимов. Кроме того, интересен тот факт, что Соединенные Штаты являются первой страной, отметившей «День национального тезауруса», который ежегодно отмечается 18 января.
Список способов создания тезауруса
Есть много способов создать тезаурус с помощью генератора слов тезауруса. В эпоху цифровых технологий люди слишком привыкли использовать онлайн-словарь вместо печатного словаря, поскольку это более удобно и экономит время, некоторые из них бесплатны и переносимы на ваш мобильный телефон. Здесь мы даем вам 7 лучших онлайн-сайтов, создающих тезаурусы, чтобы найти похожие слова, на которые вы должны обратить внимание:
№1. AhaSlides — инструмент создания тезауруса
Почему AhaSlides? Учебное программное обеспечение AhaSlides подходит для создания тезаурусов классами с помощью функции Word Cloud и может использоваться в любой точке взаимодействия в системах Android и iOS. Использование AhaSlides — это идеальный способ вовлечь учащихся в занятия в классе. Вы можете настроить различные игры и викторины на тематическом фоне, чтобы сделать генератор тезауруса более привлекательным и интересным.
№ 2. Thesaurus.com – инструмент для создания тезауруса
Лучшим генератором синонимов, который можно упомянуть, является Thesaurus.com. Это полезная платформа для поиска синонимов со многими удобными функциями. Вы можете искать синоним к слову или фразе. Его впечатляющие функции, генератор слов дня, публикация одного синонима и кроссворд ежедневно — вот что этот веб-сайт показывает вам вместе с грамматикой и советами по написанию стратегии обучения навыкам написания. Он также предлагает различные игры, такие как Scrabble Word Finder, Outspell, Word Wipe Game и другие, которые помогут вам более эффективно создавать список тезауруса.
№3. Monkeylearn — инструмент для создания тезауруса
Вдохновленное технологией искусственного интеллекта MonkeyLearn, сложное программное обеспечение для электронного обучения, его функция облака слов может использоваться в качестве генератора случайных слов-синонимов. Его чистый UX и пользовательский интерфейс позволяют пользователям удобно работать со своими приложениями, не отвлекаясь на рекламу.
Введя релевантные и целенаправленные ключевые слова в поле, автоматическое обнаружение сгенерирует необходимые синонимы и связанные термины. Кроме того, есть функция, которая поможет вам настроить цвет и шрифт в соответствии с вашими предпочтениями, а также настроить количество слов, чтобы упростить получение результатов.
№ 4. Synonyms.com – инструмент создания тезауруса
Еще один онлайн-словарь для создания тезауруса — Synonyms.com, который работает очень похоже на Thesaurus.com, например, ежедневное скремблирование слов и считывание словарных карточек. После проведения исследования слова веб-сайт представит вам группу похожих слов, ряд определений, его историю и некоторые антонимы, а также гиперссылки с другими соответствующими понятиями.
№ 5. Word Hippos — инструмент для создания тезауруса
Если вы хотите найти синоним напрямую, вы можете найти Word Hipps для вас. Простой в использовании пользовательский интерфейс поможет вам самым разумным образом. Помимо представления вам синонимов, он выделяет различные контексты использования рассматриваемого слова и синонимов более подходящим образом. Вы можете попробовать игру под названием «Слова из 5 букв, начинающиеся с буквы А», которую предлагает Word Hipps в качестве ледокола.
№ 6. Визуальный тезаурус — инструмент создания тезауруса
Знаете ли вы, что изучение слова с помощью визуальных эффектов более эффективно? Инновационный генератор синонимов, такой как визуальный тезаурус, предназначен для максимального получения информации и поощряет исследование и обучение. Вы можете найти любой из необходимых вам тезаурусов, даже самый редкий, поскольку он предлагает 145,000 115,000 английских слов и XNUMX XNUMX значений. Например, генератор существительных слов, генератор старых английских слов и генератор причудливых слов с картами слов, разветвленными друг на друга.
№ 7. WordArt.com — инструмент создания тезауруса
Иногда сочетание генератора облака слов для тезауруса с формальным словарем синонимов является эффективным способом обучения новому языку в классе. WordArt.com может стать для вас хорошим учебным пособием. WordArt, ранее известный как Tagul, считается самым многофункциональным генератором облаков слов с потрясающими изображениями слов.
Альтернативы облаку слов AhaSlides
Кажется, пришло время создать собственный генератор тезауруса с Облако слов AhaSlides. Итак, как создать генератор облака слов синонимов с АгаСлайды, вот несколько важных советов:
- Представляем облако слов на AhaSlides, а затем пересылаем ссылку в верхней части облака вашей аудитории.
- Получив ответы, отправленные аудиторией, вы можете транслировать вызов облака слов в прямом эфире на своем экране вместе с другими.
- Настройте вопросы и типы вопросов в соответствии с общим дизайном вашей игры.
Начните за секунды.
Узнайте, как использовать AhaSlides Live Word Cloud Generator для большего удовольствия на работе, в классе или просто для использования в сообществе!
🚀 Что такое облако слов?
Игры со словами — это интригующие занятия, которые повышают умственные способности, а также проверяют способность использовать словарный запас и другие языковые навыки. Поэтому мы даем вам несколько лучших идей для игр с генератором тезаурусов для повышения продуктивности вашего обучения в классе.
№1. Всего одно слово — сгенерируйте идею игры тезауруса
Это самое легкое и простое правило игры, которое вы когда-либо могли себе представить. Однако стать победителем в этой игре совсем не просто. Люди могут играть в группе или индивидуально с таким количеством раундов, сколько необходимо. Ключ к успеху — произнести слово как можно быстрее и сосредоточиться, избегая повторения рассматриваемого слова, если вы не хотите, чтобы вас уволили. Однако нет никакой гарантии, что у вас будет достаточно слов для победы. Вот почему мы должны учить новые слова из этой удивительной игры.
№ 2. Synonym scramble — Генерация идеи игры тезауруса
Вы легко можете встретить такой сложный тест во многих учебниках по языковой практике. Перепутать все буквы — лучший способ потренировать мозг в запоминании новой работы за ограниченное время. С помощью Word Cloud вы можете скремблировать один и тот же набор списков слов или антонимов, чтобы учащиеся могли быстро расширять свой словарный запас.
№3. Генератор прилагательных — сгенерируйте идею игры тезауруса
Вы когда-нибудь играли в MadLibs, одну из самых захватывающих онлайн-игр в слова? Существует задача повествования, когда вам нужно придумать кучу случайных прилагательных, чтобы они соответствовали сюжетной линии, которую вы создаете. Вы можете играть в такие игры в своем классе с помощью Word Cloud. Например, вы можете создать историю, а учащиеся должны придумать персонажей с одной и той же сюжетной линией. Каждая команда должна использовать ряд синонимов, чтобы их история звучала разумно, но не может повторять чужие прилагательные.
№ 4. Генератор синонимов имен — сгенерируйте идею игры тезауруса
Когда вы хотите назвать своих новорожденных, вы хотите выбрать самое красивое, оно должно нести в себе особый смысл. Для того же значения существует множество имен, которые могут вас запутать. Прежде чем перейти к последнему, вам может понадобиться Word Cloud, чтобы помочь вам создать как можно больше имен синонимов. Вы можете быть удивлены тем, что есть еще имена, о которых вы никогда раньше не думали, но они звучат точно так же, как то, что предназначено вашему ребенку.
№ 5. Создатель необычных заголовков — сгенерируйте идею игры тезауруса
Генератор синонимов имени немного отличается от генератора причудливых заголовков. Вы хотите назвать свой новый бренд уникальным, но уже существуют тысячи причудливых названий? Трудно найти тот, который имеет соответствующее значение для вашего фаворита. Так что использование тезауруса может вам как-то помочь. Вы можете создать игру, чтобы побудить участников придумать причудливые названия для названия вашего бренда или книги или чего-то еще, не теряя ее духа.
Преимущества создания тезауруса
«Создать тезаурус» — это распространенный способ показать свою языковую компетентность по четырем навыкам в разных контекстах. Понимание сути намеренного создания тезауруса полезно для вашего прогресса в обучении и других связанных с языком действий. Цель «создать тезаурус» состоит в том, чтобы помочь вам избежать пустых слов и повысить эффективность и точность вашего выражения.
Кроме того, частое повторение одних и тех же фраз или слов является табу, что может сделать письмо скучным, особенно в творческом письме. Вместо того, чтобы говорить «Я очень устал», вы можете сказать, например, «Я устал».
Кроме того, вы можете создать генератор тезаурусных фраз с такой фразой, как «ваша одежда выглядит очень красиво», эксперт с динамическим списком синонимов может сделать ее более увлекательной во многих отношениях, например: «ваш костюм такой потрясающий» или « твой наряд необыкновенный»…
В некоторых конкретных контекстах, таких как тесты на знание языка, копирайтинг, классные занятия и т. д., шаг «создать тезаурус» может быть огромным подспорьем, как показано ниже:
Практика тестирования на знание языка: возьмем, к примеру, IELTS. Существует тест высокого стандарта для изучающих иностранный язык, который они должны пройти, если хотят поехать за границу для учебы, работы или иммиграции. Подготовка к IELTS — долгий путь, так как чем выше целевая группа, тем сложнее.
Изучение синонимов и антонимов — лучший способ увеличить словарный запас. Для многих людей «создание тезауруса» является обязательным действием для создания конечного списка словарного запаса для использования в письменной и устной речи, чтобы учащиеся могли более активно и эффективно играть со словами в течение ограниченного времени для любого вопроса.
Преимущества создания тезауруса в копирайтинге
В последние годы быть фрилансером в области копирайтинга — многообещающая карьера, поскольку это гибридная работа, в которой вы можете оставаться дома и писать текст в любое время, не беспокоясь о скучных 9-5 рабочих часах. Быть хорошим писателем требовало отличных навыков письменного общения и убедительного, повествовательного, пояснительного или описательного стиля письма.
Улучшение вашего стиля общения и письма путем создания собственного генератора слов важно, поскольку вы используете слова более гибко, а не застреваете, пытаясь найти идеальный способ выразить свою инициативу. Воспользовавшись преимуществами живого тезауруса в ваших предложениях, ваше письмо может быть намного более очаровательным.
Преимущества создания тезауруса в занятиях класса
Умение свободно пользоваться языком является обязательным для всех стран как на их национальном, так и на втором языке. Кроме того, есть много компаний, которые также пытаются внедрить курсы английского языка для своих сотрудников в качестве основного развивающего обучения.
Преподавание и изучение языка, особенно новой лексики, может быть более продуктивным процессом, в то же время получая огромное удовольствие от генераторов слов для игр. Некоторые словесные игры, такие как «Кроссворды» и «Эрудит», являются одними из любимых ледоколов класса, которые будут стимулировать участие учащихся в учебе.
Выводы
Если вы любите играть со словами или просто хотите улучшить свои навыки письма, не забывайте часто обновлять свой тезаурус и писать по одной статье каждый день.
Теперь, когда вы узнали о тезаурусе и о некоторых идеях по использованию Word Cloud для создания тезауруса, давайте приступим к созданию собственного тезауруса и игр Word Cloud с помощью Облако слов AhaSlides правильный путь.
УДК 004.048
МЕТОД АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ ТЕЗАУРУСОВ НА ОСНОВЕ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
И.А. Бессмертный, А.Б. Нугуманова*
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики *Восточно-Казахстанский государственный технический университет им. Д. Серикбаева, г. Усть-Каменогорск E-mail: igor_bessmertny@hotmail.com, *yalisha@yandex.kz
Рассмотрен метод автоматического построения тезауруса терминов предметной области на основе статистической обработки естественно-языковых текстов. Использование предложенного метода позволяет отказаться от ручного труда экспертов по формированию и поддержанию тезауруса в актуальном состоянии.
Ключевые слова:
Обработка текстов на естественном языке, латентный семантический анализ, векторная модель текста.
Key words:
Natural language processing, latent semantic analysis, vector space model.
Введение
Под тезаурусом предметной области мы понимаем набор ключевых понятий этой области, связанных между собой определенными семантическими отношениями. Основным назначением тезауруса предметной области является предоставление стандартизированной терминологии для описания относящихся к предметной области информационных ресурсов.
Существует два способа построения тезауруса предметной области: ручной способ, с привлечением труда экспертов, и автоматический. Ручной способ отличается высокой трудоемкостью, что делает актуальной проблему автоматического построения тезауруса. Целью данной работы является автоматическое построение тезауруса предметной области с помощью статистических методов обработки текстов на естественном языке. В основе статистических методов лежит предположение о том, что ключевые слова, описывающие содержание предметной области, по-разному распределяются среди релевантных и нерелевантных документов. Термин «релевантность» мы используем здесь в широком смысле, называя релевантными документы, тематика которых относится к заданной предметной области.
Для достижения указанной цели требуется выполнить следующие задачи:
1) подготовить обучающую коллекцию, содержащую два класса документов – релевантных и нерелевантных по отношению к заданной предметной области;
2) сформировать словарь на основе документов обучающей коллекции;
3) выделить из словаря ключевые понятия предметной области;
4) построить семантические отношения между извлеченными ключевыми понятиями;
5) проверить валидность созданного тезауруса (оценить его применимость для автоматической классификации документов предметной области).
Подготовка обучающей коллекции документов
Подготовка обучающей коллекции представляет собой отбор документов из множества документов, имеющихся в распоряжении исследователя. Ключевым моментом подготовки обучающей коллекции является разбиение документов на «релевантные» (соответствующие предметной области) и «нерелевантные». Поскольку от качества обучающей коллекции зависит качество результатов всей работы по созданию тезауруса, то ее формирование может оказаться итеративным процессом. В ходе проведения экспериментов обучающая коллекция может пополняться, корректироваться, что соответствует возрастающему характеру обучения, заключающемуся в накоплении знаний методом проб и ошибок.
Формирование словаря обучающей коллекции
Под словарем обучающей коллекции документов мы понимаем множество всех слов коллекции, приведенных к нормальной форме. В русском языке нормальными формами являются: для существительных – именительный падеж единственного числа, для прилагательных – именительный падеж единственного числа мужского рода, для глаголов, причастий и деепричастий – глагол в инфинитиве.
Построение словаря состоит из двух этапов: то-кенизации, т. е. разбиения текстов документов на минимальные лексические компоненты – слова (токены), и лемматизации, то есть приведения выделенных слов к нормальным формам (леммам).
Токенизация является начальным этапом автоматической обработки текстов, и, как отмечается в работе [1], ошибки, допущенные на данном этапе, существенно влияют на дальнейший процесс обработки. Нам известны два основных способа построения токенизаторов. Первый способ заключается в построении токенизатора, способного распознавать в тексте заранее заданные паттерны, второй способ основан на обучении токенизатора
новым паттернам. В данной работе мы используем алгоритм токенизации, основанный на распознавании следующих паттернов:
• пробел и знаки препинания являются разделителями слов-токенов;
• цепочки букв с числами понимаются как один токен;
• двойные имена собственные понимаются как один токен;
• обозначения даты и времени понимаются как один токен;
• специальные сокращения (например, P.S.) понимаются как один токен;
• дробные числа понимаются как один токен;
• имена собственные, включающие инициалы, понимаются как один токен.
Лемматизация необходима для компрессии получившегося словника. Лемматизация представляет собой сложную исследовательскую задачу, требующую разрешения неоднозначностей естественного языка, таких как синонимия, омонимия, полисемия. Например, в предложении «Дети ели кашу» для слова «ели» правильным вариантом леммы является глагол «есть», а в предложении «В саду росли ели» правильным вариантом леммы является существительное «ель». В каком значении употреблена словоформа «ели» можно узнать только из контекста, но для этого лемматизатор должен быть усилен модулем синтаксического анализа. В работе [2] был выполнен анализ влияния лемма-тизации на качество информационного поиска, позволивший авторам работы сделать вывод, что отказ от лемматизатора существенно понижает полноту и точность результатов поиска.
В данной работе для токенизации и лемматиза-ции текстов мы используем свободно распространяемый компонент анализатора, размещенный на сайте [3].
Отбор из словаря ключевых понятий предметной области
Очевидно, что словарь всех слов обучающей коллекции не может являться тезаурусом, поскольку помимо интересующих нас ключевых понятий содержит стоп-слова и другие неинформативные термины.
В данной работе для отсечения неинформативных терминов мы используем критерий X2, величина которого позволяет судить о том, насколько независимы между собой определенный термин и предметная область [4]. Выбор данного критерия обусловлен его простотой и универсальностью, которые позволяют применять его в большом количестве самых разнообразных задач, связанных с проверкой согласия модели и опытных данных.
х2 |TS|х(TSDl • TSN0 -TSD0 ■TSNl)2 /ix
x “(TSDl^TSDOy^^TSN^TSNOyXT’ (1)
x(TSD1 + TSNj) • (TSD0 + TSN 0) J
Расшифровка обозначений для выражений, участвующих в расчете критерия х2 согласно формуле (1), приведена в табл. 1.
Таблица 1. Выражения, участвующие в расчете критерия X
Параметр Расшифровка
TS Мощность множества документов обучающей коллекции
TSD1 Количество документов обучающей коллекции, которые принадлежат предметной области и содержат данный термин
TSDo Количество документов обучающей коллекции, которые принадлежат предметной области и не содержат данный термин
tsn Количество документов обучающей коллекции, которые не принадлежат предметной области и содержат данный термин
tsn Количество документов обучающей коллекции, которые не принадлежат предметной области и не содержат данный термин
Данный критерий мы будем вычислять для каждого входящего в словарь слова. Будем включать слово в тезаурус, если значение критерия для него превышает некоторую положительную величину, которую назовем пороговой. Значение пороговой величины можно варьировать, чем оно выше, тем точнее тезаурус. Однако нужно учитывать, что слишком высокое значение пороговой величины может привести к потере части ключевых слов.
Построение семантических отношений между
ключевыми понятиями предметной области
Построение семантической сети, связывающей между собой понятия предметной области, представляет собой сложный и творческий процесс и требует отдельного исследования. В данной работе мы установим ассоциативные связи между извлеченными ключевыми понятиями на основе латентного семантического анализа [5]. Латентный семантический анализ – это метод выявления взаимосвязей между документами текстовой коллекции и терминами, встречающимися в этих документах. В основе метода лежат принципы факторного анализа: выявление латентных связей между изучаемыми объектами и сокращение числа этих объектов за счет объединения групп взаимозависимых объектов. Метод является чисто статистикоалгебраическим, поскольку не использует созданных человеком онтологий для анализа связей.
Для выполнения латентного семантического анализа на множестве документов коллекции мы построим матрицу «термины-на-документы», строки которой соответствуют ключевым словам тезауруса, а столбцы – документам. На пересечении строки (слова) и столбца (документа) укажем частоту вхождения данного слова в данный документ. Каждое слово в матрице будет представлять собой вектор-строку, а каждый документ – вектор-столбец. Согласно теореме о сингулярном разло-
жении полученная матрица может быть представлена в виде произведения трех матриц:
А = иБУт, (2)
где А – это исходная матрица; и – ортогональная матрица размеров мхн; V- ортогональная матрица размеров ихи; £ – диагональная матрица размеров ихи, элементы которой на главной диагонали упорядочены по убыванию (рис. 1).
Ненулевые элементы матрицы £ из (2) называются сингулярными числами матрицы и равны арифметическим значениям квадратных корней из соответствующих собственных значений матрицы ААТ.
А и S VT
X X
ҐҐІХҐІ mxn ПХҐ1 ҐІХҐІ
Рис. 1. Сингулярное разложение матрицы
Такое разложение обладает тем свойством, что если в матрице £ оставить только к наибольших сингулярных значений, а в матрицах и и V – только соответствующие этим значениям столбцы и строки, то произведение получившихся матриц (матрица А) будет наилучшим приближением матрицы ранга к к исходной матрице А [6].
Рис. 2. Аппроксимация исходной матрицы матрицей меньшего ранга
Получившаяся матрица А’ (рис. 2) точнее отражает структуру связей в исходной коллекции [5]. Исходя из этой матрицы, мы можем оценить близость между словами коллекции как расстояние между соответствующими векторами при помощи косинусной меры (3) или евклидова расстояния (4).
c = cos( x, y) =
x ■ y
kl-I y
P = P( x y) = VX( x – y)2
(3)
(4)
где с – это косинусная мера; р — евклидово расстояние; х, у – это строки и столбцы, представляющие документы или термины, в новой матрице А’.
Проверка валидности тезауруса
(оценка применимости тезауруса для классиф
икации документов)
Чтобы проверить валидность полученного тезауруса, используем его для автоматической классификации документов по двум классам: класс документов предметной области и класс документов, не относящихся к предметной области. В качестве метода классификации используем метод Роккио.
Выбор данного метода обусловлен простотой и естественностью его геометрической интерпретации. Кроме того, как отмечено в [7], «качество классификации, прежде всего, зависит от выбора классификационных терминов», и в меньшей степени – от выбора алгоритма. Разумеется, речь идет о сравнении между такими известными алгоритмами, как машина опорных векторов, наивный байесовский классификатор, алгоритм К-ближайших соседей [7, 8].
Описание векторной модели представления документа. Метод Роккио, как и большинство других методов классификации, представляет документ в векторном пространстве терминов тезауруса как вектор, координаты которого равны весам терминов в данном документе:
d = (wp W2,…, Wt ),
здесь T – размерность тезауруса (количество терминов); d — вектор, представляющий документ; координаты wt (i=1.T) – веса терминов в документе.
Для расчета весов мы используем модель TF-IDF (Term Frequency – Inverse Document Frequency), согласно которой вес термина в документе прямо пропорционален частоте его вхождения в документ и обратно пропорционален количеству документов, в которых он встречается:
(
Щ = р ■ l°g
D
DP,
где и ¥— вес и частота термина і в документе соответственно; Б – общее число документов; -число документов, в которых встречается термин і.
Данная модель не учитывает того факта, что документы могут иметь разную длину, вследствие чего частота термина, а значит и его вес будут тем меньше, чем больше длина документа. Мы выполним нормирование весов терминов в документе путем их деления на евклидову норму (длину вектора-документа):
* Ж Ж
‘
Описание алгоритма классификации. Суть алгоритма Роккио заключается в вычислении близости между векторами документов и центроидом класса документов, относящихся к предметной области. Под центроидом понимается усредненный вектор класса
ßD = | * . V di,
TSD^sd
где TSD – это подмножество обучающей коллекции, состоящей из документов, относящихся к предметной области; dt – это документы, принадлежащие множеству TSD.
Документ будет считаться принадлежащим предметной области, если расстояние между центроидом класса и вектором документа будет меньше определенной величины, которую назовем ра-
диусом класса. Под расстоянием между векторами мы понимаем евклидово расстояние, вычисляемое по формуле (4).
Оценка качества классификации. Основными показателями качества классификации являются уровни ошибок первого и второго рода [9]. Ошибка первого рода или ложный пропуск (false negative) фиксируется, когда документ, относящийся к заданному классу, ошибочно не обнаруживается. Ошибка второго рода или ложное обнаружение (false positive) фиксируется, когда документ, не относящийся к заданному классу, ошибочно полагается относящимся.
Пусть экспериментальная выборка содержит S документов, в том числе SD документов, относящихся к предметной области, и SN документов, не относящихся к ней. Очевидно, что S=SD+SN. Используя эти величины, можно рассчитать процент уровней ошибок первого и второго рода.
FN
nFN =—–х100 %,
SD
nFP = — х 100 %,
SN
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
где nFN и nFP – проценты уровней ошибок первого и второго рода соответственно; FNи FP – количество ложных пропусков и ложных обнаружений соответственно.
Экспериментальная часть
Для проведения экспериментов мы выбрали предметную область «Автомобили». Нами была подготовлена обучающая коллекция из 2000 документов, представляющих собой статьи, опубликованные на новостном сайте [10]. Из них половина документов относилась к предметной области «Дорожное движение», половина – к другим предметным областям (культура, наука, финансы и т. д).
В результате токенизации и лемматизации из текстов обучающей коллекции был сформирован словарь объемом в 53745 приведенных к нормальной форме слов. К словам словаря был применен критерий X1, который позволил выделить 567 ключевых понятий предметной области «Дорожное движение». Пороговое значение критерия X2 было взято равным 18. В табл. 2 приведены первые 30 слов с наивысшим значением критерия, а в табл. 3 – последние 10 слов с наименьшим значением критерия.
Затем мы выполнили поиск ассоциативных связей между словами тезауруса. С этой целью была сформирована матрица «термины-на-докумен-ты» размерностью 567 (по числу терминов тезауруса) на 1000 (по числу документов обучающей коллекции, относящихся к предметной области). В ячейках матрицы были записаны частоты вхождения терминов в документы. С помощью сингулярного разложения полученная матрица была аппроксимирована матрицей ранга 200. В табл. 4, 5 показаны фрагменты матрицы «термины-на-до-кументы» до и после сингулярного разложения.
Таблица 2. Первые 30 ключевых терминов предметной области «Дорожное движение»
Слово Значение Xі
Автомобиль 1303,05
Машина 859,96
Водитель 665,37
ГИБДД 485,39
Дорожный 458,34
Дорога 398,97
ДТП 396,17
Транспортный 352,87
Авария 300,38
Километр 298,01
Полоса 247,24
Руль 241,44
Скорость 232,22
Газета 231,69
Автомобильный 222,89
Произойти 219,35
Трасса 207,16
Автомобилист 203,11
Транспорт 199,91
Автовладелец 186,98
Уголовный 185,90
Легковой 180,26
Пострадать 178,37
Ехать 178,12
Погибнуть 175,62
Район 175,46
Внедорожник 166,85
Гаишник 164,89
МВД 164,52
Пробка 164,52
Таблица 3. Последние 10 терминов предметной области «Дорожное движение»
Слово Значение Xі
Человек 18,94
Город 18,89
Остановить 18,62
Купе 18,51
Наземный 18,51
Подушка 18,51
Ярославский 18,51
Сократиться 18,41
Вправо 18,38
Эвакуатор 18,38
Таблица 4. Фрагмент матрицы «термины-на-документы» до сингулярного преобразования
1 2 3 4 5 6 7
1 8 7 0 0 0 5 0
2 1 0 0 0 0 0 0
3 7 0 0 0 0 0 0
4 1 1 3 4 2 0 16
5 4 1 0 1 2 0 0
6 3 1 0 1 3 0 0
7 2 0 0 0 0 0 0
Таблица 5. Фрагментматрицы «термины-на-документы» после сингулярного преобразования
Документы Термины 1 2 3 4 5 6 7
1 8,0520 7,0977 -0,0011 -0,1328 -0,0810 4,9294 0,0244
2 1,3677 -0,0972 0,0968 0,4338 -0,1015 0,0249 0,0005
3 6,3477 -0,0353 0,0826 0,1404 -0,1713 -0,1026 -0,1166
4 1,0124 1,0247 3,0212 4,0735 1,9890 0,0292 15,9325
5 4,1900 1,1507 -0,0763 1,1001 2,0669 -0,1085 -0,0437
6 2,8336 0,9321 0,0714 0,9574 3,0026 0,0182 0,0163
7 1,5220 0,3381 0,0642 0,0258 0,1325 -0,0916 0,0259
Таблица 6. Фрагментматрицы «термины-на-термины» попарной близости терминов
Термины 1 2 3 4 5 6 7
1 1 0,222758 0,300158 0,202998 0,385061 0,39617 0,280362
2 0,222758 1 0,199121 0,155349 0,337179 0,289496 0,19304
3 0,300158 0,199121 1 0,095526 0,197616 0,191545 0,270208
4 0,202998 0,155349 0,095526 1 0,151962 0,214588 0,13238
5 0,385061 0,337179 0,197616 0,151962 1 0,768539 0,557483
6 0,39617 0,289496 0,191545 0,214588 0,768539 1 0,586044
7 0,280362 0,19304 0,270208 0,13238 0,557483 0,586044 1
Таблица 7. Семантический кластер слова «Автомобиль»
Первый термин в паре Второй термин в паре Близость
Машина 0,74
Японский 0,57
Данные 0,55
Автопроизводитель 0,55
Марка 0,55
Легковой 0,54
Автомобиль Единица 0,53
Модель 0,52
Автодилер 0,52
Авторынок 0,51
Реализация 0,51
Автостат 0,50
Бренд 0,50
Таблица 8. Семантический кластер слов «Авария», «ДТП»
Как видно из табл. 4, 5, путем аппроксимации исходной разреженной матрицы «термины-на-до-кументы» матрицей меньшего ранга мы сумели избавиться от информационного шума и усилить существенные связи между терминами и документами. Затем с помощью косинусной меры мы рассчитали попарную близость между терминами, представленными векторами-строками в новой матрице. Фрагмент матрицы попарной близости представлен в табл. 6.
Из полученной матрицы мы отобрали все пары, близость между которыми превосходила значение 0,5. Выделенные пары мы объединили в семантические кластеры. В табл. 7-11 представлены несколько таких кластеров.
Таблица 9. Семантический кластер слова «Шоссе»
Первый термин в паре Второй термин в паре Близость
ДТП 0,8
Погибнуть 0,66
Авария Произойти 0,64
Человек 0,6
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
Столкнуться 0,56
Пострадать 0,53
Авария 0,8
Погибнуть 0,72
Человек 0,64
Произойти 0,62
Погибший 0,58
Водитель 0,55
ДТП Вина 0,54
Пострадать 0,54
Автокатастрофа 0,53
Происшествие 0,53
Неосторожность 0,53
Столкнуться 0,53
Повлечь 0,52
Первый термин в паре Второй термин в паре Близость
Каширский 0,74
Волоколамский 0,71
Ленинградский 0,68
Дмитровский 0,64
Улица 0,62
ШОССЕ Проспект 0,59
Эшелон 0,57
МКАД 0,56
Можайский 0,56
Движение 0,53
Геолайф 0,51
Полученный тезаурус мы использовали для классификации 100 сообщений, опубликованных на форумах автолюбителей. 50 постов – относились к категории «Дорожное движение», 50 постов к категории «Разное». Как было отмечено, в качестве метода классификации мы использовали метод
Роккио с радиусом класса 0,002. Количество ложных пропусков составило 5 документов. Количество ложных обнаружений составило 6 документов. Таким образом, процент ошибок первого рода составил 10 %, процент ошибок второго рода – 12 %.
Таблица 10. Семантический кластер слов «Талон», «Техосмотр», «ОСАГО»
Первый термин в паре Второй термин в паре Близость
Талон Техосмотр 0,91
Автостраховщик 0,89
Осмотр 0,78
Прохождение 0,68
РС 0,66
ОСАГО 0,56
Техосмотр Талон 0,91
Автостраховщик 0,87
Прохождение 0,75
ОСАГО Полис 0,95
Автостраховщик 0,62
Заключение
Авторы работы исследовали возможность автоматического построения тезауруса для заданной предметной области на основе статистических методов обработки текстов на естественном языке (Хи-квадрат и латентный семантический анализ). Несмотря на то, что обучающая коллекция документов была не слишком большой по размеру, сформированный тезаурус достаточно хорошо соотносится с выбранной предметной областью, что подтверждается проведенным экспериментом.
СПИСОК ЛИТЕРАТУРЫ
1. Бочаров В.В., Грановский Д.В. Вероятностная модель токени-зации в проекте Открытый корпус // Новые информационные технологии в автоматизированных системах: Материалы 15-го научно-практ. семинара. МГИ электроники и математики. -М., 2012.- С. 176-183.
2. Губин М.В., Морозов А.Б.. Влияние морфологического анализа на качество информационного поиска // RCDL 2006: Труды 8-й Всеросс. научной конф. – Суздаль, 17-19 октября 2006. -Суздаль, 2006. – С. 224-228.
3. Автоматическая Обработка Текста. Исходники словарей и программ // AOT.ru. 2012. http://aot.ru/download.php (дата обращения: 12.09.2012).
4. Большакова Е.И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. – М.: МИЭМ, 2011. – 272 с.
5. Седова Я.А., Квятковская И.Ю. Системный анализ корпуса текстов научного знания // Вестник Саратовского государственного технического университета. – 2010. – Т. 4. – № 2. -С. 196-203.
Таблица 11. Семантический кластер слов «Права», «Инспектор», «Статья»
Первый термин в паре Второй термин в паре Близость
Права Лишить 0,77
Лишение 0,75
Водительский 0,59
КОАП 0,53
Водитель 0,52
Арест 0,51
Инспектор ДПС 0,64
Гаишник 0,60
Патрульный 0,52
Статья УК 0,87
Свобода 0,72
Повлечь 0,65
Преступление 0,64
Неосторожность 0,63
РФ 0,63
Возбудить 0,61
Уголовный 0,61
Совершить 0,59
Совершение 0,58
Грозить 0,55
В дальнейших работах планируется классифицировать семантические связи, выявленные между терминами тезауруса, с помощью применения лексико-грамматических шаблонов. По нашему мнению, это позволит выделить в составе тезауруса отдельные разделы, описывающие имена собственные, синонимы, ассоциации, действия и т. д.
Работа выполнена при финансовой поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (соглашение № 14.B37.21.0406).
6. Тыртышников Е.Е. Методы численного анализа. – М.: ИЦ Академия, 2007. – 317 с.
7. Плешко В.В., Поляков П.Ю. RCO на РОМИП 2008 // РОМИП 2008: Труды Российского семинара по Оценке Методов Информационного Поиска 2007-2008. – Дубна, 9 октября 2008. -Санкт-Петербург: НУ ЦСИ, 2008. – С. 96-107.
8. Максаков А.В. Сравнительный анализ алгоритмов классификации и способов представления ^еЬ-документов // РОМИП 2005: Труды III Российского семинара по Оценке Методов Информационного Поиска. – Санкт-Петербург, 2005. – С. 63-73.
9. Вежневец В. Оценка качества работы классификаторов // Компьютерная графика и мультимедиа. Сетевой журнал. 2007.
http://cgm.computergraphics.ru/ content/view/106 (дата обращения: 12.09.2012).
10. Gazeta.Ru – Главные новости дня // gazeta.ru. 1999. http://www.gazeta.ru/ (дата обращения: 10.09.2012).
Поступила 18.09.2012 г.