Как составить псевдотекст

В данной курсовой работе исследуются алгоритмы генерации псевдотекстов. Псевдотекст – это последовательность слов, пробелов и знаков препинания. Слова, из которых состоит псевдотекст, совсем необязательно существуют в реальном языке, так же как и сам псевдотекст может вовсе не иметь смысла. Псевдотексты играют огромную роль в жизни современного общества. Многие композиторы используют генераторы псевдотекстов для создания стихов к написанной ими музыке. Сама музыка также может быть сгенерирована подобными генераторами. Многие газетные и журнальные статьи тоже генерируются компьютерами. При этом используются профессиональные генераторы псевдотекстов, генерирующие текст, мало отличимый от текста, созданного человеком. В связи с вышесказанным, данная курсовая работа является очень актуальной.

Перед автором были поставлены следующие задачи:

1) изучение алгоритмов генерации псевдотекста;

2) реализация изученных алгоритмов;

3) подведение итога выполненной работы.

Алгоритмы генерации псевдотекстов

В ходе выполнения курсовой работы были исследованы некоторые алгоритмы генерации псевдотекстов. Они различаются как по сложности, так и по характеристикам псевдотекста, получаемого с их помощью. Генераторы псевдотекста можно условно разделить на две категории:

1) генераторы, генерирующие псевдотекст последовательно, элемент за элементом. В качестве элемента может выступать буква или слово. Генераторы такого типа различаются между собой вероятностями появления в генерируемом тексте различных элементов;

2)генераторы, использующие в качестве элементов фрагменты предложений. Эти фрагменты состоят из одного или более слов и разделяются пробелами.

Генераторы, основанные на псевдослучайном выборе букв или слов

В ходе выполнения курсовой работы были исследованы 4 алгоритма генерации псевдотекста, основанные на псевдослучайном выборе букв или слов.

Генератор с равными вероятностями всех букв

Можно создать генератор, генерирующий текст с равными вероятностями появления каждой буквы. Из заданного алфавита выбирается одна из букв и помещается в выходную строку. Затем выбирается следующая буква и тоже помещается в выходную строку. Процесс продолжается, пока не будет получен необходимый объём псевдотекста. Вероятности появления в сгенерированном тексте каждой буквы равны 1 / N, где N – размер алфавита. Пример текста (200 букв), сгенерированного генератором такого типа, приведён ниже. В качестве алфавита использовались строчные буквы русского алфавита и пробел.

гъ цчцёэпетйащадмп жжцъооойчшмккхойбфззбфмяджетёелшсфвры

сджйдгщпёмйщярыыуфщехфвщтаоёюхвбвншмьёжьгкманмсшюпхыжяяпдёчссвёншьшзоеюьмвцйвзюторйьэкзомбгежфмъхьгявмъыихёюькаыбаянсшоасуъжяыътъигзё во

Работа с псевдотекстом –способ формирования читательской грамотности

Работа с псевдотекстом является одним из средств формирования читательской грамотности учащихся.

Цель работы для учащихся:

овладеть умениями практически выделять стилистически единые отрывки произведений.
Цель работы для учителя:

способствовать формированию навыков учащихся находить текстообразующие компоненты каждого отрывка, составляющего псевдотекст.

Пример псевдотекста для работы с обучающимися 5-х классов

Перед нами глиняная книга. Такие клинописные таблички появились до нашей эры. Писали на мягкой глине специальными палочками в форме клина – вдавливали изображение. Рядом книга, изготовленная из “растения реки” – папируса. Вот книга-веер из пальмовых листьев, книга на пробке, доске, шелке, различных сортах бумаги, пергаменте.А на Руси книга появилась вместе с христианством. В тишине монастырей работали книжники – летописцы, которые от руки вписывали историю в книгу. Книга- окно в мир.Откроешь страницу, другую- раздвинутся стены комнаты, станет далеко- далеко видно; услышишь голоса тех, кто жил давным-давно, кто от тебя за тридевять земель. Обо всем на свете рассказывает книга. Ты можешь побывать, не выходя из комнаты, в жарких и холодных странах, в морских глубинах, подняться к звёздам, прогуляться по горам на Луне.Книга радуется и печалится вместе с тобой. Она надёжный друг, верный товарищ.

Задания

  1. Найди 2 текста, «спрятанных» в псевдотексте. Границы текстов обозначь круглыми (1 текст) и квадратными (2 текст) скобками.

  2. Определитему и основную мысль каждого текста.

  3. Раздели каждый текст на абзацы. Выпиши ключевые слова.

  4. Определи способы связей предложений в каждом из тестов. Укажи средства связи предложений.

  5. Что тебе известно о происхождении книги из учебников истории и литературы?

  6. Назови несколько элементов книги.

  7. Как ты думаешь, может ли Интернет вытеснить со временем книгу?

Пример псевдотекста для работы с обучающимися 6-х классов

Ежегодно 31 октября во всех странах черноморского побережья отмечается международный день Черного моря.Чёрное море – внутреннее море бассейна Атлантического океана. По поверхности Чёрного моря проходит граница между Европой и Азией.Много столетий назад море называлось Скифским. И действительно, археологи на берегах Чёрного моря находят до сих пор сокровища из культуры древних скифов, особенно много — в Крыму.Море сказок и загадок море Чёрное хранит! Аромат легенд так сладок, волшебство легенд – магнит!Море истин, откровений, море выдумок и тайн,море тысяч поколений, море сотен тысяч стран! Были турки, персы, греки, и татарская орда совершала здесь набеги на посты и города.За миллионы лет Чёрное море неоднократно меняло свой облик: становилось то озером, то морем.Последнее изменение моря произошло примерно 8 тысяч лет назад и носило катастрофический характер. Сильнейшее землетрясение раскололо сушу.Огромные массы солёной средиземноморской воды устремились в котловину Чёрного моря, вызывая гибель огромного количества пресноводных обитателей. Так возникли современные проливы Босфор и Дарданеллы.

Задания.

  1. Найди2 текста, «спрятанных» в псевдотексте. Границы текстов обозначь круглыми(1 текст) и квадратными (2 текст) скобками.

  2. Определи тему и основную мысль каждого текста.

  3. Раздели1 текст на абзацы, определимикротемы.

  4. Определи способы связи предложений в текстах. Укажи средства связи предложений.

  5. Определи стиль речи каждого текста. Обоснуй свою точку зрения.

  6. Выпиши из текста термины (если есть) и средства выразительности (если есть).

  7. О каких морях России ты узнал на уроках географии? Назови их.

  8. Как ты думаешь, чем привлекает туристов черноморское побережье?

Пример псевдотекста для работы с обучающимися7-х классов

Архитектура — это строительное искусство, умение проектировать и создавать города, жилые дома, площади, улицы, сады и парки. Во многих городах нашей страны вы встретите древние кремли и церкви, дворцы и особняки, современные здания, перед которыми захочется остановиться и повнимательнее их рассмотреть. Также вы стояли бы перед интересной картиной или скульптурой. Это потому, что дома и улицы, площади и парки тоже могут волновать воображение и чувства человека, как и другие произведения искусства. Шедевры архитектуры запоминаются как символы народов и стран.Покровский собор возвели на Красной площади в 1555–1561 годах по приказу Ивана Грозного в честь победы русских воинов над Казанским ханством. Сперва царь приказал ставить вокруг Троицкой церкви деревянные храмы, а затем решил соединить их в один каменный собор. Так появился храм Покрова Пресвятой Богородицы на Рву, который затем приобрел более известное название — собор Василия Блаженного. Возведение кирпичного храма велось исключительно в теплое время года. Фундамент, цоколь и элементы декора выполнили из белого камня. Вокруг центральной девятой церкви зодчие поставили восемь приделов, затем перекрыли их сводами и увенчали куполами. Роспись появилась в 1670-е годы. Сегодня в убранстве Покровского собора — фрески XVI века, темперная роспись XVII века, монументальная масляная живопись XVIII–XIX веков и редкие экземпляры русской иконописи.

Задания

  1. Найди 2 текста, «спрятанных» в псевдотексте. Границы текстов обозначь круглыми (1 текст) и квадратными (2 текст) скобками.

  2. Определи тему и основную мысль каждого текста.

  3. Раздели тексты на абзацы и запиши ключевые слова2 текста.

  4. Определи тип и стиль речи каждого текста.

  5. Выпиши из 2 текста 3-4 термина, объясни их.

  6. Какие архитектурные памятники России известны? Назови их.

  7. Как ты думаешь, почему количество туристов, посещающих архитектурные памятники, не уменьшается, несмотря на онлайн- экскурсии?

Пример псевдотекста для работы с обучающимися8-х классов

Среди различных видов искусства – музыки, живописи, графики, скульптуры, архитектуры и других – особое место занимает искусство слова, или словесность. Словесность – это творчество, выражающееся в устном и письменном слове. Существует два вида словесности: устная словесность, то есть совокупность устных словесных произведений, созданных народом (носит название фольклор), и письменная словесность – рукописные и печатные произведения, накопленные человечеством за всю историю своего существования – это литература. Летописи – это средоточие истории Древней Руси, ее идеологии, понимания ее места в мировой истории – являются одним из важнейших памятников и письменности, и литературы, и истории, и культуры в целом. За составление летописей, т.е. погодных изложений событий, брались лишь люди самые грамотные, знающие, мудрые, способные не просто изложить разные дела год за годом, но и дать им соответствующее объяснение, оставить потомству видение эпохи так, как ее понимали летописцы. Летопись была делом государственным, делом княжеским. Поэтому поручение составить летопись давалось не просто самому грамотному и толковому человеку, но и тому, кто сумел бы провести идеи, близкие той или иной княжеской ветви, тому или иному княжескому дому. Тем самым объективность и честность летописца вступали в противоречие с тем, что мы называем «социальным заказом». Если летописец не удовлетворял вкусам своего заказчика, с ним расставались и передавали составление летописи другому, более надежному, более послушному автору. Увы, работа на потребу власти зарождалась уже на заре письменности и не только на Руси, но и в других странах.

Задания

1. Найдите 2 текста, «спрятанных» в псевдотексте. Границы текстов обозначь круглыми (1 текст) и квадратными (2 текст) скобками.

2. Определите стиль и тип речи каждого текста. Обоснуйте свою точку зрения.

3. Определите тему и основную мысль каждого текста.

4. Разделите тексты на абзацы и запишитемикротемы.

5. Составьте схему по материалу 1 текста.

6. Что вам известно о летописцах и летописях Руси?

7. Как вы понимаете выражение «социальный заказ»? Приведите примеры этого явления.

Пример псевдотекста для работы с обучающимися9-х классов

Возникновение письменности у славянских народов тесно связано с историческими условиями жизни славян в IX веке, в частности с их борьбой за независимость. В это время западные славяне были вынуждены противостоять стремлению немецких феодалов захватить их земли и утвердить христианство по католическому обряду. Моравский князь Ростислав хорошо понимал, какое значение имеет для независимости его княжества распространение просвещения на доступном для населения языке. Поэтому он обратился к византийскому правительству с просьбой прислать в Моравию епископа и учителей, которые могли бы распространять христианское вероучение на славянском языке. В результате в Моравию была направлена миссия, во главе которой стояли братья Константин (Кирилл) и Мефодий. Этим и было положено начало славянской письменности, славянской книжности и литературы.  Для закрепления своей религии в моравийских землях греки намеревались донести до народа мировоззрение не только устно, но и в  виде письменности и книг. В этой целью с учётом греческих букв было создано две азбуки: на кириллице и на глаголице. В самом начале своего создания обе эти азбуки были практически одинаковыми, а отличались лишь начертанием нескольких букв. Вот эти азбуки и повлияли на возникновение славянской письменности. Что значило для народной жизни слово как таковое? Подобный вопрос даже жутковато задавать, не только отвечать на него. Дело в том, что слово приравнивалось нашими предками к самой жизни. Слово порождало и объясняло жизнь, было для крестьянина хранителем памяти и залогом бесконечности будущего. Вместе с этим слово утешало, помогало, двигало на подвиг, заступалось, лечило, вдохновляло. И все это происходило само собой, естественно, как течение речной воды или как череда дней и смена времен года. Умение хорошо, то есть умно и тактично, образно, говорить в какой- то степени было мерилом даже социально-общественного положения, причиной уважения и почтительности.

Задания

1. Найдите 2 текста, «спрятанных» в псевдотексте. Границы текстов обозначьте круглыми (1 текст) и квадратными (2 текст) скобками.

2. Определите стиль и тип речи каждого текста. Обоснуйте свою точку зрения.

3. Определите тему и основную мысль каждого текста.

4. Разделите тексты на абзацы и запишитемикротемы каждого текста.

5. Что вам известно о возникновении письменности и создании славянской азбуки?

6. Как вы понимаете фразу из текста «слово приравнивалось нашими предками к самой жизни»?

Список источников

  1. Русский язык, 7 кл.: учебник для общеобразоват.учреждений/ М.М.Разумовская, С.И.Львов, В.И.Капинос и др.; под ред.М.М.Разумовской, П.А.Леканта – 13-е изд., стереотип. – М., Дрофа, 2009.- 316с.

  2. Русский язык.Сборник заданий. 8-9 классы: пособие для школ и классов с углубл.изучением русского языка к учебнику В.В.Бабайцевой«Русский язык. Теория 5-9 классы»/В.В.бабайцева, Л.Д.Беднарская.-5-е изд., стереотип. – М.: Дрофа, 2005 – 271с.

  3. http://dagpravda.ru/kultura/vozniknovenie-slavyanskoj-pismennosti/

  4. https://history.wikireading.ru/341207

  5. http://moscow.org/moscow_encyclopedia/14_pokrovskiy_cathedral.htm

  1. Словарное моделирование

  2. Генерация псевдотекста

Для генерации псевдотекста мной был
взят алфавит состоящий из четырех букв
моей фамилии плюс знак подчеркивания
в качестве разделителя слов: X
= {“Ю”, “Д”, “И”,
“Н”, “_”}.

Из символов полученного алфавита был
составлен собственный непрерывный
псевдотекст (около 150 символов), интуитивно
подражая фонетическим, орфографическим
и грамматическим свойствам естественного
человеческого языка:

ЮДЮ_ДЮДЮ_ДЮНИ_НЮНЮ_Ю_И_ДЮНИ_ЮЮ_ЮИ_НИ_ДЮ_НИ_►НЮ_И_НИ_ДИДИ_И_ДИНЮ_И_НИНИНИДИ_ДИНЮ_НЮ_НИ_НИДИ_ДИНИ_ДИНИНИ_НИДИ_ДИНИ_НИ_НЮ_НИ_ДИДИЮ

Примерно треть текста здесь отделен
маркером так, чтобы разрыв находился
перед началом очередного псевдослова
(т.е. после знака подчёркивания). Часть
текста(до маркера) решено было считать
обработанной, именно она использовалась
для статистического анализа и получения
подстрок.

  1. Построение словаря повторяющихся подстрок

Выписав все имеющиеся подстроки первой
части и частоту их появления, мы построим
словарь D. Удобно
записывать подстроки иерархически: для
каждой короткой подстроки выписывать
все более длинные, начинающиеся с этой
подстроки. Тогда можно проверить: частота
появления подстроки должна быть равна
сумме частот дочерних подстрок (более
длинных, начинающихся с родительской).
Все возможные подстроки изображены на
рисунке А.1 приложения А. Выбор подстрок
проводился по следующим правилам:

–– нас интересовали подстроки,
встречающиеся хотя бы дважды в тексте;

–– если одна подстрока полностью
покрывает другую (то есть содержит те
же буквы в том же порядке плюс еще одна
и при этом частота их появления одинакова),
то берётся наибольшую подстроку, так
как имеет смысл говорить лишь о его
существовании (стопроцентная вероятность,
что при появлении меньшего появилось
большее).

Однако в ходе работы подобный способ
формирования подстрок оказался неудачным.
Действительно, при анализе рисунка А.1
приложения А в соотнесении с оставшимся
текстом можно заметить, что сформированное
множество подстрок не способно полностью
покрыть текст и заменить тем самым
алфавит( у нас нет буквы «Д», «И», таких
после которых может следовать любая
буква, а потребность в них есть). По этой
причине множество подстрок было
преобразовано. Полеченное множество
строк представлено на рисунке А.2
приложения А.

Из всего вышеизложенного я делаю
заключение, что выбор подстрок являясь
в каком-то смысле произвольным процессом,
имеет важное для последующего кодирование
свойство: множество подстрок модели
должно покрывать множество возможных
подстрок сообщения, и в общем случае
это можно достичь включив весь алфавит
в множество подстрок.

  1. Сравнительные характеристики энтропии

После формирования множества подстрок
были вычислены оценки условной энтропии
следующего за маркером символа на основе
двух полученных ансамблей состояний.
Рисунок 1 содержит данные, используемые
при этом.

Р

исунок1
– Вычисление энтропии в Exel

Перед сравнением полученные оценки
энтропии были нормализированы – поделены
на среднее количество символов в
подстроке ансамбля:

HD=4,198081/3=1,39936
бит. (2)

Что касается максимального значения
энтропии первого символа оставшейся
части текста Hmax,
то очевидно из свойства энтропии о её
максимуме, что значение будет Hmax
высчитываться по формуле 3:

Hmax=-log2N=
-log20,2=2,32193
бит. (3)

В таблице 1 приведены значения полученной
энтропии в битах:

Таблица 1 – Значения
полученной энтропии

HD

Hmax

HX

1,39936

2,32193

2,22499

Исходя из полученных значений энтропии
можно сделать вывод, что степень
неопределенности при работе с подстроками
самая маленькая, что при однородности
текста возможно могло бы привести к
уменьшению кода. А степень неопределенности
при анализе частот символов алфавита
также меньше максимальной, то есть
кодирование через нее тоже может
оказаться полезным.

Соседние файлы в папке Лабораторная 2

  • #
  • #

Добавить комментарий