Как исправить кодировку в пдф

Даны pdf-файл, сделаны latex+dvips+ps2pdf, исходник утеряны или скрыты создателями 🙂
Если в adobe pdf reader выделить текст и скопировать куда-нибудь, скопируются крякозябры, например “Ñòîõàñòè÷åñêèé”.
Вследствие плохой кодировки не работает, например поиск по файлу.
Для некоторых из имеющихся файлов помогает использование foxit вместо adobe для поиска, но хочется, чтобы любой ридер мог читать. Требуется, видимо, изменить кодировку чего-то внутри (или вне?) pdf. Порылся в интернетах, ничего полезного не нашёл, хотя проблема, вроде, не редкая. Посоветуйте какой-нибудь софт или последовательность действий, чтобы это исправить. Операционная система любая.


  • Вопрос задан

    более трёх лет назад

  • 200698 просмотров

Встроенные шрифты файлов PDF относятся к кодировке Windows1252. Практически все остальные шрифты используют набор символов UTF-16.

Как поменять кодировку на 1251?

Для этого нужно открыть меню «Кодировки» и выбрать один из вариантов преобразования. Notepad++ позволяет изменить текущую кодировку текста на ANSI (Windows1251), UTF-8, UTF-8 BOM, UTF-8 BE BOM, UTF-8 LE BOM. После преобразования файл нужно сохранить с помощью меню «Файл – Сохранить» или комбинации клавиш Ctrl-S.

Как сменить кодировку на UTF-8?

Для конвертирования его в кодировку UTF8, откройте на компьютере приложение Блокнот (Notepad), в блокноте откройте сохраненный Вами CSV-файл, затем выберите пункт меню «Файл» — «Сохранить как» и рядом с кнопкой «сохранить» поменяйте кодировку с ANSI на UTF8.

Как поменять кодировку на Windows 10?

С помощью редактора реестра Нажмите клавиши Win+R на клавиатуре, введите regedit и нажмите Enter, откроется редактор реестра. и в правой части пролистайте значения этого раздела до конца. Дважды нажмите по параметру ACP, установите значение 1251 (кодовая страница для кириллицы), нажмите Ок и закройте редактор реестра.

Как определить в какой кодировке текст?

Открыть искомый текстовый файл в Блокноте Windows и выбрать пункт меню «Файл» -> «Сохранить как…». Пример текстового файла, в котором русский текст задан в формате UTF, но это не очевидно при открытии. 2. В открывшемся диалоговом окне вы сразу видите, в какой кодировке был сохранён текст в текстовом файле.

Как скрыть информацию в PDF?

Перейдите во вкладку «Защита» и выберите «Обезличивание». Затем выберите страницу и часть текста, который вы хотите обезличить. Вы также можете использовать опцию «Поиск и редактирование» для поиска определенного слова и скрытия его на всех страницах документа.

Как снять кодировку с Ворда?

Выбор кодировки при открытии файла

  1. Откройте вкладку Файл.
  2. Нажмите кнопку Параметры.
  3. Нажмите кнопку Дополнительно.
  4. Перейдите к разделу Общие и установите флажокПодтверждать преобразование формата файла при открытии. …
  5. Закройте, а затем снова откройте файл.

Почему документ Word открывается иероглифами?

Дело в том, что текстовый файл (обычно в формате txt, но так же ими являются форматы: php, css, info и т. д.) может быть сохранен в различных кодировках. Чаще всего происходит одна вещь: документ открывается просто не в той кодировке из-за чего происходит путаница, и вместо кода одних символов, будут вызваны другие.

Как работает кодирование?

Принцип действия препарата для кодирования – формирование непереносимости алкоголя. Лекарство блокирует ферменты, которые должны расщеплять этиловый спирт, в результате человек страдает от сильной интоксикации, даже если выпьет совсем немного.

Как изменить Юникод в Windows 10?

Просмотр настроек локали для ОС Windows

  1. Нажмите Пуск затем Панель управления
  2. Нажмите Часы, язык и регион
  3. В Windows 10, Windows 8: нажмите Регион …
  4. Нажмите на вкладку Администрирование …
  5. Под строкой Язык программ, не поддерживающих Юникод нажмите Изменить язык системы и выберите нужный язык.
  6. Нажмите ОК

Как узнать кодировку Windows 10?

Узнать текущую кодировку можно введя в командной строке команду chcp , после ввода данной команды необходимо нажать Enter .

Как узнать кодировку текста в файле?

Открыть искомый текстовый файл в Блокноте Windows и выбрать пункт меню «Файл» -> «Сохранить как…». Пример текстового файла, в котором русский текст задан в формате UTF, но это не очевидно при открытии. 2. В открывшемся диалоговом окне вы сразу видите, в какой кодировке был сохранён текст в текстовом файле.

Как узнать кодировку текста в Word?

В диалоговом окне Преобразование файла выберите пункт Кодированный текст. В диалоговом окне Преобразование файла установите переключатель Другая и выберите нужную кодировку из списка. В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.

Как в PDF замазать текст?

Исправление конфиденциального содержимого (Acrobat Pro)

  1. Выберите Инструменты > Исправить.
  2. В меню Редактирование выберите Исправить текст и изображения.
  3. Выделите текст или изображение в файле PDF, нажмите правой кнопкой мыши и выберите Исправить.

Как убрать надпись образец в PDF?

Удаление водяных знаков Откройте одиночный файл PDF или выберите один или несколько файлов PDF из портфолио. Затем выберите Инструменты > Редактировать PDF > Водяной знак > Удалить.

Что делать если документ Ворд открывается иероглифами?

Дело в том, что с 2007 года в Word (если не ошибаюсь) появился формат Docx (позволяет более сильнее сжимать документ, чем Doc, да и надежнее защищает его). Так вот, если у вас старый Word, который не поддерживает этот формат — то вы, при открытии документа в Docx, увидите иероглифы и ничего более.

Как изменить кодировку в ворд?

Вы можете указать кодировку, которую следует использовать для отображения (декодирования) текста.

  1. Откройте вкладку Файл.
  2. Нажмите кнопку Параметры.
  3. Нажмите кнопку Дополнительно.
  4. Перейдите к разделу Общие и установите флажокПодтверждать преобразование формата файла при открытии. …
  5. Закройте, а затем снова откройте файл.

  • #1

Добрый день!
Работаю с пдф-файлами довольно долго – делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается “кракозябра”. Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу

целых 3 этапа

:

  1. Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
  2. Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
  3. Запускаю распознавание текста с технологией ClearScan

После этих манипуляций из книги получается что-то приличное, хотя как работает распознавание текста, думаю, не надо объяснять. Мягко говоря, не всегда распознается так, как должно. Если языков в файле несколько, то вообще беда. Плюсом ко всему вышеописанному стоит понимать, что книги содержат иногда по 500, а то и больше, страниц. И на каждый этап уходит довольно немало времени.
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #2

Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите “обязательный экземпляр” – огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

  • #3

Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите “обязательный экземпляр” – огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

Видимо, действительно не умею пользоваться поиском, т.к. причем тут “обязательный экземпляр” не понимаю… Искал по слову “кодировка”.

AM Labs

AM Labs

Enfocus | Tilia Labs | ColorLogic | Callas


  • #5

  • Безымянный.png

    Безымянный.png

    262.8 КБ

    · Просм.: 1 270

AM Labs

AM Labs

Enfocus | Tilia Labs | ColorLogic | Callas


  • #6

Тогда вам стоит уточнить что такое “делаю электронные издания”. Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #7

Видимо, действительно не умею пользоваться поиском, т.к. причем тут “обязательный экземпляр” не понимаю… Искал по слову “кодировка”.

Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

  • #8

Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

Сейчас понял, что поиск, оказывается, корректно работает только если целиком набирать слово. Я набирал “кодировк”, предполагая, что при этом искомое слово найдется во всех падежах. Спасибо за замечание!

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #9

Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'

  • #10

Тогда вам стоит уточнить что такое “делаю электронные издания”. Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

Да, сорри, не уточнил – я занимаюсь подготовкой эл. изданий в соответствии с ГОСТ 7.0.83-2013. Электронные издания. Основные виды и выходные сведения.

  • #11

Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'

Как Вы могли заметить, я первый день на этом форуме и не имею представления о его масштабах и специфике обсуждаемых тем. Так что нет, не смутило 'opa!)'

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #12

Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой ;)

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #14

Да. В начале приложен краткий дайджест топика в виде отдельного FAQ

german


  • #15

Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

  • 2020-04-23_22-41-27.png

    2020-04-23_22-41-27.png

    20.5 КБ

    · Просм.: 556

George

George

I wish I was a monster you think I am


  • #16

и хороших, стабильных решений по этой теме пока нет.

Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

  • #17

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

  • #18

Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

Ни для того, ни для другого)
Термин “Электронная книга” сейчас имеет очень много смыслов. Соответственно, и в издательской среде к понятию “электронного издания” относятся по-разному. Прошу прощения за лирику… Дальше речь только про формат PDF.

  • Некоторые издательства продают прямо оригинал-макеты (без правок и даже минимальной обработки).
  • Есть такие, кто продает так называемые “копии печатных изданий” – это тот же оригинал-макет, только уже с небольшой адаптацией под читателя, иногда даже с навигационным меню.
  • Третий вид составляют издательства, которые серьезно относятся к подготовке эл. изданий, т.е. делают из оригинал-макетов полноценные эл. издания по вышеупомянутому ГОСТу, соответственно, в книгах есть полноценные выходные сведения, работают функции поиска и копирования текста, присутствует навигационное меню, оптимизированы растровые элементы и т.д.

Я работаю с третьим типом издательств, таким образом моя задача максимально окультурить книгу. Многие операции автоматизированы “до нЕльзя” при помощи плагинов и функционала самого Акробата. Но вот проблему с кодировкой никак не удается не то что автоматизировать, а даже хоть чуть-чуть упростить – минимум 3 этапа (описывал выше).
Повторю, что речь пока исключительно про PDF – ни PDF/A, ни EPUB я не затрагиваю, т.к. знаю про них гораздо меньше.

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #19

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).

Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

german


  • #20

Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

Это в новой версии Acrobat Pro DC.

А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

Это в инструментах ToolsPrint ProductionPreflight

  • acrtextoutline.PNG

    acrtextoutline.PNG

    52.1 КБ

    · Просм.: 427

Как преобразовать ANSI в UTF?

Попробуйте «Настройки» -> «Настройки» -> «Новый документ» -> «Кодировка» -> выберите UTF-8 без спецификации и установите флажок «Применить к открытым файлам ANSI». Таким образом, все открытые файлы ANSI будут обрабатываться как UTF-8 без спецификации.

Как изменить кодировку текста PDF с ANSI на UniCode?

Создайте новый документ в Notepad++, убедитесь, что в меню «Кодировка» выбрано «Кодировать в ANSI», вставьте туда текст, затем выберите «Преобразовать в UTF-8 без спецификации» в меню «Кодировка». Вы также можете попробовать использовать Decoder, бесплатный онлайн-инструмент для устранения проблем с кодировкой.

Как изменить системную кодировку?

Как изменить кодировку по умолчанию в Блокноте

  1. Нажмите Win + R, чтобы открыть окно «Выполнить».
  2. Введите regedit и нажмите кнопку Enter.
  3. Щелкните по кнопке Да.
  4. Перейдите в Блокнот в HKCU.
  5. Щелкните правой кнопкой мыши Блокнот > Создать > Значение DWORD (32-разрядное).
  6. Назовите его iDefaultEncoding.
  7. Дважды щелкните по нему, чтобы установить данные значения.
  8. Нажмите кнопку ОК.

Как изменить ANSI на UTF-8 в Notepad++?

Откройте файл, который вы хотите проверить/исправить, в Notepad++. В верхнем меню выберите «Кодировка» > «Преобразовать в UTF-8» (вариант без спецификации). Сохраните файл.

Как изменить кодировку в Word?

Выберите стандарт кодировки при открытии файла

  1. Перейдите на вкладку «Файл».
  2. Нажмите Опции.
  3. Нажмите Дополнительно.
  4. Прокрутите до раздела «Общие» и установите флажок «Подтверждать преобразование формата файла при открытии». …
  5. Закройте и снова откройте файл.
  6. В диалоговом окне «Преобразовать файл» выберите «Закодированный текст».

Шаг 1 — Откройте файл необработанных данных в Блокноте. Шаг 2 – Перейдите в меню «Файл»; выберите «Сохранить как». Шаг 3. Измените параметр «Кодировка» с UTF-8 на ANSI и сохраните файл. Шаг 4. Нажмите «ОК», когда появится предупреждение о преобразовании в кодировку ANSI.

Как удалить кодировку из PDF?

Как удалить шифрование из файла PDF

  1. Запустите Adobe Acrobat на вашем компьютере.
  2. Откройте защищенный PDF-файл и введите пароль при появлении запроса. …
  3. Нажмите «Дополнительно» в верхней части окна Acrobat. …
  4. Нажмите «ОК», чтобы подтвердить действие и удалить шифрование. …
  5. Нажмите «Ctrl-S», чтобы сохранить незашифрованный файл PDF.

Как исправить кодировку в PDF?

Возможное решение, если это простой PDF-документ:

  1. Экспорт PDF в Word. …
  2. Проверьте форматирование в новом документе Word и убедитесь, что оно правильное.
  3. Запустите средство проверки доступности Word и устраните все ошибки и предупреждения, которые могут вызвать ошибки в программе PDF.
  4. Экспорт документа Word в PDF.

Как изменить кодировку по умолчанию в Windows 10?

Re: Кодировка по умолчанию для блокнота UTF8 Windows 10, версия 1903

  1. Щелкните правой кнопкой мыши на рабочем столе, затем выберите «Создать»> «Текстовый документ».
  2. Текстовый файл New Text Document. …
  3. Перейдите в меню «Файл»> «Сохранить как…» и выберите «UTF-8» в разделе «Кодировка:», нажмите «Сохранить» и перезапишите существующий файл. …
  4. Переименовать новый текстовый документ. …
  5. Скопируйте «TXTUTF-8.

Какой ЧКП 65001?

На GitHub есть много кодов, использующих chcp 65001. Это хак для отображения UTF-8 в командной строке Windows. Вероятно, этот хак может хорошо работать на не многобайтных локалях. Но это неправильно работает с многобайтовыми локалями. Например, jq использовал этот хак.

Что такое кодировка ANSI?

Кодировка ANSI — это немного общий термин, используемый для обозначения стандартной кодовой страницы в системе, обычно в Windows. В западных/американских системах ее более правильно называть Windows-1252. (Он может представлять некоторые другие кодовые страницы Windows в других системах.)

Как избавиться от спецификации UTF-8?

Шаги

  1. Загрузите Notepad ++.
  2. Чтобы проверить, существует ли символ спецификации, откройте файл в Notepad++ и посмотрите в правый нижний угол. Если он говорит UTF-8-BOM, то файл содержит символ BOM.
  3. Чтобы удалить символ спецификации, перейдите в раздел «Кодировка» и выберите «Кодировать в UTF-8».
  4. Сохраните файл и повторите попытку импорта.

Является ли UTF-8 таким же, как ANSI?

ANSI и UTF-8 являются форматами кодирования. ANSI — это распространенный однобайтовый формат, используемый для кодирования латинского алфавита; тогда как UTF-8 — это формат Unicode переменной длины (от 1 до 4 байтов), который может кодировать все возможные символы.

Добавить комментарий