pdf structure 40 как исправить

Pdf structure 40 как исправить

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Добрый день уважаемые читатели блога, наверняка каждый из вас пользуется офисными продуктами Microsoft и очень часто сохраняет файлы в формате PDF, так как они меньше весят и можно запретить редактирование. Бывают ситуации, что вы подготовили отчет и пересылаете его вашему руководители или коллеге. Он открывает его и видит ошибку, что PDF файл поврежден: PDF Structure 40: invalid reference table. Давайте разбираться как можно выкрутиться из этой ситуации и посмотреть содержимое данного документа.

Ошибка открытия pdf файла

Давайте разбираться, по каким причинам у вас может быть ошибка открытия pdf файла: PDF Structure 40: invalid reference table

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Как восстановить поврежденный PDF файл

И так для того, чтобы избавиться от ошибки PDF Structure 40: invalid reference table, вы можете пойти такими путями:

Восстановление через online сервисы

Для того, чтобы открыть поврежденный файл pdf я использую сервис https://www.pdf-online.com/osa/repair.aspx

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Его я использую, чтобы посмотреть содержимое у поврежденного файла, у сервиса один минус, в бесплатном режиме (evaluation mode), при восстановлении файла у вас на нем будет водяные знаки, рекламирующие этот сервис.

Что вам нужно, нажимаете выберите файл и после жмем Load pdf, в итоге у вас отобразится размер подгруженного pdf. Затем вы нажимаете execute.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Вам покажут превью страниц, для сохранения документа, нажмите Save as.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Еще есть один online сервис https://online.officerecovery.com/ru/ от вас так же нужно нажать кнопку безопасная загрузка и восстановление после того, как вы выбрали файл.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

В моем случае, сервис написал:

К сожалению, данных, пригодных для восстановления, найти не удалось.

Если файл очень важен для вас, вы можете заказать его анализ специалистом по восстановлению данных. Им будут использованы профессиональные методы, чтобы либо подтвердить, что файл не подлежит восстановлению, либо получить результат восстановления.

и не смог справиться с ошибкой, что PDF файл поврежден: PDF Structure 40: invalid reference table.

Восстановление через утилиты

Первые утилиты, которые я проверил это были Recovery Toolbox for PDF и PDF Repair Toolbox, сразу отмечу, что они не справились с ошибкой PDF Structure 40: invalid reference table. На первом шаге, вам нужно указать исходный pdf файл.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

далее вам предложат назвать, новый файл.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Далее выбираете формат конечного файла.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

В бесплатной версии, программа Recovery Toolbox for PDF и PDF Repair Toolbox восстанавливает, только одну страницы, но и этого достаточно для проверки.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Видим, что восстановление прошло успешно.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

при открытии я получил белый лист, может конечно в вашем случае Recovery Toolbox for PDF и PDF Repair Toolbox вам помогут, я иду дальше.

Источник

[Простое руководство] 4 Online бесплатные сайты для исправления поврежденного PDF

Иногда файлы PDF могут быть повреждены при отправке файлов PDF, передаче их между системами или компьютерами или получении их с жесткого диска несколько лет назад. Ваш PDF-файл также может быть поврежден во время создания.

Теперь некоторые проблемы, которые мешают вам открывать PDF-файлы, могут быть исправлены! Попробуйте эти сайты, которые я представил ниже, не только для простых, но и бесплатных.

Если вы хотите узнать больше о методе восстановления удаленных или потерянных файлов в Windows, вы можете обратиться к Восстановление данных Windowsили вы хотите узнать о способе восстановления поврежденных видеофайлов, вы можете обратиться к восстановить и исправить поврежденный видео файл.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

1. Общие причины повреждения файла PDF

PDF (Portable Document Format), вероятно, является самым популярным форматом документов, потому что он поддерживается всеми операционными системами и является более безопасным. PDF-документы трудно изменить, и они также могут быть защищены паролем и водяными знаками.

Однако файлы PDF иногда становятся поврежденными, и при попытке открыть такой документ Adobe Acrobat / Adobe Reader вы можете столкнуться с различными сообщениями об ошибках, такими как следующие:

Чаще всего такие ошибки можно отнести к неисправность программного обеспечения (В том числе браузеры, почтовые программы, операционная система, антивирусное программное обеспечение or брандмауэр).

2. Онлайн бесплатные сайты, чтобы исправить поврежденный PDF

PDF2GO: Конвертируйте PDF файлы онлайн без установки программного обеспечения.

С помощью этого сайта PDF ремонта значительно проще. Все, что вам нужно сделать, это загрузить свой PDF-файл (облачное хранилище также поддерживается), и позвольте нам сделать волшебство. После этого просто загрузите отремонтированный PDF-документ.

В PDF2Go мы специализируемся на конвертации и редактировании файлов PDF. Таким образом, если вы попытаетесь восстановить документ другого типа, мы сначала преобразуем его в PDF, а затем запустим исправление. Однако полученный вами файл всегда будет PDF-документом.

Как исправить PDF файлы онлайн? Первый, загружать ваш файл PDF. Затем нажмите на Сохранить изменения.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Этот веб-сайт восстановления PDF ищет все возможные причины и исправляет их все. Поврежденный PDF-файл будет исправлен, так что вы можете просмотреть его в любом PDF-ридере. Лишь в очень редких случаях файл PDF поврежден и не подлежит восстановлению.

Поврежденные PDF-файлы бесполезны, если их невозможно восстановить. Наш PDF fixer восстановит поврежденные PDF документы и сделает их снова полезными. Для того, чтобы использовать наше приложение все, что вам нужно, браузер. Нет необходимости устанавливать какое-либо программное обеспечение.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Шаг 1 Выберите поврежденный файл PDF.

Шаг 2 Настройки PDF.

Шаг 3 Закончено и Скачать.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

iLovePDF: восстановить файл PDF

Загрузите поврежденный PDF, и мы постараемся это исправить. В зависимости от того, насколько PDF-файл поврежден, мы сможем восстановить его частично или полностью.

Вы можете получить другой формат файла при загрузке, если мы обнаружим этот формат в вашем файле.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Сейда: восстановить данные из поврежденного или поврежденного документа PDF

Файлы остаются приватными. Автоматически удаляется через 5 часов.

Бесплатный сервис для документов до страниц 200 или задач 50 Mb и 3 в час.

Шаг 1 Выберите ваши файлы и загрузить файлы PDF.

Нажмите Загрузить PDF-файл файлы и выберите файлы с вашего локального компьютера. Папки также могут быть выбраны.

Нажмите Ремонт PDF Нажмите кнопку и дождитесь завершения задачи.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

3. Как восстановить поврежденный PDF из Windows

Это самое простое решение. В этом решении вам понадобится профессиональное программное обеспечение для восстановления PDF.

FoneLab Data Retriever это мощный и технологически продвинутый инструмент восстановления PDF, который имеет возможность восстановить практически все потерянные файлы PDF путем глубокого сканирования дисков и корзины вашего компьютера.

Шаг 1 Запустите это программное обеспечение.

Бесплатно скачайте и установите это программное обеспечение на свой компьютер. Тогда программное обеспечение будет запущено автоматически и немедленно.

Шаг 2 Выберите тип данных и диск.

В главном интерфейсе выберите Документ и место, где вы потеряли файл PDF.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Шаг 3 Сканирование данных.

Нажмите Scan кнопку, чтобы получить Быстрое сканирование на выбранном жестком диске. Все файлы будут отображаться на левой боковой панели. Если быстрое сканирование не может принести желаемый результат, вы можете нажать Глубокий анализ повторить попытку.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Шаг 4 Выберите файл PDF

В результате сканирования вы можете нажать PDF, чтобы найти нужные элементы. Вам разрешено просматривать соответствующую информацию каждого файла, включая имя файла, размер, дату создания и изменения. Кроме того, вы можете использовать функцию фильтра, чтобы быстро найти файлы, которые вы хотите восстановить.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Шаг 5 Восстановить PDF файл

Нажмите на предметы и нажмите Recover Кнопка, чтобы восстановить выбранные файлы на ваш компьютер.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Заключение

FoneLab Data Retriever является надежным, который предназначен для восстановления почти всех потерянных файлов PDF путем глубокого сканирования жестких дисков. И это также может помочь вам восстановить файл PDF с жесткого диска.

В дополнение к файлам PDF, он может восстановить документы Word, Файлы Excel, изображения, электронные письма и другие данные.

Это также может помочь вам восстановить PDF файлы в Windows, флешка, карта памяти, съемный диск и т. д. и восстановление фотографий с цифровой камеры.

Источник

Восстановление испорченных PDF файлов

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Бывают случаи, когда файлы расширения PDF приходят в негодность. Если их открыть при помощи одной из программ Adobe, то на экране монитора можно увидеть одну из следующих ошибок:

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Почему не открывается

Основными причинами могут стать: неправильная работа ОС, устаревший браузер, блокировка антивирусной системы, ненастроенный firewall.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Как вариант, для решения проблемы, можно попробовать сделать следующие действия:

Если по какой-то причине нет возможности или не получается восстановить поврежденный файл, то можно посетить статьи, которые предлагает компания Adobe Corporation. Прочитать их статьи, можно перейдя по данным ссылкам:

В данном случае даже компания Adobe Corporation не может дать полного разъяснения по восстановлению документов с расширением PDF. Отдельные советы по разрешению данной проблемы, можно прочитать на их форуме https://forums.adobe.com/. Если Вам не хочется искать ответы, листая страницы форума, вот несколько обобщенных советов с него:

Решение проблемы

Однако как поступить, если предложенные варианты не помогают? Можно воспользоваться следующими вариантами:

Рассмотрим несколько способов для восстановления элементов, которые были повреждены:

Извлечение информации вручную

Первый способ подразумевает собой извлечение только текстовой информации из повредившегося файла с расширением PDF.

Восстановление с помощью утилит

Есть несколько утилит для восстановления PDF. Наиболее простая в использовании это Recovery Toolbox for PDF.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Для использования данной утилиты проделайте следующие простые шаги:

Recovery Toolbox for PDF (https://pdf.recoverytoolbox.com/ru/) данная утилита предназначена только для ОС семейства Windows. Сразу оговоримся — она платная ($27 за Персональную Лицензию), демонстрационная версия сохраняет только маленькую часть исходного файла. Лицензионная версия работает без ограничений. Это специализированная программа, предназначенная для восстановления документов Adobe.

Восстановление через онлайн-сервисы

Онлайн-сервисы для восстановления файлов типа PDF:

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Если удалось восстановить, вам на почту придет образец восстановленного документа (его часть). После оплаты, вы получаете ссылку на скачивание полного восстановленного экземпляра.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Веб сервис №2: https://pdf.recoverytoolbox.com/online/ru/
Данный сервис также платный. Процесс аналогичный с предыдущим сервисом.

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

После ввода файла на данный ресурс с ним происходят следующие действия: загрузка, полное восстановление, сохранение и подготовка для просмотра части файла.

В итоге, если полное восстановление удалось, отобразится несколько восстановленных страниц файла, а также полная информация по нему (количество страниц, исходный и полученный размер).

Источник

DataNumen Outlook Repair

DataNumen Outlook Repair is the best Outlook repair and recovery tool in the world. It can repair the corrupt Outlook PST files and recover all emails, contacts, calendars, appointments, tasks, notes, journals, posts, etc. in them as much as possible, thereby minimizing the loss in file corruption.

Note:

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Overview

Features

How to Recover

More Information

Related Products

Why DataNumen Outlook Repair?

#1 Recovery
Rate

10+ Million
Users

20+ years of
experience

100% Satisfaction
Guarantee

Recover Much More than Our Competitors

Recovery rate is the most important criterion of an Outlook recovery product. Based on our comprehensive tests, DataNumen Outlook Repair has the best recovery rate, much more better than any other competitors, including Inbox Repair tool (scanpst) and other PST repair tools, in the market!

Average Recovery Rate

pdf structure 40 как исправить. Смотреть фото pdf structure 40 как исправить. Смотреть картинку pdf structure 40 как исправить. Картинка про pdf structure 40 как исправить. Фото pdf structure 40 как исправить

Our Customers’ Testimonials

DataNumen Outlook Repair

Outlook got fouled up, right after a Windows update my Email program Outlook stopped working. I used datanumen product to rearrange the email

Outlook got fouled up, right after a Windows update my Email program Outlook stopped working. I used datanumen product to rearrange the email folders properly and it worked. All I had to do was run the program to fix the data, changed the data file name and run Outlook. Presto it worked. Many thanks

DataNumen Outlook Repair

I’m impressed with the ease of use and the quick recovery of the file. Altough all, I don’t need it anymore, so I unistalled it after two file

I’m impressed with the ease of use and the quick recovery of the file. Altough all, I don’t need it anymore, so I unistalled it after two file recoveries.

Víctor Ramón R. G.
Home Work

Leioa, Bizkaia, Spain
September 30, 2020

DataNumen Outlook Repair

Thank you for the product for small people with gigantic problem.

I used your Outlook repair.

Lucy Gold
Retired Scientist

Paris, France
September 21, 2020

DataNumen Outlook Repair

Perfect, awesome.
If only other people were this efficient.
Congratulations.

Texas, USA
September 1st, 2020

DataNumen Outlook Repair

I had to send a message to thanking your company for this great Datanumen Outlook repair product!

I was using another program to sync my outlook

I had to send a message to thanking your company for this great Datanumen Outlook repair product!

I was using another program to sync my outlook (Companion Link) and my phone and the program malfunctioned and wiped my newer data on my computer with the older data from my phone. I didn’t have a backup of the outlook file and I was so frustrated to lose very important updates to notes. I spent pretty much all of a couple days thinking and figuring out a way to fix this through every method possible (previous versions, other recovery software, other online tips) and it seemed impossible, but luckily found the Datanumen product and was able to repair/recover the lost notes! With being a small business and going through some of life’s difficult times I was extremely down, sad, angry when I thought my outlook data was overwritten by that error and frustrated with no way to get it back and was extremely pleased to find this Datanumen program and have it work to restore my data, it’s amazing and the software was intuitive and easy to use. This is such a great company and just wanted to let everyone know they make a difference in peoples lives for the better.

Источник

PDF с точки зрения программиста

Я имею дело с PDF не только как пользователь, а, прежде всего, как разработчик софта, умеющего его читать и писать (возможно, вы сталкивались с продуктами компании ABBYY, работающими с PDF – ABBYY FineReader, ABBYY PDF Transformer). Я предполагаю, что вы прочитали статью habrahabr.ru/company/abbyy/blog/105006 и далее пишу только про некоторые особенности и ограничения PDF, которые больше интересны продвинутым пользователям. Никаких сложных технических деталей при этом не буду касаться, так что программистам, желающим научиться читать или писать PDF, лучше сразу перейти к чтению спецификацию версии 1.7 со страницы www.adobe.com/devnet/pdf/pdf_reference_archive.html 🙂

Назначение и особенности PDF

Изначально формат PDF задумывался компанией Adobe ещё в конце 80х годов прошлого века как «электронная твёрдая копия» странично-структурированных документов, которую можно просматривать и печатать в виде, идентичном оригинальному, на разных машинах и платформах, но который не предполагается редактировать. Это определение отличает PDF от большинства других форматов хранения и распространения человеко-читаемых документов. За прошедшие годы PDF сильно эволюционировал, являясь в настоящее время контейнером для самого разнообразного контента (текст, векторная и растровая графика, интерактивные элементы, формы, аудио, видео, аннотации разных видов), но его исходное предназначение до сих пор остаётся источником как его возможностей, так и многочисленных ограничений.

Так, форматы текстовых документов (DOC, RTF, DOCX и т.д.) в основном ориентированы не на просмотр, а на редактирование документов. Созданный разумным пользователем 🙂 документ логично реагирует на вставку/замену/удаление текста, картинок, таблиц в разных местах, изменение размеров и полей страниц, изменение форматирования фрагментов текста любого размера и тому подобные действия. Интернет страницы в формате HTML не слишком ориентированы на редактирование (хотя и допускают его), но при условии прямых рук автора нормально переносят отображение не только на экране монитора своего создателя, но и на устройствах с совершенно другими экранами и взаимодействием с пользователем.

У PDF же особый путь – наибольшее распространение он получил как формат-паразит, в котором документы не создаются человеком «с нуля», а чаще всего порождаются из других форматов путём глубокой машинной переработки, теряющей многие или даже все детали, ненужные для отображения документа в фиксированном виде. Cамым распространенным способом получения PDF является печать на виртуальный PDF-принтер из любого приложения, имеющего в меню команду «Print».

PDF-принтер переводит GDI(«интерфейс графических устройств»)-команды вывода в нужные места символов, линий, кривых, прямоугольников, растровых изображений и прочих геометрических примитивов в соответствующие им PDF-команды с сохранением в файл. При этом, разумеется, сохраняются количество и размер страниц, на которое выполнялась печать.

Такое преобразование способно очень точно передать внешний вид того, что получилось, перед печатью (например, линии и символы не теряют своей чёткости при любом масштабировании и при этом хранятся достаточно компактно), но совершенно игнорирует устройство документа, из которого это получилось. Например, для подчёркивания слова или другого фрагмента текста в PDF не предусмотрено выделенной команды или атрибута символов – вместо этого отдельно выводятся символы (группами, которые обычно даже не совпадают со словами или строками), а отдельно рисуются линии или тоненькие прямоугольники нужной толщины и цвета в нужных местах страницы. Таблицы, которые человек воспринимает как целостный набор ячеек, для приложения, отображающего PDF, – просто хаотический набор символов и линий, по случайному совпадению образовавших нечто, воспринимаемое человеком как таблица. Гиперссылки, которые в исходном документе можно было использовать как для навигации внутри документа, так и для перехода на Веб-адреса, при печати исчезают как средство навигации, остаются лишь окрашенные и/или подчёркнутые надписи. В общем, сплошные имитация и надувательство. Такие PDF я ниже буду называть «векторными» (как состоящие из векторных команд, к которым относится и рисование символов).

Другой способ получения PDF-документов, ставший особенно популярным в последние годы, – переработка в него отсканированных бумажных страниц. Сейчас большинство сканеров и многофункциональных устройств могут выдавать результат в виде «растровых» PDF – при этом предыдущий способ «имитации печати» не нужен, а драйвер или утилита устройства самостоятельно формирует страницы PDF так, чтобы на каждой из них оказалось нужное «растровое» изображение, благо набор форматов графики, которые можно использовать в PDF, покрывают большинство запросов. Такие «растровые» PDF-документы занимают больше места и выглядят менее качественными, чем «векторные».

Некоторые современные приложения (в том числе приложения комплекта OpenOffice, Microsoft Office новых версий, ABBYY FineReader и ABBYY PDF Transformer) умеют создавать PDF самостоятельно, пользуясь при этом гораздо большим арсеналом средств, чем PDF-принтеры, ибо знают об исходном документе гораздо больше, чем нужно передать принтеру. Это позволяет сохранить, например, гиперссылки как таковые (а не просто как окрашенный и/или подчёркнутый текст) или описать некоторые элементы структуры документа для его переформатирования и показа на экранах малых разрешений. Такие документы со структурной информацией называются «тегированными» или «tagged» PDF. По замыслу Adobe, «тегирование», добавленное начиная с Acrobat 5, призвано скрыть наиболее вопиющие недостатки ранних версий PDF. Например, для нетегированных документов не гарантируется корректная работа механизма копирования фрагментов текста в буфер обмена Windows (всем привычный Copy-Paste). При этом даже сегодня тегированными являются не все создаваемые PDF, в том числе из-за ограниченных возможностей программ-генераторов (или незнания пользователями, где включить нужную для этого галочку в настройках), или просто из-за большего размера таких PDF, когда остро стоит вопрос экономии дискового пространства при хранении больших архивов.

Преобразование PDF-документов в другие форматы

Желание отредактировать содержимое PDF-документа или преобразовать его в другие, желательно редактируемые форматы (как для немедленного редактирования, так и для хранения с возможностью поиска/редактирования «когда-нибудь»), возникает по разным причинам. Простейшие средства извлечения текстового содержимого предоставляет любое приложение, отображающее PDF – я имею привычный Copy-Paste, который работает довольно примитивно – как правило, теряется символьное и абзацное форматирование, игнорируются таблицы и сложная вёрстка PDF-документа. Есть приложения, которые позволяют «точечно» редактировать PDF без преобразования в другие форматы – но их арсенал средств редактирования очень ограничен, ну просто никакого сравнения с привычными текстовыми процессорами 🙂 В дорогущем Adobe Acrobat для многих документов единственным работающим видом редактирования является «аннотирование» – есть инструменты для добавления комментариев, выделения текста маркером, зачёркивания и т.п. Да, более продвинутое редактирование как бы есть, но вы, случайно, не встречали забавного сообщения «All or part of the selection has no available system font. You cannot add or delete text using the currently selected font.» при невинной попытке удалить символ или слово из «хорошего», «векторного» PDF-документа в Акробате? А не пробовали заменить фрагмент строки на более длинный, грустно наблюдая уползающие вправо хвосты строк? Если нет, значит любовь к продуктам Adobe у вас ещё впереди! К простым и привычным для текстовых процессоров задачам – например, «заменить за несколько секунд по всему документу слово «MS» на «Microsoft», с изменением размещения текста по колонкам и страницам» – такое «редактирование» и близко не стоит.

Неслучайно в софтверной индустрии сформировалась целая отрасль, производящая средства конверсии с лучшей функциональностью. Из написанного выше (и особенно – ниже), должно стать понятно, насколько это непростая задача. Большинство пользователей, не читавших этого креатива, так не считают – поэтому я его и пишу 🙂

Основные проблемы при преобразовании PDF в другие форматы

Часто в обсуждении связанных с PDF вопросов употребляется понятие «текстового слоя». Интуитивно многими пользователями предполагается, что в PDF-файлах есть такие выделенные части, где логично и понятно описаны все нужные характеристики видимого текста – или невидимого, но находимого поиском или выделяемого мышью. Хочу открыть вам страшную тайну (вероятно, с риском в ближайшее время получить пулю от киллера, подосланного авторами формата PDF и их отделом маркетинга) – никакого текстового слоя в указанном смысле в PDF нет! На деле для каждой страницы есть общий поток команд её рисования, в котором совершенно произвольно перемешаны разнотипные команды – задания областей отсечения, смены текущих толщины, цвета и шаблона пунктирности линий, изменения системы координат, смены шрифта, рисования прямых и кривых (с текущими атрибутами), вывода группы символов с текущими атрибутами и указанными «номерами глифов» (глиф – описание изображение символа, без учёта других его характеристик), вывода растровых картинок и т.п. То есть даже специальные текстовые команды – это просто один из многих инструментов рисования, не выделенный в отдельные потоки.

Хуже другое – даже в пределах одной страницы PDF можно использовать (слишком) широкий набор средств изображения похожего глазу текста: буквы могут быть видны как части растрового изображения – например, в логотипах (задача их распознавания – в чистом виде задача OCR-приложений, того же ABBYY FineReader), как результат рисования кривыми Безье или специальными текстовыми командами. Этот последний случай – самый лучший для обработки, но даже здесь не обязательно указываются общепринятые коды символов из Unicode или других кодировок – ибо в PDF-файл можно записывать особые шрифты из подмножества только реально использованных символов и ссылаться на символы по совершенно условным «номерам глифов», а не по кодам. То есть не всегда просто как обнаружить символы в нужном месте, так и определить их коды! С форматированием, в том числе с выбором похожего шрифта при отсутствии точного аналога, всё ещё хитрее.

Символы, даже если их присутствие и коды тем или иным способом установлены, своим порядком вывода на страницу очень часто никак не соответствуют исходной последовательности их размещения и чтения на странице. Например, на двухколоночной странице команды вывода текста из правой и левой колонок могут быть произвольно перемешаны. На такой странице нужно выделить области, в каждой из которых размещён логически связный текст – это тоже задача, много лет решаемая OCR-приложениями. Некоторую помощь даёт структурная информация из тегированных PDF – но часто даже у сделанных сейчас PDF эта информация либо отсутствует – как при выводе через PDF-принтер – либо бывает недостаточно полна.

Когда мы решили, что в некоторых местах страницы есть связный текст (а где-то даже поняли, как он сгруппирован в таблицы – это очень нетривиальная задача!), и нашли, какие символы и в какие строчки складываются, нужно преобразовать эти строчки в абзацы и более высокоуровневые элементы, привычные пользователям как текстовых процессоров, так и HTML – колонки, таблицы, врезки. Данных об абзацном форматировании в PDF обычно нет, так что все эти характеристики тоже нужно вычислять – как при всём том же распознавании. Если пытаться игнорировать элементы текста сложнее строчек или абзацев, то, выведя всё в коротких врезках, получим документ, который выглядит как настоящий, но почти не редактируется – помните задачу о замене по всему документу слова «MS» на «Microsoft»? Это очень хороший тест на редактируемость. Для редактируемого документа важна способность текста перетекать из одних зон в другие – в нужных случаях, которые ещё надо суметь отличить от ненужных.

Только проделав всё это, можно превратить содержимое PDF в файл редактируемого формата, выглядящий похоже на оригинал и удобный для работы. Конечно, за многие годы многие умные люди в разных компаниях научились решать каждую из этих задач хорошо или даже отлично, но идеального решения всей задачи в целом я ещё не встречал. Но мы над этим работаем 🙂

Вячеслав Сапроненко SlaSapro
Департамент продуктов для распознавания текстов

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *