Индексированный файл pdf что это
PDF Converter
Индексация PDF-документов
В индексе содержимое многих PDF-файлов хранится в компактном виде, подходящем для его быстрого поиска и извлечения.
Используйте команду «Документ» > «Расширенная обработка» > Создать полнотекстовые индексы для создания нового или обновления существующего индекса.
Индексировать можно PDF-документы, написанные на языках с использованием латинского или азиатского (китайского, японского или корейского) шрифтов. Можно индексировать не только текст документа, но и закладки, комментарии, вложения, цифровые подписи, поля форм, метаданные и другие пользовательские свойства документа.
Индексы поиска не внедряются в PDF-файлы. Чтобы индексы стали доступны другим пользователям, их необходимо сохранить в папке с общим доступом. Для создания встроенного индекса используется другая команда, делающая документ действительно переносимым.
Подготовка к индексации
Соберите в одной или нескольких папках все PDF-документы, подлежащие индексации. Если выбираются существующие папки, проверьте, чтобы в них были только индексируемые PDF-файлы.
Если планируется перенести PDF-файлы вместе с их индексом, лучше сохранить их в одной папке.
Добавьте свойства документа в PDF-файлы, чтобы их можно было использовать в качестве критериев поиска.
Используйте команду «Документ» > Свойства документа > Описание для указания заголовка, автора, базового URL-адреса и ключевых слов, описывающих содержимое документа. Используйте команду Свойства документа > Настройка для добавления пользовательских полей.
Имейте в виду, что если создать полнотекстовый индекс перед редактированием документа для удаления важной информации, эти сведения НЕ будут удалены из индекса и их можно будет легко найти. После завершения редактирования будет предложено проверить документ. Примите предложение и удалите индекс. Редактирование и проверку рекомендуется выполнять для копии документа — это позволяет сохранить индекс в исходном документе.
Индексация большого количества PDF-файлов может потребовать значительных затрат времени и вычислительных ресурсов, поэтому лучше всего делать это во время обеденного перерыва.
VBA Projects
Programming and other
11 рекомендаций по оптимизации PDF-документов под поисковые системы
Мне очень понравились советы — они действительно работают.
Многие термины новичку в SEO показались непонятными. Добавил свои скрины, пояснения и комментарии.
Автор: Гален ДеЯнг
Перевод: Всеволод Козлов
Формат PDF является самым распространенным форматом электронной документации в Сети. В этом формате представлена как деловая документация, так и электронные книги, распространяемые за деньги и бесплатно.
PDF-брошюры являются отличным инструментом наращивания ссылочной массы. Однако многие даже и не подозревают о том, что они теряют, не оптимизируя PDF-файлы под поисковые системы.
В этой статье я поделюсь с Вами 11 рекомендациями по оптимизации PDF-документов под поисковые системы.
1. Убедитесь, что содержимое Вашего PDF – текст, а не изображение. После сканирования с распознаванием в Acrobat часто получается PDF документ из картинок или с ошибочной кодировкой текста. Если вы хотите получить идексируемый документ:
— отсканируйте и распознайте текст;
— сверстайте документ, например, в Word;
— сохраните в PDF стандартным «сохранить как» в Word 2007.
2. Заполните все свойства и параметры документа. Обязательно заполните заголовок (Title), мета-данные (автор, тема, ключевые фразы).
В Acrobat делается здесь: File > Document Properties.
3. Оптимизируйте копию. Копия в текстовом PDF-файле(если у вас они есть) ничем не отличается от копии веб-страницы. Оптимизируйте ее.
5. Обращайте внимание на версию PDF-формата. Рекомендуемая версия – 1.5 и ниже, т.к. ее гарантированно читают все PDF-ридеры и роботы поисковых систем.
6. Оптимизируйте размер файла для поиска. Размер Вашего PDF-документа может оказаться большим для поиска. Для оптимизации размера есть специальная функция: Advanced > PDF Optimizer. Также можно воспользоваться очень удобной функцией Optimize for Fast Web View, позволяющей просматривать уже загрузившиеся страницы документа, не дожидаясь его окончательной загрузки.
7. Уделяйте внимание месту размещения ссылок на Ваш PDF-документ. Если Вы хотите, чтобы Ваш PDF-Документ занимал хорошие позиции в поисковых системах, лучше ссылаться на него со страниц, находящихся ближе к корню сайта.
8. Хитрость с отображением сниппета в результатах поисковой выдачи. Чтобы в результатах поиска отображался «красивый текст» под ссылкой на Ваш документ, Вам необходимо ближе к началу чтения PDF-документа поисковыми роботами написать оптимизированный текст. Тогда при релевантном запросе этот текст будет отображаться в качестве описания ссылки.
9. Определите порядок чтения PDF-файла поисковыми роботами. От порядка чтения Вашего документа поисковыми роботами зависит, какое описание ссылки выведет поисковая система в результатах поисковой выдачи. Мне показалось, что на сложных документах это трудоемкая процедура.
Каждый PDF-документ имеет свой порядок чтения. Чтобы посмотреть этот порядок и получить возможность изменять его выберете Advanced > Accessibility > Touch Up Reading Order.
Ниже на скриншоте показан порядок чтения данного PDF-документа поисковыми роботами:
10. Добавьте теги в свой PDF-документ. Для лучшего поискового эффекта добавьте релевантные теги к своему PDF-документу. Делается это здесь: Advanced > Accessibility > Add Tags to Document.
11. Обратите внимание. При каждом пересохранении PDF-документа проверяйте правильность настроек. Например, порядок чтения может автоматически меняться. Поэтому перед обновлением файла со своим PDF-документом на сервере сто раз проверьте правильность настроек.
11 рекомендаций по оптимизации PDF-документов под поисковые системы : 2 комментария
А как вообще относится яндекс к PDF файлам на сайте? Если положительные стороны например при оптимизации блога в поисковых системах и даст ли наличие PDF файлов к примеру в блоге рост ТИЦ?
Не до конца понял вопрос. Яндекс индексирует документы почти также, как и веб-страницы.
Существуют ограничения, от которых зависит, как будет проиндексирован документ, и будет ли проиндексирован вообще:
Добавить комментарий Отменить ответ
Для отправки комментария вам необходимо авторизоваться.
Оптимизация PDF-файлов для SEO
21.05.2018 Время прочтения: 3 минуты
PDF-файлы сканируются, индексируются и ранжируются в поисковой выдаче (SERP), но когда дело доходит до SEO, о PDF часто забывают. Предлагаем несколько простых шагов, которые помогут ранжировать ваши PDF-файлы по ключевым словам.
Индексация PDF-файлов началась в 2001 году, они имеют собственный тег в поисковой выдаче. SEO-продвижение PDF осуществляется так же, как и оптимизация веб-страниц, если не считать небольшие различия.
Выберите имя, описывающее содержимое файла
Для наилучшей оптимизации PDF-файла название документа должно соответствовать теме, раскрываемой в PDF-документе. Это один из первых элементов, который будут сканировать Google spiders, поэтому релевантное название документа позволит им понять суть его содержимого.
Прежде чем вы определитесь с названием документа, возможно, стоит провести анализ среди конкурентов, чтобы понять, что ищут пользователи. Учитывайте объем поиска.
Также рекомендуется использовать дефисы для разделения слов в имени файла, чтобы избежать символов «%20» между словами в адресе, когда пользователи загружают PDF.
Настройте ссылки
Речь идёт о двух типах ссылок: во-первых, ссылки с вашего сайта на PDF будут сообщать Google, что документ – это релевантный фрагмент контента, который нужно сканировать. Здесь применяется правило соответствующего якорного текста.
Во-вторых, ссылки из самого PDF (логотипы или копии), ведущие на страницы вашего сайта. Преимущество заключается в двух аспектах: так вы не только покажете Google, что PDF соответствует контенту на вашем веб-сайте, но и любые обратные ссылки в PDF затем приведут на страницы вашего сайта через deep links (глубинные, или внешние ссылки). Если для пользователя ваш PDF будет полезен и он захочет разместить его на своем веб-сайте, читатели будут по-прежнему перенаправляться на ваш сайт для получения более подробной информации.
Не забывайте защищать документ, чтобы никто не мог изменить ваши ссылки и заменить их своими.
Оптимизируйте заголовок PDF
Заголовок PDF эквивалентен тегу заголовка HTML, поэтому он будет отображаться в выдаче. Чтобы заголовок не был обрезан, в названии должно быть не более 60 символов. Самые важные ключевые слова должны быть в начале заголовка. Отредактировать заголовок можно в «Настройках документа» в Adobe Acrobat или File –> Info в Microsoft Word.
Поскольку PDF-файлы обычно затрагивают только часть вопроса (темы, проблемы), они имеют тенденцию ранжироваться по long-tail запросам (низкочастотным и низкоконкурентным). Поэтому поисковая оптимизация по ним лучше подходит для PDF-файлов.
Оптимизируйте
Как и в случае с метатегом для обычных страниц, PDF будет отображаться под заголовком в поисковой выдаче. Включите в него главные ключевые слова и проследите, чтобы количество символов не превышало 300. В то же время название должно быть привлекательным и полезным, чтобы повысить кликабельность.
Создайте текстовую копию
Заполните все поля метаданных PDF в настройках
Несмотря на то, что это не факторы ранжирования, дополнительные поля метаданных в PDF-файлах способствуют успешному сканированию. Как изменить метаданные PDF: чем больше данных вы дадите ботам, тем лучше они поймут ваш контент и определят, как его оценивать.
Нужно правильно редактировать метаданные PDF: обязательно добавьте информацию в поля сохранения в «Файл» –> «Свойства» в Adobe Acrobat. Для узнаваемости вашего бренда впишите его в поле автора. Введите ключевые слова в поле ключевых слов.
Свойства документа в Adobe Acrobat
Сделайте то же самое в Word в Document Info.
Свойства документа в Microsoft Word
Оптимизируйте копию
Используйте ключевые слова, которые вы хотите присвоить для всей копии, – в оглавлении, заголовках и параграфах. Первый заголовок должен совпадать с основным заголовком и именем файла.
Оптимизируйте файл для мобильных устройств
Не секрет, что Google предпочитает мобильный оптимизированный контент. PDF-файлы могут быть длинными и сложными для восприятия на маленьком экране, но есть несколько способов упростить чтение с экранов мобильных устройств. Например, выровняйте текст влево, используйте маркированные списки и полужирное начертание, а также.
…сожмите изображения
Скорость загрузки страницы – это фактор ранжирования. PDF-файлы могут содержать довольно много изображений и графиков, поэтому сожмите изображения, прежде чем добавлять их в свой документ. Для этой цели существует несколько онлайн-инструментов, которые вы можете использовать.
Остерегайтесь…
…дублирования контента! Важно, чтобы у вас не было одинакового контента и на веб-странице, и в документе PDF. Для SEO-продвижения в Google это важно: Google не любит дублированный контент и может наказать за это ваш сайт. Как этого избежать: создайте краткое изложение содержимого PDF на вашем веб-сайте, а копируйте его.
Напоследок
PDF-файлы – это уникальные активы для бренда, которые могут выгодно отличить вас от ваших конкурентов, а также привести больше потенциальных клиентов и увеличить продажи. Если вы будете следовать вышеприведенным рекомендациям, SEO ваших PDF пройдёт успешно и файлы будут ближе к верхним позициям на страницах поиска, привлекая внимание бо́льшего количества людей, заинтересованных в том, что вы делаете. Если у вас возникли проблемы с оптимизацией ваших документов, позвоните нашим экспертам по SEO
Версия для печати
Формат PDF был разработан фирмой Adobe Systems, чтобы решить проблему единства отображения и обработки полиграфической продукции в различных информационных средах (его кроссплатформенность) и довольно успешно справляется с этой задачей и по сегодняшний день. Однако со временем у этого формата появилось и иное предназначение. Универсальность этого формата спровоцировала рост его популярности, а, следовательно, увеличилось и количество публикаций, доступных в этом формате в электронном виде в Интернете.
Изначально файлы формата PDF в сознании многих людей ассоциировались именно с качественным уникальным контентом, т. к. с его помощью часто публиковались и публикуются различные отчёты, доклады, статьи, руководства и другая полезная информация. Конечно, было бы глупо упускать такой источник полезной информации. Со временем все популярные поисковые системы научились индексировать файлы PDF и ранжировать их, что автоматически поставило их наравне с привычными для нас файлами в формате HTML (веб-страницами).
Нам же важно не упустить возможную выгоду и научиться правильно оптимизировать файлы подобного рода для поисковых систем, чтобы обеспечить их лучшую видимость в результатах поиска. Долгое время файлы PDF воспринимались исключительно как файлы-архивы, для открытия которых необходимо было их загружать на компьютер и читать в сторонней программе (Например, в Adobe Reader – программе для просмотра формата PDF ). Так было раньше, сейчас же многое меняется: значительно увеличиваются скорости Интернета, появляются встроенные в браузер плагины для чтения формата PDF, позволяющие просматривать файлы сразу же в браузере. Например, уже сегодня в браузере Opera можно читать файлы PDF прямо на сайте онлайн. А это всё прямое свидетельство того, что популярность этого формата в обозримом будущем будет только расти. Это теперь не только универсальный формат для хранения и редактирования полиграфии, но также и способ передачи информации в Интернете (выполняющий функции обычной веб-страницы).
В этой статье я старался систематизировать информацию, осветив как можно больше фактов, влияющих на индексацию поисковыми системами документов этого формата в Интернете, а также ответив на самые распространённые вопросы, которые возникают у веб-мастеров, использующих эти файлы на своих сайтах.
ПРОГРАММЫ ДЛЯ РАБОТЫ С ФАЙЛАМИ PDF
Не используйте программы типа Photoshop и Illustrator, т. к. после обработки документа на выходе информация превращается в одно большое изображение, текст на котором не распознать поисковым системам. Однако часто случается и то, что у веб-мастера уже есть большое количество PDF-файлов, полученных от заказчика, или же специфика темы на сайте такая, что по ней есть информация в электронном виде только в этом формате. Если у вас именно такой случай, то не отчаивайтесь. Сейчас активно разрабатываются программы, способные распознавать текст на изображениях, что позволяет модифицировать текст на изображениях в обычный текст, который индексируется поисковыми системами. В России довольно успешно распознаванием текстов занимается компания ABYY. К примеру, вы можете воспользоваться их конвертером Abbyy PDF Transformer. Хочу сразу заметить, что это довольно уникальный продукт, аналогов которому почти нет. В его возможности входит конвертирование текста на картинках PDF в текст, способный индексироваться поисковыми системами.
Несколько слов, я думаю, можно сказать и про программы конвертеры. Если же вы решили, что по каким-то причинам формат PDF на сайте вас не очень устраивает, а контент вашего сайта состоит, в основном, из файлов PDF, то у вас есть возможность переконвертировать эти файлы в формат HTML, используя различные бесплатные и платные PDF конвертеры.
Вот небольшой список таких конвертеров:
Теперь, я думаю, самое время поделиться с вами секретами оптимизации файла PDF для поисковых систем.
ИЗОБРАЖЕНИЯ
Не используйте слишком много изображений или изображения большого размера. Картинки хоть и улучшают внешний вид, однако также увеличивается размер файла и время его загрузки. Как и на HTML-странице, если вы поставите много изображений (особенно неоптимизированных), то это потребует больше времени для их загрузки в браузер. Но помимо оптимизации размера изображений PDF-документа, необходимо также оптимизировать и подписи (альтернативный текст) к ним. У каждого изображения документа должна быть своя подпись, как к картинкам обычной HTML-страницы.
РАЗМЕР ФАЙЛА
Нужно всегда помнить, что поисковые системы не индексируют файлы, которые слишком много весят. Например, поисковая система «Яндекс» не будет индексировать файлы весом больше, чем 10 Мб, отсюда следует правило, что файл PDF не может быть больше 10 Мб.
Для оптимизации размера в программе Adobe Acrobat есть специальная функция: Advanced > PDF Optimizer.
Внимание! При создании PDF-документа в любом редакторе обращайте внимание на версию получаемого файла. Рекомендуемая версия – 1.5 и ниже, т. к. такой файл гарантированно будет читаться всеми программами для просмотра PDF и роботами поисковых систем. Формат PDF позволяет оптимизировать также и копию документа, поэтому по возможности оптимизируйте и её.
ТЕКСТ ФАЙЛА
Старайтесь избегать большого количества текста в одном файле PDF, дробите один файл на несколько файлов, причём, линкуйте их ссылками внутри каждого такого документа (так, как бы вы это делали с обычными HTML-документами).
Сделайте оглавление (поисковую карту документа), каждый пункт этого оглавления оформите ссылкой (закладкой) внутри PDF документа, для каждой ссылки пропишите ключевые слова в описании ссылки. Этот приём наиболее эффективен для документов, состоящих из нескольких логический частей и с большим количеством страниц – он обеспечивает качественную внутреннюю перелинковку документа, позволяющую эффективно индексировать документ поисковым роботам.
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ (МЕТАПОЛЯ)
Очень важно заполнить всю дополнительную информацию о вашем файле PDF. Уделите особое внимание таким тегам как: Title (заголовок), Author (автор материала), Subject (тема), Keywords (ключевые слова документа), Descriptions (описание PDF-документа) и Copyright (авторские права). Все эти настройки можно найти в программе Adobe Acrobat в меню File > Document Properties. Метаданные файла PDF имеют схожее происхождение с метатегами файлов HTML, так что уделяйте им особое внимание при оптимизации.
КОДИРОВКА, ШРИФТЫ И РАСПОЛОЖЕНИЕ ФАЙЛА
Несколько слов нужно сказать и про оптимизацию шрифтов. Не забывайте включать в сам файл все необходимые (нестандартные) шрифты. Довольно часто для декоративных целей используются самые разнообразные и редкие полиграфические шрифты, которые могут плохо восприниматься поисковыми системами, поэтому, по возможности, старайтесь пользоваться стандартными шрифтами (Arial, Helvetica, Sans-Serif, Times New Roman и другими), которые хорошо индексируются поисковыми системами. Их плюс в том, что они присутствуют по умолчанию в любой операционной системе, поэтому из документа PDF их можно спокойно исключить, уменьшив тем самым размер файла.
Шрифты, которые не были добавлены в PDF-документ или отсутствуют в операционной системе, будут отображаться тем шрифтом, который имеется (самым близким по значению), что может привести к нежелательным последствиям, а именно к увеличению или уменьшению числа страниц, количества символов в строках, межстрочного интервала и других проблем метрики.
Ваш файл PDF, как и обычная страница файла, должен быть максимально близок к корню сайта. Ссылайтесь на них ближе к главной странице, не пытайтесь засунуть его глубоко в структуру сайта, чтобы не понизить поисковую значимость вашего PDF документа.
Не давайте вашим документам в формате PDF слишком сложные имена. Упрощайте их. Несколько слов в названии самого файла разделяйте символом «_». Например: imya_documenta.pdf. Также для разделителя можно использовать и символ «-«, но я рекомендую использовать первый вариант.
Напоследок, предоставлю вам пару ссылок, которые могут быть полезны в связи с опубликованным материалом:
В этом обзоре я постарался ответить на наиболее распространённые вопросы по оптимизации файла PDF, которые задают люди, занимающиеся раскруткой сайтов. Но если у вас появились вопросы или что-то осталось непонятным, то, пожалуйста, сообщайте об этом! Буду рад любым отзывам от вас! Спасибо!
Нравится этот блог?
Подпишитесь на обновления блога (RSS).
Подпишитесь на комментарии (RSS).
Количество комментариев: 28
Конечно, если PDF неуникален, то на сайте его лучше не публиковать. Но если документ ранее не был опубликован в Интернете, то разместить его на сайте было бы целесообразно.
Всё зависит от начинки. По сути же любая начинка генерирует HTML-код для браузера. А этот код и индексируют поисковые системы. Исполняемый код PHP и тому подобное поисковая система не видит. Для того, чтобы определить, насколько хуже будет индексироваться контент, который будет генерироваться этой начинкой, нужно смотреть на тот код, который она выдаёт для браузера и уже на основе этого делать выводы.
roman:
Недавно в Google Chrome была реализована функция просмотра документов PDF онлайн в изолированной среде. Особенностью этого метода является то, что браузер в автоматическом режиме устанавливает необходимые обновления для оперативного решения проблем безопасности.
А можете порекомендовать браузер, где pdf просматривался бы нормально или конвертировался бы в html внутри браузера? В Опере и Мозилле такие файлы дико тормозят при прокрутке.
Статья познавательная. Прочитал с удовольствием. Спасибо
Как, PDF’ки разве индексируются?! Часть файлов в портфолио, кроме jpg, выкладываю именно в этом формате, дабы именно не выдавалась инфа поисковиками поперек сайтов заказчиков :(((
Andrey:
Да, файлы PDF индексируются поисковыми системами, но только если на них стоят ссылки. Но вы можете запретить индексацию этих файлов через robots.txt.
Сейчас как раз думаю как уменьшить пдф файлы, и теперь получается надо доустанавливать программы, сейчас буду пытаться уменьшить файлы..
Спасибо за информацию по мета тегам в PDF. буду заполнять
Здравствуйте.
Я использовал для конвертации документа из Ворда в ПДФ программку doPDF v.7
Будет ли индексироваться такой ПДФ при наличии в нем ссылок? И как эти ссылки должны быть оформлены? Как надпись html://site.ру, или можно оставить гиперссылки, бывшие до этого в тексте?
Сергей:
Если в документе формата PDF есть возможность скопировать текст, то такой текст с большой вероятностью будет индексироваться и поисковыми системами. Если гиперссылки сконвертированного в формат PDF документа работают корректно, то и поисковые системы их тоже будут учитывать при ранжировании сайтов.
Про мета-теги ценная инфа. Спасибо!
Интересно, автоматические оптимизаторы с такими файлами тоже работают.
у меня маремото стоит, до этой статьи что-то не задумывалась
Спасибо огромное за такую замечательную статью, наконец-то стало понятно, как же поисковые роботы индексируют PDF-ки!
Виталий подскажите как убрать в документе метатэги на copyright. Не могу загрузить pdf файл на сервис scribd.
Подскажите, кто знает ПРАВИЛЬНО настроить pdf optimizer в Adode Acrobat 9 для публикации в инете?? (те нужно журнал в Pdf выложить на хосты, но перед этим его опитимизировать под них, сжатие там, разрешение и прочее)
у меня настройки слетели( и я боюсь не там галочек понаставитьв Discard(
Спасибо. В Вашей статье я нашел ответы на все свои вопросы.
Владимир:
Пока люди будут выкладывают в сеть PDF-файлы, перспективность формата вряд ли можно ставить под сомнение.
Таня:
Заполняйте все возможные текстовые описания документа дозированным текстом с ключевыми словами. Сам контент документа, естественно, должен быть текстовым, а не из фотографий. При возможности разбейте документ на более мелкие составляющие, озаглавьте ключевыми словами в названии документа и метатегах. Можете вообще по главам разбить книги и загружать каждую статью в отдельности. Это даёт ещё больший эффект. Ну и руководствуйтесь этой статьёй.
Подскажите пожалуйста как изменить размер в PDF файлах
Инна:
для этого достаточно переформатировать файл при помощи различных онлайн и оффлайн утилит, выбирая в настройках максимальную оптимизацию документа. Если есть исходные файлы (не PDF), то можно сохранять документ частями и выкладывать эти части на сайте в виде файлов PDF, небольших по размеру. Это наиболее предпочтительный с точки зрения продвижения вариант.
А как на практике индексируются метаданные PDF? Я опытным путем не заметил, чтобы какая-нибудт поисковая система обращала внимание на ключевые слова в PDF-файле. Или я все же неправ?
Валерий:
документы PDF индексируются поисковыми системами. Можно даже сформировать специальный поисковый запрос и искать только файлы PDF.
Важно понимать, что файлы PDF должны содержать текст. Сканированные изображения текста (нераспознанные их сканы)индексироваться не будут по понятным причинам.
Подскажите, куда можно залить pdf файл (не на свой сайт, а сторонний), чтобы он индексировался поисковиками? Дело в том, что мне нужно продвинуть одно аналитическое исследование, но при этом завуалировать авторство. Чтобы файл был в отрыве от каких-либо имен, но находился по ключевым запросам.
Скажите пожалуйста будет ли пдф документ индексироваться поисковиками в случае если он лежит в каком либо облаке типа гугл драйв, а на сайте размещена ссылка на него?
Спасибо!
Подскажите, будит ли PDF файл индексироваться если его разместить в Googlr Drive а не на сайте т.к. cайт сделанный на Tilda не располагает возможностью размещать PDF