php преобразовать html в текст

htmlspecialchars_decode — Преобразует специальные HTML-сущности обратно в соответствующие символы

Описание

Список параметров

Строка, которую надо преобразовать.

Битовая маска из одного или нескольких следующих флагов, которые указывают как обрабатывать кавычки и какие типы документов использовать. Значением по умолчанию является ENT_COMPAT | ENT_HTML401.

Доступные константы, используемые в качестве параметра flags

Имя константыОписание
ENT_COMPATПреобразует двойные кавычки и пропускает одинарные.
ENT_QUOTESПреобразует и двойные, и одинарные кавычки.
ENT_NOQUOTESНе преобразует ни двойные, ни одинарные кавычки.
ENT_HTML401Обрабатывать код как HTML 4.01.
ENT_XML1Обрабатывать код как XML 1.
ENT_XHTMLОбрабатывать код как XHTML.
ENT_HTML5Обрабатывать код как HTML 5.

Возвращаемые значения

Возвращает преобразованную строку.

Список изменений

Примеры

Пример #1 Пример использования функции htmlspecialchars_decode()

Результат выполнения данного примера:

Смотрите также

Источник

Преобразование HTML в обычный текст на PHP для электронной почты

кто-нибудь использует аналогичный подход к преобразованию HTML в обычный текст в PHP? И если да, то рекомендуете ли вы какие-либо сторонние классы, которые я могу использовать? Или как лучше всего решить эту проблему?

14 ответов

использовать html2text (например,HTML-код to текст), под лицензией Публичная Лицензия Eclipse. Он использует методы DOM PHP для загрузки из HTML, а затем перебирает полученный DOM для извлечения обычного текста. Использование:

хотя и неполный, он является открытым исходным кодом, и взносы приветствуются.

проблемы с другими конвертации скрипт:

преобразование из HTML в текст с помощью DOMDocument является жизнеспособным решением. Рассмотрим HTML2Text, для которого требуется PHP5:

Что касается UTF-8, запись на странице «howto» гласит:

собственная поддержка PHP для unicode довольно плоха, и она не всегда правильно обрабатывает utf-8. Хотя скрипт html2text использует unicode-безопасные методы (без использования модуля mbstring), он не всегда справляется с собственной обработкой кодировок PHP. PHP действительно не понимает unicode или кодировки, такие как utf-8, и использует базовую кодировку системы, которая, как правило, является одним из семейства ISO-8859. В результате, что может выглядеть для вас как допустимый символ в текстовом редакторе, В либо utf-8 или однобайтовый, вполне может быть неправильно истолкован PHP. Поэтому, даже если вы думаете, что вводите допустимый символ в html2text, вы вполне можете не быть.

автор предлагает несколько подходов к решению этой проблемы и заявляет, что версия 2 HTML2Text (с использованием DOMDocument) имеет поддержку UTF-8.

обратите внимание на ограничения для коммерческого использования.

Источник

html_entity_decode

(PHP 4 >= 4.3.0, PHP 5, PHP 7, PHP 8)

html_entity_decode — Преобразует HTML-сущности в соответствующие им символы

Описание

Список параметров

Необязательный аргумент, определяющий кодировку, используемую при конвертации символов.

Если не указан, то значение по умолчанию для encoding зависит от конфигурационной опции default_charset.

Хотя этот аргумент является технически необязательным, настоятельно рекомендуется указать правильное значение для вашего кода, опция конфигурации default_charset может быть задана неверно для входных данных.

Поддерживаются следующие кодировки:

Поддерживаемые кодировки

КодировкаПсевдонимыОписание
ISO-8859-1ISO8859-1Западно-европейская Latin-1.
ISO-8859-5ISO8859-5Редко используемая кириллическая кодировка (Latin/Cyrillic).
ISO-8859-15ISO8859-15Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1 (ISO-8859-1).
UTF-88-битная Unicode, совместимая с ASCII.
cp866ibm866, 866Кириллическая кодировка, применяемая в DOS.
cp1251Windows-1251, win-1251, 1251Кириллическая кодировка, применяемая в Windows.
cp1252Windows-1252, 1252Западно-европейская кодировка, применяемая в Windows.
KOI8-Rkoi8-ru, koi8rРусская кодировка.
BIG5950Традиционный китайский, применяется в основном на Тайване.
GB2312936Упрощённый китайский, стандартная национальная кодировка.
BIG5-HKSCSРасширенная Big5, применяемая в Гонконге.
Shift_JISSJIS, SJIS-win, cp932, 932Японская кодировка.
EUC-JPEUCJP, eucJP-winЯпонская кодировка.
MacRomanКодировка, используемая в Mac OS.
»Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (смотрите nl_langinfo() и setlocale() ) в указанном порядке. Не рекомендуется к использованию.

Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.

Источник

htmlspecialchars

(PHP 4, PHP 5, PHP 7, PHP 8)

htmlspecialchars — Преобразует специальные символы в HTML-сущности

Описание

Список параметров

Конвертируемая строка ( string ).

Необязательный аргумент, определяющий кодировку, используемую при конвертации символов.

Если не указан, то значение по умолчанию для encoding зависит от конфигурационной опции default_charset.

Хотя этот аргумент является технически необязательным, настоятельно рекомендуется указать правильное значение для вашего кода, опция конфигурации default_charset может быть задана неверно для входных данных.

Поддерживаются следующие кодировки:

Поддерживаемые кодировки

КодировкаПсевдонимыОписание
ISO-8859-1ISO8859-1Западно-европейская Latin-1.
ISO-8859-5ISO8859-5Редко используемая кириллическая кодировка (Latin/Cyrillic).
ISO-8859-15ISO8859-15Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1 (ISO-8859-1).
UTF-88-битная Unicode, совместимая с ASCII.
cp866ibm866, 866Кириллическая кодировка, применяемая в DOS.
cp1251Windows-1251, win-1251, 1251Кириллическая кодировка, применяемая в Windows.
cp1252Windows-1252, 1252Западно-европейская кодировка, применяемая в Windows.
KOI8-Rkoi8-ru, koi8rРусская кодировка.
BIG5950Традиционный китайский, применяется в основном на Тайване.
GB2312936Упрощённый китайский, стандартная национальная кодировка.
BIG5-HKSCSРасширенная Big5, применяемая в Гонконге.
Shift_JISSJIS, SJIS-win, cp932, 932Японская кодировка.
EUC-JPEUCJP, eucJP-winЯпонская кодировка.
MacRomanКодировка, используемая в Mac OS.
»Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (смотрите nl_langinfo() и setlocale() ) в указанном порядке. Не рекомендуется к использованию.

Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.

Если параметр double_encode выключен, то PHP не будет преобразовывать существующие html-сущности. По умолчанию преобразуется все без ограничений.

Возвращаемые значения

Преобразованная строка ( string ).

Примеры

Пример #1 Пример использования htmlspecialchars()

Источник

htmlspecialchars_decode

(PHP 5 >= 5.1.0, PHP 7, PHP 8)

htmlspecialchars_decode — Преобразует специальные HTML-сущности обратно в соответствующие символы

Описание

Список параметров

Строка, которую надо преобразовать.

Возвращаемые значения

Возвращает преобразованную строку.

Примеры

Пример #1 Пример использования функции htmlspecialchars_decode()

Результат выполнения данного примера:

Смотрите также

User Contributed Notes 8 notes

The example for «htmlspecialchars_decode()» below sadly does not work for all PHP4 versions.

Quote from the PHP manual:
«get_html_translation_table() will return the translation table that is used internally for htmlspecialchars() and htmlentities().»

But it does NOT! At least not for PHP version 4.4.2.
This was already reported in a bug report (http://bugs.php.net/bug.php?id=25927), but it was marked as BOGUS.

This comment now is not to report this bug again (though I really believe it is one), but to complete the example and warn people of this pitfall.

To make sure your htmlspecialchars_decode fake for PHP4 works, you should do something like this:

This should be the best way to do it.
(Reposted because the other one seems a bit slower and because those who used the code under called it htmlspecialchars_decode_php4)

that works also with ä and » and so on.
get_html_translation_table(HTML_ENTITIES) => offers more characters than HTML_SPECIALCHARS

function htmlspecialchars_decode_PHP4($uSTR)
<
return strtr($uSTR, array_flip(get_html_translation_table(HTML_ENTITIES, ENT_QUOTES)));
>

Well, consider someone sending ‘&’ to your PHP script:

There is, unfortunately, no reliable way to determine whether HTML is escaped or not that does not come with this caveat that I know of. Rather than try and catch the case ‘I’ve already encoded this’, you are better off avoiding double-escaping by simply escaping the HTML as close to the actual output as you can muster, e.g. in the view in an MVC development structure.

If you use `htmlspecialchars()` to change things like the ampersand (&) into it’s HTML equivalent (&), you might run into a situation where you mistakenly pass the same string to the function twice, resulting in things appearing on your website like, as I call it, the ampersanded amp; «&». Clearly nobody want’s «&» on his or her web page where there is supposed to be just an ampersand. Here’s a quick and easy trick to make sure this doesn’t happen:

= «This is a string that could be passed to htmlspecialchars multiple times.» ;

?>

Now, if your dealing with text that is a mixed bag (has HTML entities and non-HTML entities) you’re on your own.

[Update of previous note, having noticed I forgot to put in quote style]

PHP4 Compatible function:

// you can do it a bunch of times, it still won’t screw you!

?>

Put it in a function. Add it to the method of some abstract data class.

For PHP4 Compatibility:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *