php преобразовать html в текст
htmlspecialchars_decode — Преобразует специальные HTML-сущности обратно в соответствующие символы
Описание
Список параметров
Строка, которую надо преобразовать.
Битовая маска из одного или нескольких следующих флагов, которые указывают как обрабатывать кавычки и какие типы документов использовать. Значением по умолчанию является ENT_COMPAT | ENT_HTML401.
Имя константы | Описание |
---|---|
ENT_COMPAT | Преобразует двойные кавычки и пропускает одинарные. |
ENT_QUOTES | Преобразует и двойные, и одинарные кавычки. |
ENT_NOQUOTES | Не преобразует ни двойные, ни одинарные кавычки. |
ENT_HTML401 | Обрабатывать код как HTML 4.01. |
ENT_XML1 | Обрабатывать код как XML 1. |
ENT_XHTML | Обрабатывать код как XHTML. |
ENT_HTML5 | Обрабатывать код как HTML 5. |
Возвращаемые значения
Возвращает преобразованную строку.
Список изменений
Примеры
Пример #1 Пример использования функции htmlspecialchars_decode()
Результат выполнения данного примера:
Смотрите также
Преобразование HTML в обычный текст на PHP для электронной почты
кто-нибудь использует аналогичный подход к преобразованию HTML в обычный текст в PHP? И если да, то рекомендуете ли вы какие-либо сторонние классы, которые я могу использовать? Или как лучше всего решить эту проблему?
14 ответов
использовать html2text (например,HTML-код to текст), под лицензией Публичная Лицензия Eclipse. Он использует методы DOM PHP для загрузки из HTML, а затем перебирает полученный DOM для извлечения обычного текста. Использование:
хотя и неполный, он является открытым исходным кодом, и взносы приветствуются.
проблемы с другими конвертации скрипт:
преобразование из HTML в текст с помощью DOMDocument является жизнеспособным решением. Рассмотрим HTML2Text, для которого требуется PHP5:
Что касается UTF-8, запись на странице «howto» гласит:
собственная поддержка PHP для unicode довольно плоха, и она не всегда правильно обрабатывает utf-8. Хотя скрипт html2text использует unicode-безопасные методы (без использования модуля mbstring), он не всегда справляется с собственной обработкой кодировок PHP. PHP действительно не понимает unicode или кодировки, такие как utf-8, и использует базовую кодировку системы, которая, как правило, является одним из семейства ISO-8859. В результате, что может выглядеть для вас как допустимый символ в текстовом редакторе, В либо utf-8 или однобайтовый, вполне может быть неправильно истолкован PHP. Поэтому, даже если вы думаете, что вводите допустимый символ в html2text, вы вполне можете не быть.
автор предлагает несколько подходов к решению этой проблемы и заявляет, что версия 2 HTML2Text (с использованием DOMDocument) имеет поддержку UTF-8.
обратите внимание на ограничения для коммерческого использования.
html_entity_decode
(PHP 4 >= 4.3.0, PHP 5, PHP 7, PHP 8)
html_entity_decode — Преобразует HTML-сущности в соответствующие им символы
Описание
Список параметров
Необязательный аргумент, определяющий кодировку, используемую при конвертации символов.
Если не указан, то значение по умолчанию для encoding зависит от конфигурационной опции default_charset.
Хотя этот аргумент является технически необязательным, настоятельно рекомендуется указать правильное значение для вашего кода, опция конфигурации default_charset может быть задана неверно для входных данных.
Поддерживаются следующие кодировки:
Кодировка | Псевдонимы | Описание |
---|---|---|
ISO-8859-1 | ISO8859-1 | Западно-европейская Latin-1. |
ISO-8859-5 | ISO8859-5 | Редко используемая кириллическая кодировка (Latin/Cyrillic). |
ISO-8859-15 | ISO8859-15 | Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1 (ISO-8859-1). |
UTF-8 | 8-битная Unicode, совместимая с ASCII. | |
cp866 | ibm866, 866 | Кириллическая кодировка, применяемая в DOS. |
cp1251 | Windows-1251, win-1251, 1251 | Кириллическая кодировка, применяемая в Windows. |
cp1252 | Windows-1252, 1252 | Западно-европейская кодировка, применяемая в Windows. |
KOI8-R | koi8-ru, koi8r | Русская кодировка. |
BIG5 | 950 | Традиционный китайский, применяется в основном на Тайване. |
GB2312 | 936 | Упрощённый китайский, стандартная национальная кодировка. |
BIG5-HKSCS | Расширенная Big5, применяемая в Гонконге. | |
Shift_JIS | SJIS, SJIS-win, cp932, 932 | Японская кодировка. |
EUC-JP | EUCJP, eucJP-win | Японская кодировка. |
MacRoman | Кодировка, используемая в Mac OS. | |
» | Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (смотрите nl_langinfo() и setlocale() ) в указанном порядке. Не рекомендуется к использованию. |
Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.
htmlspecialchars
(PHP 4, PHP 5, PHP 7, PHP 8)
htmlspecialchars — Преобразует специальные символы в HTML-сущности
Описание
Список параметров
Конвертируемая строка ( string ).
Необязательный аргумент, определяющий кодировку, используемую при конвертации символов.
Если не указан, то значение по умолчанию для encoding зависит от конфигурационной опции default_charset.
Хотя этот аргумент является технически необязательным, настоятельно рекомендуется указать правильное значение для вашего кода, опция конфигурации default_charset может быть задана неверно для входных данных.
Поддерживаются следующие кодировки:
Кодировка | Псевдонимы | Описание |
---|---|---|
ISO-8859-1 | ISO8859-1 | Западно-европейская Latin-1. |
ISO-8859-5 | ISO8859-5 | Редко используемая кириллическая кодировка (Latin/Cyrillic). |
ISO-8859-15 | ISO8859-15 | Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1 (ISO-8859-1). |
UTF-8 | 8-битная Unicode, совместимая с ASCII. | |
cp866 | ibm866, 866 | Кириллическая кодировка, применяемая в DOS. |
cp1251 | Windows-1251, win-1251, 1251 | Кириллическая кодировка, применяемая в Windows. |
cp1252 | Windows-1252, 1252 | Западно-европейская кодировка, применяемая в Windows. |
KOI8-R | koi8-ru, koi8r | Русская кодировка. |
BIG5 | 950 | Традиционный китайский, применяется в основном на Тайване. |
GB2312 | 936 | Упрощённый китайский, стандартная национальная кодировка. |
BIG5-HKSCS | Расширенная Big5, применяемая в Гонконге. | |
Shift_JIS | SJIS, SJIS-win, cp932, 932 | Японская кодировка. |
EUC-JP | EUCJP, eucJP-win | Японская кодировка. |
MacRoman | Кодировка, используемая в Mac OS. | |
» | Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (смотрите nl_langinfo() и setlocale() ) в указанном порядке. Не рекомендуется к использованию. |
Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.
Если параметр double_encode выключен, то PHP не будет преобразовывать существующие html-сущности. По умолчанию преобразуется все без ограничений.
Возвращаемые значения
Преобразованная строка ( string ).
Примеры
Пример #1 Пример использования htmlspecialchars()
htmlspecialchars_decode
(PHP 5 >= 5.1.0, PHP 7, PHP 8)
htmlspecialchars_decode — Преобразует специальные HTML-сущности обратно в соответствующие символы
Описание
Список параметров
Строка, которую надо преобразовать.
Возвращаемые значения
Возвращает преобразованную строку.
Примеры
Пример #1 Пример использования функции htmlspecialchars_decode()
Результат выполнения данного примера:
Смотрите также
User Contributed Notes 8 notes
The example for «htmlspecialchars_decode()» below sadly does not work for all PHP4 versions.
Quote from the PHP manual:
«get_html_translation_table() will return the translation table that is used internally for htmlspecialchars() and htmlentities().»
But it does NOT! At least not for PHP version 4.4.2.
This was already reported in a bug report (http://bugs.php.net/bug.php?id=25927), but it was marked as BOGUS.
This comment now is not to report this bug again (though I really believe it is one), but to complete the example and warn people of this pitfall.
To make sure your htmlspecialchars_decode fake for PHP4 works, you should do something like this:
This should be the best way to do it.
(Reposted because the other one seems a bit slower and because those who used the code under called it htmlspecialchars_decode_php4)
that works also with ä and » and so on.
get_html_translation_table(HTML_ENTITIES) => offers more characters than HTML_SPECIALCHARS
function htmlspecialchars_decode_PHP4($uSTR)
<
return strtr($uSTR, array_flip(get_html_translation_table(HTML_ENTITIES, ENT_QUOTES)));
>
Well, consider someone sending ‘&’ to your PHP script:
There is, unfortunately, no reliable way to determine whether HTML is escaped or not that does not come with this caveat that I know of. Rather than try and catch the case ‘I’ve already encoded this’, you are better off avoiding double-escaping by simply escaping the HTML as close to the actual output as you can muster, e.g. in the view in an MVC development structure.
If you use `htmlspecialchars()` to change things like the ampersand (&) into it’s HTML equivalent (&), you might run into a situation where you mistakenly pass the same string to the function twice, resulting in things appearing on your website like, as I call it, the ampersanded amp; «&». Clearly nobody want’s «&» on his or her web page where there is supposed to be just an ampersand. Here’s a quick and easy trick to make sure this doesn’t happen:
= «This is a string that could be passed to htmlspecialchars multiple times.» ;
?>
Now, if your dealing with text that is a mixed bag (has HTML entities and non-HTML entities) you’re on your own.
[Update of previous note, having noticed I forgot to put in quote style]
PHP4 Compatible function:
// you can do it a bunch of times, it still won’t screw you!
?>
Put it in a function. Add it to the method of some abstract data class.
For PHP4 Compatibility: