php html сущности в символы

Php html сущности в символы

Описание string html_entity_decode ( string string [, int quote_style [, string charset]] )

Необязательный аргумент quote_style позволяет указать способ обработки ‘одиночных’ и «двойных» кавычек. Значением этого аргумента может быть одна из трех следующих констант (по умолчанию ENT_COMPAT ):

Таблица 1. Константы quote_style

Имя константыОписание
ENT_COMPATПреобразуются двойные кавычки, одиночные остаются без изменений.
ENT_QUOTESПреобразуются и двойные, и одиночные кавычки.
ENT_NOQUOTESИ двойные, и одиночные кавычки остаются без изменений.

Необязательный третий аргумент charset определяет кодировку, используемую при преобразовании. По умолчанию используется кодировка ISO-8859-1.

Начиная с PHP 4.3.0 поддерживаются следующие кодировки.

Таблица 2. Поддерживаемые кодировки

КодировкаПсевдонимыОписание
ISO-8859-1ISO8859-1Западно-европейская Latin-1
ISO-8859-15ISO8859-15Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1(ISO-8859-1).
UTF-88-битная Unicode, совместимая с ASCII.
cp866ibm866, 866Кириллическая кодировка, применяемая в DOS. Поддерживается в версии 4.3.2.
cp1251Windows-1251, win-1251, 1251Кириллическая кодировка, применяемая в Windows. Поддерживается в версии 4.3.2.
cp1252Windows-1252, 1252Западно-европейская кодировка, применяемая в Windows.
KOI8-Rkoi8-ru, koi8rРусская кодировка. Поддерживается в версии 4.3.2.
BIG5950Традиционный китайский, применяется в основном на Тайване.
GB2312936Упрощенный китайский, стандартная национальная кодировка.
BIG5-HKSCSРасширенная Big5, применяемая в Гонг-Конге.
Shift_JISSJIS, 932Японская кодировка.
EUC-JPEUCJPЯпонская кодировка.

Замечание: Не перечисленные выше кодировки не поддерживаются, и вместо них применяется ISO-8859-1.

Пример 1. Декодирование HTML сущностей

= «I’ll \»walk\» the dog now» ;

Замечание: Может показаться странным, что результатом вызова trim(html_entity_decode(‘ ‘)); не является пустая строка Причина том, что ‘ ‘ преобразуется не в символ с ASCII-кодом 32 (который удаляется функцией trim() ),а в символ с ASCII-кодом 160 (0xa0) в принимаемой по умолчанию кодировке ISO-8859-1.

Источник

htmlspecialchars — Преобразует специальные символы в HTML-сущности

Описание

Список параметров

Битовая маска из нижеуказанных флагов, определяющих режим обработки кавычек, некорректных кодовых последовательностей и используемый тип документа. По умолчанию используется ENT_COMPAT | ENT_HTML401.

Доступные значения параметра flags

Название константыОписание
ENT_COMPATПреобразует двойные кавычки, одинарные кавычки не изменяются.
ENT_QUOTESПреобразует как двойные, так и одинарные кавычки.
ENT_NOQUOTESОставляет без изменения как двойные, так и одинарные кавычки.
ENT_IGNOREБез всяких уведомительных сообщений отбрасывает некорректные кодовые последовательности вместо возврата пустой строки. Использование этого флага не рекомендуется, так как это может привести к » негативным последствиям, связанным с безопасностью.
ENT_SUBSTITUTEЗаменяет некорреткные кодовые последовательности символом замены Юникода U+FFFD в случае использования UTF-8 и &#FFFD; при использовании другой кодировки, вместо возврата пустой строки.
ENT_DISALLOWEDЗаменяет неверные коды символов для заданного типа документа символом замены юникода U+FFFD (UTF-8) или &#FFFD; (при использовании другой кодировки) вместо того, чтобы оставлять все как есть. Это может быть полезно, например, для того, чтобы убедиться в формальной правильности XML-документов со встроенным внешним контентом.
ENT_HTML401Обработка кода в соответствии с HTML 4.01.
ENT_XML1Обработка кода в соответствии с XML 1.
ENT_XHTMLОбработка кода в соответствии с XHTML.
ENT_HTML5Обработка кода в соответствии с HTML 5.

Необязательный аргумент определяющий кодировку, используемую при конвертации симоволов.

Если не указан, то значением по умолчанию для encoding зависит от используемой версии PHP. В PHP 5.6 и старше, для значения по умолчанию используется конфигурационная опция default_charset. В PHP 5.4 и 5.5 используется UTF-8 по умолчанию. Более ранние версии PHP используют ISO-8859-1.

Хотя этот аргумент является технически необязательным, настоятельно рекомендуется указать правильное значение для вашего кода, если вы используете PHP 5.5 или выше, или если ваша опция конфигурации default_charset может быть задана неверно для входных данных.

Поддерживаются следующие кодировки:

Поддерживаемые кодировки

КодировкаПсевдонимыОписание
ISO-8859-1ISO8859-1Западно-европейская Latin-1.
ISO-8859-5ISO8859-5Редко используемая кириллическая кодировка (Latin/Cyrillic).
ISO-8859-15ISO8859-15Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1(ISO-8859-1).
UTF-88-битная Unicode, совместимая с ASCII.
cp866ibm866, 866Кириллическая кодировка, применяемая в DOS.
cp1251Windows-1251, win-1251, 1251Кириллическая кодировка, применяемая в Windows.
cp1252Windows-1252, 1252Западно-европейская кодировка, применяемая в Windows.
KOI8-Rkoi8-ru, koi8rРусская кодировка.
BIG5950Традиционный китайский, применяется в основном на Тайване.
GB2312936Упрощенный китайский, стандартная национальная кодировка.
BIG5-HKSCSРасширенная Big5, применяемая в Гонг-Конге.
Shift_JISSJIS, SJIS-win, cp932, 932Японская кодировка.
EUC-JPEUCJP, eucJP-winЯпонская кодировка.
MacRomanКодировка, используемая в Mac OS.
»Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (см. nl_langinfo() и setlocale() ), в указанном порядке. Не рекомендуется к использованию.

Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.

Если параметр double_encode выключен, то PHP не будет преобразовывать существующие html-сущности. По умолчанию преобразуется все без ограничений.

Возвращаемые значения

Список изменений

Примеры

Пример #1 Пример использования htmlspecialchars()

Примечания

Смотрите также

Источник

htmlentities — Преобразует все возможные символы в соответствующие HTML-сущности

Описание

Эта функция идентична htmlspecialchars() за исключением того, что htmlentities() преобразует все символы в соответствющие HTML-сущности (для тех символов, для которых HTML сущности существуют).

Список параметров

Битовая маска из нижеуказанных флагов, определяющих режим обработки кавычек, некорректных кодовых последовательностей и используемый тип документа. По умолчанию используется ENT_COMPAT | ENT_HTML401.

Доступные значения параметра flags

Название константыОписание
ENT_COMPATПреобразует двойные кавычки, одинарные кавычки не изменяются.
ENT_QUOTESПреобразует как двойные, так и одинарные кавычки.
ENT_NOQUOTESОставляет без изменения как двойные, так и одинарные кавычки.
ENT_IGNOREМолча отбрасывает некорректные кодовые последовательности вместо возврата пустой строки. Использование этого флага не рекомендуется, так как это » может внести уязвимости в ваш код.
ENT_SUBSTITUTEЗаменяет некорректные кодовые последовательности символом замены Юникода U+FFFD в случае использования UTF-8 и &#FFFD; при использовании другой кодировки, вместо возврата пустой строки.
ENT_DISALLOWEDЗаменяет неверные коды символов для заданного типа документа символом замены юникода U+FFFD (UTF-8) или &#FFFD; (при использовании другой кодировки) вместо того, чтобы оставлять все как есть. Это может быть полезно, например, для того, чтобы убедиться в формальной правильности XML-документов со встроенным внешним контентом.
ENT_HTML401Обработка кода в соответствии с HTML 4.01.
ENT_XML1Обработка кода в соответствии с XML 1.
ENT_XHTMLОбработка кода в соответствии с XHTML.
ENT_HTML5Обработка кода в соответствии с HTML 5.

Необязательный аргумент определяющий кодировку, используемую при конвертации симоволов.

Если не указан, то значением по умолчанию для encoding зависит от используемой версии PHP. В PHP 5.6 и старше, для значения по умолчанию используется конфигурационная опция default_charset. В PHP 5.4 и 5.5 используется UTF-8 по умолчанию. Более ранние версии PHP используют ISO-8859-1.

Хотя этот аргумент является технически необязательным, настоятельно рекомендуется указать правильное значение для вашего кода, если вы используете PHP 5.5 или выше, или если ваша опция конфигурации default_charset может быть задана неверно для входных данных.

Поддерживаются следующие кодировки:

Поддерживаемые кодировки

КодировкаПсевдонимыОписание
ISO-8859-1ISO8859-1Западно-европейская Latin-1.
ISO-8859-5ISO8859-5Редко используемая кириллическая кодировка (Latin/Cyrillic).
ISO-8859-15ISO8859-15Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1(ISO-8859-1).
UTF-88-битная Unicode, совместимая с ASCII.
cp866ibm866, 866Кириллическая кодировка, применяемая в DOS.
cp1251Windows-1251, win-1251, 1251Кириллическая кодировка, применяемая в Windows.
cp1252Windows-1252, 1252Западно-европейская кодировка, применяемая в Windows.
KOI8-Rkoi8-ru, koi8rРусская кодировка.
BIG5950Традиционный китайский, применяется в основном на Тайване.
GB2312936Упрощенный китайский, стандартная национальная кодировка.
BIG5-HKSCSРасширенная Big5, применяемая в Гонг-Конге.
Shift_JISSJIS, SJIS-win, cp932, 932Японская кодировка.
EUC-JPEUCJP, eucJP-winЯпонская кодировка.
MacRomanКодировка, используемая в Mac OS.
»Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (см. nl_langinfo() и setlocale() ), в указанном порядке. Не рекомендуется к использованию.

Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.

При выключении параметра double_encode PHP не будет преобразовывать существующие html-сущности. По умолчанию преобразуется все без ограничений.

Возвращаемые значения

Возвращает преобразованную строку.

Список изменений

Примеры

Пример #1 Пример использования htmlentities()

Пример #2 Использование ENT_IGNORE

Смотрите также

Источник

htmlspecialchars_decode — Преобразует специальные HTML-сущности обратно в соответствующие символы

Описание

Список параметров

Строка, которую надо преобразовать.

Битовая маска из одного или нескольких следующих флагов, которые указывают как обрабатывать кавычки и какие типы документов использовать. Значением по умолчанию является ENT_COMPAT | ENT_HTML401.

Доступные константы, используемые в качестве параметра flags

Имя константыОписание
ENT_COMPATПреобразует двойные кавычки и пропускает одинарные.
ENT_QUOTESПреобразует и двойные, и одинарные кавычки.
ENT_NOQUOTESНе преобразует ни двойные, ни одинарные кавычки.
ENT_HTML401Обрабатывать код как HTML 4.01.
ENT_XML1Обрабатывать код как XML 1.
ENT_XHTMLОбрабатывать код как XHTML.
ENT_HTML5Обрабатывать код как HTML 5.

Возвращаемые значения

Возвращает преобразованную строку.

Список изменений

Примеры

Пример #1 Пример использования функции htmlspecialchars_decode()

Результат выполнения данного примера:

Смотрите также

Источник

htmlspecialchars_decode

(PHP 5 >= 5.1.0, PHP 7, PHP 8)

htmlspecialchars_decode — Преобразует специальные HTML-сущности обратно в соответствующие символы

Описание

Список параметров

Строка, которую надо преобразовать.

Возвращаемые значения

Возвращает преобразованную строку.

Примеры

Пример #1 Пример использования функции htmlspecialchars_decode()

Результат выполнения данного примера:

Смотрите также

User Contributed Notes 8 notes

The example for «htmlspecialchars_decode()» below sadly does not work for all PHP4 versions.

Quote from the PHP manual:
«get_html_translation_table() will return the translation table that is used internally for htmlspecialchars() and htmlentities().»

But it does NOT! At least not for PHP version 4.4.2.
This was already reported in a bug report (http://bugs.php.net/bug.php?id=25927), but it was marked as BOGUS.

This comment now is not to report this bug again (though I really believe it is one), but to complete the example and warn people of this pitfall.

To make sure your htmlspecialchars_decode fake for PHP4 works, you should do something like this:

This should be the best way to do it.
(Reposted because the other one seems a bit slower and because those who used the code under called it htmlspecialchars_decode_php4)

that works also with ä and » and so on.
get_html_translation_table(HTML_ENTITIES) => offers more characters than HTML_SPECIALCHARS

function htmlspecialchars_decode_PHP4($uSTR)
<
return strtr($uSTR, array_flip(get_html_translation_table(HTML_ENTITIES, ENT_QUOTES)));
>

Well, consider someone sending ‘&’ to your PHP script:

There is, unfortunately, no reliable way to determine whether HTML is escaped or not that does not come with this caveat that I know of. Rather than try and catch the case ‘I’ve already encoded this’, you are better off avoiding double-escaping by simply escaping the HTML as close to the actual output as you can muster, e.g. in the view in an MVC development structure.

If you use `htmlspecialchars()` to change things like the ampersand (&) into it’s HTML equivalent (&), you might run into a situation where you mistakenly pass the same string to the function twice, resulting in things appearing on your website like, as I call it, the ampersanded amp; «&». Clearly nobody want’s «&» on his or her web page where there is supposed to be just an ampersand. Here’s a quick and easy trick to make sure this doesn’t happen:

= «This is a string that could be passed to htmlspecialchars multiple times.» ;

?>

Now, if your dealing with text that is a mixed bag (has HTML entities and non-HTML entities) you’re on your own.

[Update of previous note, having noticed I forgot to put in quote style]

PHP4 Compatible function:

// you can do it a bunch of times, it still won’t screw you!

?>

Put it in a function. Add it to the method of some abstract data class.

For PHP4 Compatibility:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *