php русские символы в url
Проблема с кириллицей в php
Проект разрабатывается в кодировке utf-8. Столкнулся с проблемой обработки строк с символами кириллицы. Код
Т.е. для кириллицы функция не работает.
Что необходимо сделать, чтобы на выходе вместо «Доп�» получить «Дополни»?
4 ответа 4
Если коротко, то для мультибайтовых кодировок используют mb_substr()
Если сайт разрабатывается, как вы пишите, в UTF-8, значит надо разрабатывать UTF-8. Чтобы все мультибайтовые функции работали по умолчанию с разрабатываемой кодировкой, ее надо задать в самом начале (и желательно проверить, задалась или нет):
Если все ок, можете юзать все mb_ без прописки кодировки.
Забыл написать, почему это важно, ну, если вы разрабатываете. Потому что при использовании имени функции в качестве callback прописывать кодировку будет некуда.
mb_substr() вместо substr()
Чтобы в PHP работать с кириллическими строками посимвольно(включая извлечение подстроки и др.) нужно использовать специальные функции: http://php.net/manual/ru/ref.mbstring.php.
Всё из-за того, что на латинице 1 символ = 1 бит, поэтому:
Но кирилические символы занимают 2 бита, поэтому:
При этом можно это учитывать и работать в таком ключе:
Или разбить строку через str_split, указав split_length = 2:
Но так лучше не делать, потому что таким образом нельзя будет работать теперь с латиницей и остальными символами:
Кстати, чтобы нормально разделить сроку с русскими символами на массив символов, то лучше всего это делать так:
Как правильно работать с кириллицей в url?
Нужно ли текст кодировать, декодировать как написано тут?
Текст отображается как надо в ссылках, правда, одно но, при копировании адреса изображения и последующей вставки куда-нибудь, почему-то вставляется в закодированном виде, но, при переходе по ней обращается обратно в нормальную кириллицу.
Со ссылками на страницы сайта, такого нет.
2 ответа 2
Поэтому лучше кодировать URL на стороне сервера, где вы точно знаете ту кодировку, в которой потом будете декодировать.
Я использую urldecode urlencode для get post запросов, для остальных случаев думаю не нужно, то есть когда передаю данные в ссылке, потому что, даже один пробел может попортить много нерв.
Всё ещё ищете ответ? Посмотрите другие вопросы с метками php url google кириллица или задайте свой вопрос.
Похожие
Подписаться на ленту
Для подписки на ленту скопируйте и вставьте эту ссылку в вашу программу для чтения RSS.
дизайн сайта / логотип © 2021 Stack Exchange Inc; материалы пользователей предоставляются на условиях лицензии cc by-sa. rev 2021.9.17.40238
Нажимая «Принять все файлы cookie» вы соглашаетесь, что Stack Exchange может хранить файлы cookie на вашем устройстве и раскрывать информацию в соответствии с нашей Политикой в отношении файлов cookie.
Русские символы в адресе(site.ru/статья.html) — возможные проблемы?
Главная проблема одна, и это, как всегда, Internet Explorer, отображающий URL-адрес в адресной строке в декодированном виде только при ручном её наборе либо при переходе по незакодированной (а значит, некорректной согласно RFC 3986) ссылке.
См. баг-репорт (голосовать за исправление нельзя, но можно щёлкнуть по ссылке «User(s) can reproduce this bug → I can too»).
А так у меня русские и все индексируется без проблем:)
Если вы имеете в виду такие урлы:
… то с ними есть ньюансы, как положительные, так и отрицательные.
1. Адрес нормально читается (в отличие от nastrojka-visokoproizvoditelnogo-servera.html).
2. Основные поисковики высоко ранжируют совпадения поисковой фразы с URL (пример по той же странице смотрите тут)
1. В браузерах или при копипейсте адрес будет выглядеть совершенно нечитабельно.
2. Некоторые поисковики не дружат с такими урлами и/или вообще их не индексируют.
urlencode
(PHP 4, PHP 5, PHP 7, PHP 8)
urlencode — URL-кодирование строки
Описание
Эта функция удобна, когда закодированная строка будет использоваться в запросе, как часть URL, в качестве удобного способа передачи переменных на следующую страницу.
Список параметров
Строка, которая должна быть закодирована.
Возвращаемые значения
Примеры
Пример #1 Пример использования urlencode()
Пример #2 Пример использования urlencode() и htmlentities()
Примечания
Будьте внимательны с переменными, которые могут совпадать с элементами HTML. Такие сущности как &, © и £ разбираются браузером и используется как реальная сущность, а не желаемое имя переменной. Это очевидный конфликт, на который W3C указывает в течение многих лет. Смотрите подробности: » http://www.w3.org/TR/html4/appendix/notes.html#h-B.2.2
Смотрите также
User Contributed Notes 25 notes
urlencode function and rawurlencode are mostly based on RFC 1738.
However, since 2005 the current RFC in use for URIs standard is RFC 3986.
Here is a function to encode URLs according to RFC 3986.
I needed encoding and decoding for UTF8 urls, I came up with these very simple fuctions. Hope this helps!
Don’t use urlencode() or urldecode() if the text includes an email address, as it destroys the «+» character, a perfectly valid email address character.
Unless you’re certain that you won’t be encoding email addresses AND you need the readability provided by the non-standard «+» usage, instead always use use rawurlencode() or rawurldecode().
I needed a function in PHP to do the same job as the complete escape function in Javascript. It took me some time not to find it. But findaly I decided to write my own code. So just to save time:
urlencode is useful when using certain URL shortener services.
The returned URL from the shortener may be truncated if not encoded. Ensure the URL is encoded before passing it to a shortener.
(tilde), while urlencode does.
Below is our jsonform source code in mongo db which consists a lot of double quotes. we are able to pass this source code to the ajax form submit function by using php urlencode :
If you want to pass a url with parameters as a value IN a url AND through a javascript function, such as.
. pass the url value through the PHP urlencode() function twice, like this.
However, some weird things happen when dealing with characters like (these are HTML entities): ‼ ▐ ┐and Θ have weird things going on.
If you try to pass one in Internet Explorer, IE will *disable* the submit button. Firefox, however, does something weirder: it will convert it to it’s HTML entity. It will display properly, but only when you don’t convert entities.
The point? Be careful with decorative characters.
This very simple function makes an valid parameters part of an URL, to me it looks like several of the other versions here are decoding wrongly as they do not convert & seperating the variables into &.
$vars=array(‘name’ => ‘tore’,’action’ => ‘sell&buy’);
echo MakeRequestUrl($vars);
Will output: action=sell%26buy&name=tore
Constructing hyperlinks safely HOW-TO:
= ‘machine/generated/part’ ;
$url_parameter1 = ‘this is a string’ ;
$url_parameter2 = ‘special/weird «$characters»‘ ;
$link_label = «Click here & you’ll be » ;
Shortly:
— Use urlencode for all GET parameters (things that come after each «=»).
— Use rawurlencode for parts that come before «?».
— Use htmlspecialchars for HTML tag parameters and HTML text content.
look on index.php
array (size=0)
empty
test-bla-bla-4%253E2-y-3%253C6
look on test-bla-bla-4%253E2-y-3%253C6
array (size=1)
‘token’ => string ‘bla-bla-4>2-y-3
Simple static class for array URL encoding
/**
*
* URL Encoding class
* Use : urlencode_array::go() as function
*
*/
class urlencode_array
<
Разберемся раз и навсегда: AJAX, «кириллические символы», кодировки, prototype.js, jQuery, JsHttpRequest
AJAX, — это технология. Одной из часто используемых техник этой технологии является
посылка запросов при помощи объекта класса XMLHttpRequest.
Как же посылать и принимать AJAX запросы в нужной нам кодировке, нужно ли использовать однобайтовые кодировки или не обойтись без UTF-8. На все эти вопросы раз и навсегда ответит эта статья.
Кстати, перепечатка с моего.
И ещё, классов-то, конечно, в JavaScript нет, но для удобства будем пользоваться такой терминологией.
В документации на XMLHttpRequest сказано, что браузер должен поддерживать следующие типы
HTTP-запросов: GET, POST, HEAD, PUT, DELETE, OPTIONS.
На сегодняшний день джаваскриптом через объект класса XMLHttpRequest можно отправить
только запросы типа GET и POST.
Итак, рассмотрим 2 этих запроса:
Вся информация скрипту на сервере может передаваться только через URL и через заголовки.
GET moy-rebenok/ajax.php?f=324
Host: moy-rebenok
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.8.1.11) Gecko/20071127
Firefox/2.0.0.11
Accept:
text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/pn
g,*/*;q=0.5
Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Referer: moy-rebenok/ajax.html
На сервере, в ajax.php можно будет использовать конструкцию
$_GET[‘f’], чтобы получить значение переменной f.
Почему встает проблема с русскими буквами? Потому что, как вы знаете, русские буквы в URL использовать нельзя, их необходимо как-то передать при помощи доступных латинских букв, цифр и знаков, допустимых в URL после знака ‘?’.
Люди договорились, что будут делать это при помощи escape-последовательностей.
escape последовательность слова «привет» в кодировке windows-1251:
%EF%F0%E8%E2%E5%F2
escape последовательность слова «привет» в кодировке UTF-8:
%D0%BF%D1%80%D0%B8%D0%B2%D0%B5%D1%82
escape последовательность слова «привет» в кодировке KOI8-R:
%CE%CF%D5%C1%C5%D0
(Знак ‘%’, потом код символа).
Таким образом передать русские буквы можно, например, так:
Никто вас в этом не ограничивает.
Кстати, для GET запроса не нужно указывать заголовок Content-Type.
Т.к. никакого контента нет. Есть только запрос по определенному адресу.
Все переменные на сервер передаются через URL.
Как же смастерить необходимую escape последовательность в нужной кодировке?
Мастерить можно хоть руками, хоть как, но естественно в JavaScript.
Опять же, никто вас не ограничивает.
Но для удобства обычно используют одну из 3 функций, которые уже определены в JavaScript:
а) escape()
б) encodeURI()
в) encodeURIComponent()
Латинские буквы, цифры, символы @*/+. оставляет как есть, всё остальное кодирует так:
%xx, либо так: %uxxxx.
Причем, xxxx во втором случае, — это код символа не в UTF-8, а в Unicode
Использовать эту функцию не надо, т.к. результат выполнения зависит от браузера, функция не является стандартизированной W3C, возникла в лихие 90-е.
К тому же, как-то нормально (по крайней мере, быстро) обработать строку в таком винигретчатом формате на сервере сложно.
Функцию escape() использует библиотека нашего соотечественника JsHttpRequest.
Не потому что библиотека плохая, а потому что создана для работы со всеми браузерами
(в том числе и с самыми древними).
Используется jQuery, prototype.js при запросе методом GET.
Возможно вы слышали от кого-то: «XMLHttpRequest работает только с UTF-8».
Теперь знаете, что это не совсем правда.
Когда используется GET-запрос, то кодировка переданных данных вообще нигде не прописывается(!).
Ещё раз повторю, ‘Content-type’, в котором мы можем указать charset
не используется в GET запросах.
Но, т.к. в JavaScript есть 2 удобные функции для перевода любой строки в строку с escape-последовательностями в UTF-8, то все их используют, и работают с UTF-8.
Именно поэтому в jQuery даже нельзя никак указать charset при отправке запроса.
Именно поэтому в Prototype.js, даже когда указываешь encoding=’windows-1251′, и используешь GET запрос, то передается всё равно UTF-8.
Просто потому что в кодах этих библиотек используется функция encodeURIComponent().
Что ж. В этом нет совершенно ничего плохого. Всё, что надо сделать, чтобы теперь работать
в PHP в
нормальной кодировке использовать iconv:
Здесь уже всё интереснее.
$_POST он заполняет в том случае, когда в Content-type указано multipart/form-data или
x-www-form-urlencoded.
Что-же это за Content-type такой?
А контент-тайп это очень удобный. Он позволяет передать php скрипту несколько переменных.
Что по сути такое POST запрос?
Это заголовки, а за ними контент. Контент вообще произвольный. Т.е. просто байты, байты, байты.
Но ведь из JavaScript обычно требуется передать не просто байты, байты, байты, а несколько пар ключ=значение, ключ=значение,…
Как в GET запросе.
Вот люди и договорились о таком удобном типе, как x-www-form-urlencoded
Для того, чтобы передать f=123 и gt=null необходимо передать контент:
Знакомо неправда ли? Конечно знакомо, и тип не зря называется x-www-form-urlencoded.
Всё то же самое, что и при GET запросе.
И как же формируется контент в библиотеках jQuery и prototype.js?
Верно, при помощи всё той же функции encodeURIComponent(), а значит и escape-последовательности будут в кодировке UTF-8. (Независимо от того, что в prototype.js вы установите encoding).
Для этого устанавливаем Content-type text/xml или application/octet-stream, там же устанавливаем charset=«windows-1251».
Засовываем в функцию send() строку нужной кодировки. (Prototype.js оборачивает этот вызов конструкцией new Ajax.Request(. )).
И что потом… А он (объект класса XMLHttpRequest) переводит эту строку в UTF-8, в какой бы кодировке она не была. Так написано в документации W3C. И он реально это делает.
1. Напрямую через XMLHttpRequest можно передавать только строки в кодировке UTF-8.
2. Можно передавать строки как бы «в любых других кодировках», если нелатинские символы
при этом за-escape-ены.
3. В JavaScript существует 3 функции, которые escape-ят нелатинские символы:
escape(), encodeURI() и encodeURIComponent().
Первая переводит в кривой Unicode. Вторые две в UTF-8.
Можно написать свои функции, которые будут генерировать escape-последовательности любой кодировки. Можно, но не нужно. Т.к. наоборот надо радоваться, что есть такие вот функции, которые переводят текст любой кодировки в UTF-8. Это черезвычайно прекрасный факт. Схема при которой все xhtml страницы работают на windows-1251, ajax с сервера клиенту кидает windows-1251, а ajax с клиента серверу кидает UTF-8 абсолютна приемлема и используется на большинстве ресурсов.
Просто не надо забывать использовать iconv как было описано ниже. А для того, чтобы сервер отдавал яваскрипту JSON (или что там у вас) в правильной кодировке (т.е. в такой же кодировке, в которой отдаются все xhtml страницы) просто в начале вашего ajax.php пропишите заголовок:
header(‘Content-type: text/html; charset=windows-1251’);
На последок немного субъективного мнения:
Используйте jQuery, любите людей, дарите подарки.