php длина строки utf 8
mb_strlen
(PHP 4 >= 4.0.6, PHP 5, PHP 7, PHP 8)
mb_strlen — Получает длину строки
Описание
Получает длину строки ( string ).
Список параметров
Строка ( string ), для которой измеряется длина.
Возвращаемые значения
Ошибки
Список изменений
Смотрите также
User Contributed Notes 7 notes
Speed of mb_strlen varies a lot according to specified character set.
Just did a little benchmarking (1.000.000 times with lorem ipsum text) on the mbs functions
especially mb_strtolower and mb_strtoupper are really slow (up to 100 times slower compared to normal functions). Other functions are alike-ish, but sometimes up to 5 times slower.
just be cautious when using mb_ functions in high frequented scripts.
If you find yourself without the mb string functions and can’t easily change it, a quick hack replacement for mb_strlen for utf8 characters is to use a a PCRE regex with utf8 turned on.
This is basically an ugly hack which counts all single character matches, and I’d expect it to be painfully slow on large strings.
It may not be clear whether PHP actually supports utf-8, which is the current de facto standard character encoding for Web documents, which supports most human languages. The good news is: it does.
I wrote a test program which successfully reads in a utf-8 file (without BOM) and manipulates the characters using mb_substr, mb_strlen, and mb_strpos (mb_substr should normally be avoided, as it must always start its search at character position 0).
The results with a variety of Unicode test characters in utf-8 encoding, up to four bytes in length, were mostly correct, except that accent marks were always mistakenly treated as separate characters instead of being combined with the previous character; this problem can be worked around by programming, when necessary.
Thank you Peter Albertsson for presenting that!
After spending more than eight hours tracking down two specific bugs in my mbstring-func_overloaded environment I have learned a very important lesson:
Many developers rely on strlen to give the amount of bytes in a string. While mb-overloading has very many advantages, the most hard-spotted pitfall must be this issue.
Two examples (from the two bugs found earlier):
1. Writing a string to a file:
2. Iterating through a string’s characters:
So, try to avoid these situations to support overloaded environments, and remeber Peter Albertssons remark if you find problems under such an environment.
I have been working with some funny html characters lately and due to the nightmare in manipulating them between mysql and php, I got the database column set to utf8, then store characters with html enity «ọ» as ọ in the database and set the encoding on php as «utf8».
This is where mb_strlen became more useful than strlen. While strlen(‘ọ’) gives result as 3, mb_strlen(‘ọ’,’UTF-8′) gives 1 as expected.
But left(column1,1) in mysql still gives wrong char for a multibyte string. In the example above, I had to do left(column1,3) to get the correct string from mysql. I am now about to investigate multibyte manipulation in mysql.
strlen
(PHP 4, PHP 5, PHP 7, PHP 8)
strlen — Возвращает длину строки
Описание
Список параметров
Строка ( string ), для которой измеряется длина.
Возвращаемые значения
Примеры
Пример #1 Пример использования strlen()
Примечания
Функция strlen() возвратит количество байт, а не число символов в строке.
Смотрите также
User Contributed Notes 8 notes
I want to share something seriously important for newbies or beginners of PHP who plays with strings of UTF8 encoded characters or the languages like: Arabic, Persian, Pashto, Dari, Chinese (simplified), Chinese (traditional), Japanese, Vietnamese, Urdu, Macedonian, Lithuanian, and etc.
As the manual says: «strlen() returns the number of bytes rather than the number of characters in a string.», so if you want to get the number of characters in a string of UTF8 so use mb_strlen() instead of strlen().
// the Arabic (Hello) string below is: 59 bytes and 32 characters
$utf8 = «السلام علیکم ورحمة الله وبرکاته!» ;
The easiest way to determine the character count of a UTF8 string is to pass the text through utf8_decode() first:
We just ran into what we thought was a bug but turned out to be a documented difference in behavior between PHP 5.2 & 5.3. Take the following code example:
?>
This is because in 5.2 strlen will automatically cast anything passed to it as a string, and casting an array to a string yields the string «Array». In 5.3, this changed, as noted in the following point in the backward incompatible changes in 5.3 (http://www.php.net/manual/en/migration53.incompatible.php):
«The newer internal parameter parsing API has been applied across all the extensions bundled with PHP 5.3.x. This parameter parsing API causes functions to return NULL when passed incompatible parameters. There are some exceptions to this rule, such as the get_class() function, which will continue to return FALSE on error.»
So, in PHP 5.3, strlen($attributes) returns NULL, while in PHP 5.2, strlen($attributes) returns the integer 5. This likely affects other functions, so if you are getting different behaviors or new bugs suddenly, check if you have upgraded to 5.3 (which we did recently), and then check for some warnings in your logs like this:
strlen() expects parameter 1 to be string, array given in /var/www/sis/lib/functions/advanced_search_lib.php on line 1028
If so, then you are likely experiencing this changed behavior.
When checking for length to make sure a value will fit in a database field, be mindful of using the right function.
There are three possible situations:
1. Most likely case: the database column is UTF-8 with a length defined in unicode code points (e.g. mysql varchar(200) for a utf-8 database).
Find the character set used, and pass it explicitly to the length function.
There’s a LOT of misinformation here, which I want to correct! Many people have warned against using strlen(), because it is «super slow». Well, that was probably true in old versions of PHP. But as of PHP7 that’s definitely no longer true. It’s now SUPER fast!
I created a 20,00,000 byte string (
20 megabytes), and iterated ONE HUNDRED MILLION TIMES in a loop. Every loop iteration did a new strlen() on that very, very long string.
The result: 100 million strlen() calls on a 20 megabyte string only took a total of 488 milliseconds. And the strlen() calls didn’t get slower/faster even if I made the string smaller or bigger. The strlen() was pretty much a constant-time, super-fast operation
So either PHP7 stores the length of every string as a field that it can simply always look up without having to count characters. Or it caches the result of strlen() until the string contents actually change. Either way, you should now never, EVER worry about strlen() performance again. As of PHP7, it is super fast!
Here is the complete benchmark code if you want to reproduce it on your machine:
Как правильно определить длину строки в кодировке UTF-8?
Помощь в написании контрольных, курсовых и дипломных работ здесь.
Как правильно вывести файл в кодировке UTF-16LE?
Друзья! НА самом-то деле я всё правильно делаю. Вот код: import codecs f = codecs.open.
Как хранить строки в кодировке UTF-8?
Как сделать, чтобы в строковом типе символы находились в кодировке utf8? в данном коде слово ТЕКСТ.
Написать функцию выполняющую перевод строки с символами русского алфавита в кодировке UTF-8 в заданный набор символов
Помогите пожалуйста написать функцию выполняющую перевод строки с символами русского алфавита в.
Как сделать сайт в кодировке UTF-8?
Если я правильно понимаю, то для изготовления страницы в кодировке UTF-8 надо не только прописать.
Помощь в написании контрольных, курсовых и дипломных работ здесь.
Как записать файл в кодировке utf-8?
Вообщет задача такая, нужно файл записать в кодировке utf-8 или unicode и нужно чтобы русские.
Как сохранить текст из memo в кодировке UTF-8?
Приветствую! Нужна Ваша помощь. Мне надо сохранить текст из memo1 в кодировке UTF-8. Процедура.
Как получить код символа в кодировке UTF-8?
Имеется WP. В нем посты в кодировке UTF-8. Как получить код символа в кодировке UTF-8? Вообще.
Как записать в файл строку в кодировке UTF-8?
Здравствуйте уважаемые пользователи, модераторы и все обитатели этого форума! Нужна снова ваша.
Как найти длину строки в PHP?
В этой статье мы рассмотрим, как в PHP вычисляется длина строки. Поговорим про известную функцию strlen и расскажем про нюансы её работы.
Итак, начнём с того, что заключим нужный текст в переменную — это позволит нам в последующем удобнее обращаться к нашей текстовой информации. К примеру:
Будем считать, что строка у нас есть, поэтому осталось определить её длину. Сделать это можно, используя всем известную функцию strlen. Единственным и обязательным параметром данной функции является строка, число символов в которой мы считаем:
Функция работает предельно просто: принимает строку и возвращает в качестве результата определённое значение, которое, кстати, вы потом сможете применять в своих скриптах и функциях. При этом удобнее будет сделать так:
Но это в том случае, если мы уже создали данную переменную, иначе можно записать код следующим образом:
То есть ничего сложного, как видите, нет. Если же говорить о том, где в реальной практике может использоваться нахождение длины строки, то это, например, поле для ввода какого-нибудь текста, позволяющее определить размер статьи в режиме онлайн.
Каковы нюансы в работе функции strlen?
Следует учитывать, что функция вычисляет количество байт в строке string, а не привычное нам число символов. И тут всё зависит от кодировки:
В нашем случае русские буквы в юникоде занимают 2 байта, в результате чего длина одной буквы становится равной двум: 11 букв * 2 + 3 пробела = 25. Это важная особенность.
Кроме того, если в измеряемой нами строке символы отсутствуют, функция вернет значение 0. Также не стоит использовать strlen для расчёта длины массива, т. к. вернётся NULL.
Ещё существует функция iconv_strlen, позволяющая нам в качестве второго параметра указывать кодировку:
Как посчитать число слов в строке? Необходимость в этом тоже иногда возникает. В PHP для выполнения данной задачи есть функция str_word_count. Она имеет 2 основных параметра, которые обязательны. Первый — сама строка, число слов в которой нас интересует. Второй — формат, в котором будет выведено значение. Возможно использование и третьего параметра — charlist, в котором можно указывать список дополнительных символов, которые функция посчитает как слова. Но этот параметр необязателен, к тому же, обычно в таких излишествах нет надобности.
Что касается параметра format, то он способен принимать три значения: — 0 — просто возвращается количество найденных слов; — 1 — массив слов, входящих в строку; — 2 — массив со словами, причём индекс каждого слова — это его позиция в строке.
Используем strlen и конструкцию if else
В некоторых задачах на PHP нужно определить, превышает ли длина нашей строки какой-нибудь предел, например, десять. Такие задачки решаются через конструкцию if else:
Пожалуй, на этом всё, успешного вам обучения!
Интересуют продвинутые знания по PHP? Добро пожаловать на специализированный курс:
WEB IT blog
Блог про веб-разработку, администрирование, дизайн
понедельник, 21 июня 2010 г.
Давайте попробуем вывести рузультаты кода
Все правильно, русские символы занимают 2 байта, а английские 1.
Но нам надо унифицированно проверять длину входящей строки. Ответ прост:
Главное, чтобы входящая строка была действительно в utf-8
16 коммент.:
Спасибо большое за такую простую статью! Пол часа бился над проблемой, а решение оказывается такое простое 🙂
Не забывайте, что BOM (byte order mark) тоже считается за символы в строке, соответствующим образом изменяя ее длину.
Cyrill, ну именно поэтому все стараются сохранять файлы в UTF-8 без BOM. )
Для проверки кодировки существует функция mb_detect_encoding
Огромное Спасибо! Коротко,понятно и главное очень полезно!)
Поздравляю, вы — балбесы.
и после этого mb_strlen и прочие начинают работать так, как ДОЛЖНЫ.
Аноним, а в чем балбесность-то?
Никакого костыля предложено не было, все в порядке. Ваш вариант, конечно же, тоже верный.