php посчитать количество байт в строке

strlen

(PHP 4, PHP 5, PHP 7, PHP 8)

strlen — Возвращает длину строки

Описание

Список параметров

Строка ( string ), для которой измеряется длина.

Возвращаемые значения

Примеры

Пример #1 Пример использования strlen()

Примечания

Функция strlen() возвратит количество байт, а не число символов в строке.

Смотрите также

User Contributed Notes 8 notes

I want to share something seriously important for newbies or beginners of PHP who plays with strings of UTF8 encoded characters or the languages like: Arabic, Persian, Pashto, Dari, Chinese (simplified), Chinese (traditional), Japanese, Vietnamese, Urdu, Macedonian, Lithuanian, and etc.
As the manual says: «strlen() returns the number of bytes rather than the number of characters in a string.», so if you want to get the number of characters in a string of UTF8 so use mb_strlen() instead of strlen().

// the Arabic (Hello) string below is: 59 bytes and 32 characters
$utf8 = «السلام علیکم ورحمة الله وبرکاته!» ;

The easiest way to determine the character count of a UTF8 string is to pass the text through utf8_decode() first:

We just ran into what we thought was a bug but turned out to be a documented difference in behavior between PHP 5.2 & 5.3. Take the following code example:

?>

This is because in 5.2 strlen will automatically cast anything passed to it as a string, and casting an array to a string yields the string «Array». In 5.3, this changed, as noted in the following point in the backward incompatible changes in 5.3 (http://www.php.net/manual/en/migration53.incompatible.php):

«The newer internal parameter parsing API has been applied across all the extensions bundled with PHP 5.3.x. This parameter parsing API causes functions to return NULL when passed incompatible parameters. There are some exceptions to this rule, such as the get_class() function, which will continue to return FALSE on error.»

So, in PHP 5.3, strlen($attributes) returns NULL, while in PHP 5.2, strlen($attributes) returns the integer 5. This likely affects other functions, so if you are getting different behaviors or new bugs suddenly, check if you have upgraded to 5.3 (which we did recently), and then check for some warnings in your logs like this:

strlen() expects parameter 1 to be string, array given in /var/www/sis/lib/functions/advanced_search_lib.php on line 1028

If so, then you are likely experiencing this changed behavior.

When checking for length to make sure a value will fit in a database field, be mindful of using the right function.

There are three possible situations:

1. Most likely case: the database column is UTF-8 with a length defined in unicode code points (e.g. mysql varchar(200) for a utf-8 database).

Find the character set used, and pass it explicitly to the length function.

There’s a LOT of misinformation here, which I want to correct! Many people have warned against using strlen(), because it is «super slow». Well, that was probably true in old versions of PHP. But as of PHP7 that’s definitely no longer true. It’s now SUPER fast!

I created a 20,00,000 byte string (

20 megabytes), and iterated ONE HUNDRED MILLION TIMES in a loop. Every loop iteration did a new strlen() on that very, very long string.

The result: 100 million strlen() calls on a 20 megabyte string only took a total of 488 milliseconds. And the strlen() calls didn’t get slower/faster even if I made the string smaller or bigger. The strlen() was pretty much a constant-time, super-fast operation

So either PHP7 stores the length of every string as a field that it can simply always look up without having to count characters. Or it caches the result of strlen() until the string contents actually change. Either way, you should now never, EVER worry about strlen() performance again. As of PHP7, it is super fast!

Here is the complete benchmark code if you want to reproduce it on your machine:

Источник

Как найти количество байтов в строке UTF-8 с PHP?

У меня есть следующая функция с сайта php.net, чтобы определить количество байтов в строке ASCII и UTF-8:

Однако, когда я пробую это с русским (например, По своей природе компьютеры могут работать лишь с числами. И для того, чтобы они могли хранить в памяти буквы или другие символы, каждому такому символу должно быть поставлено в соответствие число. ). Кажется, он не возвращает правильное количество байтов.

Оператор switch использует условие по умолчанию. Любые идеи, почему русские символы не будут работать так, как ожидалось? Или были бы лучшие варианты для этого.

Я спрашиваю об этом, поскольку мне нужно сократить строку UTF-8 до определенного количества байтов. т.е. я могу отправить только макс. из 169 байтов данных JSON в iPhone APNS в моей ситуации (исключая другие пакетные данные).

Ссылка: PHP strlen – Руководство (Комментарий Паоло от 10 января 2007 г. 03:58)

Я спрашиваю об этом, поскольку мне нужно сократить строку utf-8 до определенного количества байтов.

mb_strcut() делает именно это, хотя вы, возможно, не сможете сказать из едва понятной документации.

strlen () возвращает количество байтов.

Сокращение многобайтовой строки до определенного количества байтов – отдельная задача. Вам нужно будет позаботиться о том, чтобы не вырезать строку в середине многобайтовой последовательности по мере ее сокращения.

Другая вещь, которую вам нужно обработать, это то, что когда вы помещаете строку в json-нотацию, ей может понадобиться больше байтов для представления ее как json. Например, если ваша строка содержит символ двойной кавычки. Он должен быть экранирован, а символ обратной косой черты добавит один байт. Есть и другие персонажи, которых тоже нужно избегать. Точка, она может стать больше. Я предполагаю, что ограничение байта находится на общей полезной нагрузке json, поэтому вам нужно учитывать сам синтаксис json, а также любое экранирование, которое json будет налагать на вашу строку.

Неоптимизированный, любопытный хакерский способ сделать это – нарезать строку, скажем, на 5 байт больше вашего предела, используя substr (). Теперь используйте mb_strlen (), чтобы получить количество символов, и mb_substr (), чтобы удалить последний символ. Теперь кодируем его как json и измеряем байты через strlen (). Введите цикл, который продолжает измельчать последний символ, используя mb_substr (), кодирует как json и снова измеряет байты с помощью strlen (). Цикл завершается, когда количество байтов допустимо.

В PHP 5 mb_strlen должен возвращать количество символов; и strlen должен возвращать количество байтов.

Например, эта часть кода:

Должен получить следующий результат:

В качестве побочного элемента: это то, что изменит PHP 6: PHP 6 будет использовать Unicode по умолчанию, что означает, что strlen должен в PHP 6 возвращать количество символов, а не количество байтов больше.

Если вы хотите найти длину байта многобайтовой строки при использовании строк mbstring.func_overload 2 и UTF-8, вы можете использовать следующее:

Count of Bytes <> Длина строки!

для получения счета байта вы можете использовать (php4,5) strlen. для получения длины в кодировке unicode (utf8 encoded) вы можете использовать mb_strlen (позаботьтесь о перегрузке функции из этого расширения), или вы можете просто подсчитать все байты, которые не имеют 8-го бита.

8-й бит означает, что для этого unicodechar приходит по крайней мере еще один байт от входа.

Источник

mb_strlen

(PHP 4 >= 4.0.6, PHP 5, PHP 7, PHP 8)

mb_strlen — Получает длину строки

Описание

Получает длину строки ( string ).

Список параметров

Строка ( string ), для которой измеряется длина.

Возвращаемые значения

Ошибки

Список изменений

Смотрите также

User Contributed Notes 7 notes

Speed of mb_strlen varies a lot according to specified character set.

Just did a little benchmarking (1.000.000 times with lorem ipsum text) on the mbs functions

especially mb_strtolower and mb_strtoupper are really slow (up to 100 times slower compared to normal functions). Other functions are alike-ish, but sometimes up to 5 times slower.

just be cautious when using mb_ functions in high frequented scripts.

If you find yourself without the mb string functions and can’t easily change it, a quick hack replacement for mb_strlen for utf8 characters is to use a a PCRE regex with utf8 turned on.

This is basically an ugly hack which counts all single character matches, and I’d expect it to be painfully slow on large strings.

It may not be clear whether PHP actually supports utf-8, which is the current de facto standard character encoding for Web documents, which supports most human languages. The good news is: it does.

I wrote a test program which successfully reads in a utf-8 file (without BOM) and manipulates the characters using mb_substr, mb_strlen, and mb_strpos (mb_substr should normally be avoided, as it must always start its search at character position 0).

The results with a variety of Unicode test characters in utf-8 encoding, up to four bytes in length, were mostly correct, except that accent marks were always mistakenly treated as separate characters instead of being combined with the previous character; this problem can be worked around by programming, when necessary.

Thank you Peter Albertsson for presenting that!

After spending more than eight hours tracking down two specific bugs in my mbstring-func_overloaded environment I have learned a very important lesson:

Many developers rely on strlen to give the amount of bytes in a string. While mb-overloading has very many advantages, the most hard-spotted pitfall must be this issue.

Two examples (from the two bugs found earlier):

1. Writing a string to a file:

2. Iterating through a string’s characters:

So, try to avoid these situations to support overloaded environments, and remeber Peter Albertssons remark if you find problems under such an environment.

I have been working with some funny html characters lately and due to the nightmare in manipulating them between mysql and php, I got the database column set to utf8, then store characters with html enity «ọ» as ọ in the database and set the encoding on php as «utf8».

This is where mb_strlen became more useful than strlen. While strlen(‘ọ’) gives result as 3, mb_strlen(‘ọ’,’UTF-8′) gives 1 as expected.

But left(column1,1) in mysql still gives wrong char for a multibyte string. In the example above, I had to do left(column1,3) to get the correct string from mysql. I am now about to investigate multibyte manipulation in mysql.

Источник

Длина строки и массива в PHP

php посчитать количество байт в строке. Смотреть фото php посчитать количество байт в строке. Смотреть картинку php посчитать количество байт в строке. Картинка про php посчитать количество байт в строке. Фото php посчитать количество байт в строке

Привет. В PHP довольно часто приходится работать со строками и массивами и почти во всех случаях требуется узнать их длину (length). Вполне типичная ситуация и для нее есть встроенные функции в PHP. Но есть некоторые нюансы, к примеру то, что одна из функций, которая показывает длину строки — srtlen считает не количество символов в тексте, а количество байт, который занимает каждый символ. Если латинский символ занимает 1 байт, то на кириллице он займет 2 байта. Об этом я же упоминал в статье по теме: как обрезать текст по количеству слов и символов. Но сейчас постараемся рассмотреть некоторые примеры более детально.

Узнать длину строки в PHP

Первая функция, которая будет вычислять длину строки в PHP, будет strlen.

$str = «Hello World»; echo strlen($str); // 11 символов вместе с пробелом

А если мы напишем примерно то же самое, но на русском, то получим такой вариант:

$str = «Привет Мир»; echo strlen($str); // 19 символов вместе с пробелом

В этом случае, как я уже говорил ранее, каждый символ займет 2 байта + 1 байт — это пробел. В итоге мы получим не совсем то, что ожидали. Поэтому в случае с кириллицей, чтобы определить длину строки, следует использовать другие функции. Первая — mb_strlen

$str = «Привет Мир»; echo mb_strlen($str); // 10 символов вместе с пробелом

В этом случае подсчет символов в строки будет одинаковым как на английском, так и на русском языках. Даже если символ занимает несколько байт, то будет посчитан, как один. Так же есть еще одна функция, чтобы узнать длину строки в символах — iconv_strlen

$str = «Привет Мир»; echo iconv_strlen($str); // 10 символов вместе с пробелом

iconv_strlen учитывает кодировку строки, ее можно указать вторым параметром. Если она не указана, то кодировка будет внутренней. То есть самого файла.

echo iconv_strlen($str, «UTF-8»);

Если возникла необходимость проверить длину строки без пробелов, то потребуется дополнительная функция str_replace

Узнать длину массива в PHP

функция, которая позволяет узнать длину массива в PHP — count.

То же самое будет с массивом, где есть ключи и значения.

strlen()Подсчет количества байт в строке
mb_stren()Подсчет символов в строке
iconv_strlen()Подсчет символов строки с учетом кодировки
count()Подсчет элементов массива

На этом можно завершить. Теперь вы можете самостоятельно узнать длину строки в PHP и определить длину массива. А если возникнут вопросы, задавайте их в комментариях.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *