preg grep php примеры
PHP и регулярные выражения: азы для новичков
В преддверии старта нового потока по курсу «Backend-разработчик на PHP», а также смежного с ним курса «Framework Laravel», хотим поделиться статьей, которую подготовил наш внештатный автор.
Внимание! данная статья не имеет отношения к программе курса и будет полезна только для новичков. Для получения более углубленных знаний приглашаем вас посетить бесплатный двухдневный онлайн интенсив по теме: «Создание Telegram-бота для заказа кофе в заведении и оплаты онлайн». Второй день интенсива будет проходить тут.
Всем привет! Всех с наступившим [20]<2,>0 годом. Сегодня я хочу затронуть тему, которая иногда является темой для шуток от «Да зачем тебе все это учить, если есть уже есть готовые решения» до «может тебе еще и весь Perl выучить?». Однако время идет, множество программистов начинают осваивать регулярные выражения, а на Хабре нет ни одной свежей (хоть регулярные выражения не слишком изменились за последнее время) статьи на этой тематику. Пришло время написать ещё одну!
Регулярные выражения в отрыве от их конкретной реализации
Регулярные выражения (обозначаемые в английском как RegEx или как regex) являются инструментальным средством, которое применяется для различных вариантов изучения и обработки текста: поиска, проверки, поиска и замены того или иного элемента, состоящего из букв или цифр (или любых других символов, в том числе специальных символов и символов пунктуации). Изначально регулярные выражения пришли в мир программирования из среды научных исследований, которые проводились в 50-е годы в области математики.
Спустя десятилетия принципы и идеи были перенесены в среду операционной системы UNIX (в частности вошли в утилиту grep ) и были реализованы в языке программирования Perl, который на заре интернета широко использовался на бэкенде (и по сей день используется, но уже меньше) для такой задачи, как, например, валидация форм.
Если они вроде простые, тогда почему такие страшные на первый взгляд?
На самом деле любое выражение может быть «регулярным» и применяться для проверки или поиска каких-либо символов. Например, слова Pavel или example@mail.ru тоже могут использоваться как регулярки, только, понятное дело, в довольно узком ключе. Для проверки работы регулярных выражений в среде PHP без запуска своего сервера или хостинга вы можете воспользоваться следующим онлайн сервисом (вот только на нем у меня не работала обработка русских символов). Для начала в качестве регулярного выражения мы используем просто Pavel.
Положим у нас есть следующий текст:
Pavel knows too much. Pavel using nginx and he’s not rambler.
Сейчас регулярные выражения нашли оба вхождения слова Pavel. Здорово, но звучит не очень полезно (разве что только вы зачем-то пытаетесь проанализировать что-то вроде количества упоминания слова сударь в Войне и Мире через Vim и Python, но тогда у меня к вам вопросов нет).
Вариативность выражения
Если ваше регулярное выражение вариативно (например, вам известна только некоторая его часть и нужно найти количество вхождений годов, начиная от 2000 и заканчивая 2099), то мы можем использовать следующее регулярное выражение: 20..
Текст: Молодые писатели пишут много чего. Например писатель 2002 года рождения очень отличается от 2008 и 2012
Здесь у нас с помощью регулярного выражения найдутся все годы, но пока в этом нет никакого смысла. Скорее всего нам не нужны годы дальше 2012 (хотя молодые писатели младше 8 лет могут обидеться, но не об этом сейчас). Стоит изучить наборы символов, но об этом попозже, потому как сейчас поговорим про другую важную часть регулярных выражений: экранирование метасимволов.
Регулярное выражение: \.doc
Совпадение с целым набором символов
Регулярное выражение: 3\.jpg
Текст: 1.jpg, 2.jpg, 3.jpg, photo.jpg, anime.jpg, 8.jpg, jkl.jpg
Стоит отметить, что имя файлов из более 1 цифры наше регулярное выражение не охватит. Про множественный выбор будет чуть ниже, а пока представим, что нам вдруг понадобилось добиться обратного результата. Добавим метасимвол ^ (у которого, самое противное, в регулярных выражениях есть аж две функции). Чтобы воспользоваться им как исключением, нужно добавить его именно внутрь нашего набора:
Регулярное выражение: [^0-9]\.jpg
Но без множественного выбора это конечно неполноценные выражения.
Полезные таблицы
Приведем таблицу метасимволов:
\ | экранировать метасимвол как обычный символ |
^ | искать определенный символ именно в начале строки (но только если исключить его из набора []) |
$ | конец строки |
| | альтернатива |
() | группировка |
\w | все буквенно и цифровые символы (многие руководства почему-то не договаривают про цифровые символы) |
\W | тоже самое, только наоборот |
\s | любой пробельный символ |
\S | любой НЕ пробельный символ |
Таблица пробельных метасимволов
[\b] | возврат на один символ |
\f | перевод страницы |
\n | перевод строки |
\r | возрат каретки |
\t | табуляция |
\v | вертикальная табуляция |
Множественный выбор: делаем простую валидацию
Регулярное выражение: \b\w<1,3>\b:
Неплохо! Теперь слова короче трех букв не смогут попадать в нашу базу данных. Посмотрим на валидацию почтового адреса:
Регулярное выражение: \w+@\w+\.\w+
Подробнее рассмотрим повторение символов
Теперь давайте поподробнее разберем, как можно в регулярных выражениях задать повторение символов. К примеру вы хотите найти любые комбинации цифр от 2-6 в тексте:
Регулярное выражение: 2+
Давайте я приведу таблицу всех квантификаторов метасимволов:
* | символы повторяются 0 и до бесконечности |
+ | повторяются от 1 и до бесконечности |
повторяются точно n раз | |
от n и до бесконечности | |
от n1 и до n2 раз точно | |
? | 0 или 1 символ, не больше |
В применении квантификаторов нет ничего сложного. Кроме одного нюанса: жадные и ленивые квантификаторы. Приведем таблицу:
Ленивые квантификаторы отличаются от жадных тем, что они выхватывают минимальное, а не максимальное количество символов. Представим, что есть у нас задача найти все теги заголовков h1-h6 и их контент, а весь остальной текст не должен быть затронут (я умышленно ввел несуществующий тэг h7, чтобы не мучаться с экранированием хабровских тэгов):
Текст: h7 > hello h7 > lorem ipsum avada kedavra h7 > buy /h7 >
Все сработало успешно, однако только благодаря ленивому квантификатору. В случае применения жадного квантификатора у нас выделился бы весь текст между тегами (полагаю, в иллюстрации это не нуждается).
Границы символьных строк
Границы символьных строк мы уже использовали выше. Приведем здесь более подробную таблицу:
\b | граница слова |
\B | не граница слова |
\A | начало строки |
\Z | конец строки |
\G | конец действия |
Работа с подвыражениями
Текст: 255.255.255.255 просто адрес
191.198.174.192 wikipedia
87.240.190.67 vk
31.13.72.36 facebook
Здесь используется логический оператор | (или), который позволяет нам составить регулярное выражение, которое соответствует правилу, по которому составляются IP- адреса. В IP адресе должно быть от 1 и до 3 цифр, в котором число из трех чисел может начинаться с 1, с 2 (или тогда вторая цифра должна быть в пределах от 0 и до 4), или начинаться с 25, и тогда 3 цифра оказывается в пределах от 0 и до 5. Также между каждой комбинацией цифр должна стоять точка. Используя приведенные выше таблицы, постарайтесь сами расшифровать регулярное выражение сверху. Регулярные выражения в начале пугают своей длинной, но длинные не значит сложные.
Просмотр вперед
Приведем конкретную задачу: есть пароль, который должен состоят не менее чем из 7 символов и должен обязательно включать как минимум одну заглавную букву и цифру. Здесь все будет несколько сложнее, потому как пользователь должен иметь возможность поставить заглавную букву как в начале, так и в середине предложения (и тоже самое должно повторяться с буквой).
Следовательно, нам потребуется просмотр выражения вперед. Кроме того, нам нужно разбить на группы знаки. И я хочу ограничить его размеры от 8 и до 22 знаков:
Текст: Qwerty123
Im789098
weakpassword
Особенности работы регулярных выражений именно в PHP
Для изучения работы регулярных выражений в PHP, изучите функции в официальной документации PCRE (Perl Compatible Regular Expressions) которая доступна на официальном сайте. Выражение должно быть заключено в разделители, например, в прямые слеши.
Разделителем могут выступать произвольные символы, кроме буквенно-цифровых, обратного слеша ‘\’ и нулевого байта. Если символ разделителя встречается в шаблоне, его необходимо экранировать \. В качестве разделителей доступны комбинации, пришедшие из Perl: (), <>, [].
Какие функции используются в php? В пакете PCRE предоставляются следующие функции для поддержки регулярных выражений:
Замещающие строки допускается вычислять в виде кода PHP. Для активизации данного режима служит модификатор e.
Наша статья была бы неполной без классов символов POSIX, которые также работают в PHP (и в общем вполне могут повысить читабельность ваших регулярок, но не все их спешат учить, потому как часто ломают логику выражения).
[[:alnum:]] | Любая буква английского алфавита или цифра |
[[:alpha:]] | Любая буква ([a-zA-Z]) |
[[:blank:]] | Пробельный символ или символ с кодом 0 и 255 |
[[:digit:]] | Любая цифра (3) |
[[:lower:]] | Любая строчная буква английского алфавита ([a-z]) |
[[:upper:]] | Любая заглавная буква английского алфавита ([A-Z]) |
[[:punct:]] | Любой знак пунктуации |
[[:space:]] | Любой пробельный символ |
[[:xdigit:]] | Любая шестнадцатеричная цифра ([0-9a-fA-F]) |
Под конец приведу пример конкретной реализации регулярных выражений в PHP, используя упомянутые выше реализации. Также я добавил валидацию имени пользователя, чтобы он не смог вводить слишком короткие сочетания букв (ну, положим, это никнеймы, а не имена, имена бывают короче двух букв):
Всем спасибо за внимание! Конечно, сегодня мы затронули только часть регулярных выражений и о них можно написать ещё несколько статей. К примеру, мы не поговорили о реализации поиска повторений одинаковых слов в тексте. Но я надеюсь, что полученных знаний хватит, чтобы осмысленно написать свою первую валидацию формы и уже потом перейти к более зубодробительным вещам.
По традиции, несколько полезных ссылок:
Шпаргалка от MIT по регулярным выражениям
Официальная часть документации php по регулярным выражениям.
На этом все. До встречи на интенсиве!
Второй день интенсива пройдет тут
Регулярные выражения в PHP.
Регулярные выражения позволяют найти в строке последовательности, соответствующие шаблону. Например шаблон «Вася(.*)Пупкин» позволит найти последовательность когда между словами Вася и Пупкин будет любое количество любых символов. Если надо найти шесть цифр, то пишем «6<6>» (если, например, от шести до восьми цифр, тогда «2<6,8>«). Здесь разделены такие вещи как указатель набора символов и указатель необходимого количества:
Как всякий гибкий инструмент, регулярные выражения гибки, но не абсолютно: зона их применения ограничена. Например, если вам надо заменить в тексте одну фиксированную строку на другую, фиксированную опять же, пользуйтесь str_replace. Разработчики php слезно умоляют не пользоваться ради этого сложными функциями ereg_replace или preg_replace, ведь при их вызове происходит процесс интерпретации строки, а это серьезно потребляет ресурсы системы. К сожалению, это любимые грабли начинающих php-программистов.
Набор символов
Не пользуйтесь классом символов для обозначения всего лишь одного (вместо «[ ]+» вполне сойдет » +»). Не пишите в классе символов точку это ведь любой символ, тогда другие символы в классе будут просто лишними (а в негативном классе получится отрицание всех символов).
Квантификатор
Квантификатором можно указать как конкретное значение, так и пределы. Если число заданных подпадает под пределы квантификатора, фрагмент выражения считается совпавшим с разбираемой строкой. Синтаксис:
Если нужно указать только необходимый минимум, а максимума нет, просто ставим запятую и не пишем второе число: «<5,>» («минимум 5»). Для наиболее часто употребляемых квантификаторов есть специальные обозначения:
* | «звёздочка» или знак умножения |
+ | плюс |
? | вопросительный знак |
На практике такие символы используются чаще, чем фигурные скобки.
Якоря
Эти символы должны стоять соответственно в самом начале и в самом конце строки.
Жадность
Вопросительный знак выступает еще и как минимизатор квантификатора:
.*?
Результат работы примера:
Строка шаблона, как вы уже заметили, начинается и заканчивается слэшами. После второго идут параметры:
i | регистронезависимый поиск |
m | |
s | символ «.» (точка) совпадает и с переносом строки (по умолчанию нет) |
A | привязка к началу текста |
E | заставляет символ «$» совпадать только с концом текста. Игнорируется, если установлен парамерт m. |
U | Инвертирует «жадность» для каждого квантификатора (если же после квантификатора стоит «?», этот квантификатор перестает быть «жадным»). |
e | Строка замены интерпретитуется как PHP код. |
Функции для работы с регулярными выражениями
preg_grep
array preg_grep (string pattern, array input [, int flags])
preg_grep() возвращает массив, состоящий из элементов входящего массива input, которые соответствуют заданному шаблону pattern.
Параметр flags может принимать следующие значения:
PREG_GREP_INVERT
В случае, если этот флаг установлен, функция preg_grep(), возвращает те элементы массива, которые не соответствуют заданному шаблону pattern.
Результат, возвращаемый функцией preg_grep() использует те же индексы, что и массив исходных данных. Если такое поведение вам не подходит, примените array_values() к массиву, возвращаемому preg_grep() для реиндексации.
Пример кода:
preg_match
int preg_match ( string pattern, string subject [, array matches [, int flags [, int offset]]]) Ищет в заданном тексте subject совпадения с шаблоном pattern
flags может принимать следующие значения:
Функция preg_match() возвращает количество найденных соответствий. Это может быть 0 (совпадения не найдены) и 1, поскольку preg_match() прекращает свою работу после первого найденного совпадения. Если необходимо найти либо сосчитать все совпадения, следует воспользоваться функцией preg_match_all(). Функция preg_match() возвращает FALSE в случае, если во время выполнения возникли какие-либо ошибки.
Рекомендация: Не используйте функцию preg_match(), если необходимо проверить наличие подстроки в заданной строке. Используйте для этого strpos() либо strstr(), поскольку они выполнят эту задачу гораздо быстрее.
Пример кода
Пример кода
Пример кода
preg_match_all
int preg_match_all (string pattern, string subject, array matches [, int flags [, int offset]])
Ищет в строке subject все совпадения с шаблоном pattern и помещает результат в массив matches в порядке, определяемом комбинацией флагов flags.
После нахождения первого соответствия последующие поиски будут осуществляться не с начала строки, а от конца последнего найденного вхождения.
Дополнительный параметр flags может комбинировать следующие значения (необходимо понимать, что использование PREG_PATTERN_ORDER одновременно с PREG_SET_ORDER бессмысленно):
Пример кода
Пример кода
В случае, если никакой флаг не используется, по умолчанию используется PREG_PATTERN_ORDER.
Возвращает количество найденных вхождений шаблона (может быть нулем) либо FALSE, если во время выполнения возникли какие-либо ошибки.
Пример кода
Пример кода
preg_quote
string preg_quote (string str [, string delimiter])
Функция preg_quote() принимает строку str и добавляет обратный слеш перед каждым служебным символом. Это бывает полезно, если в составлении шаблона участвуют строковые переменные, значение которых в процессе работы скрипта может меняться.
В случае, если дополнительный параметр delimiter указан, он будет также экранироваться. Это удобно для экранирования ограничителя, который используется в PCRE функциях. Наиболее распространенным ограничителем является символ ‘/’.
Пример кода
Пример кода
preg_replace
mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])
При использовании замены по шаблону с использованием ссылок на подмаски может возникнуть ситуация, когда непосредственно за маской следует цифра. В таком случае нотация вида \\n приводит к ошибке: ссылка на первую подмаску, за которой следует цифра 1, запишется как \\11, что будет интерпретировано как ссылка на одиннадцатую подмаску. Это недоразумение можно устранить, если воспользоваться конструкцией \$<1>1, указывающей на изолированную ссылку на первую подмаску, и следующую за ней цифру 1.
Результатом работы этого примера будет:
Если во время выполнения функции были обнаружены совпадения с шаблоном, будет возвращено измененное значение subject, в противном случае будет возвращен исходный текст subject.
Первые три параметра функции preg_replace() могут быть одномерными массивами. В случае, если массив использует ключи, при обработке массива они будут взяты в том порядке, в котором они расположены в массиве. Указание ключей в массиве для pattern и replacement не является обязательным. Если вы все же решили использовать индексы, для сопоставления шаблонов и строк, участвующих в замене, используйте функцию ksort() для каждого из массивов.
В случае, если параметр subject является массивом, поиск и замена по шаблону производятся для каждого из его элементов. Возвращаемый результат также будет массивом.
Модификатор /e меняет поведение функции preg_replace() таким образом, что параметр replacement после выполнения необходимых подстановок интерпретируется как PHP-код и только после этого используется для замены. Используя данный модификатор, будьте внимательны: параметр replacement должен содержать корректный PHP-код, в противном случае в строке, содержащей вызов функции preg_replace(), возникнет ошибка синтаксиса.
Пример кода: Замена по нескольким шаблонам
Этот пример выведет:
Пример кода: Использование модификатора /e
Пример кода: Преобразует все HTML-теги к верхнему регистру
preg_replace_callback
mixed preg_replace_callback (mixed pattern, callback callback, mixed subject [, int limit])
Пример кода
preg_split
array preg_split (string pattern, string subject [, int limit [, int flags]])
Возвращает массив, состоящий из подстрок заданной строки subject, которая разбита по границам, соответствующим шаблону pattern.
flags может быть произвольной комбинацией следующих флагов (соединение происходит при помощи оператора ‘|’):
PREG_SPLIT_NO_EMPTY
В случае, если этот флаг указан, функция preg_split() вернет только непустые подстроки.
PREG_SPLIT_DELIM_CAPTURE
В случае, если этот флаг указан, выражение, заключенное в круглые скобки в разделяющем шаблоне, также извлекается из заданной строки и возвращается функцией. Этот флаг был добавлен в PHP 4.0.5.
Примеры кода
В случае, если после открывающей круглой скобки следует «?:«, захват строки не происходит, и текущая подмаска не нумеруется. Например, если строка «the white queen» сопоставляется с шаблоном the ((?:red|white) (king|queen)), будут захвачены подстроки «white queen» и «queen», и они будут пронумерованы 1 и 2 соответственно:
HackWare.ru
Этичный хакинг и тестирование на проникновение, информационная безопасность
Регулярные выражения в PHP (ч. 1)
Оглавление
Первая часть:
Вторая часть:
Регулярные выражения PHP для новичков
Регулярное выражение — это шаблон, который описывает искомую строку используя специальный синтаксис.
Регулярные выражения имеют большое значение при поиске в тексте строк, точное содержание которых может быть неизвестно заранее, но которые должны соответствовать шаблону.
Например, я хочу из HTML страницы выбрать все строки, с HTML заголовками, в этом случае мне нужно написать регулярное выражение, которое найдёт все строки вида:
Поиск сразу всех этих строк можно задать одним единственным регулярным выражением. При этом между тэгами заголовков может быть любой текст — заранее мы его не знаем, но, тем не менее, мы всё равно найдём все строки заголовков.
Регулярные выражения могут использоваться для валидации (проверки соответствия данных заданным условиям), например, по шаблону регулярного выражения можно проверить, является ли введённая строка верным адресом электронной почты, или является ли она верной ссылкой, или является ли она предложением какого-либо языка и так далее.
Без регулярных выражений невозможен разбор и анализ большого массива текстовой информации, например, для парсинга логов, парсинга сайтов и других аналогичных задач.
Особенности регулярных выражений в PHP
Регулярные выражения из-за истории возникновения имеют две основных ветви:
К счастью, в своей основе эти группы регулярных выражений очень похожи. Имеются одиночные различия в синтаксисе или в наличии редко применимых возможностей.
С регулярными выражениями POSIX вы можете быть знакомы при использовании функции grep в системах Linux (кстати, рекомендуется прочитать статью по ссылке).
Если вы уже работали с регулярными выражениями в программе grep операционной системы Linux, то вам нужно обратить внимание на следующие отличия регулярных выражений PCRE, используемых в PHP:
1. Функции PCRE требуют, чтобы шаблон был заключён в разделители. О разделителях будет сказано ниже, но суть в том, что если в grep регулярное выражение выглядит так:
то в PHP оно будет выглядеть так:
То есть помещено между символами разделителя, которые не являются частью регулярного выражения. В качестве символов разделителя могут использоваться не только / (слэши), но и некоторые другие символы.
2. Если регулярное выражение POSIX (grep) совпадает с частью строки, то строка считается соответствующей регулярному выражению и возвращается полностью. Например:
В PCRE (PHP) возвращается только совпавшая часть строки. Следующий пример:
Такого поведения в grep можно добиться используя опцию:
С этой опцией grep также будет выводить только ту часть строки, которая соответствует шаблону.
3. Следующее отличие уже является больше особенностью PHP, а не регулярных выражений: совпавшие части строки в PHP собираются в массив. При этом в grep совпавшие строки просто выводятся в стандартный вывод.
Это не различие в регулярных выражениях, это особенности применения регулярных выражений в различных контекстах.
4. В grep есть возможность установить опции, например, -i (для регистронезависимого поиска) -v (для поиска только тех строк, которые не соответствуют шаблону) и очень многие другие опции. У PHP функций нет возможности установить опции, но имеются модификаторы шаблона. Этих модификаторов шаблона не так много как опций у grep, но они могут выполнять важную настройку, например, включать поиск без учёта регистра. При этом модификаторы шаблонов можно применять как ко всему шаблону целиком, так и к части шаблона (например, установить часть шаблона будет искать без учёта регистра, а другая часть с учётом регистра).
5. Особенности в поддержки «символьных классов». В своей базовой функциональности символьные классы работают одинаково и в POSIX и PCRE, но имеются различия в некоторых более сложных случаях.
Кстати, регулярные выражения POSIX ранее поддерживались в PHP, но эта поддержка была удалена в 7.0.0. В следствии этого, следующие функции, которые предназначались для работы с регулярными выражениями POSIX, были удалены:
Функции для работы с регулярными выражениями в PHP
Если столько удалено, то что там вообще осталось?! На самом деле, функций для поиска по регулярным выражениям и замены по регулярным выражениям в PHP достаточно:
Функции PHP поиска по регулярным выражениям
Как можно увидеть, имеется 3 функции поиска по регулярным выражениям:
Особенность первой функции preg_grep: она ищет совпадения в переданном ей массиве (а не в одной строке). В качестве полученного результата возвращает также массив.
Функция preg_match_all ищет количество совпадений шаблону в строке. Возвращает число, соответствующее количеству найденных совпадений. Эту функцию можно использовать с разным количеством аргументов.
Например, запуск с двумя аргументами:
Таким образом вы сможете узнать только количество найденных совпадений, но сами найденные совпадения вы не узнаете.
Если запустить с тремя аргументами:
То в последнюю переменную в виде массива будут собраны все найденные совпадения строк.
Также можно запустить с четвёртым аргументом (флаг для установки порядки записи найденных совпадений в массив) и с пятым аргументом (сдвиг, показывающий с какой части строки искать совпадения), но это используется реже, поэтому рассмотрим это позже, чтобы не забивать сейчас голову.
Функция preg_match также может быть запущена с от двух до пяти аргументов, похожа на функцию preg_match_all. Но её особенностью является то, что она ищет хотя бы одно совпадение. Если это совпадение найдено, то другие совпадения не ищутся. Поэтому данная функция возвращает либо 0 (совпадения не найдены), либо 1 (совпадение найдено).
Далее в примерах я буду использовать функцию preg_match_all.
Синтаксис регулярных выражений в PHP
Буквальное значение букв и цифр
По умолчанию цифры и буквы в регулярных выражениях имеют буквальное значение. Нужно помнить, что значение цифр и букв может иметь особый смысл, если они являются частью рассмотренных ниже конструкций. Но в остальных случаях это именно буквальная последовательность символов.
В примере выше регулярное выражение /aaa/ ищет буквальную строку aaa.
. (точка) — любой символ
Точка в регулярном выражении означает «один любой символ».
Например, регулярное выражение / / мы исходили из того, что у заголовков есть стиль style=»text-align: justify;». Но это свойство может быть не у всех заголовков, поэтому мы могли что-то пропустить.
Мы можем составить более гибкое регулярное выражение, например:
Оно означает, что ищется буквальная строка
Или иметь дополнительные атрибуты, например, таким:
Составим регулярное выражение, которое это учитывает:
Также обратите внимание на результаты. Мы уже знаем, что найденные строки собираются в массив. На самом деле, получается массив, у которого элементом под индексом 0 является другой массив — уже с теми самыми совпавшими строками. Сейчас всё также. Но у главного массива ещё появился элемент с индексом 1 — в него помещён другой массив со строками, которые совпали с выражением, помещённым в скобки. Если вы знаете, что такое обратные ссылки (в PHP их называют подмаски), так вот это они и есть. Если бы круглые скобки встречались два раза, то был бы ещё один массив в качестве элемента с индексом 2 и так далее.
НЕ (противоположность)
В классе символов, инвертирующим символом является ^.
/[^ab]/ соответствует любому символу, кроме a или b.
В предыдущем примере наши заголовки выводились в виде
Получаем регулярное выражение:
И ещё, чтобы выводился только нулевой массив, без массивов совпадений с обратными ссылками, то мы заменим print_r($found); на print_r($found[0]);
Напомню код, которым я парсю страницу, если вы его потеряли:
Отлично, именно что мы и хотели:
Кстати, если мы хотим получить первый тэг заголовка, затем содержимое заголовка, а затем ещё и закрывающий тэг, то всё довольно просто
Правда, не будут найдены заголовки разбитые на несколько строк, например:
Якоря — анкоры (начало и конец строки)
По умолчанию заданное регулярное выражение ищется в любой части строки для анализа. Используя анкоры мы можем символически обозначить начало и (или) конец строки:
^ означает «начало строки». /^a/ соответствует «alpha» и «Arnold»
$ означает «конец строки». /a$/ соответствует «alpha» и «stella»
/^$/ соответствует пустой строке
/^ соответствует любой строке (у любой строки есть начало)
Метасимволы
Итак, в регулярном выражении буквы и цифры обычно имеют своё буквальное значение. Хотя если цифры, например, в фигурных скобках , то это означает, что предыдущий символ или набор символов (если они ограничены круглыми скобками или квадратными скобками) встречаются указанное количество раз.
То есть некоторые символы имеют специальное значение. Если, допустим, вы хотите использовать буквальное значение метасимвола, например, искать строку, содержащую $ (знак доллара), то вам нужно закомментировать этот метасимвол обратным слэшом \, чтобы получилось так: \$. В этом случае метасимвол теряет своё специальное значение и начинает восприниматься как самый обычный символ.
Далее будут приведены все изученные метасимволы. Также помните, что символ выбранный в качестве разделителя также начинает иметь специальное значение — при следующем использовании он будет означать конец регулярного выражения. Поэтому если вы хотите использовать буквальное значение символа, выбранного в качестве разделителя, то экранируйте его. О разделителях чуть ниже.
Существуют два различных набора метасимволов: те, которые используются внутри квадратных скобок, и те, которые используются вне квадратных скобок. Вне квадратных скобок используются следующие метасимволы:
Метасимволы вне квадратных скобок
Метасимвол | Описание |
---|---|
\ | общий экранирующий символ, допускающий несколько вариантов применения |
^ | декларирует начало данных (или строки в многострочном режиме) |
$ | декларирует конец данных или до завершения строки (или окончание строки в многострочном режиме) |
. | соответствует любому символу, кроме перевода строки (по умолчанию) |
[ | начало описания символьного класса |
] | конец описания символьного класса |
| | начало ветки условного выбора |
( | начало подмаски |
) | конец подмаски |
? | расширяет смысл метасимвола (, является также квантификатором, означающим 0 или 1 вхождение, также преобразует жадные квантификаторы в ленивые (об этом ниже)) |
* | квантификатор, означающий 0 или более вхождений |
+ | квантификатор, означающий 1 или более вхождений |
< | начало количественного квантификатора |
> | конец количественного квантификатора |
Часть шаблона, заключенная в квадратные скобки называется символьным классом. В символьном классе используются следующие метасимволы:
Метасимволы внутри квадратных скобок (символьном классе)
Метасимвол | Описание |
---|---|
\ | общий экранирующий символ |
^ | означает отрицание класса, допустим только в начале класса |
— | означает символьный интервал |
Разделители
При использовании любой PCRE функции необходимо заключать шаблон в разделители. Разделителем может быть любой символ не являющийся буквой, цифрой, обратной косой чертой или каким-либо пробельным символом.
Часто используемыми разделителями являются косые черты (/), знаки решетки (#) и тильды (
). Ниже представлены примеры шаблонов с корректными разделителями.
Также можно использовать разделитель в виде скобок, где стартовый и завершающий разделители являются соответственно открывающей и закрывающей скобками. (), <>, [] и <> являются допустимыми парами разделителей.
Разделители в виде скобок не нужно экранировать, если они также используются как метасимволы в шаблоне, но как и с другими разделителями их нужно экранировать, если они используются непосредственно как символы.
Если необходимо использовать разделитель внутри шаблона, его нужно проэкранировать с помощью обратной косой черты. Если разделитель часто используется в шаблоне, в целях удобочитаемости, лучше выбрать другой разделитель для этого шаблона.
Функция preg_quote() может быть использована для экранирования строки, используемой в шаблоне, а ее необязательный второй параметр позволяет указать используемый разделитель.
После закрывающего разделителями можно использовать модификаторы шаблонов. Ниже следует пример регистро-независимого поиска:
Модификаторы шаблонов
Теперь мы дошли до тех самых модификаторов, которые выполняют роль опций.
Самый простой случай применения — это указать опцию после маски. К примеру, модификатор шаблона i означает поиск без учёта регистра. К примеру маска:
Будет соответствовать строке «cat».
Будет соответствовать строкам cat, Cat, CAT, cAt и так далее.
Итак, имеются следующие модификаторы:
Означает поиск без учёта регистра.
Если этот модификатор не используется, что метасимволы ‘^‘ и ‘$‘, на самом деле, соответствуют началу всего обрабатываемого текста и концу всего обрабатываемого текста — даже если текст разбит на несколько строк. Если же используется этот модификатор, то метасимволы ‘^‘ и ‘$‘ начинают работать как и предполагается: они означают начало строк и конец строк. В случае, если обрабатываемый текст не содержит символов перевода строки, либо шаблон не содержит метасимволов ‘^‘ или ‘$‘, данный модификатор не имеет никакого эффекта.
Хотя выше сказано, что . (точка) означает любой символ, на самом деле, правильнее так: «любой символ, кроме перевода строк». Если использовать данный модификатор, то метасимвол «.» действительно начинает означать «любой символ», в том числе включая перевод строк.
Если используется данный модификатор, неэкранированные пробелы, символы табуляции и пустой строки будут проигнорированы в шаблоне, если они не являются частью символьного класса. Также игнорируются все символы между неэкранированным символом ‘#‘ (если он не является частью символьного класса) и символом перевода строки (включая сами символы ‘\n‘ и ‘#‘).
Если используется данный модификатор, соответствие шаблону будет достигаться только в том случае, если он «заякорен», то есть соответствует началу строки, в которой производится поиск.
Если используется данный модификатор, метасимвол $ в шаблоне соответствует только окончанию обрабатываемых данных. Без этого модификатора метасимвол $ соответствует также позиции перед последним символом, в случае, если им является перевод строки (но не распространяется на любые другие переводы строк). Данный модификатор игнорируется, если используется модификатор m.
В случае, если планируется многократно использовать шаблон, имеет смысл потратить немного больше времени на его анализ, чтобы уменьшить время его выполнения. В случае, если данный модификатор используется, проводится дополнительный анализ шаблона. В настоящем это имеет смысл только для «незаякоренных» шаблонов, не начинающихся с какого-либо определенного символа.
Этот модификатор инвертирует жадность квантификаторов, таким образом они по умолчанию не жадные. Но становятся жадными, если за ними следует символ ?.
Подробнее про жадность и ленивость квантификаторов будет далее.
Этот модификатор включает дополнительную функциональность PCRE, которая не совместима с Perl: любой обратный слеш в шаблоне, за которым следует символ, не имеющий специального значения, приводят к ошибке. Это обусловлено тем, что подобные комбинации зарезервированы для дальнейшего развития. По умолчанию же, как и в Perl, слеш со следующим за ним символом без специального значения трактуется как опечатка. На сегодняшний день это все возможности, которые управляются данным модификатором
Этот модификатор включает дополнительную функциональность PCRE, которая не совместима с Perl: шаблон и целевая строка обрабатываются как UTF-8 строки. Недопустимая целевая строка приводит к тому, что функции preg_* ничего не находят, а неправильный шаблон приводит к ошибке уровня E_WARNING. Пятый и шестой октеты UTF-8 последовательности рассматриваются недопустимыми с PHP 5.3.4 (согласно PCRE 7.3 2007-08-28); ранее они считались допустимыми.
На мой взгляд, на практике действительно важными являются модификаторы i (поиск без учёта регистра) и U (изменение жадности операторов на противоположную).
«Жадные» и «ленивые» регулярные выражения
Кванторы — это то, что отвечает за количество символов, например, , + (один или более символов), * (ноль или более символов) и так далее.
Так вот кванторы бывают либо «жадные», либо «ленивые» (видимо, хороших среди них вообще нет ).
Это серьёзный вопрос, так как может давать неожиданный результат при поиске по регулярному выражению. Особенно это встречается когда возможны варианты интерпретации.
Допустим, в качестве регулярного выражения имеется:
Оно означает маленькую букву a один или более раз.
А строкой, по которой производится поиск, является:
Что именно найдёт регулярное выражение? Строку «a»? Ведь это удовлетворяет условию регулярного выражения. Или строку «aaaaaaaaaaaa»? Ведь она тоже удовлетворяет указанному регулярному выражению. Или строку какой-то промежуточной длины?
Давайте проверим сами:
Этот пример может оказаться оторванным от жизни — искусственным, давайте рассмотрим более практический случай. Имеется строка по которой нужно выполнить поиск:
Мы используем регулярное выражение
Эта строка также соответствует приведённому регулярному выражению.
Это означает, что квантор (в данном случае это +) является жадным. Или по-английски Greedy. В свою очередь ленивый квантор (от английского Lazy) означает, что будет искаться минимальная удовлетворяющая условиям поиска строка. Для переключения жадный/ленивый квантора после него нужно поставить ? (знак вопроса).
Как уже было сказано, знак вопроса является переключателем, приведём таблицу кванторов и их жадности:
Жадный квантор | Ленивый квантор | Описание |
---|---|---|
* | *? | Знак звёздочки: 0 или более |
+ | +? | Знак плюс: 1 или более |
? | ?? | Знак вопроса: 0 или 1 |
ровно n | ||
n или более | ||
<,m>? | m или менее | |
Между n и m |
Если вам нужно переключить сразу все кванторы в противоположную позицию, то используйте модификатор U.
Посмотрим наш предыдущий пример, но теперь добавим в регулярное выражение модификатор U:
Результат вот такой:
Регулярное выражение /a+/U в данном случае можно было бы записать и так: /a+?/