spamsink | Программистский вопрос; возможно, тупой

Вопрос про регулярные выражения.
Приглашаются также продвинутые пользователи текстовых редакторов, ворд-процессоров и т. п., знающие магический смысл сочетания .* в строке поиска по тексту.

Легко написать регулярное выражение, которое находит строки, содержащие "foo" слева от "bar", и чтобы "qux" было между ними: foo.*qux.*bar (не будем сейчас вдаваться в подробности, как именно распределятся символы строки по этим ".*", если вхождений "foo", "bar" или "qux" в строке несколько).

Вопрос вот в чём: есть ли где-нибудь такое расширение языка регулярных выражений, которое позволило бы компактно записать условие найти строки, содержащие "foo" слева от "bar", и чтобы между ними не было "qux"?

UPD: На самом деле здесь две задачи. Первая: паттерну должны удовлетворять строки /foo(.*)bar/ (т.е. .* захватывает всё между первым вхождением foo и последним вхождением bar в строке), такие, что в захваченной строке не содержится qux; вторая: паттерну должны удовлетворять строки, в которых найдутся такие вхождения foo и bar, между которыми нет qux.

Строка "foo qux foo xxx bar qux bar" не удовлетворяет первому паттерну, но удовлетворяет второму.

Похоже, negative lookahead assertions решают одну из двух задач

$ python3 Python 3.9.4 (default, Apr 5 2021, 01:49:30) [Clang 12.0.0 (clang-1200.0.32.29)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import re >>> x = re.compile('foo((?!qux).)*bar') >>> x.match('foo bar') <re.Match object; span=(0, 7), match='foo bar'> >>> x.match('foo qux bar') None >>> x.match('foo xxx bar qux bar') <re.Match object; span=(0, 11), match='foo xxx bar'>

Flat | Top-Level Comments Only

.* придется убрать.

foo[^q](q[^u](qu[^x]*)?)?bar

Ну, может, скобок убавить.

Спасибо, но внезапный италик намекает, что где-то звёздочки превратились в тыкву. Пользуйся <pre>/</pre>

И что, ни одна сука до сих не придумала нормального макроса для сокращённой/безошибочной записи этого уродства? Мало ли, может, у меня вместо qux слово из пятнадцати букв.

Edited 2021-06-15 03:37 (UTC)

О блин. Ну да, после закрывающей квадратной скобки.

А что делать, что делать. Мы ж изготовляем конечный автомат.

Ну да, но синтаксического сахарку хочется. Пусть железный его изготовляет, если очевидно, каким образом.
А если надо написать, чтобы не было ни qux, ни yabba, то это же сдохнуть можно будет руками писать.

Edited 2021-06-15 03:55 (UTC)

Части регулярных выражений можно распихать по переменным, а потом собирать из них.

I think that's not quite right. You want

foo([^q]|q[^u]|qu[^x])*bar

, but they have lookaheads now. (We've done dirty "close tag" matching "open tag" that way, with obvious issues)

There are various lookaheads and lookbehinds supported now:

foo((?!qux).)*bar

might work (haven't tested).

Edited 2021-06-15 04:39 (UTC)

matches fooquxbar though (original with dot in front)

Edited 2021-06-15 04:42 (UTC)

Увы-с. Не работает для

foo xxx bar qux bar

а должно.

Edited 2021-06-15 06:26 (UTC)

JS:

> x = /foo((?!qux).)*bar/
/foo((?!qux).)*bar/
> x.test('foo bar')
true
> x.test('foo qux bar')
false
> x.test('foo xxx bar qux bar')
true

may be language specific, eg "?!" not implemented?

Edited 2021-06-15 08:49 (UTC)

Вообще у меня что-то из такого таки работало, но не помню, что, где и в насколько частном случае https://stackoverflow.com/q/2404010/539470

Тред не читал @ сразу отвечал

Edited 2021-06-15 05:30 (UTC)

Все решения с negative lookahead assertions будут отвергать строку foo xxx bar qux bar, а не должны.

> Все решения

Is there a reason, like a specification for regex with negative lookahead? Javascript and python work just fine for foo xxx bar qux bar.

Вроде в Перле есть?

В Перле есть negative assertions, но с ними или коряво, или не совсем то, что надо.

В апдейте я уточнил про две разные задачи, и хочется чего-то вроде foo(*!qux)bar в первом случае (просто звёздочка захватывает максимальную длину) и foo(*?!qux)bar во втором (звёздочка-вопрос захватывает минимальную длину). Именно с захватом, а не assertion. Такого я не видел.

Я обычно делаю что-то вроде

sed 's/qux/ß/g' | grep 'foo[^ß]*bar' | sed 's/ß/qux/g'

Вместо ß можно использовть что-нибудь более экзотическое, если текст на немецком.

Как в принципе сделать, что мне нужно - не очень большая проблема; вопрос, как это записать, чтобы было и эффективно, и читабельно.

Программистский вопрос; возможно, тупой

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject