I’m looking for a way to search a text file for quotes made by author and then print them out. My script so far:
import re
#searches end of string
print re.search('"$', 'i am searching for quotes"')
#searches start of string
print re.search('^"' , '"i am searching for quotes"')
What I would like to do
import re
## load text file
quotelist = open('A.txt','r').read()
## search for strings contained with quotation marks
re.search ("-", quotelist)
## Store in list or Dict
Dict = quotelist
## Print quotes
print Dict
I also tried
import re
buffer = open('bbc.txt','r').read()
quotes = re.findall(r'.*"[^"].*".*', buffer)
for quote in quotes:
print quote
# Add quotes to list
l = []
for quote in quotes:
print quote
l.append(quote)
MERose
3,8987 gold badges53 silver badges77 bronze badges
asked May 8, 2012 at 15:46
1
Develop a regular expression that matches all the expected characters you would expect to see inside of a quoted string. Then use the python method findall
in re
to find all occurrences of the match.
import re
buffer = open('file.txt','r').read()
quotes = re.findall(r'"[^"]*"',buffer)
for quote in quotes:
print quote
Searching between ” and ” requires a unicode-regex search such as:
quotes = re.findall(ur'"[^u201d]*u201d',buffer)
And for a document that uses ” and ” interchangeably for quotation termination
quotes = re.findall(ur'"[^"^u201d]*["u201d]', buffer)
answered May 8, 2012 at 15:58
lukecampbelllukecampbell
14.7k4 gold badges34 silver badges32 bronze badges
9
You don’t need regular expressions to find static strings. You should use this Python idiom for finding strings:
>>> haystack = 'this is the string to search!'
>>> needle = '!'
>>> if needle in haystack:
print 'Found', needle
Creating a list is easy enough –
>>> matches = []
Storing matches is easy too…
>>> matches.append('add this string to matches')
This should be enough to get you started. Good luck!
An addendum to address the comment below…
l = []
for quote in matches:
print quote
l.append(quote)
answered May 8, 2012 at 15:56
jaimejaime
2,2061 gold badge18 silver badges22 bronze badges
6
Шпаргалка по регулярным выражениям
Квантификаторы
Аналог | Пример | Описание | |
---|---|---|---|
? | {0,1} | a? | одно или ноль вхождений «а» |
+ | {1,} | a+ | одно или более вхождений «а» |
* | {0,} | a* | ноль или более вхождений «а» |
Модификаторы
Символ «минус» (-) меред модификатором (за исключением U) создаёт его отрицание.
Описание | |
---|---|
g | глобальный поиск (обрабатываются все совпадения с шаблоном поиска) |
i | игнорировать регистр |
m | многострочный поиск. Поясню: по умолчанию текст это одна строка, с модификатором есть отдельные строки, а значит ^ – начало строки в тексте, $ – конец строки в тексте. |
s | текст воспринимается как одна строка, спец символ «точка» (.) будет вкючать и перевод строки |
u | используется кодировка UTF-8 |
U | инвертировать жадность |
x | игнорировать все неэкранированные пробельные и перечисленные в классе символы |
Спецсимволы
Аналог | Описание | |
---|---|---|
() | подмаска, вложенное выражение | |
[] | групповой символ | |
{a,b} | количество вхождений от «a» до «b» | |
| | логическое «или», в случае с односимвольными альтернативами используйте [] | |
экранирование спец символа | ||
. | любой сивол, кроме перевода строки | |
d | [0-9] | десятичная цифра |
D | [^d] | любой символ, кроме десятичной цифры |
f | конец (разрыв) страницы | |
n | перевод строки | |
pL | буква в кодировке UTF-8 при использовании модификатора u | |
r | возврат каретки | |
s | [ tvrnf] | пробельный символ |
S | [^s] | любой символ, кроме промельного |
t | табуляция | |
w | [0-9a-z_] | любая цифра, буква или знак подчеркивания |
W | [^w] | любой символ, кроме цифры, буквы или знака подчеркивания |
v | вертикальная табуляция |
Спецсимволы внутри символьного класса
Пример | Описание | |
---|---|---|
^ | [^da] | отрицание, любой символ кроме «d» или «a» |
– | [a-z] | интервал, любой симво от «a» до «z» |
Позиция внутри строки
Пример | Соответствие | Описание | |
---|---|---|---|
^ | ^a | aaa aaa | начало строки |
$ | a$ | aaa aaa | конец строки |
A | Aa | aaa aaa aaa aaa |
начало текста |
z | az | aaa aaa aaa aaa |
конец текста |
b | ab ba |
aaa aaa aaa aaa |
граница слова, утверждение: предыдущий символ словесный, а следующий – нет, либо наоборот |
B | BaB | aaa aaa | отсутствие границы слова |
G | Ga | aaa aaa | Предыдущий успешный поиск, поиск остановился на 4-й позиции — там, где не нашлось a |
Скачать в PDF, PNG.
Якоря
Якоря в регулярных выражениях указывают на начало или конец чего-либо. Например, строки или слова. Они представлены определенными символами. К примеру, шаблон, соответствующий строке, начинающейся с цифры, должен иметь следующий вид:
^[0-9]+
Здесь символ ^
обозначает начало строки. Без него шаблон соответствовал бы любой строке, содержащей цифру.
Символьные классы
Символьные классы в регулярных выражениях соответствуют сразу некоторому набору символов. Например, d
соответствует любой цифре от 0 до 9 включительно, w
соответствует буквам и цифрам, а
W
— всем символам, кроме букв и цифр. Шаблон, идентифицирующий буквы, цифры и пробел, выглядит
так:
ws
POSIX
POSIX — это относительно новое дополнение семейства регулярных выражений. Идея, как и в случае с символьными
классами, заключается в использовании сокращений, представляющих некоторую группу символов.
Утверждения
Поначалу практически у всех возникают трудности с пониманием утверждений, однако познакомившись с ними ближе, вы
будете использовать их довольно часто. Утверждения предоставляют способ сказать: «я хочу найти в этом документе
каждое слово, включающее букву “q”, за которой не следует “werty”».
[^s]*q(?!werty)[^s]*
Приведенный выше код начинается с поиска любых символов, кроме пробела ([^s]*
), за которыми следует
q
. Затем парсер достигает «смотрящего вперед» утверждения. Это автоматически делает предшествующий
элемент (символ, группу или символьный класс) условным — он будет соответствовать шаблону, только если
утверждение верно. В нашем случае, утверждение является отрицательным (?!
), т. е. оно будет верным,
если то, что в нем ищется, не будет найдено.
Итак, парсер проверяет несколько следующих символов по предложенному шаблону (werty
). Если они найдены,
то утверждение ложно, а значит символ q
будет «проигнорирован», т. е. не будет соответствовать шаблону.
Если же werty
не найдено, то утверждение верно, и с q
все в порядке. Затем продолжается
поиск любых символов, кроме пробела ([^s]*
).
Кванторы
Кванторы позволяют определить часть шаблона, которая должна повторяться несколько раз подряд. Например, если вы
хотите выяснить, содержит ли документ строку из от 10 до 20 (включительно) букв «a», то можно использовать этот
шаблон:
a{10,20}
По умолчанию кванторы — «жадные». Поэтому квантор +
, означающий «один или больше раз», будет
соответствовать максимально возможному значению. Иногда это вызывает проблемы, и тогда вы можете сказать квантору
перестать быть жадным (стать «ленивым»), используя специальный модификатор. Посмотрите на этот код:
".*"
Этот шаблон соответствует тексту, заключенному в двойные кавычки. Однако, ваша исходная строка может быть вроде
этой:
<a href="helloworld.htm" title="Привет, Мир">Привет, Мир</a>
Приведенный выше шаблон найдет в этой строке вот такую подстроку:
"helloworld.htm" title="Привет, Мир"
Он оказался слишком жадным, захватив наибольший кусок текста, который смог.
".*?"
Этот шаблон также соответствует любым символам, заключенным в двойные кавычки. Но ленивая версия (обратите внимание
на модификатор ?
) ищет наименьшее из возможных вхождений, и поэтому найдет каждую подстроку в двойных
кавычках по отдельности:
"helloworld.htm" "Привет, Мир"
Экранирование в регулярных выражениях
Регулярные выражения используют некоторые символы для обозначения различных частей шаблона. Однако, возникает
проблема, если вам нужно найти один из таких символов в строке, как обычный символ. Точка, к примеру, в регулярном
выражении обозначает «любой символ, кроме переноса строки». Если вам нужно найти точку в строке, вы не можете просто
использовать «.
» в качестве шаблона — это приведет к нахождению практически всего. Итак, вам
необходимо сообщить парсеру, что эта точка должна считаться обычной точкой, а не «любым символом». Это делается с
помощью знака экранирования.
Знак экранирования, предшествующий символу вроде точки, заставляет парсер игнорировать его функцию и считать обычным
символом. Есть несколько символов, требующих такого экранирования в большинстве шаблонов и языков. Вы можете найти
их в правом нижнем углу шпаргалки («Мета-символы»).
Шаблон для нахождения точки таков:
.
Другие специальные символы в регулярных выражениях соответствуют необычным элементам в тексте. Переносы строки и
табуляции, к примеру, могут быть набраны с клавиатуры, но вероятно собьют с толку языки программирования. Знак
экранирования используется здесь для того, чтобы сообщить парсеру о необходимости считать следующий символ
специальным, а не обычной буквой или цифрой.
Спецсимволы экранирования в регулярных выражениях
Выражение | Соответствие |
---|---|
не соответствует ничему, только экранирует следующий за ним символ. Это нужно, если вы хотите ввести метасимволы !$()*+.<>?[]^{|} в качестве их буквальных значений. |
|
Q | не соответствует ничему, только экранирует все символы вплоть до E |
E | не соответствует ничему, только прекращает экранирование, начатое Q |
Подстановка строк
Подстановка строк подробно описана в следующем параграфе «Группы и диапазоны», однако здесь следует упомянуть о
существовании «пассивных» групп. Это группы, игнорируемые при подстановке, что очень полезно, если вы хотите
использовать в шаблоне условие «или», но не хотите, чтобы эта группа принимала участие в подстановке.
Группы и диапазоны
Группы и диапазоны очень-очень полезны. Вероятно, проще будет начать с диапазонов. Они позволяют указать набор
подходящих символов. Например, чтобы проверить, содержит ли строка шестнадцатеричные цифры (от 0 до 9 и от A до F),
следует использовать такой диапазон:
[A-Fa-f0-9]
Чтобы проверить обратное, используйте отрицательный диапазон, который в нашем случае подходит под любой символ, кроме
цифр от 0 до 9 и букв от A до F:
[^A-Fa-f0-9]
Группы наиболее часто применяются, когда в шаблоне необходимо условие «или»; когда нужно сослаться на часть шаблона
из другой его части; а также при подстановке строк.
Использовать «или» очень просто: следующий шаблон ищет «ab» или «bc»:
(ab|bc)
Если в регулярном выражении необходимо сослаться на какую-то из предшествующих групп, следует использовать
n
, где вместо n
подставить номер нужной группы. Вам может понадобиться шаблон,
соответствующий буквам «aaa» или «bbb», за которыми следует число, а затем те же три буквы. Такой шаблон реализуется
с помощью групп:
(aaa|bbb)[0-9]+1
Первая часть шаблона ищет «aaa» или «bbb», объединяя найденные буквы в группу. За этим следует поиск одной или более
цифр ([0-9]+
), и наконец 1
. Последняя часть шаблона ссылается на первую группу и ищет то
же самое. Она ищет совпадение с текстом, уже найденным первой частью шаблона, а не соответствующее ему. Таким
образом, «aaa123bbb» не будет удовлетворять вышеприведенному шаблону, так как 1
будет искать «aaa»
после числа.
Одним из наиболее полезных инструментов в регулярных выражениях является подстановка строк. При замене текста можно
сослаться на найденную группу, используя $n
. Скажем, вы хотите выделить в тексте все слова «wish»
жирным начертанием. Для этого вам следует использовать функцию замены по регулярному выражению, которая может
выглядеть так:
replace(pattern, replacement, subject)
Первым параметром будет примерно такой шаблон (возможно вам понадобятся несколько дополнительных символов для этой
конкретной функции):
([^A-Za-z0-9])(wish)([^A-Za-z0-9])
Он найдет любые вхождения слова «wish» вместе с предыдущим и следующим символами, если только это не буквы или цифры.
Тогда ваша подстановка может быть такой:
$1<b>$2</b>$3
Ею будет заменена вся найденная по шаблону строка. Мы начинаем замену с первого найденного символа (который не буква
и не цифра), отмечая его $1
. Без этого мы бы просто удалили этот символ из текста. То же касается конца
подстановки ($3
). В середину мы добавили HTML тег для жирного начертания (разумеется, вместо него вы
можете использовать CSS или <strong>
), выделив им вторую группу, найденную по шаблону
($2
).
Модификаторы шаблонов
Модификаторы шаблонов используются в нескольких языках, в частности, в Perl. Они позволяют изменить работу парсера.
Например, модификатор i
заставляет парсер игнорировать регистры.
Регулярные выражения в Perl обрамляются одним и тем же символом в начале и в конце. Это может быть любой символ (чаще
используется «/»), и выглядит все таким образом:
/pattern/
Модификаторы добавляются в конец этой строки, вот так:
/pattern/i
Мета-символы
Наконец, последняя часть таблицы содержит мета-символы. Это символы, имеющие специальное значение в регулярных
выражениях. Так что если вы хотите использовать один из них как обычный символ, то его необходимо экранировать. Для
проверки наличия скобки в тексте, используется такой шаблон:
(
Шпаргалка представляет собой общее руководство по шаблонам регулярных выражений без учета специфики какого-либо языка.
Она представлена в виде таблицы, помещающейся на одном печатном листе формата A4.
Создана под лицензией Creative Commons на базе шпаргалки, автором которой является Dave Child.
Скачать в PDF, PNG.
- Регулярные выражения
Сообщение от Vovan-VE
ruzab, Если экранирование есть вообще, то и проверять его надо с самого начала. Не забывайте про такие ситуации:
PHP | ||
|
Вот поэтому и получается: либо кроме-кавычек-и-бекслешей, либо бекслеш-с-одним-любым-символом. Т.е. бекслеш всегда съедается только вместе со следующим за ним символом.
Я понял. Думаю для меня это не страшно, поскольку я не собираюсь делать из строки переменные. Я пытаюсь сделать в шаблоне, который беру из БД возможность писать условие
PHP | ||
|
Но мне не нужно чтобы ошибку выдавал сам eval, а я хочу смастерить микро анализатор кода (т.е. условия if elseif .. else), чтоб понять, правильно ли составлен запрос с точки зрения синтаксиса php и самостоятельно прервать выполнение кода в случае нахождения ошибки.
А чтобы соответственно проверить правильно-ли эти условия в скобках составлены, мне необходимо проанализировать пунктуацию того, что там (в скобках):
это строка: “строка” или так: ‘строка’ (как раз без неэкранированных кавычек, а другие символы там в принципе имеют право быть в т.ч. экранированная кавычка, например: ‘стро’ка’.)
integer: 10,
float: 10.5,
выражение: 10 == 10, ‘x’ != ‘y’ и т.п. .
false
true
null
Конечно это не полнофункциональный код php: там можно писать минимум условий и результат внутри {…} может быть только строкой.
Сообщение от Vovan-VE
Опасная затея. Если Вам это нужно для подстановки переменных, то зря Вы это задумали. Чтобы сделать PHP-инъекцию, не обязательно закрывать кавычку и писать после ; следующий оператор:
PHP | ||
|
См. также Тонкости сложных переменных в строках
Спасибо. Это мощно. Возьму на заметку
Попробовал ваш пример:
PHP | ||
|
он заработал (правда я его под свои задачи подкорректировал), но мне только непонятно, зачем в данном шаблоне ставить столько бэкслешей :По большому счету, как я понимаю, если в шаблоне ставится один бэкслеш, то он экранирует что-то, квадратную скобку например.
‘/^([^]])*/’
А если ставится 2 обратных слэша, то он экранирует сам себя, т.е. обозначает некий одинокий бэкслеш, стоящий гдето в строке, Но почемуто [^\] не работает, а работает [^\\”]… Я бы это прочитал как 2 бэкслеша стоящие гдето подряд в строке …
Я чегото совсем с этими бэкслешами запутался…
Давайте рассмотрим два эффективных способа, которые касаются экранированных кавычек. Эти шаблоны не предназначены для краткости и эстетики, но для эффективности.
Эти способы используют первое распознавание символов для быстрого поиска котировок в строке без затрат на чередование. (Идея состоит в том, чтобы быстро отбросить символы, которые не являются кавычками, без проверки двух ветвей чередования.)
Контент между кавычками описывается с помощью развернутого цикла (вместо повторного чередования), чтобы быть более эффективным: [^"\]*(?:\.[^"\]*)*
Очевидно, что для обработки строк, которые не имеют сбалансированных кавычек, вместо этого вы можете использовать притяжательные кванторы: [^"\]*+(?:\.[^"\]*)*+
или обходной путь для имитации их, чтобы предотвратить слишком много возврата. Вы также можете выбрать, что цитируемая часть может быть открывающей цитатой до следующей (неэкспертированной) цитаты или конца строки. В этом случае нет необходимости использовать притяжательные квантификаторы, вам нужно только сделать последнее предложение необязательным.
Обратите внимание: иногда кавычки не сбрасываются с помощью обратного слэша, но повторяя цитату. В этом случае подшаблон содержимого выглядит так: [^"]*(?:""[^"]*)*
Шаблоны избегают использования группы захвата и обратной ссылки (я имею в виду что-то вроде (["']).....1
) и используют простое чередование, но с ["']
в начале, в коэффициенте.
Perl вроде:
["'](?:(?<=")[^"\]*(?s:\.[^"\]*)*"|(?<=')[^'\]*(?s:\.[^'\]*)*')
(обратите внимание, что (?s:...)
является синтаксическим сахаром для включения режима dotall/singleline внутри группы, не содержащей захвата. Если этот синтаксис не поддерживается, вы можете легко включить этот режим для всего шаблона или заменить точку на [sS]
)
(Способ написания этого шаблона полностью “ручным” и не учитывает возможные внутренние оптимизации двигателя)
ECMA script:
(?=["'])(?:"[^"\]*(?:\[sS][^"\]*)*"|'[^'\]*(?:\[sS][^'\]*)*')
POSIX расширен:
"[^"\]*(\(.|n)[^"\]*)*"|'[^'\]*(\(.|n)[^'\]*)*'
или просто:
"([^"\]|\.|\n)*"|'([^'\]|\.|\n)*'
Опция, которая ранее не была затронута:
- Отмените строку.
- Выполните сопоставление по инвертированной строке.
У этого есть дополнительный бонус, позволяющий правильно сопоставлять экранированные открытые теги.
Допустим, у вас была следующая строка; String "this "should" NOT match" and "this "should" match"
Здесь "this "should" NOT match"
не следует сопоставлять, а "should"
должен быть. Кроме того, this "should" match
должен быть сопоставлен, а "should"
не должен.
Сначала пример.
// The input string.
const myString = 'String \"this "should" NOT match\" and "this \"should\" match"';
// The RegExp.
const regExp = new RegExp(
// Match close
'(['"])(?!(?:[\\]{2})*[\\](?![\\]))' +
'((?:' +
// Match escaped close quote
'(?:\1(?=(?:[\\]{2})*[\\](?![\\])))|' +
// Match everything thats not the close quote
'(?:(?!\1).)' +
'){0,})' +
// Match open
'(\1)(?!(?:[\\]{2})*[\\](?![\\]))',
'g'
);
// Reverse the matched strings.
matches = myString
// Reverse the string.
.split('').reverse().join('')
// '"hctam "dluohs" siht" dna "hctam TON "dluohs" siht" gnirtS'
// Match the quoted
.match(regExp)
// ['"hctam "dluohs" siht"', '"dluohs"']
// Reverse the matches
.map(x => x.split('').reverse().join(''))
// ['"this "should" match"', '"should"']
// Re order the matches
.reverse();
// ['"should"', '"this "should" match"']
Хорошо, теперь объясните RegExp. Это регулярное выражение может быть легко разбито на три части. Как показано ниже:
# Part 1
(['"]) # Match a closing quotation mark " or '
(?! # As long as it's not followed by
(?:[\]{2})* # A pair of escape characters
[\] # and a single escape
(?![\]) # As long as that's not followed by an escape
)
# Part 2
((?: # Match inside the quotes
(?: # Match option 1:
1 # Match the closing quote
(?= # As long as it's followed by
(?:\\)* # A pair of escape characters
\ #
(?![\]) # As long as that's not followed by an escape
) # and a single escape
)| # OR
(?: # Match option 2:
(?!1). # Any character that isn't the closing quote
)
)*) # Match the group 0 or more times
# Part 3
(1) # Match an open quotation mark that is the same as the closing one
(?! # As long as it's not followed by
(?:[\]{2})* # A pair of escape characters
[\] # and a single escape
(?![\]) # As long as that's not followed by an escape
)
Это, вероятно, намного яснее в форме изображения: сгенерировано с помощью Jex’s Regulex
Изображение на github (JavaScript Regular Expression Visualizer.) Извините, у меня нет достаточно высокой репутации, чтобы включить изображения, поэтому на данный момент это только ссылка.
Вот суть примерной функции, использующей эту концепцию это немного более продвинуто: https://gist.github.com/scagood/bd99371c072d49a4fee29d193252f5fc#file-matchquotes-js
ответ дан scagood 16 August 2018 в 05:30
поделиться