正規表現まとめver1

基本は少ないけど、自分みたいな属性の人間には理解がきつい。でも、効果がかなり高いことを知ってしまったので、がんばろうと思います。

いろんなサイトを検索しましたが、下記のサイトがまとまっていたので、「まずは」見るものを絞って勉強しようと思います。

正規表現とは文字列のパターンを自分で見つけて、作ることです。(だと思っています。)

パターンを作るにあたって、大きく分けて次の4つの概念があります。(勝手に理解しています。)

文字
文字グループ
量指定
行頭・行末

ちなみにパターンマッチは、最初の一つに対して行われます。

正規表現 – JavaScript | MDN
https://developer.mozilla.org/ja/docs/Web/JavaScript/Guide/Regular_Expressions

↓

1.文字

正規表現

正規表現とは、文字列内で文字の組み合わせを照合するために用いられるパターンです。 JavaScript では、正規表現はオブジェクトでもあります。これらのパターンは RegExp の exec() および test() メソッドや、String の match()、matchAll()、replace()、replac...

「.」

一部を除いてあらゆる1文字を表します。
一部とは、行末文字コードです。だからほとんどの1文字を「.」で表現できます。

「\d」

数字1文字を表します。0から9についてを表します。後述の文字グループの[0-9]と同じです。

「\D」

大文字になると、それ以外になります。というのは「\Dは数字以外の1文字」を表します。
[^0-9]と同じです。

「\w」

半角英数字とアンダースコアの1文字に該当します。[A-Za-z0-9]と同じです。

「\W」

ということは、大文字Wになったということは…「半角英数字とアンダースコア以外の1文字」を表します。[^A-Za-z0-9_]ということです。

「\s」

「スペース、タブ、改ページ、改行を含むホワイトスペース文字にマッチします。」ということです。
見えない文字ということでしょうか笑？

「\S」

ということは…そうです「ホワイトスペース以外の文字にマッチします。」

他は簡単にまとめます

正規表現	意味
\t	タブ (U+0009) にマッチします。
\r	復帰文字 (U+000D) にマッチします。
\n	改行文字 (U+000A) にマッチします。
\v	垂直タブ (U+000B) にマッチします。

Google検索「復帰文字」

Google検索「改行文字」

Google検索「垂直タブ」

こちらのサイトには続きの記載がありますが省略させていただきます。

2.量指定・繰り返し

数量子

数量子は、一致させる文字や式の数を示します。

最初に言っておきますが、「{}」から学んだほうが私みたいな属性の人間は入りやすいです。しかし、とりあえずサイトの順番に則ります。

文字の表現(\dとか)の右横に数を表す正規表現を記述します。

x*

xの0回以上の繰り返しにマッチします。xは無くてもいいということです。後述しますが、「{0,}」と同じ？

x+

xの1回以上の繰り返しにマッチします。xは{1,}に相当します。

x?

これ難しいぞ！

xの0回か1回にマッチします。存在有無ですかね？だから「?」なのでしょうか？

例えば /e?le?/ は “angel” の “el” や “angle” の “le”、あるいは “oslo” の “l” にマッチします。

にらめっこしてて、ひとつ気付いたけど、「/e?le?/」これって4パターンあるよね？

/ele/
/el/
/le/
/l/

間違ってる？そしたら例「angel」には上記の2つ目の「el」が該当します。2つ目の例「oslo」には、4つ目の「l」が該当します。

x?のもうひとつの機能

*、+、?、{} といった量指定子の直後に使用した場合、その量指定子をデフォルトとは逆の非貪欲 (non-greedy) （最短）マッチにします。デフォルトは欲張り (greedy)（最長）マッチです。

なんだ？なんだ？これも難しいぞ！よく読む、よく見る。

例「caaaaaaandy」

x = "caaaaaaandy"
puts x.match(/a+/)
puts x.match(/a+?/)

puts x.match(/a{3}/)
puts x.match(/a{3}?/)

やっぱり難しい…苦笑。これについては場数を踏んで都度学びます。

x{n}

回数指定。

x{n,}

n回以上の出現にマッチする。少なくともn回にマッチします。

x{n,m}

n回からm回までの出現にマッチします。少なくてもn回、多くてもm回の出現にマッチします。

補足1

x*?, x+?, x??, x{n}?, x{n,}?, x{n,m}?
既定では * や + といった数量詞は貪欲 (greedy) です。つまり、できる限り多くの文字列とマッチしようとします。数量詞の後にある ? 文字は非貪欲 (non-greedy) 数量詞をつくります: つまり、マッチが見つかるとすぐに停止します。

例えば、"some <foo> <bar> new </bar> </foo> thing" といった文字列が与えられたなら:

/<.*>/ はおそらく "<foo> <bar> new </bar> </foo>" にマッチするでしょう
/<.*?>/ はおそらく "<foo>" にマッチするでしょう

補足2

https://developer.mozilla.org/ja/docs/Web/JavaScript/Guide/Regular_Expressions/Quantifiersからサンプル文字列を引用致します。

x = "I must be getting somewhere near the centre of the earth."
puts x.match(/[\w ]+/)

x = "I must be getting somewhere near the centre of the earth."
puts x.match(/[\w ]+?/)

x = "I must be getting somewhere near the centre of the earth."
puts x.match(/[\w ]*?/)