正規表現の活用

正規表現の活用

1 はじめに

参考資料

次節に大雑把な解説は記しましたが、
詳しくはこういった資料を読んで下さい）

リファレンスマニュアルの中で
- ruby(リファレンス) 正規表現
- ruby(リファレンス) Regexpクラス
有意義な情報源として

名称について

Regular Expression を訳した用語としての「正規表現」は、実体を表してるとは言えない稚拙な訳語かもしれない。
- 文字の並びのパターンを記述するための「書き方（文法と考えてもいい）」のことであるが、その「書き方」に相当する部分だけが技術用語として定着した。

2 概要：

1 irbでチェック

(以下の各行を入力して確認しましょう） #以降はコメントなので入れなくていい

"abc"
"abc".class         # 他に 'abc' %!abc! なども
/abc/
/abc/.class         # 他に %r!abc! など
"abc" == "abc"
"abc" == /abc/
"abc" =~ /abc/      # String#=~
/abc/ =~ "abc"      # RegExp#=~

s = "abc"
s =~ /a/
s =~ /b/
s =~ /.a/         # aの左に文字はない
s =~ /.b/         # . は a にマッチ
s =~ /./
s =~ /.../
s =~ /..../

文字列 =~ 正規表現という使い方（反対の使い方も可）
- 正規表現による並びを「パターン」と呼ぶこともある
- パターンマッチをさせる標準的な方法が =~ 演算子
- 文字 ~ はチルダ（tilde）と読む
- 右図のように、順々に一文字ずつ対応関係をとろうと試みる、のがマッチングの基本的な動作である。
```
"abcde" =~ /bc/    # もしくは
/bc/ =~ "abcde"    # => 文字列の何文字目からの部分とマッチしたか を数値で返す
                    #    マッチしないときは nil
                    # (「偽」を意味する値でもある）
```
文字列の中に、正規表現にマッチする部分並びがあるかどうかを検査するのが主な動作
- 例えば 'abc'=~/b/ だと先頭から（最初を0として）1文字目にマッチするので、整数1がこの演算子式の値となる。
特に指示がなければ、１文字対１文字でマッチを試みる
正規表現の側には「文字クラス」による表現があり、文字クラスに属するいずれかの文字とのマッチを試みる
```
"abcde" =~ /a...e/
"abcde" =~ /ab[cde]/
```
文字（または文字クラス）の後ろに限量子（量指定子とも呼ぶ）をつけることができ、このときは複数の文字クラスから成るパターンとマッチする可能性がある
```
"abcde" =~ /a.*e/
```
- アスタリスク * が限量子の代表的なもので、直前におかれた記号（上の例では ‘.’）の数を指定する（* の場合は、0個以上いくつでも、という指定になる）。
- これらの限量子そのものは修飾語のような扱いで、直接いずれかの文字とマッチすることはない。
- 他に ?、+ といった限量子（右図）もよく使われる。
- なお、この限量子は、コマンドプロンプトやシェルやSQLで使われる「ワイルドカード」表現と、字面や意味は似ているが、微妙な差異はある（限量子は必ず左に限量の対象となる文字または文字クラスが存在する必要がある）ことも確認しておいて下さい。
先頭の ^ 末尾の $ など、マッチングの場所を限定する記号(アンカー)がある
```
"abcde" =~ /^b/  # => nil (マッチしない）
```
正規表現の中で () で囲まれた部分は「キャプチャ」され、後方参照の対象となる。
- (キャプチャという用語はIT界隈で右図のようにいくつかの意味で使われることに注意）
- 正規表現の前方から順に 1 2 3 … の番号がついた変数 $1 $2 $3 …として参照できる。
- この番号が0から始まらないことに注意（$0は別の用途に使われている）
/ などの特殊文字を含むパターンを指定するときは、%記法を使うと楽
- （以下では !!で囲んでいるが、％ｒの次の第３文字として何を使ってもいい。
- また、{}、()のように対向する文字は対向して使う）

補足1（エスケープ文字について）

文字列を ”” ’’ // などで囲むとき、その囲みに使う文字そのものを対象となる文字列の中に含めたいとき、単純に書くと、プログラムに混乱が生じる
（例えば /abc/def/ では abc の両側のスラッシュが正規表現を囲む文字だと認識される。
この混乱を防ぐため、上記の囲み文字を文字列や正規表現に含むときには、対象の文字の直前にバックスラッシュ（日本では￥）を置くことになっている。
特殊な用途の文字について、その特殊な意味をキャンセルして普通の文字として扱わせるための前置文字を「エスケープ文字」と呼ぶ。
昨今のプログラミング言語では＼（または￥）がその主流になっている。
- ただし、たとえばURLを含む正規表現を作るときなど、＼／の並びを何度も挿入する必要がある。
- （その煩雑な表記を少し見やすくするために前述の%記法が採用されたという経緯だ）

補足2（バックスラッシュについて）

コンピュータやネットワークでは、￥は＼と同じ文字として扱われる

（OSや国の設定により表示される形が違うだだけ）

使用例

"proxy:3128" =~ /(\S+):(\d+)/ and ( host,port = $1, $2 )
 # ただし、この例は
host,port = "proxy:3128".split(':') # と書いても動作する

"http://www2.nagano.ac.jp/hiraoka/NP" =~ %r!\S+://(\S+)(/.*)! and
 (domain, pathname = $1, $2)
 # 実際はこれは正しく動かないので
 # パターンをこう書く必要がある           %r!\S+://(\S+?)(/.*)!  
 #    （ここではは最短マッチのため +? という限量子を使った）

上記の例の中には、後方参照を使わない切り分け方も呈示したが、
文字列の中にコロンが含まれるかどうかを調べる際にも、正規表現を使わない方法はある。
- 「ruby String 文字含む」で検索すると見つかるでしょう。
- Stringクラスのメソッドで、文字列を渡すと、数値や真偽値を返すようなメソッド、ということです（探してみて下さい）。

補足3 (限量子の使い方について)

上記の例で、限量子 + を使った場合と +? を使った場合では結果が変わってくる。
- + は greedy（貪欲）なマッチを行おうとする（なるべく長い列とのマッチを試みる）
- 左側にある + が優先になるため + が右側の / の直前までマッチする
- +? は控えめなマッチを行う限量子であるため、左側の / の直前までマッチする
他の方法として、ドメイン名にマッチする部分を/ \S+? /でなく%r! [^/]+ !とする方法も考えられる。
なお、本資料では quantifier の訳語として「限量子」を使うが、 Rubyのドキュメントでの「量指定子」と同じ意味である。

補足4 (rubyの文法について)

上記の例では式1 and 式2 という、and演算子による制御構造を使っている。
これは
```
if 式1 then 式2 end
```
または
```
式2 if 式1
```
という書き方をしても同じ意味になる（右図）。
また、and の直後で改行していることにも着目されたい。
- and は 2項演算子であり、その右側に式が続くことが期待されるのでここで改行すると文の終端とみなされず継続文が書ける。
上記の例では、多重代入を用いて２つの変数に一度に値を代入している。
- 言語によっては多重代入の機能のないものもある。そのときは（勿論Rubyでも）従来のように２行に分けて（右図）代入してもいい。

余談

日本語で末尾に「子」のつく漢字言葉は、英語の「～er」「～or」のような接尾辞がつく単語が（～をする物・人）のような意味のときに訳語でよく使われる（もちろん例外もあるが）。

正規表現の活用

1 はじめに

参考資料

名称について

2 概要：

1 irbで チェック

補足1（エスケープ文字について）

補足2（バックスラッシュについて）

使用例

補足3 (限量子の使い方について)

補足4 (rubyの文法について)

余談

1 irbでチェック