2013/02/23

Recent entries from same category

  1. Ruby の Array#<< は Array#push よりも速いか
  2. Ruby の a = a + 1 はなぜ undefined method '+' for nil:NilClass なのか
  3. Re: Ruby 製バッチ処理を省メモリ化した
  4. Crystal と CRuby でHTTPサーバのベンチマーク
  5. pure mruby な JSON パーサ書いた。

mruby には元々、正規表現のコードが入っていました。標準では ifdef で無効化されており、有功にしてもコンパイルエラーが出る状態でした。それを IIJ さんが hack して使える様にしてくれていたのだけど、Matz としては思う所があってか取り込まれていませんでした。
もったいないなーと思い、それをしばらく最新にメンテしてたのですが、こちらも取り込まれる事はありませんでした。
おそらく軽量 mruby に標準で正規表現が組み込まれている事でのオーバーヘッドや、期待しないメンテナンス作業を嫌っての事だと思います。
おかげで通常の mruby では正規表現リテラルを含むコードはパースエラーとして扱われ、CRuby 向けに書かれたアプリケーションの移植の妨げになっていました。

ならばとばかりに、逆に mruby から正規表現を取り払う修正を pull-req しました。
Pluggable regexp by mattn - Pull Request #850 - mruby/mruby - GitHub

This solution closes following issues. #444 #719 #841 VM don't provide Regexp mruby provides basical...

https://github.com/mruby/mruby/pull/850
この修正は、「mruby としては // などの正規表現リテラルは内部オブジェクトとしては管理しない。その代わり、// を見つけたら Regexp というオブジェクトのインスタンスを生成する。」という内容です。
つまり mrbgems として正規表現拡張を取り込んでいる場合には、// が正規表現オブジェクトとして扱われ、/[a-z]/.match("a") といったコードも動くようになるという物です。
言うなれば
Bye Bye Regexp, But Welcome
といったところかと思います。メモリの少ないハードにのっけたい人などは、この mrbgems を入れなければいい、という事になります。
ただし mrbc で生成した RITE にリテラルが含まれないというバグがありましたが、さっき Matz が直してくれました。
ちなみにこれがどういうバグだったかというと、僕は /[a-z]/ を直接 Regexp.new("[a-z]") に置き換えていたのですが、これだと mrbgems を認識せずに実行される mrbc(RITEコンパイラ) が Regexp という識別がが認識できずにエラーになるという不具合で Matz はこれを Object.send(:new:Regexp, "[a-z]")
となる様な修正を入れてくれました。
これで、正規表現リテラルは実行時に評価される様になります。

それって実行時評価だよね、遅いんじゃないの?


CRuby ではコンパイル時にオペレーションコードとして正規表現インスタンスを起こしているので mruby と違う動きになります。
例えば、不正な正規表現パターンを書いた時には実行時まで知ることが出来ません。しかしながら通る事の無い正規表現リテラルまでコンパイルしてしまう CRuby よりも、僕は分かり良くていい気がします。 if false
  # 大量の正規表現
  # 大量の正規表現
  # 大量の正規表現
  # 大量の正規表現
  # 大量の正規表現
end
もちろん、実行時評価なのでループ内に正規表現リテラルがある場合には逐次生成されてしまうのは気にしておく必要があるでしょう。もしかしたら今後、リテラルから生成した正規表現オブジェクトをキャッシュする、なんてパッチも現れるかもしれません。

現在のところ、mruby から正規表現リテラルを扱える様にする為の mrbgems 実装は以下3つ
masamitsu-murase/mruby-hs-regexp - GitHub

mrbgem of Henry Spencer's Regular Expression

https://github.com/masamitsu-murase/mruby-hs-regexp
mattn/mruby-onig-regexp - GitHub

mrbgem of 鬼車's Regular Expression

https://github.com/mattn/mruby-onig-regexp
mattn/mruby-pcre-regexp - GitHub

mrbgem of PCRE

https://github.com/mattn/mruby-pcre-regexp
これの内、どれかを入れておけば正規表現が使える様になります。
HsRegexp を使ってリテラルを扱う為には現在のところ Regexp = HsRegexp とやる必要があります。Regexp = HsRegexp 出来る様になりました。

これら一連の動きを、bovi さんがブログ記事にしてくれています。ありがとうございます。
Pluggable RegExp - mruby.sh

The last couple of weeks were quite exciting from a RegExp point of view. The first big thing was mattn’s pull request of the IIJ RegExp Engine which is based on Oniguruma. This patch would have made the same RegExp Engine from the MRI also available in mruby. After one month of discussion and work on this patch the final decision was to close this ticket. This sounds sad but actually this is really good news, due to the reason that instead we decided to build a pluggable RegExp engine into mruby.

http://mruby.sh/201302190729.html
だんだん CRuby に近づいてきましたね。
Posted at by | Edit