2014/09/16

2014年でも html を解析してゴニョゴニョするなんて要件はまだまだある訳で、そんな時に便利なのが pup というコマンドです。

EricChiang/pup - GitHub

README.md pup pup is a command line tool for processing HTML. It reads from stdin, prints to stdout,...

https://github.com/EricChiang/pup

通常、こういったツールは perl や ruby、python 等で提供されランタイムがインストールされていない環境で動かすのはちょっとした手間が発生していました。しかし pup ならば golang で出来ているのでバイナリ1つあれば動かせます。

使い方は、例えばこのサイトのパーマリンクのHTMLを得たいならば

curl -s http://mattn.kaoriya.net/ | pup a.permalink

とするだけ。CSS セレクタで指定します。またテキストを得たいならば

curl -s http://mattn.kaoriya.net/ | pup a.permalink text{}

といった具合です。一応バイナリリリースもされていますが現状 Windows で色付き表示(-c フラグ)でエスケープシーケンスが表示されてしまいます。

pull-request を送ってあるので、うまく行けばマージして貰えると思います。

追記: マージされました

Posted at 10:34 | WriteBacks () | Edit
Edit this entry...

wikieditish message: Ready to edit this entry.






















A quick preview will be rendered here when you click "Preview" button.