Big Sky

2008/01/31

ctagsのPerl拡張サポートがすこぶる素晴らしすぎる件

ctags 5.7 improves Perl support

Added support for 'package' keyword

Added support for multi-line subroutine, package, and constant definitions

Added support for optional subroutine declarations

Added support for formats

Ignore comments mixed into definitions and declarations

Fixed detecting labels with whitespace after label name

Fixed misidentification of fully qualified function calls as labels

これ凄いす。もう朝からお腹いっぱいです。
さっそくWin32版試してみました。
改行されたメソッドにもジャンプ出来るし、余計なコメントにもヒットしないし、使いやすいです。
vimで開発する方のpluginフォルダには必ずと言って良いほど入っているtaglist.vimを使うとパッケージ名称も一覧されます。
パッケージやサブルーチンがキレイに一覧されます。
さらに今回「package」に対応したので、ちょっと時間は掛かりますが


C:\Perl\site\lib>ctags -R -h ".pm"

こんな事して...


set tags=./tags,tags,../tags,c:/perl/site/lib/tags

こんな事しておくと...

こんな状態でビジュアル選択しておいて、"C-]"を押す事で

こんな感じにタグジャンプします。ｳﾏｰｰｰ
複数含むモジュールだと、taglist.vimのTagListには複数のpackageが表示されます。

すばらしす...

Posted at by mattn

WWW::MechanizeとXPathでtwitterのfriendsを全部取ってみる

twitterのAPIでfriendsが100件しか取れなくなって久しいですが...
WWW::MechanizeとXPathでtwitterの全friendsを取得するサンプル作ってみました。あまりやり過ぎると、オフィシャル側に怒られそうな気もしますが...
後の使い方は、適当で...


#!/usr/local/bin/perl



use warnings;

use strict;

use LWP::Simple;

use XML::Simple;

use WWW::Mechanize;

use HTML::TreeBuilder::XPath;

use HTML::Selector::XPath qw(selector_to_xpath);

use Data::Dumper;



my $username = 'your_username';

my $password = 'your_password';



my $m = WWW::Mechanize->new(timeout => 10);

$m->get('http://twitter.com/login');

$m->submit_form(

    form_number => 1,

    fields    => {

        username_or_email  => $username,

        password           => $password,

    },

    button    => 'commit',

);



my $xpath = selector_to_xpath('tr.vcard');

my @friends;



my $num_page = 1;

while (1) {

    my $res = $m->get("http://twitter.com/friends/?page=$num_page");

    my $encoding = $res->header('Content-Encoding');

    my $content = $res->content;

    $content = Compress::Zlib::memGunzip($content) if $encoding =~ /gzip/i;

    $content = Compress::Zlib::uncompress($content) if $encoding =~ /deflate/i;



    my $tree = HTML::TreeBuilder::XPath->new;

    $tree->parse($content);

    $tree->eof;

    my @nodes = $tree->findnodes($xpath);

    for my $tr (@nodes) {

        push(@friends, {

                nick => $tr->findnodes('td/strong/a')->[0]->as_text,

                image => $tr->findvalue('td[@class="thumb"]//img/@src')->as_string,

                name => $tr->findvalue('td[@class="thumb"]//img/@alt')->as_string,

                description => $tr->findvalue('td/strong/a/@title')->as_string,

                url => $tr->findvalue('td[@class="thumb"]/a/@href')->as_string,

            });

    }

    $tree->delete;

    @nodes or last;

    $num_page++;

}



print Dumper @friends;

最近遊んでる物、ほとんどmiyagawa氏のものばっかだな...

Posted at by mattn

お腹が空いてきたのでWeb::Scraperでモスバーガーのメニューをスクレイピング

こんな夜中に何やってんだか...
お腹が空いてきたので、モスバーガーのホームページからメニューをスクレイピングしてみる。
別に買いに行く訳じゃないけど...

思った以上に苦戦。苦戦の理由は「HTMLにIDやCLASSが殆んど振られておらず、XPathで抽出出来るパタンがない」こと。しょうがないのでまた無茶ぶりを発揮して、ノード階層をパタンとして使い、最小マッチのノードから欲しいノードへ上昇するというドロ臭いXPathを書いた。

パタンは、td要素を2つ持つtr要素で、かつそのtd要素内にはhref属性に"/menu/"という文字列を含んだa要素、しかもそのa要素は"pdf"という文字列を含んでいない。

結果、CSSセレクタは全く使わなかった(使えなかった?)。これじゃ、Web::Scraperのスライド資料の悪い例のままだ...
ま、取れたので良しとしよう。

mosburger-scraper.pl


#!/usr/local/bin/perl



use warnings;

use strict;

use Web::Scraper;

use YAML;

use URI;



my $uri = URI->new("http://www.mos.co.jp/menu/index.html");

my $mosburger = scraper {

    process '//tr[count(td)=2]/td/a[contains(@href,"/menu/") and not(contains(@href,".pdf"))]/img/../../..',

        'menus[]' => scraper {

            process '/tr/td[1]/a',     url => sub {URI->new_abs($_->attr('href'), $uri)->as_string;};

            process '/tr/td[1]/a/img', title => '@alt';

            process '/tr/td[1]/a/img', image => sub {URI->new_abs($_->attr('src'), $uri)->as_string;};

            process '/tr/td[2]/a',

                'perk' => scraper {

                    process '.', url => sub {URI->new_abs($_->attr('href'), $uri)->as_string;};

                    process 'img', title => '@alt';

                };

        };

    result 'menus';

};



my $burgers = $mosburger->scrape($uri);

warn Dump $burgers;


---

- image: http://www.mos.co.jp/menu/img/ph_hamburger18.jpg

  perk:

    title: サウザン野菜バーガー　¥300

    url: http://www.mos.co.jp/menu/hamburger/thousand/

  title: サウザン野菜バーガー

  url: http://www.mos.co.jp/menu/hamburger/thousand/

- image: http://www.mos.co.jp/menu/img/ph_hamburger19.jpg

  perk:

    title: ［期間限定 10月中旬まで］　シーザーサラダバーガー　¥300

    url: http://www.mos.co.jp/menu/hamburger/seasar/

  title: シーザーサラダバーガー

  url: http://www.mos.co.jp/menu/hamburger/seasar/

...

補足情報(場合によってはセットメニュー)も一緒に取得出来ます。

あー。はらへった。

Posted at by mattn