Big Sky

2008/01/31

Web::Scraper 0.15で何が変わったのか...とおまけ

Web::Scraperの0.15がリリースされたので、色々試してみてます。
ほんのりと変わった所を調べてみます。

UserAgentが置き換えられるようになった

uaのスコープを変えて頂けたので、先日の「WWW::MechanizeとWeb::Scraperでtwitterのfriendsを全部取ってみる」でやった以下の様な無理やりなUA置き換えでなく


undef &Web::Scraper::__ua;

*Web::Scraper::__ua = sub {

    $mech;

};

以下のようにキレイな置き換えが出来るようになります。


$Web::Scraper::UserAgent = $mech;

スコープもourになってますから、別のパッケージ作るときにも便利かもしれませんね。

ショートカットとしてRAWが使えるようになった

これはインラインのjavascriptをそのままスクレイピングするのに使えますね。


#!/usr/bin/perl



use strict;

use warnings;

use Web::Scraper;

use URI;

use YAML;

use Data::Dumper;



my $my_script = scraper {

    process '//script[2]', 'code' => 'raw';

    result 'code';

};

my $item = $my_script->scrape( URI->new("http://mattn.kaoriya.net") );

warn Dump $item;

この例では、はてなスターのトークン設定部が取得出来ます。


--- |-

<!--

Hatena.Star.Token = '43aa5d7954c8fc062faae4eaaa864913599c277b';

-->

※htmlというショートカットでも使えます。

相対URLから絶対URLを自前で生成しなくてもよくなった

「お腹が空いてきたのでWeb::Scraperでモスバーガーのメニューをスクレイピング」でやったように、今までは


process '.', url => sub {URI->new_abs($_->attr('href'), $uri)->as_string;};

というコードが必要でしたが、「@」による属性参照でリンクエレメントであるようならば、自動的に絶対URLを生成してくれます。
上のようなコードも


process '.', url => '@href';

と楽になりますね。
以上が私が0.13と0.15のdiffをざーーーーと見た感じの変更点です。

おまけ

今日はこれに付け加え、一つtipsを...
Web::ScraperでCISCO RECORDSをスクレーピングより

たとえば <li><span>1</span>Track 1</li> というHTMLから"Track1"だけを抽出しようにも process 'li', 'title' => 'TEXT'; だと 1Track1 なんて結果になるのでそれを回避するために process 'li', 'title' => sub { my $elem = shift; $elem->find_by_tag_name('span')->delete; return $elem->as_text; }; なんてことをしてるのですが、もっといい方法があるはず。

treeを壊さずやるとすれば、TextNodeを参照するのがいいかと思います。
例えば、XPathのnode()を使い、番号指定で取得します。だた現状のWeb::ScraperではTextNodeはショートカットで参照出来ませんので、以下のようにstring_valueを返すように手を加えると上手く行きます。
※相対URLの修正も含んでいます。


--- cisco_scraper.pl    Tue Sep 18 13:30:20 2007

+++ cisco_scraper2.pl   Tue Sep 18 14:12:49 2007

@@ -14,9 +14,7 @@

 

 $scraper{'link'} = scraper {

     process 'a', 'name' => 'TEXT';

-    process 'a', 'uri'  => sub {

-        return URI->new_abs( $_->attr('href'), $uri )->as_string;

-    };

+    process 'a', 'uri'  => '@href';

     result qw/name uri/;

 };

 

@@ -27,23 +25,15 @@

 };

 

 $scraper{'track'} = scraper {

-    process 'li', 'title' => sub {

-        my $elem = shift;

-        $elem->find_by_tag_name('span')->delete;

-        return $elem->as_text;

-    };

-    process 'li>a', 'uri' => sub {

-        return URI->new_abs( $_->attr('href'), $uri )->as_string;

-    };

+   process '//li/node()[4]', 'title' => sub {$_->string_value;};

+    process 'li>a', 'uri' => '@href';

     result qw/title uri/;

 };

 

 $scraper{'item'} = scraper {

     process 'td.de_title',      'title'  => 'TEXT';

     process 'td.de_artist',     'artist' => 'TEXT';

-    process 'td.nm_jacket>img', 'image'  => sub {

-        return URI->new_abs( $_->attr('src'), $uri )->as_string;

-    };

+    process 'td.nm_jacket>img', 'image'  => '@src';

     process 'td.de_price',              'price'   => 'TEXT';

     process 'td.de_label>a',            'label'   => $scraper{link};

     process 'td.de_genre',              'genre'   => $scraper{genre};

@@ -53,12 +43,7 @@

     process 'td[headers="de_sheet"]',   'sheet'   => 'TEXT';

     process 'td[headers="de_arrival"]', 'arrival' => 'TEXT';

     process 'td[headers="de_nomber"]',  'number'  => 'TEXT';

-    process 'p.de_star',                'star'    => sub {

-        my $elem = shift;

-        $elem->find_by_tag_name('span')->delete;

-        return $elem->as_text;

-

-    };

+    process '//p[@class="de_star"]/node()[2]', 'star' => sub {$_->string_value;};

     process 'ul[id="de_sound"]>li', 'tracks[]' => $scraper{track};

     result

         qw/title artist image price label genre format release release country sheet arrival number star tracks/;

このTextNode参照の需要があるならショートカットでも良いと思うんですが、いまんところ無さそうですね。

追記
otsune氏より「diff -uじゃないと...」という指摘で修正。

Posted at by mattn

お腹が空いてきたのでWeb::Scraperでモスバーガーのメニューをスクレイピング

こんな夜中に何やってんだか...
お腹が空いてきたので、モスバーガーのホームページからメニューをスクレイピングしてみる。
別に買いに行く訳じゃないけど...

思った以上に苦戦。苦戦の理由は「HTMLにIDやCLASSが殆んど振られておらず、XPathで抽出出来るパタンがない」こと。しょうがないのでまた無茶ぶりを発揮して、ノード階層をパタンとして使い、最小マッチのノードから欲しいノードへ上昇するというドロ臭いXPathを書いた。

パタンは、td要素を2つ持つtr要素で、かつそのtd要素内にはhref属性に"/menu/"という文字列を含んだa要素、しかもそのa要素は"pdf"という文字列を含んでいない。

結果、CSSセレクタは全く使わなかった(使えなかった?)。これじゃ、Web::Scraperのスライド資料の悪い例のままだ...
ま、取れたので良しとしよう。

mosburger-scraper.pl


#!/usr/local/bin/perl



use warnings;

use strict;

use Web::Scraper;

use YAML;

use URI;



my $uri = URI->new("http://www.mos.co.jp/menu/index.html");

my $mosburger = scraper {

    process '//tr[count(td)=2]/td/a[contains(@href,"/menu/") and not(contains(@href,".pdf"))]/img/../../..',

        'menus[]' => scraper {

            process '/tr/td[1]/a',     url => sub {URI->new_abs($_->attr('href'), $uri)->as_string;};

            process '/tr/td[1]/a/img', title => '@alt';

            process '/tr/td[1]/a/img', image => sub {URI->new_abs($_->attr('src'), $uri)->as_string;};

            process '/tr/td[2]/a',

                'perk' => scraper {

                    process '.', url => sub {URI->new_abs($_->attr('href'), $uri)->as_string;};

                    process 'img', title => '@alt';

                };

        };

    result 'menus';

};



my $burgers = $mosburger->scrape($uri);

warn Dump $burgers;


---

- image: http://www.mos.co.jp/menu/img/ph_hamburger18.jpg

  perk:

    title: サウザン野菜バーガー　¥300

    url: http://www.mos.co.jp/menu/hamburger/thousand/

  title: サウザン野菜バーガー

  url: http://www.mos.co.jp/menu/hamburger/thousand/

- image: http://www.mos.co.jp/menu/img/ph_hamburger19.jpg

  perk:

    title: ［期間限定 10月中旬まで］　シーザーサラダバーガー　¥300

    url: http://www.mos.co.jp/menu/hamburger/seasar/

  title: シーザーサラダバーガー

  url: http://www.mos.co.jp/menu/hamburger/seasar/

...

補足情報(場合によってはセットメニュー)も一緒に取得出来ます。

あー。はらへった。

Posted at by mattn

WWW::MechanizeとXPathでtwitterのfriendsを全部取ってみる

twitterのAPIでfriendsが100件しか取れなくなって久しいですが...
WWW::MechanizeとXPathでtwitterの全friendsを取得するサンプル作ってみました。あまりやり過ぎると、オフィシャル側に怒られそうな気もしますが...
後の使い方は、適当で...


#!/usr/local/bin/perl



use warnings;

use strict;

use LWP::Simple;

use XML::Simple;

use WWW::Mechanize;

use HTML::TreeBuilder::XPath;

use HTML::Selector::XPath qw(selector_to_xpath);

use Data::Dumper;



my $username = 'your_username';

my $password = 'your_password';



my $m = WWW::Mechanize->new(timeout => 10);

$m->get('http://twitter.com/login');

$m->submit_form(

    form_number => 1,

    fields    => {

        username_or_email  => $username,

        password           => $password,

    },

    button    => 'commit',

);



my $xpath = selector_to_xpath('tr.vcard');

my @friends;



my $num_page = 1;

while (1) {

    my $res = $m->get("http://twitter.com/friends/?page=$num_page");

    my $encoding = $res->header('Content-Encoding');

    my $content = $res->content;

    $content = Compress::Zlib::memGunzip($content) if $encoding =~ /gzip/i;

    $content = Compress::Zlib::uncompress($content) if $encoding =~ /deflate/i;



    my $tree = HTML::TreeBuilder::XPath->new;

    $tree->parse($content);

    $tree->eof;

    my @nodes = $tree->findnodes($xpath);

    for my $tr (@nodes) {

        push(@friends, {

                nick => $tr->findnodes('td/strong/a')->[0]->as_text,

                image => $tr->findvalue('td[@class="thumb"]//img/@src')->as_string,

                name => $tr->findvalue('td[@class="thumb"]//img/@alt')->as_string,

                description => $tr->findvalue('td/strong/a/@title')->as_string,

                url => $tr->findvalue('td[@class="thumb"]/a/@href')->as_string,

            });

    }

    $tree->delete;

    @nodes or last;

    $num_page++;

}



print Dumper @friends;

最近遊んでる物、ほとんどmiyagawa氏のものばっかだな...

Posted at by mattn