Big Sky

2008/01/31

Web::Scraper 0.15で何が変わったのか...とおまけ

Web::Scraperの0.15がリリースされたので、色々試してみてます。
ほんのりと変わった所を調べてみます。

UserAgentが置き換えられるようになった

uaのスコープを変えて頂けたので、先日の「WWW::MechanizeとWeb::Scraperでtwitterのfriendsを全部取ってみる」でやった以下の様な無理やりなUA置き換えでなく


undef &Web::Scraper::__ua;

*Web::Scraper::__ua = sub {

    $mech;

};

以下のようにキレイな置き換えが出来るようになります。


$Web::Scraper::UserAgent = $mech;

スコープもourになってますから、別のパッケージ作るときにも便利かもしれませんね。

ショートカットとしてRAWが使えるようになった

これはインラインのjavascriptをそのままスクレイピングするのに使えますね。


#!/usr/bin/perl



use strict;

use warnings;

use Web::Scraper;

use URI;

use YAML;

use Data::Dumper;



my $my_script = scraper {

    process '//script[2]', 'code' => 'raw';

    result 'code';

};

my $item = $my_script->scrape( URI->new("http://mattn.kaoriya.net") );

warn Dump $item;

この例では、はてなスターのトークン設定部が取得出来ます。


--- |-

<!--

Hatena.Star.Token = '43aa5d7954c8fc062faae4eaaa864913599c277b';

-->

※htmlというショートカットでも使えます。

相対URLから絶対URLを自前で生成しなくてもよくなった

「お腹が空いてきたのでWeb::Scraperでモスバーガーのメニューをスクレイピング」でやったように、今までは


process '.', url => sub {URI->new_abs($_->attr('href'), $uri)->as_string;};

というコードが必要でしたが、「@」による属性参照でリンクエレメントであるようならば、自動的に絶対URLを生成してくれます。
上のようなコードも


process '.', url => '@href';

と楽になりますね。
以上が私が0.13と0.15のdiffをざーーーーと見た感じの変更点です。

おまけ

今日はこれに付け加え、一つtipsを...
Web::ScraperでCISCO RECORDSをスクレーピングより

たとえば <li><span>1</span>Track 1</li> というHTMLから"Track1"だけを抽出しようにも process 'li', 'title' => 'TEXT'; だと 1Track1 なんて結果になるのでそれを回避するために process 'li', 'title' => sub { my $elem = shift; $elem->find_by_tag_name('span')->delete; return $elem->as_text; }; なんてことをしてるのですが、もっといい方法があるはず。

treeを壊さずやるとすれば、TextNodeを参照するのがいいかと思います。
例えば、XPathのnode()を使い、番号指定で取得します。だた現状のWeb::ScraperではTextNodeはショートカットで参照出来ませんので、以下のようにstring_valueを返すように手を加えると上手く行きます。
※相対URLの修正も含んでいます。


--- cisco_scraper.pl    Tue Sep 18 13:30:20 2007

+++ cisco_scraper2.pl   Tue Sep 18 14:12:49 2007

@@ -14,9 +14,7 @@

 

 $scraper{'link'} = scraper {

     process 'a', 'name' => 'TEXT';

-    process 'a', 'uri'  => sub {

-        return URI->new_abs( $_->attr('href'), $uri )->as_string;

-    };

+    process 'a', 'uri'  => '@href';

     result qw/name uri/;

 };

 

@@ -27,23 +25,15 @@

 };

 

 $scraper{'track'} = scraper {

-    process 'li', 'title' => sub {

-        my $elem = shift;

-        $elem->find_by_tag_name('span')->delete;

-        return $elem->as_text;

-    };

-    process 'li>a', 'uri' => sub {

-        return URI->new_abs( $_->attr('href'), $uri )->as_string;

-    };

+   process '//li/node()[4]', 'title' => sub {$_->string_value;};

+    process 'li>a', 'uri' => '@href';

     result qw/title uri/;

 };

 

 $scraper{'item'} = scraper {

     process 'td.de_title',      'title'  => 'TEXT';

     process 'td.de_artist',     'artist' => 'TEXT';

-    process 'td.nm_jacket>img', 'image'  => sub {

-        return URI->new_abs( $_->attr('src'), $uri )->as_string;

-    };

+    process 'td.nm_jacket>img', 'image'  => '@src';

     process 'td.de_price',              'price'   => 'TEXT';

     process 'td.de_label>a',            'label'   => $scraper{link};

     process 'td.de_genre',              'genre'   => $scraper{genre};

@@ -53,12 +43,7 @@

     process 'td[headers="de_sheet"]',   'sheet'   => 'TEXT';

     process 'td[headers="de_arrival"]', 'arrival' => 'TEXT';

     process 'td[headers="de_nomber"]',  'number'  => 'TEXT';

-    process 'p.de_star',                'star'    => sub {

-        my $elem = shift;

-        $elem->find_by_tag_name('span')->delete;

-        return $elem->as_text;

-

-    };

+    process '//p[@class="de_star"]/node()[2]', 'star' => sub {$_->string_value;};

     process 'ul[id="de_sound"]>li', 'tracks[]' => $scraper{track};

     result

         qw/title artist image price label genre format release release country sheet arrival number star tracks/;

このTextNode参照の需要があるならショートカットでも良いと思うんですが、いまんところ無さそうですね。

追記
otsune氏より「diff -uじゃないと...」という指摘で修正。

Posted at by mattn

Re: Web::Scraper 0.15とcisco_scraper.pl

Web::Scraper 0.15とcisco_scraper.pl

問題が一つ。添削してくださったパッチだと process '//li/node()[4]', 'title' => sub {$_->string_value;}; となっているのですが、4番目とは限らないんです。
たとえば、
http://www.cisco-records.co.jp/html/item/004/010/item393180.html
は何曲か試聴サンプルがないために、この処理だと取得できないです。

おろろ...
これはtext()でTextNodeを参照するしかないですね。
ただ、text()では改行等のゴミまで拾ってしまうので、以下のようにnormalize-space()で空文字ノードを省いています。
もしかすると、node()[2]も同じように修正した方がいいかもしれませんね。


#!/usr/bin/perl



use strict;

use warnings;



use Web::Scraper;

use URI;

use YAML;

use Data::Dumper;



my $uri = shift;



my %scraper;



$scraper{'link'} = scraper {

    process 'a', 'name' => 'TEXT';

    process 'a', 'uri'  => '@href';

    result qw/name uri/;

};



$scraper{'genre'} = scraper {

    process '//a[1]', 'top'   => $scraper{link};

    process '//a[2]', 'style' => $scraper{link};

    result qw/top style/;

};



$scraper{'track'} = scraper {

    process '//li/text()[normalize-space(.)!=""]', 'title' => sub {

        my $s = $_->as_XML;

        $s =~ s/\s+$//;

        return $s;

    };

    process 'li>a', 'uri' => '@href';

    result qw/title uri/;

};



$scraper{'item'} = scraper {

    process 'td.de_title',      'title'  => 'TEXT';

    process 'td.de_artist',     'artist' => 'TEXT';

    process 'td.nm_jacket>img', 'image'  => '@src';

    process 'td.de_price',              'price'   => 'TEXT';

    process 'td.de_label>a',            'label'   => $scraper{link};

    process 'td.de_genre',              'genre'   => $scraper{genre};

    process 'td[headers="de_format"]',  'format'  => 'TEXT';

    process 'td[headers="de_release"]', 'release' => 'TEXT';

    process 'td[headers="de_country"]', 'country' => 'TEXT';

    process 'td[headers="de_sheet"]',   'sheet'   => 'TEXT';

    process 'td[headers="de_arrival"]', 'arrival' => 'TEXT';

    process 'td[headers="de_nomber"]',  'number'  => 'TEXT';

    process '//p[@class="de_star"]/node()[2]', 'star' => 'TEXT';

    process 'ul[id="de_sound"]>li', 'tracks[]' => $scraper{track};

    result

        qw/title artist image price label genre format release release country sheet arrival number star tracks/;

};



my $item = $scraper{'item'}->scrape( URI->new($uri) );

warn Dump $item;

あと、ブックマークコメントで

コールバック渡しだと相対URLの展開がされないのは僕だけ？

との事ですが...少し調べてみた所Web::Scraper側でパッチが必要かもしれません。
以下svn/trunk(rev2351)からの差分です。


Index: lib/Web/Scraper.pm

===================================================================

--- lib/Web/Scraper.pm  (revision 2351)

+++ lib/Web/Scraper.pm  (working copy)

@@ -152,12 +152,12 @@

         local $_ = $node;

         return $val->($node);

     } elsif (blessed($val) && $val->isa('Web::Scraper')) {

-        return $val->scrape($node);

+        return $val->scrape($node, $uri);

     } elsif ($val =~ s!^@!!) {

         my $value =  $node->attr($val);

         if ($uri && is_link_element($node, $val)) {

             require URI;

-            $value = URI->new_abs($value, $uri);

+            $value = URI->new_abs($value, $uri)->as_string;

         }

         return $value;

     } elsif (lc($val) eq 'content' || lc($val) eq 'text') {

Posted at by mattn

Plaggerで「Shibuya.pm」のタグが付いている「はてなブックマーク」からオートディスカバリでフィードを取得してOPMLを作る

どっちかっていうと、今日の出来事みたいな記事になります。
題名の件をやろうとまず、以下のようなYAMLを書いた。


plugins:

  - module: Subscription::Config

    config:

      feed:

        - http://b.hatena.ne.jp/t/shibuya.pm?mode=rss



  - module: Publish::OPML

    config:

      title: Shibuya.pm

      filename: shibuya-pm.opml

で実行したけれどOPMLが空っぽ。
ソースを追ってBreakEntriesToFeedsが使えそうだったので以下の行を足した。


  - module: Filter::BreakEntriesToFeeds

    config:

      use_entry_title: 1

でも駄目。で、miyagawaさんにメールした。なぜか英語で...

余談 : なぜ英語か
以前、Web::Scraperについて質問メールを送った。でも反応が無かったので物は試しと英語で書いた。そしたら返事が返って来た。
→ 以後英語... orz

miyagawaさんから、「use BreakEntriesToFeeds」と返事が来たけど、「BreakEntriesToFeeds」は1 entryを1 feedに変換する為のプラグインで、subscriptionを変更するものでは無かった。
で、書きあげたのが以下のプラグイン

BreakEntriesToSubscriptions.pm


package Plagger::Plugin::Filter::BreakEntriesToSubscriptions;

use strict;

use base qw( Plagger::Plugin );



sub register {

    my($self, $context) = @_;

    $context->register_hook(

        $self,

        'update.feed.fixup' => \&break,

    );

}



sub break {

    my($self, $context, $args) = @_;



    for my $entry ($args->{feed}->entries) {

        my $feed = $args->{feed}->clone;

        $feed->clear_entries;



        $feed->add_entry($entry);

        $feed->link($entry->link);

        $feed->url($entry->link);

        eval {

            use HTML::TokeParser;

            my $agent = Plagger::UserAgent->new;

            my $res = $agent->fetch($entry->link, $self);

            my $parser = HTML::TokeParser->new(\$res->content);

            while (my $token = $parser->get_tag("link")) {

                my $attr = $token->[1];

                if ($attr->{rel} eq 'alternate'

                        && ($attr->{type} eq 'application/rss+xml'

                         or $attr->{type} eq 'application/atom+xml')) {

                    $feed->url(URI->new_abs($attr->{href}, $entry->link)-> as_string);

                    last;

                }

            }

        } if $self->conf->{use_auto_discovery};

        $feed->title($entry->title)

            if $self->conf->{use_entry_title};

        $context->subscription->add($feed);

    }



    $context->subscription->delete_feed($args->{feed});

}



1;



__END__



=head1 NAME



Plagger::Plugin::Filter::BreakEntriesToSubscriptions - some entry = 1 subscription



=head1 SYNOPSIS



  - module: Filter::BreakEntriesToSubscriptions



=head1 DESCRIPTION



This plugin breaks all the subscription entries into a single feed. This is

a fairly hackish plugin but it's helpful for make OPML from feeds.



=head1 CONFIG



=over 4



=item use_entry_title



Use subscription's title as a newly generated feed title. Defaults to 0.



=back



=head1 AUTHOR



Yasuhiro Matsumoto



=head1 THANKS



Tatsuhiko Miyagawa



=head1 SEE ALSO



L<Plagger>



=cut

ドキュメントにも書いた通り、ちょっと(かなり？)hackishなプラグインです。
このプラグインを使って

shibuya-pm2opml.yaml


plugins:

  - module: Subscription::Config

    config:

      feed:

        - http://b.hatena.ne.jp/t/shibuya.pm?mode=rss



  - module: Filter::BreakEntriesToSubscriptions

    config:

      use_entry_title: 1

      use_auto_discovery: 1



  - module: Publish::OPML

    config:

      title: Shibuya.pm

      filename: shibuya-pm.opml

こんなYAMLを用意すれば

「Shibuya.pm」のタグが付いている「はてなブックマーク」からオートディスカバリでフィードを取得したOPML

こんなOPMLファイルが出来上がります。

miyagawaさんに感謝

おしまい

※もしかしたらオートディスカバリ出来なかったURL(例えばPDFとか)はOPMLに含めないようにするオプションがいるかも...

Posted at by mattn