Big Sky

Publish::Twitterコピって、Publish::Wassrをでっちあげた。
一応動いてる。TwitterからWassrへポストした結果
※テストでは1件だけポストした。

twitter2wassr.yaml


global:

  assets_path: /home/user/plagger/assets

  timezone: Asia/Tokyo

  log:

    level: info



plugins:

  - module: Subscription::Config

    config:

      feed:

        - http://twitter.com/statuses/user_timeline/[twitter user].rss



  - module: Filter::BreakEntriesToFeeds

    config:

      use_entry_title: 1



  - module: Publish::Wassr

    config:

      username: [user name]

      password: [pass word]

Plagger/Plugin/Publish/Wassr.pm


package Plagger::Plugin::Publish::Wassr;

use strict;

use base qw( Plagger::Plugin );



use Encode;

use Net::Wassr;

use Time::HiRes qw(sleep);



sub register {

    my($self, $context) = @_;

    $context->register_hook(

        $self,

        'publish.entry' => \&publish_entry,

        'plugin.init'   => \&initialize,

    );

}



sub initialize {

    my($self, $context) = @_;

    my %opt = (

        user => $self->conf->{username},

        passwd => $self->conf->{password},

    );

    for my $key (qw/ apihost apiurl apirealm/) {

        $opt{$key} = $self->conf->{$key} if $self->conf->{$key};

    }

    $self->{wassr} = Net::Wassr->new(%opt);

}



sub publish_entry {

    my($self, $context, $args) = @_;



    my $body = $self->templatize('wassr.tt', $args);

    # TODO: FIX when Summary configurable.

    if ( length($body) > 159 ) {

        $body = substr($body, 0, 159);

    }

    $context->log(info => "Updating Wassr status to '$body'");

    $self->{wassr}->update( {status => encode_utf8($body)} ) or $context->error("Can't update wassr status");



    my $sleeping_time = $self->conf->{interval} || 15;

    $context->log(info => "sleep $sleeping_time.");

    sleep( $sleeping_time );

}



1;

__END__



=head1 NAME



Plagger::Plugin::Publish::Wassr - Update your status with feeds



=head1 SYNOPSIS



  - module: Publish::Wassr

    config:

      username: wassr-id

      password: wassr-password



=head1 DESCRIPTION



This plugin sends feed entries summary to your Wassr account status.



=head1 CONFIG



=over 4



=item username



Wassr username. Required.



=item password



Wassr password. Required.



=item interval



Optional.



=item apiurl



OPTIONAL. The URL of the API for wassr.jp. This defaults to "http://wassr.jp/user/xxx/statuses" if not set.



=item apihost



=item apirealm



Optional.

If you do point to a different URL, you will also need to set "apihost" and "apirealm" so that the internal LWP can authenticate.



    "apihost" defaults to "api.wassr.jp:80".

    "apirealm" defaults to "API Authentication".



=back



=head1 AUTHOR



Yasuhiro Matsumoto



=head1 SEE ALSO



L<Plagger>, L<Net::Wassr>



=cut

assets/plugins/Publish-Wassr/wassr.tt


[% IF entry.body %][% entry.body_text %][% ELSE %][% entry.title_text %][% END %] [% entry.permalink %]

deps/Publish-Wassr.yaml


name: Publish::Wassr

author: Yasuhiro Matsumoto

depends:

  Net::Wassr: 0

Net::Wassrは[Perl]Net::Wassr - Hatena::Diary::Neko::kak 500 Internal Server Errorを使用。

Web::Scraperの0.15がリリースされたので、色々試してみてます。
ほんのりと変わった所を調べてみます。

UserAgentが置き換えられるようになった

uaのスコープを変えて頂けたので、先日の「WWW::MechanizeとWeb::Scraperでtwitterのfriendsを全部取ってみる」でやった以下の様な無理やりなUA置き換えでなく


undef &Web::Scraper::__ua;

*Web::Scraper::__ua = sub {

    $mech;

};

以下のようにキレイな置き換えが出来るようになります。


$Web::Scraper::UserAgent = $mech;

スコープもourになってますから、別のパッケージ作るときにも便利かもしれませんね。

ショートカットとしてRAWが使えるようになった

これはインラインのjavascriptをそのままスクレイピングするのに使えますね。


#!/usr/bin/perl



use strict;

use warnings;

use Web::Scraper;

use URI;

use YAML;

use Data::Dumper;



my $my_script = scraper {

    process '//script[2]', 'code' => 'raw';

    result 'code';

};

my $item = $my_script->scrape( URI->new("http://mattn.kaoriya.net") );

warn Dump $item;

この例では、はてなスターのトークン設定部が取得出来ます。


--- |-

<!--

Hatena.Star.Token = '43aa5d7954c8fc062faae4eaaa864913599c277b';

-->

※htmlというショートカットでも使えます。

相対URLから絶対URLを自前で生成しなくてもよくなった

「お腹が空いてきたのでWeb::Scraperでモスバーガーのメニューをスクレイピング」でやったように、今までは


process '.', url => sub {URI->new_abs($_->attr('href'), $uri)->as_string;};

というコードが必要でしたが、「@」による属性参照でリンクエレメントであるようならば、自動的に絶対URLを生成してくれます。
上のようなコードも


process '.', url => '@href';

と楽になりますね。
以上が私が0.13と0.15のdiffをざーーーーと見た感じの変更点です。

おまけ

今日はこれに付け加え、一つtipsを...
Web::ScraperでCISCO RECORDSをスクレーピングより

たとえば <li><span>1</span>Track 1</li> というHTMLから"Track1"だけを抽出しようにも process 'li', 'title' => 'TEXT'; だと 1Track1 なんて結果になるのでそれを回避するために process 'li', 'title' => sub { my $elem = shift; $elem->find_by_tag_name('span')->delete; return $elem->as_text; }; なんてことをしてるのですが、もっといい方法があるはず。

treeを壊さずやるとすれば、TextNodeを参照するのがいいかと思います。
例えば、XPathのnode()を使い、番号指定で取得します。だた現状のWeb::ScraperではTextNodeはショートカットで参照出来ませんので、以下のようにstring_valueを返すように手を加えると上手く行きます。
※相対URLの修正も含んでいます。


--- cisco_scraper.pl    Tue Sep 18 13:30:20 2007

+++ cisco_scraper2.pl   Tue Sep 18 14:12:49 2007

@@ -14,9 +14,7 @@

 

 $scraper{'link'} = scraper {

     process 'a', 'name' => 'TEXT';

-    process 'a', 'uri'  => sub {

-        return URI->new_abs( $_->attr('href'), $uri )->as_string;

-    };

+    process 'a', 'uri'  => '@href';

     result qw/name uri/;

 };

 

@@ -27,23 +25,15 @@

 };

 

 $scraper{'track'} = scraper {

-    process 'li', 'title' => sub {

-        my $elem = shift;

-        $elem->find_by_tag_name('span')->delete;

-        return $elem->as_text;

-    };

-    process 'li>a', 'uri' => sub {

-        return URI->new_abs( $_->attr('href'), $uri )->as_string;

-    };

+   process '//li/node()[4]', 'title' => sub {$_->string_value;};

+    process 'li>a', 'uri' => '@href';

     result qw/title uri/;

 };

 

 $scraper{'item'} = scraper {

     process 'td.de_title',      'title'  => 'TEXT';

     process 'td.de_artist',     'artist' => 'TEXT';

-    process 'td.nm_jacket>img', 'image'  => sub {

-        return URI->new_abs( $_->attr('src'), $uri )->as_string;

-    };

+    process 'td.nm_jacket>img', 'image'  => '@src';

     process 'td.de_price',              'price'   => 'TEXT';

     process 'td.de_label>a',            'label'   => $scraper{link};

     process 'td.de_genre',              'genre'   => $scraper{genre};

@@ -53,12 +43,7 @@

     process 'td[headers="de_sheet"]',   'sheet'   => 'TEXT';

     process 'td[headers="de_arrival"]', 'arrival' => 'TEXT';

     process 'td[headers="de_nomber"]',  'number'  => 'TEXT';

-    process 'p.de_star',                'star'    => sub {

-        my $elem = shift;

-        $elem->find_by_tag_name('span')->delete;

-        return $elem->as_text;

-

-    };

+    process '//p[@class="de_star"]/node()[2]', 'star' => sub {$_->string_value;};

     process 'ul[id="de_sound"]>li', 'tracks[]' => $scraper{track};

     result

         qw/title artist image price label genre format release release country sheet arrival number star tracks/;