2008/01/31


タレントスケジュールなんてサイトを見つけたので、さっそくスクレイピング。
ドキュメントに同じid属性が複数あるという、なんともダイナミックなHTMLにもめげず作り上げたのが以下 #!/usr/bin/perl

use encoding 'utf-8';
use strict;
use warnings;
use Encode qw(from_to);
use URI;
use URI::Escape qw(uri_escape_utf8);
use Web::Scraper;
use YAML;

if ($^O eq 'MSWin32') {
    binmode(STDERR, ':encoding(shift_jis)');
    Encode::from_to($ARGV[0], 'cp932', 'utf-8');
}
my $talent = shift || '小島よしお';

my $talent_schedule = scraper {
    process '//div[@class="find_bl"]/following-sibling::*[1]//td', day => 'TEXT';
    process '//div[@class="find_bl"]/following-sibling::*[1]//td/div',
        'schedule[]' => scraper {
            process 'div', media => sub { my $m = $_->attr('class'); $m =~ s/^icon_//g; $m };
            process '/div/a', url => '@href';
            process '/div/a', title => 'TEXT';
            process '/div/node()[1]', timespan => sub {
                my $s = $_->string_value;
                $s =~ s/ //;
                $s =~ s/(^|[^\d])(\d):(\d\d)/0$2:$3/g;
                my @span = split(/[^\d:]/, $s);
                \@span;
            };
        };
    result qw/day schedule/;
};
my $uri = URI->new('http://talent-schedule.jp/'.uri_escape_utf8($talent));
my $oppappi_schedule = $talent_schedule->scrape($uri);
warn Dump $oppappi_schedule;
ちょっと日付まわりで苦労してますが...

小島よしおって、結構番組出てますねぇ。

でもそんなの関係ry)
Posted at by




CodeReposに面白そうな物が入ってたので物色中。
どういうロジックでFriendを探しているのかは、まだ見てませんが...

こんなコードを実行すると... #!/usr/bin/perl

use strict;
use Net::Twitter::Friend::Finder::FromGoogle;

my $twitter = Net::Twitter::Friend::Finder::FromGoogle->new( {
        username => 'xxxxxxxxx',
        password => 'xxxxxxxxx' ,
        on_echo => 1,
        limit => 20 ,
        lang => 'ja' } );

$twitter->search;
$twitter->show;
こんな結果が返ります。 .----------------------------------------------.
| Net::Twitter::Friend::Finder::FromGoogle     |
'----------------------------------------------'
.---------+------------------------------------.
| Keyword | twitter                            |
'---------+------------------------------------'
.-----+----------------------+-----------------.
| #   | Twitter id           | Found count     |
'-----+----------------------+-----------------'
.-----+----------------------+-----------------.
| 1   | ikasam_a             | 1               |
| 2   | tsuda                | 1               |
| 3   | blog                 | 1               |
| 4   | help                 | 1               |
| 5   | tdtds                | 1               |
'-----+----------------------+-----------------'
なんだかwktk。

ところでFriend一覧で出てきたアカウント「help」って...

twitter-help
ちょwww
Posted at by




今日はもう寝ます。
ttyは明日ミマス。

typester++

sub handle {
    my ($self, $url) = @_;
    $url =~ qr!http://ttyshare.com/rec/\w+!;
}

sub find {
    my($self, $args) = @_;
    
    my $uri = $args->{url};
    my $response = LWP::UserAgent->new->post(
        $uri,
        ['download' => 1]);
    if($response->content =~ m/<div id="p-(.+?)" class="player">/) {
        my $enclosure = Plagger::Enclosure->new;
        $uri = sprintf('http://ttyshare.com/static/tty/%s/%s/%s/%s',
            substr($1, 0, 1), substr($1, 0, 2), substr($1, 0, 4), $1);
        $enclosure->url($uri);
        $enclosure->type('application/x-ttyrec');
        $enclosure->filename("$1.tty");
        return $enclosure;
    }

    return;
}
Posted at by