Big Sky :: Perlでブックオフの店舗を検索し、結果をハッシュの配列に格納する

2008/08/19

Perlでブックオフの店舗を検索し、結果をハッシュの配列に格納する

HTML::TreeBuilderは便利だけど、データ構造がロジックになってしまうのが難点。

Perlでブックオフの店舗を検索し、結果をハッシュの配列に格納する - As a Futurist...

HTMLを解析する練習です。Perlの配列とかハッシュの扱いも少し分かりました。以下のブックオフの検索をPerlでやっただけです。
http://blog.riywo.com/2008/03/31/164327

ってことでWeb::Scraperで。


#!/usr/bin/perl -w



use strict;

use warnings;

use URI;

use Web::Scraper;

use YAML;



my $str = shift || '新宿';

my $uri = URI->new( 'http://www.bookoff.co.jp/shop/shop.php' );

$uri->query_form(

    action => 'search',

    station => $str,

    shop_name => $str,

);



warn Dump scraper {

    process '//tr[td]', 'res[]' => scraper {

        process '//td[1]', name => 'TEXT',

        process '//td[2]', time => 'TEXT',

        process '//td[3]', tel => 'TEXT',

        process '//td[4]', place => 'TEXT',

    };

    result qw/res /;

}->scrape( $uri );

Web::Scraper便利。
process書かずに


name => '//td[1]/text()'

とか書けるシンタックスシュガーあったらなぁ...とか思った。

Posted at 14:28 | WriteBacks () | Edit

Edit this entry...

wikieditish message: Ready to edit this entry.

New Name:

Title:

Body:

meta-tags: perl, web-scraper
meta-creation_date: 2008-08-19T14:28:05+09:00

HTML::TreeBuilderは便利だけど、データ構造がロジックになってしまうのが難点。 
<blockquote class="quote">
<a href="http://blog.riywo.com/2008/03/31/164327" class="external" target="_blank" rel="noopener noreferrer">Perlでブックオフの店舗を検索し、結果をハッシュの配列に格納する - As a Futurist...</a> 
HTMLを解析する練習です。Perlの配列とかハッシュの扱いも少し分かりました。 以下のブックオフの検索をPerlでやっただけです。
<cite>http://blog.riywo.com/2008/03/31/164327</cite>
</blockquote>
ってことでWeb::Scraperで。 
 
<code class="code">
#!/usr/bin/perl -w 
 
use strict; 
use warnings; 
use URI; 
use Web::Scraper; 
use YAML; 
 
my&nbsp;$str&nbsp;= shift&nbsp;|| '新宿'; 
my&nbsp;$uri&nbsp;= URI-&gt;new( '<a href="http://www.bookoff.co.jp/shop/shop.php">http://www.bookoff.co.jp/shop/shop.php</a>'&nbsp;); 
$uri-&gt;query_form( 
&nbsp;&nbsp;&nbsp;&nbsp;action&nbsp;=&gt; 'search', 
&nbsp;&nbsp;&nbsp;&nbsp;station&nbsp;=&gt; $str, 
&nbsp;&nbsp;&nbsp;&nbsp;shop_name&nbsp;=&gt; $str, 
); 
 
warn&nbsp;Dump scraper { 
&nbsp;&nbsp;&nbsp;&nbsp;process '//tr[td]', 'res[]'&nbsp;=&gt; scraper { 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;process '//td[1]', name&nbsp;=&gt; 'TEXT', 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;process '//td[2]', time&nbsp;=&gt; 'TEXT', 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;process '//td[3]', tel&nbsp;=&gt; 'TEXT', 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;process '//td[4]', place&nbsp;=&gt; 'TEXT', 
&nbsp;&nbsp;&nbsp;&nbsp;}; 
&nbsp;&nbsp;&nbsp;&nbsp;result qw/res /; 
}-&gt;scrape( $uri&nbsp;); 
</code>
Web::Scraper便利。 
process書かずに 
<code class="code">
name&nbsp;=&gt; '//td[1]/text()' 
</code>
とか書けるシンタックスシュガーあったらなぁ...とか思った。

Excerpt:

Ping URLs:

File:

Password:

A quick preview will be rendered here when you click "Preview" button.