Perlを使って、例えばニュースサイト

Question

love2u2

165

162もっと見る

70pt

ビジネス・経営コンピュータ

Perlを使って、例えばニュースサイト

http://www.nikkei.co.jp/
などからトピックスになっている部分を抜き出すようなプログラムはどのように実装できるでしょうか？
簡単＆信頼性の高いモジュールなどありますでしょうか？
(当然、権利の問題などありますが、上記のURLは例です)

例えば、このサイトを例にすると、
---------ここから引用-----------------------------

ここの一行にトピックニュース

---------ここまで引用-----------------------------
という形式になっています。
それに対して、私のサイトのユーザーが、サイト内の特定のページに訪れた瞬間に、
NIKKEI NETサイトのこの真ん中の文字列を抜き出し、ページ内に表示するようなイメージです。

よろしくお願いいたします。

回答の条件

URL必須
1人2回まで

登録：2005/04/11 23:45:40
終了：--

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

まきのっぴ · Answer 1 · 2005-04-11T23:55:56+09:00

http://naoya.dyndns.org/~naoya/mt/archives/000833.html

Template::Extract + XML::RSS でRSS 生成 : NDO::Weblog

そのような目的を達成するには、LWP でダウンロードした HTML ファイル Template::Extract で解析するのが良いのではないかと思います。

liskweb · Answer 2 · 2005-04-12T07:30:50+09:00

http://x68000.q-e-d.net/~68user/net/

ネットワークプログラミングの基礎知識

RSSを提供していないようなサイトで

特定の部分を抜き出すということですよね。

もっとも簡単な手順は以下でできます。

（０）該当ページのソースを取得する。

　　　※HTTPCliantなど

（１）正規表現を使用して必要な部分を抽出。

＜例＞

$SOURCE ←この中に該当ページのHTMLソース

$SOURCE = ’AAAAAここの一行にトピックニュースBBBBB’;

$S = ’’;

$E = ’’;

if($SOURCE =~ /$S.*$E/i){

$TARGET = ”$&”;

$TARGET =~ s/$S|$E//g;

print ”$TARGET”;

}

$S = ””;

$E = ””;

　$SOURCE =~ /$S.*$E/;

$TARGET = ”$&”;

おそらくもっと良い方法は沢山あると思いますが、簡単な例として投稿しました。

リンク先には、ネットワークプログラミングの例があるページです。

まきのっぴ · Answer 3 · 2005-04-12T12:42:33+09:00

http://pmakino.jp/misc/nikkeitopics.pl

Template Toolkit 関連の日本語ドキュメントはまだほとんどないようです。

とりあえず例示の日経のトピックスを抽出するサンプルプログラムを置いておきます。

(今回は手抜きサンプルなのでアクセス毎に日経の Web サーバに情報を取りに行っていますが、実際に使う時には相手方のサーバに迷惑をかけないよう情報をキャッシュする等配慮した作りにしてください)

きのした · Answer 4 · 2005-04-12T13:33:41+09:00

http://www.amazon.co.jp/exec/obidos/ASIN/4873111870/ref=ase_koko...

Amazon.co.jp： Spidering hacks―ウェブ情報ラクラク取得テクニック101選: 本: Kevin Hemenway,Tara Calishain,村上雅章

活字メディアではありますが、おすすめの一冊です。

Perlを使って、例えばニュースサイト

回答（4件）

まきのっぴ358302005/04/11 23:55:56

liskweb2002005/04/12 07:30:50

まきのっぴ358302005/04/12 12:42:33

きのした912005/04/12 13:33:41

コメント（0件)

この質問への反応（ブックマークコメント）