Windows用のソフトを探しています。

例えばニュースサイト
http://www.nikkei.co.jp/
などからデータを抜き出すようなソフトはありませんでしょうか。
(当然、権利の問題などありますが、上記のURLは例です)

例えば、このサイトを例にすると、
---------ここから引用-----------------------------
<!--FJZONE START NAME=”MIDASHI” -->
ここの一行にトピックニュース
<!--FJZONE END NAME=”MIDASHI” -->
---------ここまで引用-----------------------------
という形式になっています。
それに対して、ソフトでアクセスして(もしくはローカルに保存したHTMLに対して)NIKKEI NETサイトのこの間にある文字列を抜き出し、データとして保存するようなイメージです。
できれば、そのページ内からいくつかのデータを抜き出して、CSVなりデータベースに落としたいです。

よろしくお願いいたします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:--
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答4件)

id:nan3 No.1

回答回数35ベストアンサー獲得回数0

ポイント10pt

ポイントは結構です。


少し趣旨が違いますが、Samurizeというソフトがあります。

デスクトップをカスタマイズし、ニュース等の情報を貼り付けることが可能になるソフトなのですが、

ニュースサイトより記事の取得を行う動作が貴方の求められている動作と似たものです。

 

このソフトでは情報の取得の多くはスクリプトで動いているのですが、

Samurizeを使わずスクリプトを単体で動作させても取得出来ます。

上記サイトで配布されているスクリプトを触ってみて、同サイトで配布されているScriptTemplateJ.vbsに応用されてはいかがでしょうか?

 

補足ですが、取得情報の保存場所等はスクリプトの中身を改変することで設定して下さい。

id:love2u2

確かに似ていて、参考になりました。

2005/11/24 02:56:51
id:borin No.2

回答回数2053ベストアンサー獲得回数0

ポイント10pt

http://www.hatena.ne.jp/1125831139

人力検索はてな - htmlファイルを一定の条件で抽出or保存する方法を探しています。 ☆☆☆ズバリ→600pt☆☆☆ 但し、答えが重なったりしたら分配もあります。 例えば、http://www.mozilla.g..

こちらの過去ログがもしかしたら参考になるかもしれません。


確認してみてください。

id:love2u2

ちょっと違います。

HTMLファイルを集めたい訳ではありません。

集まったHTMLファイルから必要な箇所を抽出したいのです。

よろしくお願いいたします。

2005/11/24 03:00:13
id:uno_y No.3

回答回数48ベストアンサー獲得回数0

ポイント40pt

このサイトのへっどらいん。というソフトで、ニュースサイトを持ってくることができます。どうでしょうか??フリーのソフロです。

id:love2u2

PHPですね。

チャレンジしてみますが、できればWinにインストールするアプリケーションソフトでお願いします・・・。

2005/11/24 16:03:15
id:k_gori No.4

回答回数97ベストアンサー獲得回数6

ポイント10pt

webチェックソフトですが、同ディレクトリ内にあるfilter.txtに、例を引用すると、

SCI(Tabスペース)http://www.nikkei.co.jp/(Tabスペース)<!--FJZONE START NAME=”MIDASHI” -->(Tabスペース)<!--FJZONE END NAME=”MIDASHI” -->(改行)

と書き込んで保存してからWWWCを起動し、サイト先を登録し更新チェックしてから右クリックの”ソースを見る”をShiftキーを押しながら選択しますと

抽出したい部分だけのソースを見ることができます。後はコピーして手動になりますが。ローカルファイルもチェックできます。

インストールの必要はなくレジストリもいじりませんので、試してみて下さい。

コメントはまだありません

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません