例えばニュースサイト
http://www.nikkei.co.jp/
などからデータを抜き出すようなソフトはありませんでしょうか。
(当然、権利の問題などありますが、上記のURLは例です)
例えば、このサイトを例にすると、
---------ここから引用-----------------------------
<!--FJZONE START NAME=”MIDASHI” -->
ここの一行にトピックニュース
<!--FJZONE END NAME=”MIDASHI” -->
---------ここまで引用-----------------------------
という形式になっています。
それに対して、ソフトでアクセスして(もしくはローカルに保存したHTMLに対して)NIKKEI NETサイトのこの間にある文字列を抜き出し、データとして保存するようなイメージです。
できれば、そのページ内からいくつかのデータを抜き出して、CSVなりデータベースに落としたいです。
よろしくお願いいたします。
ポイントは結構です。
少し趣旨が違いますが、Samurizeというソフトがあります。
デスクトップをカスタマイズし、ニュース等の情報を貼り付けることが可能になるソフトなのですが、
ニュースサイトより記事の取得を行う動作が貴方の求められている動作と似たものです。
このソフトでは情報の取得の多くはスクリプトで動いているのですが、
Samurizeを使わずスクリプトを単体で動作させても取得出来ます。
上記サイトで配布されているスクリプトを触ってみて、同サイトで配布されているScriptTemplateJ.vbsに応用されてはいかがでしょうか?
補足ですが、取得情報の保存場所等はスクリプトの中身を改変することで設定して下さい。
http://www.hatena.ne.jp/1125831139
人力検索はてな - htmlファイルを一定の条件で抽出or保存する方法を探しています。 ☆☆☆ズバリ→600pt☆☆☆ 但し、答えが重なったりしたら分配もあります。 例えば、http://www.mozilla.g..
こちらの過去ログがもしかしたら参考になるかもしれません。
確認してみてください。
ちょっと違います。
HTMLファイルを集めたい訳ではありません。
集まったHTMLファイルから必要な箇所を抽出したいのです。
よろしくお願いいたします。
このサイトのへっどらいん。というソフトで、ニュースサイトを持ってくることができます。どうでしょうか??フリーのソフロです。
PHPですね。
チャレンジしてみますが、できればWinにインストールするアプリケーションソフトでお願いします・・・。
webチェックソフトですが、同ディレクトリ内にあるfilter.txtに、例を引用すると、
SCI(Tabスペース)http://www.nikkei.co.jp/(Tabスペース)<!--FJZONE START NAME=”MIDASHI” -->(Tabスペース)<!--FJZONE END NAME=”MIDASHI” -->(改行)
と書き込んで保存してからWWWCを起動し、サイト先を登録し更新チェックしてから右クリックの”ソースを見る”をShiftキーを押しながら選択しますと
抽出したい部分だけのソースを見ることができます。後はコピーして手動になりますが。ローカルファイルもチェックできます。
インストールの必要はなくレジストリもいじりませんので、試してみて下さい。
確かに似ていて、参考になりました。