HTMLファイルをパースしてその中からデータを抜き出すことのできるソフトを探しています。最も良いものを教えてください。特に、<table>の中で、行、列で取り出したり、特定の列をキーにして取り出したりすることができるものを探しています。単独アプリケーションでも、ライブラリでもかまいません。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:--
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答4件)

id:muryoo No.1

回答回数54ベストアンサー獲得回数0

id:dayofgreen

ありがとうございます。どのページにも対応できるようなツールを探しています。

2004/06/06 17:11:11
id:cx20 No.2

回答回数607ベストアンサー獲得回数108

ポイント20pt

■ HTMLの表を取得するには?

というのがありました。

IEのブラウザコントロール(WebBrowser)を使う方法です。

また、Excelの「Webクエリ」を使うというのはいかがでしょう?

http://www.atmarkit.co.jp/fwin2k/win2ktips/320webquery/webquery....

@IT:Windows TIPS -- Tips:Webクエリで外部データとダイナミックにリンクする

COM呼び出し(オートメーション)を利用すれば、

VB や VC++ から結果のみを取得することも可能だと思います。

id:dayofgreen

ありがとうございます。プラットフォームに依存しないJavaアプリか、Javaモジュールなどはありませんでしょうか?

2004/06/06 17:12:23
id:cx20 No.3

回答回数607ベストアンサー獲得回数108

ポイント20pt

Java2 に標準で HTML パーサー( javax.swing.text.html.parser )

http://java.sun.com/j2se/1.4/ja/docs/ja/api/javax/swing/text/htm...

クラス: javax.swing.text.html.HTML.Tag の使用 (Java 2 プラットフォーム SE v1.4.0)

が付いてくるようです。

Java やったことが無いので外してたらすみません(^^A

また、そのほかの HTML パーサーとして、

■ Jericho HTML Parser

■ JavaCC HTML Parser

■ JTidy

■ Kizna HTML Parser

http://htmlparser.sourceforge.net/

HTML Parser - HTML Parser

■ CyberNeko HTML Parser

などがあるようです。

id:dayofgreen

ありがとうございます。

2004/06/06 20:57:18
id:ponta_3rd No.4

回答回数196ベストアンサー獲得回数0

ポイント20pt

javaのモジュールを探しているとのことですので、

HttpUnitを紹介します。

(日本語訳ページと本家のページ)

httpunitはテストユニットとして紹介されている事が

多いのですが、httpunit自体には、テスト機能はありません。有るのは、静的・動的と問わず、httpにリクエストをかけて、その戻りのhtmlのタグを解析してオブジェクト化する機能です。

問い合わせのテーブル解析(WebTableクラス)も有ります。

(実際に使用したこともあり、非常に使いやすいモジュールです。)

id:dayofgreen

ありがとうございます。

2004/06/07 15:51:06

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません