PHPでWebページを取得するのはとても簡単です。少しだけRubyに熱中したことがあります。いまも使っていて、テキスト処理は基本Rubyを使います。単純なWebページの取得であればライブラリのnokogiriを利用していました。
しかし、PHPのfile_get_contents()関数を利用するとすごく簡単にWebページが取得が出来ることがわかりました。
※「get」と「put」に注意してくださいね笑!
下記のようにfile_put_contents()関数を利用すればファイル化することができます。もちろんRubyでopen-uriとnokogiriを使ってRubyだけで処理することはできます。
PHPコード
//PHPでWebページを取得してローカルに保存する
$html = file_get_contents("http://example.com/");
file_put_contents("test.html", $html);
保存したファイルをRubyで処理するには以下のようにします。
※オプション、引数は最低限です。次へ。
Rubyコード
//ページのタイトルをコマンドプロンプトに表示させます
require "nokogiri"
file = File.read("test.html")
nokogiri = Nokogiri::HTML(file)
#puts nokogiri 全コード表示
puts nokogiri.css("title").text #タイトル表示
PHPとRUbyをこちらのページにあるPHPからRubyへ処理を渡す方法を使えば、一連の動作が可能になります。
特にRubyのCGIの設定がわからない私みたいなものにとってはとても助かります。冗長ではありますが、連動して動いてくれるひとまず助かります。