Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

MechanizeでUserAgentを切り替える方法。 MechanizeでScrapingしていると、時々UAチェックで弾かれることがある。 UserAgentを切り替える方法 mech = Mechanize.new mech.user_agent_alias = 'Windows IE 7' #キーを指定。 ちなみに使えるUserAgent UserAgentはこんな感じで、定数に展開されている。 AGENT_ALIASES = { 'Windows IE 6' => 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', 'Windows IE 7' => 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.507
簡単なサンプルと解説を書いてみました. Yasuriでお手軽スクレイピング よろしければ使ってみてください>< Yasuri とは Yasuri (鑢) は簡単にWebスクレイピングを行うための、"Mechanize" をサポートするライブラリです. Yasuriは、スクレイピングにおける、よくある処理を簡単に記述することができます. 例えば、 ページ内の複数のリンクを開いて、各ページをスクレイピングした結果をHashで取得する ページ内の複数のテキストをスクレイピングし、名前をつけてHashにする ページ内に繰り返し出現するテーブルをそれぞれスクレイピングして、配列として取得する ページネーションで提供される各ページのうち、上位3つだけを順にスクレイピングする これらを簡単に実装することができます. 例 require 'yasuri' require 'mechanize' # Nod
クリック証券で提供されている、為替レートのヒストリカルデータを一括取得するスクリプトを書いてみました。クリック証券にアクセスしてデータのzipアーカイブを取得し、指定ディレクトリに展開します。 注意事項 ダウンロードするにはクリック証券のアカウントが必要です。 データの利用にあたっては、ヒストリカルデータの利用規約もご確認願います。 クリック証券にログインし、「ツール」-「ヒストリカルデータ」から確認できます。 依存モジュール 実行には「mechanize」と「rubyzip」が必要です。 $ gem install mechanize $ gem install rubyzip スクリプト 「Download」モジュールがメイン。モジュールのAPIを利用して、2009年の1月から6月までのUSDJPYデータを取得します。 require 'rubygems' require 'mecha
Mechanize::AGENT_ALIASES => {"Mechanize"=> "Mechanize/2.7.3 Ruby/2.0.0p353 (http://github.com/sparklemotion/mechanize/)", "Linux Firefox"=> "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.1) Gecko/20100122 firefox/3.6.1", "Linux Konqueror"=>"Mozilla/5.0 (compatible; Konqueror/3; Linux)", "Linux Mozilla"=> "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.4) Gecko/20030624", "Mac Firefox"=> "Mozilla/
Ruby Mechanize wiki (ja) Ruby の Mechanize の wiki のよてい トップページページ一覧メンバー編集 × Mechanize 最終更新: kitamomonga 2010年10月06日(水) 18:03:39履歴 Tweet Mechanize サーバにアクセスするための「Web ブラウザ」を表現するクラスです。このクラスのオブジェクトを操作してウェブにアクセスします。 require 'rubygems' require 'mechanize' require 'kconv' # アクセスのためのオブジェクトを作成 agent = Mechanize.new # Rubyの日本語サイトのトップページ uri = URI.parse('http://www.ruby-lang.org/ja/') # uri にアクセスしてページを取得 agent.
楽々スクレイピング! Ruby Mechanizeの使い方では、Mechanizeの基本的な使い方を紹介した。このエントリーではもう一歩踏み込んだMechanizeの便利な使い方を紹介する。 User-Agentを設定するスクレイピングにおいてUser-Agentを偽装するのは有効な方法だ。 MechanizeではMechanize#user_agent_alias=で特定の文字列を指定してやることで、User-Agentを設定することができる。 以下はMechanizeをWindowsのInternetExplorer 9に見せかける例である。 require 'mechanize' agent = Mechanize.new agent.user_agent_alias = 'Windows IE 9' なおMechanize#user_agent_alias=には以下の文字列が指定可
※環境はWindows、ruby1.9.3、mechanize-2.3です。 Mechanizeはrubyでスクレイピングするとしたら、もう定番と言ってもいいライブラリでしょう。普通に使う分には色々記事が既にあるのでここではhttpsではまった部分をちょっとだけ書いてみます。 デフォルトでは https で接続すると OpenSSL::SSL::SSLError: SSL_connect returned=1 errno=0 state=SSLv3 read server certificate B: certificate verify failedとエラーが出ます。証明書の検証に失敗しました、ということのようです。なのでとり得る方法は2つ。 証明書を検証しない(=> セキュリティー的に問題あり) 認証局の証明書をちゃんと指定する ■1. 証明書を検証しないでスクレイピングする方法 検証
Ruby Mechanize wiki (ja) Ruby の Mechanize の wiki のよてい トップページページ一覧メンバー編集 トップページ 最終更新: kitamomonga 2010年08月24日(火) 14:48:32履歴 Tweet Ruby の Mechanize のクラスとメソッドのせつめいの Wiki 自作外部リンク RubyのMechanizeを解説 for 1.0.0 インストールとか使い始めさん用のせつめいとかあります Wiki だけど編集は管理人のみです きゃっほー 現在 Mechanize 1.0.0 の通常使用範囲のクラスとメソッドをそれなりに書いた時点で力尽きましたです 管理は kitamomonga が行っております ブログはこちら http://d.hatena.ne.jp/kitamomonga/ 指摘連絡は今のところ手段がないので念力やテ
Heroku の基本 Hello Heroku(Web アプリケーション) Hello clockwork on Heroku(定期実行アプリケーション) foreman について 複数のプロセスを管理する Ruby 上のツール/ライブラリ clockwork について cron の代替となる機能を単独で提供してくれる軽量のツール/ライブラリ Git について ローカル環境で試す 目的 Mechanize を使ってウェブアクセスをエミュレートする基礎的な方法について説明します。 本ページが想定するのは基本的に「特定ページに対する操作の自動化」です。 自動巡回情報収集には Mechanize だけではなく、その他多くの応用技術が必要になるため対象としません。 インストール 以下のコマンドを実行して Mechanize gem をインストールします。 gem install mechanize
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く