Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

MechanizeでUserAgentを切り替える方法。 MechanizeでScrapingしていると、時々UAチェックで弾かれることがある。 UserAgentを切り替える方法 mech = Mechanize.new mech.user_agent_alias = 'Windows IE 7' #キーを指定。 ちなみに使えるUserAgent UserAgentはこんな感じで、定数に展開されている。 AGENT_ALIASES = { 'Windows IE 6' => 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', 'Windows IE 7' => 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.507
簡単なサンプルと解説を書いてみました. Yasuriでお手軽スクレイピング よろしければ使ってみてください>< Yasuri とは Yasuri (鑢) は簡単にWebスクレイピングを行うための、"Mechanize" をサポートするライブラリです. Yasuriは、スクレイピングにおける、よくある処理を簡単に記述することができます. 例えば、 ページ内の複数のリンクを開いて、各ページをスクレイピングした結果をHashで取得する ページ内の複数のテキストをスクレイピングし、名前をつけてHashにする ページ内に繰り返し出現するテーブルをそれぞれスクレイピングして、配列として取得する ページネーションで提供される各ページのうち、上位3つだけを順にスクレイピングする これらを簡単に実装することができます. 例 require 'yasuri' require 'mechanize' # Nod
クリック証券で提供されている、為替レートのヒストリカルデータを一括取得するスクリプトを書いてみました。クリック証券にアクセスしてデータのzipアーカイブを取得し、指定ディレクトリに展開します。 注意事項 ダウンロードするにはクリック証券のアカウントが必要です。 データの利用にあたっては、ヒストリカルデータの利用規約もご確認願います。 クリック証券にログインし、「ツール」-「ヒストリカルデータ」から確認できます。 依存モジュール 実行には「mechanize」と「rubyzip」が必要です。 $ gem install mechanize $ gem install rubyzip スクリプト 「Download」モジュールがメイン。モジュールのAPIを利用して、2009年の1月から6月までのUSDJPYデータを取得します。 require 'rubygems' require 'mecha
Mechanize::AGENT_ALIASES => {"Mechanize"=> "Mechanize/2.7.3 Ruby/2.0.0p353 (http://github.com/sparklemotion/mechanize/)", "Linux Firefox"=> "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.1) Gecko/20100122 firefox/3.6.1", "Linux Konqueror"=>"Mozilla/5.0 (compatible; Konqueror/3; Linux)", "Linux Mozilla"=> "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.4) Gecko/20030624", "Mac Firefox"=> "Mozilla/
Ruby Mechanize wiki (ja) Ruby の Mechanize の wiki のよてい トップページページ一覧メンバー編集 Mechanize 最終更新: kitamomonga 2010年10月06日(水) 18:03:39履歴 Tweet Mechanize サーバにアクセスするための「Web ブラウザ」を表現するクラスです。このクラスのオブジェクトを操作してウェブにアクセスします。 require 'rubygems' require 'mechanize' require 'kconv' # アクセスのためのオブジェクトを作成 agent = Mechanize.new # Rubyの日本語サイトのトップページ uri = URI.parse('http://www.ruby-lang.org/ja/') # uri にアクセスしてページを取得 agent.ge
楽々スクレイピング! Ruby Mechanizeの使い方では、Mechanizeの基本的な使い方を紹介した。このエントリーではもう一歩踏み込んだMechanizeの便利な使い方を紹介する。 User-Agentを設定するスクレイピングにおいてUser-Agentを偽装するのは有効な方法だ。 MechanizeではMechanize#user_agent_alias=で特定の文字列を指定してやることで、User-Agentを設定することができる。 以下はMechanizeをWindowsのInternetExplorer 9に見せかける例である。 require 'mechanize' agent = Mechanize.new agent.user_agent_alias = 'Windows IE 9' なおMechanize#user_agent_alias=には以下の文字列が指定可
※環境はWindows、ruby1.9.3、mechanize-2.3です。 Mechanizeはrubyでスクレイピングするとしたら、もう定番と言ってもいいライブラリでしょう。普通に使う分には色々記事が既にあるのでここではhttpsではまった部分をちょっとだけ書いてみます。 デフォルトでは https で接続すると OpenSSL::SSL::SSLError: SSL_connect returned=1 errno=0 state=SSLv3 read server certificate B: certificate verify failedとエラーが出ます。証明書の検証に失敗しました、ということのようです。なのでとり得る方法は2つ。 証明書を検証しない(=> セキュリティー的に問題あり) 認証局の証明書をちゃんと指定する ■1. 証明書を検証しないでスクレイピングする方法 検証
今日はスクレイピングの話をします。 今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。 もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
Ruby Mechanize wiki (ja) Ruby の Mechanize の wiki のよてい トップページページ一覧メンバー編集 Mechanize::Form::SelectList 最終更新: kitamomonga 2010年10月18日(月) 20:54:43履歴 Tweet Mechanize::Form::SelectList 1項目しか選択できない選択メニュー、またはドロップダウンリスト全体を表現するクラスです。 <form name="selectform"> <select name="memu2"> <option value="1" selected>選択1</option> <option value="2">選択2</option> <option value="3">選択3</option> </select> </form> ラジオボタンやチェッ
Ruby Mechanize wiki (ja) Ruby の Mechanize の wiki のよてい トップページページ一覧メンバー編集 トップページ 最終更新: kitamomonga 2010年08月24日(火) 14:48:32履歴 Tweet Ruby の Mechanize のクラスとメソッドのせつめいの Wiki 自作外部リンク RubyのMechanizeを解説 for 1.0.0 インストールとか使い始めさん用のせつめいとかあります Wiki だけど編集は管理人のみです きゃっほー 現在 Mechanize 1.0.0 の通常使用範囲のクラスとメソッドをそれなりに書いた時点で力尽きましたです 管理は kitamomonga が行っております ブログはこちら http://d.hatena.ne.jp/kitamomonga/ 指摘連絡は今のところ手段がないので念力やテ
2011年02月28日 mechanizeの使用法 ・Browser Browserクラスのインスタンスを生成する import mechanize br = mechanize.browser() ・UserAgentの指定 br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] ・Proxyの設定 proxy_dict = {"http":"proxy.example.com:8080","ftp":""proxy.example.com"} br.set_proxies(proxy_dict) br.add_proxy_password("Username","Pas
Yahooオークションの自動出品スクリプトをRuby版Mechanizeを使って書いたが、それを楽天で応用すると最初のログインでつまづいてしまった。 この件に関していつも参照させていただいている「きたももんが」さんに泣きついた処: http://d.hatena.ne.jp/kitamomonga/20110628/ruby_mechanize_2_0 原因の詳細と取り敢えずの対処法を御示唆をいただいた(「きたももんが」さんありがとうございます): http://d.hatena.ne.jp/kitamomonga/20111011/ruby_mechanize_2_0_cookie_failure そもそもFireFox(以下FF)で楽天にログイン出来なかったり、仮に出来たとしてもその直後に再度ログインを求められるという不具合は有名らしい。原因は解らないが「きたももんが」さんの示唆にある
API仕様変更対応しました → iPhone用 Amazonマーケットプレイス書籍検索 今回の10月26日のProduct Advertising API(PA-API)仕様変更は、Amazon側としても金にならないリクエストは御免被るよ!ということで、PA-APIから色々と機能を削除した(特にアソシエイトと関係の薄いやつ)と思われるのだけど、利用者側としてもそれは困るので何とか他の方法を考えてしまうわけです。 APIの制限解除申請したら今まで通り使えるとか、制限解除申請したのにやっぱり制限されてたとか、いろいろな声がありますが、制限されると言うアナウンスを見て自分はすぐに以下のコードを作ったので、備忘録として残しておきます。 これは、WWW::Mechanizeを使ったマケプレ価格情報の取得方法ですが、おそらくAmazonサイトからスクレイピングで情報を抜き出すのはあまり推奨されていない
Heroku の基本 Hello Heroku(Web アプリケーション) Hello clockwork on Heroku(定期実行アプリケーション) foreman について 複数のプロセスを管理する Ruby 上のツール/ライブラリ clockwork について cron の代替となる機能を単独で提供してくれる軽量のツール/ライブラリ Git について ローカル環境で試す 目的 Mechanize を使ってウェブアクセスをエミュレートする基礎的な方法について説明します。 本ページが想定するのは基本的に「特定ページに対する操作の自動化」です。 自動巡回情報収集には Mechanize だけではなく、その他多くの応用技術が必要になるため対象としません。 インストール 以下のコマンドを実行して Mechanize gem をインストールします。 gem install mechanize
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く