タグ

Browser-Useに関するmohnoのブックマーク (3)

  • 話題のbrowser-use使ってみた - Qiita

    はじめに 開発業務で「情報収集」や「タスク自動化」をするときにスクレイピングやクローリングを用いる場合があると思います。一時期私もスクレイピング関連のを読んでBeautifulSoup, Seleniumなどを使って自動化をしましたが、CSSセレクタを指定していくのが大変だったり、DOM構造が変わると動かなくなったりと、色々苦労した覚えがあります。 そんな時、browser-useという面白そうなライブラリを見つけたので、この記事では、browser-useを使ってみた内容を自分用のメモとして残そうと思います。 browser-useとは? browser-useはAIを使ってブラウザ操作を自動化してくれるツールです。 このツールは、Pythonを使ってブラウザで実行する操作をテキストで渡してあげると、AIがそのテキストに基づき操作を行ってくれます。そのためスクレイピング/提携業務の自動

    mohno
    mohno 2025/01/26
    まあ、情報収集に使うのはいいかもしれないが、「DOM構造が変わると動かなくなったり」←間違えずに取得できるんだろうか。
  • AIがブラウザを自動で操作。OpenAIのAIエージェント『Operator』登場。|ChatGPT研究所

    2025年1月24日、OpenAIはウェブ上のタスクを自動実行するAIエージェント「Operator」を公開しました。 ユーザー専用のリモートブラウザを使ってサイトを閲覧・操作し、さまざまなタスクを自動化できます。 現在はアメリカのProユーザー向けの研究プレビュー版として提供されており、OpenAIはユーザーからのフィードバックをもとに機能を改善しながら、将来的にはPlusやTeam、Enterpriseへの展開も検討されています。 「Computer-Using Agent(CUA)」とは?Operatorの中核にあるのが、新しいモデルである Computer-Using Agent(通称:CUA) です。 GPT-4oの視覚的能力と強化学習による推論力を組み合わせることで、 画面上のボタンやフォームといったグラフィカルユーザーインターフェイス(GUI)を解析し、マウスやキーボードとい

    AIがブラウザを自動で操作。OpenAIのAIエージェント『Operator』登場。|ChatGPT研究所
    mohno
    mohno 2025/01/24
    スマートスピーカーすら使う気がしなかったし、自分で使おうという気にはならないが、「今夜19時にベレッタで二名の予約をお願いします」←同名のレストランとか間違えて予約するのが心配にならないのかな。
  • 【🚨無職発生注意報🚨】ヒトはこうして仕事を奪われる~Browser Use Tutorial~ - Qiita

    はじめに 2025年はAIエージェントの年です。注目されているAIエージェントの一つが『AIが自動で自分のPC画面を操作』するBrowser Useというツールです。 Browser Useの面白さ Browser Useを使うと、AIが自動で自身のPC画面を操作することであらかじめ決めた目的を達成をしてくれます。 簡単な指示を出すだけで、自動でAIが色々操作してくれるのはキャッチーで衝撃的ですよね。 例えば下記のように完全自動でAIが記事を検索して記事の情報を取得してくれます。 簡単な指示でAIが自分で考えて画面操作をしてくれるのは近未来感ありますよね。 しかし、現場でAIを使いこなすには「AIがすごい」のレベルではまだ足りません。 実際に触ってみて何ができるのか?逆に何が苦手なのか?という肌感覚を持つことが非常に重要です。 そこで記事は、その肌感覚を養うために実際にBrowser U

    【🚨無職発生注意報🚨】ヒトはこうして仕事を奪われる~Browser Use Tutorial~ - Qiita
    mohno
    mohno 2025/01/11
    長いので斜め読みだけど、なんかめんどくさいというかスクレイピングと同じ(?)上に、有料サービスなのか。/C#でWebBrowserとかWebView2でいいや、ってなる。
  • 1