OpenAI Operator解説:ブラウザを自律操作するAIエージェントの衝撃

Open AI Operatorどんな事ができるの?

はじめに

こんにちは。AIたぬき のアンジンです。

日本時間、1月24日にOpenAIからOperatorというAIエージェントが発表されました。

まだアメリカのPro版ユーザー(月額200ドル)の方しか使用できないので、私は使用できていません。

早期トライアルの恩恵に預かった方たちの使用動画、感想をみているだけでめちゃワクワクしたのでまとめてみました。

目次

Operatorとは

Operatorは、OpenAIが開発した次世代AIエージェントです。独自のブラウザ環境を持ち、ウェブページの閲覧、入力、クリック、スクロールといった操作を自律的に実行できます。

ユーザーの代わりにウェブ上でさまざまなタスクを自律的に実行するすごい子です。

従来のAIツールが主に情報提供や質問応答といった受動的な役割を担っていたのに対し、Operatorは専用のブラウザを使用して実際の操作—入力、クリック、スクロールなど—を自動で行います。

最初画面はこんな感じ出そうです。

基本機能

  • 専用ブラウザ環境での自律的な操作
  • タスクの自動実行と必要時の人間への制御移譲
  • 複数タスクの同時実行機能
  • カスタム設定による作業の自動化

主な機能と特徴

  1. 自動化されたウェブ操作
    • フォームの入力や食料品のオンライン注文、ミームの作成など、繰り返し行うブラウザ作業を自動化します。
  2. 高度な推論能力
    • GPT-4oの視覚機能と強化学習を組み合わせた「Computer-Using Agent(CUA)」モデルを採用。これにより、画面上のボタンやメニュー、テキストフィールドといったGUIと対話し、適切なアクションを実行します。
  3. 柔軟な対応と自己修正
    • ウェブサイトでの障害やエラーに直面した際、自己修正機能を活用して問題を解決。例えば、CAPTCHAに引っかかった場合はユーザーに制御を戻し、スムーズな作業継続をサポートします。
  4. マルチタスクの遂行
    • 複数のタスクを同時に実行可能。例えば、オンラインショッピングをしながら旅行の予約を行うなど、複数の作業を並行して進めることができます。
  5. カスタマイズ可能なワークフロー
    • 特定のサイト用にカスタム設定を追加することで、ユーザーのニーズに合わせた最適なワークフローを構築。例えば、特定の航空会社を指定してフライトを予約したり、食料品の補充を迅速に行ったりすることが可能です。

技術基盤

  • Computer-Using Agent(CUA)による動作
  • GPT-4の視覚機能と強化学習の組み合わせ
  • GUI要素との自然な対話機能
  • 問題発生時の自己修正能力

Computer-Using Agent(CUA)モデルとは?

Operatorは「Computer-Using Agent(CUA)」という最新のAIモデルを採用しています。このモデルは、以下の要素を組み合わせて動作しています:

  • GPT-4oの視覚機能: GPT-4oは、画像認識能力を持ちます。
    Operatorはこの視覚機能を活用して、ウェブページのスクリーンショットを「見る」ことができます。これにより、画面上のボタンやメニュー、テキストフィールドなどのグラフィカルユーザーインターフェース(GUI)を理解し、適切に操作することが可能になります。
  • 強化学習による高度な推論: 強化学習という環境を考慮した学習方法を用いて、Operatorは試行錯誤を繰り返しながら最適な操作方法を学習していきます。これにより、複雑なタスクや予期せぬ状況にも柔軟に対応できるようになります。

パートナー企業との連携

OpenAIは以下の主要企業とパートナーシップを結んでいます。
パートナー企業が増えれば増えるほど出来ることが一気に増えるわけで、1年後には大規模サービスは全て網羅されていると思っています。もちろん日本でも!

  • DoorDash(ドアダッシュ):食事配達サービス最大手。レストランの料理を自宅や職場へデリバリー
  • Instacart(インスタカート):食料品・日用品のデリバリーサービス。複数店舗の商品を一括で注文可能
  • OpenTable(オープンテーブル):レストラン予約プラットフォーム。世界中のレストランをオンラインで予約
  • Priceline(プライスライン):旅行予約サイト。航空券、ホテル、レンタカーなどを一括比較・予約
  • StubHub(スタブハブ):チケット売買プラットフォーム。コンサート、スポーツ、演劇などのチケットを取引
  • Thumbtack(サムタック):ローカルサービス マッチングプラットフォーム。清掃や修理などの業者を検索・予約
  • Uber(ウーバー):配車・配達サービス大手。タクシー配車やフードデリバリーを展開

実際のユースケース検証

早期アクセス権を得たユーザーによる検証結果をご紹介します:
画面動画もあったのですがスクショだけ貼っておきます。

1. AIシェフ:食材の自動注文

機能要点:

  • 写真とレシピからの食材認識
  • 必要な材料の自動カート投入
  • 調理人数に応じた分量計算

料理の写真とレシピからAIが必要な食材を分析し、自動で買い物カートに追加する機能を実装。分量の自動計算や、調理人数に応じた材料の調整まで対応します。例えば、4人分のレシピを6人分に変更する際も、正確な分量で食材を注文できます。

冷蔵庫と連動すれば。あかちゃんがいる家とかめちゃ便利。

こちらは マウスが勝手に動いて食材買っている様子です。なんかボヤボヤ画像ですみません。

2. AIトラベルプランナー:情報収集と旅行計画

機能要点:

  • オンラインでの現地情報収集
  • 予算に応じた旅程作成
  • 代替情報源への柔軟な切り替え

予算と希望を伝えると、Redditなどの情報源から現地の観光情報を収集。サイトにブロックされた場合でも、代替の情報源を自動で探索し、予算内で実現可能な旅程を提案します。

CAPTCHAを突破できなくて、その時だけユーザーにヘルプ要請して、あとは自分でやったようです。
以前、CAPTCHA突破するためにココナラのようなサービスに登録。CAPTCHA突破の依頼をする。「あなたはAIじゃないですよね?」の質問に「私は人間ですが、視覚障害者なのです。」と嘘をついて突破したというニュース覚えてますか? 

目的のために手段を選ばないAIも好きです。

3. AI投資アドバイザー:暗号資産リサーチ

機能要点:

  • 複数情報源からのデータ収集
  • ボット対策への適切な対応
  • 総合的な投資分析の提供

暗号資産の調査で複数サイトのデータを統合的に分析。CAPTCHAなどのボット判定時には適切にユーザーに制御を移譲し、確認後は自動で調査を再開。専門アナリストのような詳細な分析を提供します。

もはや自動売買プログラムが不要になる。こんな分野まで早期に介入してくるとは!

4. AI旅行代理店:フライト予約

機能要点:

  • 航空券の最適化検索
  • 予算と条件の確認
  • 個人情報入力時の適切な権限移譲

チューリッヒからウィーンまでの片道フライトを探す実験では、Booking.comを使って最適な便を提案してくれました。予算や時間帯の希望を確認し、決済時には適切にユーザー操作に切り替えるなど、人間の旅行代理店のような丁寧な対応を実現。

ログインの瞬間だけ手動になることもあるみたいですが2回目以降は自動ログインですからまあAIエージェントですね。

5. AIスケジューラー:美容院予約

機能要点:

  • カレンダーとの自動連携
  • 空き時間の把握と提案
  • 予約システムとの連動

Googleカレンダーで空き時間を確認し、美容院の予約システムと連携して最適な時間帯を提案。ログイン必要時は適切に通知し、予約完了までをスムーズにサポートします。

6. AIギフトアドバイザー:誕生日プレゼント選び

機能要点:

  • 趣味嗜好の理解と反映
  • 複数ECサイトでの横断検索
  • 価格帯に応じた具体的提案

母の誕生日プレゼント選びでは、趣味や興味(園芸、室内観葉植物など)を考慮し、複数のECサイトを横断的に検索。アクセス制限のあるサイトは代替サイトで補完し、予算内で最適な提案を実現します。

7. AI家事代行:クリーニングサービス予約

機能要点:

  • 業者の詳細な評価分析
  • 予算内での最適化提案
  • レビュー情報の統合的理解

Thumbtackを使用して予算内で高評価のクリーニング業者を4つ選出。各業者の特徴やレビュー傾向を分析し、具体的な選択基準とともに提案を行います。

8. AI保険アドバイザー:健康保険プラン比較

機能要点:

  • 公開情報の包括的収集
  • プラン間の詳細比較
  • 追加情報の的確な提示

スイスの健康保険比較では、会員登録の壁を考慮しながら公開情報を最大限活用。基本プランの補償範囲や評価を比較し、詳細確認に必要な次のステップまで提案します。

9. AIペットケア:ドッグウォーカー検索

機能要点:

  • 複数サービスの横断検索
  • 詳細なレビュー分析
  • ニーズに応じた最適化提案

バンクーバーのドッグウォーカー検索では、複数の予約サイトから評価の高い候補者を3名選出。小型犬の扱いや当日予約への対応など、具体的なニーズに基づいた提案を行います。

日本からChatGPT Operatorを使う方法

この方。KEITOさんという方なんですが。

Proプラン(200ドル)の上にBraveのVPN(月額9.99ドル)でOperatorを使用しています。

200ドルのプロプランをサブスクしている方はVPN使うだけでいますぐOperatorを使用できます。

私のように月額20ドルの Plusプランも まもなく使用できるようになるはず。

実際VPNを使用してアメリカのサーバー経由でChatGPTを開くとすでにPlusプランでもOperatorがメニューに表示されています。

Screenshot

このOperatorをクリックすると Proプランへの加入画面が表示されます。

KEITOさんのYouTubeみると日本語で使用している雰囲気が丸わかりなので興味ある方は是非チェックしてみてください!

カスタマイズと活用方法

Operatorでは、以下のようなカスタマイズが可能です:

  • サイト別のカスタム設定(例:Booking.comでの航空会社設定)
  • 定期的なタスクのプロンプト保存
  • 複数タスクの同時実行設定
  • ワークフローのパーソナライズ

これにより、ユーザーは自分のライフスタイルや業務フローに合わせてOperatorを最適化できます。例えば、特定のECサイトでの購入パターンに基づいて自動購入設定をカスタマイズしたり、定期的な報告タスクを自動化することも可能です。

現状の制限事項

  1. 多くのウェブサイトでのボット検知
  2. パートナー統合の限定性
  3. 認証やCAPTCHAでの人間の介入必要性
  4. 長文作成やコーディングタスクへの非対応

まあ、この辺のCAPTCHAは手動でも良いのでは?って思います。 これ破られたらCAPTCHAの意味は?

ワクワクする未来がここに!

今まで受け身だったChatGPTがいよいよリアルライフスタイルに介入する時代に。

まさかAGI元年になるのでは?といわれていた2025年。 1月早々にOperatorが登場するとは思いませんでした。

冥王星水瓶座時代になったのが昨年の11月20日。ここから時代は加速し、節分をすぎるともう全てを過去にする時代が来る。と、占星術師が言っていました。私はこの変革だけは信じてるんですよねぇ。 

1. 生活の質の向上

Operatorが日常の煩雑なタスクを自動で処理することで、私たちはよりクリエイティブな活動や自己実現に時間を費やせるようになります。例えば、料理や旅行の計画、家事の管理など、時間を取られる作業をAIに任せることで、生活の質が格段に向上します。

というかあまり働きたくない私のような人は、もはや夢の世界!

2. ビジネスの革新

企業にとってもOperatorは強力なツールとなります。顧客サービスの自動化や業務効率化、新しいビジネスモデルの創出など、Operatorを活用することでビジネスの可能性が無限に広がります。例えば、カスタマーサポートにおける問い合わせ対応や、マーケティングキャンペーンの自動実行などが考えられます。

ビジネスにより得られた利益を勝手に投資して増やしてくれるとかもうドラえもん以上では!?

3. 公共サービスの向上

公共部門でもOperatorの活用が期待されています。市民サービスの自動化や効率化により、行政手続きがスムーズに行われ、市民の利便性が向上します。ストックトン市との協力により、Operatorが市民のサービス利用をサポートする未来も近いでしょう。

とはいえ物理的なインフラ整備はいくらAIエージェントでもどうにもならないので、特にイギリスみたいな古い年の公共サービスは向上する未来が見えないですが。まあとにかく便利になるそうです。

4. 教育と学習のサポート

教育現場でもOperatorの活用が進むことで、学生や教師の負担を軽減し、より効果的な学習環境を提供できます。例えば、オンライン学習のサポートや教材の自動整理、学習進捗の管理など、教育の質を高める役割を果たします。

ガチで学歴不要な時代。 学校はコミュニケーション力をつける場としてより機能的になっていくかも。

メタバースでもいいけど。

5. ヘルスケアの革新

ヘルスケア分野でもOperatorは大きな変革をもたらします。患者の予約管理や診療情報の整理、健康データのモニタリングなど、医療従事者の業務をサポートし、より質の高い医療サービスの提供に貢献します。

とりあえず糸リフトやりたいです。

グローバルな展開と未来への挑戦

現在は米国のProユーザーのみに提供されていますが、今後は以下の展開が予定されています:

  • Plus、Team、Enterpriseユーザーへの展開:より多くのユーザーがOperatorを利用できるようになり、個人から企業まで幅広いニーズに対応します。
  • ChatGPTへの統合:既存のChatGPTとのシームレスな連携により、さらに高度な機能と利便性を提供します。
  • パートナーシップの拡大:さらなる企業との連携を進め、多様なサービスやプラットフォームと統合することで、Operatorの活用範囲を拡大します。

これらの展開により、Operatorは世界中のユーザーにとって欠かせない存在となり、私たちの生活やビジネスのあり方を根本から変える力を持つでしょう。

未来への期待

Operatorは単なるツールではなく、私たちの生活をより豊かに、効率的にするパートナーです。AIが人間の生活に溶け込み、日常のあらゆる場面でサポートしてくれる未来がもうすぐそこにあります。Operatorの進化を通じて、私たちは新しい働き方や生活スタイルを築き上げていくことでしょう。

さあ、凄い未来が私たちの目の前に広がっています。Operatorの革新的な機能とその可能性に注目し、共に新しい時代を切り拓いていきましょう!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次