タグ: デスクトップ操作

  • Computer Use ── 「え、PC操作まで代わりにやってくれるの」試してみた

    Computer Use ── 「え、PC操作まで代わりにやってくれるの」試してみた

    カテゴリ: Cowork特有 公開日: 2026-04-20

    このブログについて: 開発経験ゼロの私(セルシー)が Claude を毎日1つ試して記録する学習ブログ「zeroCC」です。


    先に言っておく

    Claudeに「今の画面を見て、そのボタンをクリックしておいて」と頼めるとは、去年の私には想像もできなかった。正直、思い上がりにもほどがある機能だと思っていた(失礼なことを言っている自覚はある)。

    でも、できる。しかも今のCoworkなら、普通の会話の延長でそれが実現してしまう。すごい話をしてますよ、これ。

    「え、これって最初からできたの?」と思うかもしれない。私もそう思った。実は、Windowsで使えるようになったのは2026年4月のことで、ほんとうに最近の話だ——つまり去年の私が知らなかったのは全く正当な理由があった。正当化したかっただけとも言う。


    結論マップ(ビフォー/アフター)

    現状(Before) 改善後(After)
    状況を言葉で説明しなければならない Claudeが画面を見て状況を把握できる
    全操作を自分でこなす クリック・入力をClaudeに任せられる場面が増える
    「ここをクリックして」が伝わるか不安 Claudeが座標を判断して直接操作できる

    これが本体——要するにどういうこと?

    「Computer Use」とは、ClaudeがPCの画面を見て、マウス操作・キーボード入力・スクリーンショット撮影などを代わりにやってくれる機能のことだ。

    「……え、それって人間がやることじゃないの?」という感想、わかります。私も全く同じこと思いました。

    CoworkでClaudeに「スクリーンショットを撮って」とお願いすると、内部的には mcp__computer-use__screenshot(=画面を撮影する仕組み)が動いて、今まさに映っている画面をキャプチャする。さらに、クリック(mcp__computer-use__left_click)や文字入力(mcp__computer-use__type)も使えば、Claudeが実際に画面上を操作することができる。なんか怖いですね(言いたかっただけです、ごめんなさい)。

    平たく言うと、「Claudeが画面を見て→どこを押すか判断して→代わりに押す」という流れだ。説明するのに1段落かかったのに、やってることを一言でまとめると「かわりにクリックする」だけなのが若干脱力する(でもすごい)。

    ただし、アプリの種類によって「触り方」に制限がある:

    • ブラウザ(Chrome, Edge など):画面を見ることはできるが、クリック・入力はできない(のぞき見だけOKな感じ)
    • ターミナルやVSCode:クリックはできるが、文字を打ち込むことはできない(半人前みたいな権限)
    • その他のアプリ(メモ帳など):制限なし、フルコントロール(やりたい放題)

    こうやって動かした——手順が思ったより少なくて拍子抜けした

    実際にCoworkでComputer Useを試す手順はこうだった:

    1. Coworkを開いて、Claudeに「スクリーンショットを撮って」と伝える
    2. Claudeが「このアプリにアクセスしていいですか?」と確認してくる(礼儀正しい)
    3. 「許可」を押すと、Claudeが画面をキャプチャして状況を把握してくれる
    4. 続けて「〇〇のボタンをクリックして」などと指示する

    これだけ。「え、設定とかインストールとか特になしで?」と私も思ったが、ほんとにこれだけだった。拍子抜け、というのが正直なところだ。

    ちなみにClaudeは「まずMCPや拡張機能が使えないか確認してから、Computer Useに移行する」という順番を守っている。偉い。SlackやGmailはMCPが使えるのでそちら優先、ウェブはChrome拡張経由、それ以外のデスクトップアプリだけComputer Useを出動、という段階制だ。「なんでもかんでも画面を覗いてるわけじゃない」のは、言われてみれば安心できる仕様で、ちゃんと考えられているなと思った(偉い、2回目)。


    試してみたプロンプト——こう書いたら動いた

    今開いているウィンドウのスクリーンショットを撮って、
    画面に何が表示されているか説明してください。

    💡 ポイント: 「今開いているウィンドウ」と具体的に指定すると、Claudeが迷わず目的の画面を確認しに行ってくれる。「開いてるやつ」では通じなかった(1回やらかした)。

    もう少し踏み込んだ例:

    メモ帳アプリを開いて、「今日のタスクリスト」というタイトルで
    新しいファイルを作成してください。

    これを試すと、Claudeがアプリへのアクセスを一つひとつ確認しながら進めてくれる。許可ボタンを押した瞬間に「あ、本当に動いてる……」という感覚があって、思わず声が出た。隣に誰かいたらちょっと恥ずかしかったと思う。

    「完全に理解しました」と言いたいところだが、正直まだ「すごい」という感想の方が大きい。動いたのでヨシ! とだけ言っておく。


    引っかかりやすいポイント——最初でつまずいた3つ

    • アプリごとに毎回許可が必要:Claudeが「このアプリにアクセスしていいですか?」と確認してくる。確認するまで使えるかどうかわからない——シュレーディンガーのアクセス権限、とでも言えばいいか。セキュリティ上の設計なので理屈はわかるのだが、最初の数回は「またか…」とはなる(すぐ慣れます)。

    • ブラウザ操作は別の仕組みが必要:ChromeやEdgeは画面の確認はできるが、クリックや入力はできない。「じゃあブラウザで代わりに操作してよ!」という気持ちになるのは当然だが、そのためには「Claude in Chrome」という別の拡張機能が必要になる。世の中そんなに甘くない(次の記事の伏線として置いておく)。

    • センシティブなアプリでは使わない方がいい:AnthropicもResearch Preview(試験運用中)と明記している機能なので、銀行アプリや個人情報を扱うサービスでの使用は現時点では推奨されていない。「なんでも任せよう!」という気持ちはいったん保留で。


    これが言いたかった

    冒頭で「去年の私には想像もできなかった話だ」と書いたが、Windowsへの対応が始まったのは本当についこの前(2026年4月)のことだ。だから去年の私が知らなかったのは正当な理由がある。2回目の正当化ですが、今度こそ本当です。

    まだResearch Previewなので完璧ではない。操作が遅いこともあるし、センシティブなアプリでは使えない制限もある。でも「自分でやらなくていい」という選択肢が増えた感覚は、思ったより大きかった。正直、「知らなかった3年間を返してほしい」くらいの気持ちになりかけた(Windows対応が始まったのは先月なので、3年はさすがに言いすぎた)。

    最初に「できるとは思っていなかった」と書いたのに、今は「次は何を任せられるんだろう」と前のめりになっている自分がいる。

    これ、困るやつですよね(期待の方向で、ですが)。


    関連リンク


    この記事について

    本記事はAI支援を経て作成しているため、内容に誤りが含まれる可能性があります。実行前に公式ドキュメントをご確認ください。
    情報は2026-04-20時点でのものです。Claudeの機能は頻繁に更新されるため、最新情報はAnthropic公式サイトをご参照ください。
    本記事の内容は筆者個人の学習過程であり、いかなる保証もするものではありません。