カテゴリ: Cowork特有 公開日: 2026-04-20
このブログについて: 開発経験ゼロの私(セルシー)が Claude を毎日1つ試して記録する学習ブログ「zeroCC」です。
先に言っておく
Claudeに「今の画面を見て、そのボタンをクリックしておいて」と頼めるとは、去年の私には想像もできなかった。正直、思い上がりにもほどがある機能だと思っていた(失礼なことを言っている自覚はある)。
でも、できる。しかも今のCoworkなら、普通の会話の延長でそれが実現してしまう。すごい話をしてますよ、これ。
「え、これって最初からできたの?」と思うかもしれない。私もそう思った。実は、Windowsで使えるようになったのは2026年4月のことで、ほんとうに最近の話だ——つまり去年の私が知らなかったのは全く正当な理由があった。正当化したかっただけとも言う。
結論マップ(ビフォー/アフター)
| 現状(Before) | 改善後(After) |
|---|---|
| 状況を言葉で説明しなければならない | Claudeが画面を見て状況を把握できる |
| 全操作を自分でこなす | クリック・入力をClaudeに任せられる場面が増える |
| 「ここをクリックして」が伝わるか不安 | Claudeが座標を判断して直接操作できる |
これが本体——要するにどういうこと?
「Computer Use」とは、ClaudeがPCの画面を見て、マウス操作・キーボード入力・スクリーンショット撮影などを代わりにやってくれる機能のことだ。
「……え、それって人間がやることじゃないの?」という感想、わかります。私も全く同じこと思いました。
CoworkでClaudeに「スクリーンショットを撮って」とお願いすると、内部的には mcp__computer-use__screenshot(=画面を撮影する仕組み)が動いて、今まさに映っている画面をキャプチャする。さらに、クリック(mcp__computer-use__left_click)や文字入力(mcp__computer-use__type)も使えば、Claudeが実際に画面上を操作することができる。なんか怖いですね(言いたかっただけです、ごめんなさい)。
平たく言うと、「Claudeが画面を見て→どこを押すか判断して→代わりに押す」という流れだ。説明するのに1段落かかったのに、やってることを一言でまとめると「かわりにクリックする」だけなのが若干脱力する(でもすごい)。
ただし、アプリの種類によって「触り方」に制限がある:
- ブラウザ(Chrome, Edge など):画面を見ることはできるが、クリック・入力はできない(のぞき見だけOKな感じ)
- ターミナルやVSCode:クリックはできるが、文字を打ち込むことはできない(半人前みたいな権限)
- その他のアプリ(メモ帳など):制限なし、フルコントロール(やりたい放題)
こうやって動かした——手順が思ったより少なくて拍子抜けした
実際にCoworkでComputer Useを試す手順はこうだった:
- Coworkを開いて、Claudeに「スクリーンショットを撮って」と伝える
- Claudeが「このアプリにアクセスしていいですか?」と確認してくる(礼儀正しい)
- 「許可」を押すと、Claudeが画面をキャプチャして状況を把握してくれる
- 続けて「〇〇のボタンをクリックして」などと指示する
これだけ。「え、設定とかインストールとか特になしで?」と私も思ったが、ほんとにこれだけだった。拍子抜け、というのが正直なところだ。
ちなみにClaudeは「まずMCPや拡張機能が使えないか確認してから、Computer Useに移行する」という順番を守っている。偉い。SlackやGmailはMCPが使えるのでそちら優先、ウェブはChrome拡張経由、それ以外のデスクトップアプリだけComputer Useを出動、という段階制だ。「なんでもかんでも画面を覗いてるわけじゃない」のは、言われてみれば安心できる仕様で、ちゃんと考えられているなと思った(偉い、2回目)。
試してみたプロンプト——こう書いたら動いた
今開いているウィンドウのスクリーンショットを撮って、画面に何が表示されているか説明してください。
💡 ポイント: 「今開いているウィンドウ」と具体的に指定すると、Claudeが迷わず目的の画面を確認しに行ってくれる。「開いてるやつ」では通じなかった(1回やらかした)。
もう少し踏み込んだ例:
メモ帳アプリを開いて、「今日のタスクリスト」というタイトルで新しいファイルを作成してください。
これを試すと、Claudeがアプリへのアクセスを一つひとつ確認しながら進めてくれる。許可ボタンを押した瞬間に「あ、本当に動いてる……」という感覚があって、思わず声が出た。隣に誰かいたらちょっと恥ずかしかったと思う。
「完全に理解しました」と言いたいところだが、正直まだ「すごい」という感想の方が大きい。動いたのでヨシ! とだけ言っておく。
引っかかりやすいポイント——最初でつまずいた3つ
-
アプリごとに毎回許可が必要:Claudeが「このアプリにアクセスしていいですか?」と確認してくる。確認するまで使えるかどうかわからない——シュレーディンガーのアクセス権限、とでも言えばいいか。セキュリティ上の設計なので理屈はわかるのだが、最初の数回は「またか…」とはなる(すぐ慣れます)。
-
ブラウザ操作は別の仕組みが必要:ChromeやEdgeは画面の確認はできるが、クリックや入力はできない。「じゃあブラウザで代わりに操作してよ!」という気持ちになるのは当然だが、そのためには「Claude in Chrome」という別の拡張機能が必要になる。世の中そんなに甘くない(次の記事の伏線として置いておく)。
-
センシティブなアプリでは使わない方がいい:AnthropicもResearch Preview(試験運用中)と明記している機能なので、銀行アプリや個人情報を扱うサービスでの使用は現時点では推奨されていない。「なんでも任せよう!」という気持ちはいったん保留で。
これが言いたかった
冒頭で「去年の私には想像もできなかった話だ」と書いたが、Windowsへの対応が始まったのは本当についこの前(2026年4月)のことだ。だから去年の私が知らなかったのは正当な理由がある。2回目の正当化ですが、今度こそ本当です。
まだResearch Previewなので完璧ではない。操作が遅いこともあるし、センシティブなアプリでは使えない制限もある。でも「自分でやらなくていい」という選択肢が増えた感覚は、思ったより大きかった。正直、「知らなかった3年間を返してほしい」くらいの気持ちになりかけた(Windows対応が始まったのは先月なので、3年はさすがに言いすぎた)。
最初に「できるとは思っていなかった」と書いたのに、今は「次は何を任せられるんだろう」と前のめりになっている自分がいる。
これ、困るやつですよね(期待の方向で、ですが)。
関連リンク
- Anthropic 公式ドキュメント — Computer Use
- Claude Cowork and Claude Code Can Now Control Your Windows Desktop
この記事について
本記事はAI支援を経て作成しているため、内容に誤りが含まれる可能性があります。実行前に公式ドキュメントをご確認ください。
情報は2026-04-20時点でのものです。Claudeの機能は頻繁に更新されるため、最新情報はAnthropic公式サイトをご参照ください。
本記事の内容は筆者個人の学習過程であり、いかなる保証もするものではありません。
