デスクトップ操作

カテゴリ: Cowork特有　公開日: 2026-04-20

このブログについて： 開発経験ゼロの私（セルシー）が Claude を毎日1つ試して記録する学習ブログ「zeroCC」です。

先に言っておく

Claudeに「今の画面を見て、そのボタンをクリックしておいて」と頼めるとは、去年の私には想像もできなかった。正直、思い上がりにもほどがある機能だと思っていた（失礼なことを言っている自覚はある）。

でも、できる。しかも今のCoworkなら、普通の会話の延長でそれが実現してしまう。すごい話をしてますよ、これ。

「え、これって最初からできたの？」と思うかもしれない。私もそう思った。実は、Windowsで使えるようになったのは2026年4月のことで、ほんとうに最近の話だ——つまり去年の私が知らなかったのは全く正当な理由があった。正当化したかっただけとも言う。

結論マップ（ビフォー／アフター）

現状（Before）	改善後（After）
状況を言葉で説明しなければならない	Claudeが画面を見て状況を把握できる
全操作を自分でこなす	クリック・入力をClaudeに任せられる場面が増える
「ここをクリックして」が伝わるか不安	Claudeが座標を判断して直接操作できる

これが本体——要するにどういうこと？

「Computer Use」とは、ClaudeがPCの画面を見て、マウス操作・キーボード入力・スクリーンショット撮影などを代わりにやってくれる機能のことだ。

「……え、それって人間がやることじゃないの？」という感想、わかります。私も全く同じこと思いました。

CoworkでClaudeに「スクリーンショットを撮って」とお願いすると、内部的には mcp__computer-use__screenshot（＝画面を撮影する仕組み）が動いて、今まさに映っている画面をキャプチャする。さらに、クリック（mcp__computer-use__left_click）や文字入力（mcp__computer-use__type）も使えば、Claudeが実際に画面上を操作することができる。なんか怖いですね（言いたかっただけです、ごめんなさい）。

平たく言うと、「Claudeが画面を見て→どこを押すか判断して→代わりに押す」という流れだ。説明するのに1段落かかったのに、やってることを一言でまとめると「かわりにクリックする」だけなのが若干脱力する（でもすごい）。

ただし、アプリの種類によって「触り方」に制限がある：

ブラウザ（Chrome, Edge など）：画面を見ることはできるが、クリック・入力はできない（のぞき見だけOKな感じ）
ターミナルやVSCode：クリックはできるが、文字を打ち込むことはできない（半人前みたいな権限）
その他のアプリ（メモ帳など）：制限なし、フルコントロール（やりたい放題）

こうやって動かした——手順が思ったより少なくて拍子抜けした

実際にCoworkでComputer Useを試す手順はこうだった：

Coworkを開いて、Claudeに「スクリーンショットを撮って」と伝える
Claudeが「このアプリにアクセスしていいですか？」と確認してくる（礼儀正しい）
「許可」を押すと、Claudeが画面をキャプチャして状況を把握してくれる
続けて「〇〇のボタンをクリックして」などと指示する

これだけ。「え、設定とかインストールとか特になしで？」と私も思ったが、ほんとにこれだけだった。拍子抜け、というのが正直なところだ。

ちなみにClaudeは「まずMCPや拡張機能が使えないか確認してから、Computer Useに移行する」という順番を守っている。偉い。SlackやGmailはMCPが使えるのでそちら優先、ウェブはChrome拡張経由、それ以外のデスクトップアプリだけComputer Useを出動、という段階制だ。「なんでもかんでも画面を覗いてるわけじゃない」のは、言われてみれば安心できる仕様で、ちゃんと考えられているなと思った（偉い、2回目）。

試してみたプロンプト——こう書いたら動いた

			
今開いているウィンドウのスクリーンショットを撮って、
画面に何が表示されているか説明してください。

💡 ポイント： 「今開いているウィンドウ」と具体的に指定すると、Claudeが迷わず目的の画面を確認しに行ってくれる。「開いてるやつ」では通じなかった（1回やらかした）。

もう少し踏み込んだ例：

			
メモ帳アプリを開いて、「今日のタスクリスト」というタイトルで
新しいファイルを作成してください。

これを試すと、Claudeがアプリへのアクセスを一つひとつ確認しながら進めてくれる。許可ボタンを押した瞬間に「あ、本当に動いてる……」という感覚があって、思わず声が出た。隣に誰かいたらちょっと恥ずかしかったと思う。

「完全に理解しました」と言いたいところだが、正直まだ「すごい」という感想の方が大きい。動いたのでヨシ！とだけ言っておく。

引っかかりやすいポイント——最初でつまずいた3つ

アプリごとに毎回許可が必要：Claudeが「このアプリにアクセスしていいですか？」と確認してくる。確認するまで使えるかどうかわからない——シュレーディンガーのアクセス権限、とでも言えばいいか。セキュリティ上の設計なので理屈はわかるのだが、最初の数回は「またか…」とはなる（すぐ慣れます）。
ブラウザ操作は別の仕組みが必要：ChromeやEdgeは画面の確認はできるが、クリックや入力はできない。「じゃあブラウザで代わりに操作してよ！」という気持ちになるのは当然だが、そのためには「Claude in Chrome」という別の拡張機能が必要になる。世の中そんなに甘くない（次の記事の伏線として置いておく）。
センシティブなアプリでは使わない方がいい：AnthropicもResearch Preview（試験運用中）と明記している機能なので、銀行アプリや個人情報を扱うサービスでの使用は現時点では推奨されていない。「なんでも任せよう！」という気持ちはいったん保留で。

これが言いたかった

冒頭で「去年の私には想像もできなかった話だ」と書いたが、Windowsへの対応が始まったのは本当についこの前（2026年4月）のことだ。だから去年の私が知らなかったのは正当な理由がある。2回目の正当化ですが、今度こそ本当です。

まだResearch Previewなので完璧ではない。操作が遅いこともあるし、センシティブなアプリでは使えない制限もある。でも「自分でやらなくていい」という選択肢が増えた感覚は、思ったより大きかった。正直、「知らなかった3年間を返してほしい」くらいの気持ちになりかけた（Windows対応が始まったのは先月なので、3年はさすがに言いすぎた）。

最初に「できるとは思っていなかった」と書いたのに、今は「次は何を任せられるんだろう」と前のめりになっている自分がいる。

これ、困るやつですよね（期待の方向で、ですが）。

この記事について

本記事はAI支援を経て作成しているため、内容に誤りが含まれる可能性があります。実行前に公式ドキュメントをご確認ください。
情報は2026-04-20時点でのものです。Claudeの機能は頻繁に更新されるため、最新情報はAnthropic公式サイトをご参照ください。
本記事の内容は筆者個人の学習過程であり、いかなる保証もするものではありません。

タグ: デスクトップ操作

Computer Use ── 「え、PC操作まで代わりにやってくれるの」試してみた