RocketMouse AI の全機能ガイド
RocketMouse AI は、Scratch風のパズルピースブロックをドラッグ&スナップで組み立てて、RPAマクロを作成するビジュアルエディタです。プログラミング知識は不要で、マウス操作、キーボード入力、ブラウザ操作、Excel操作、画像認識など、さまざまな作業を自動化できます。
ブロックをつなげるだけで自動化フローを構築でき、条件分岐やループ、変数、関数、AI連携などの高度な機能も備えています。
メイン画面は3カラム構成です。
画面上部にはツールバーがあり、ファイル操作、実行制御(再生/停止/一時停止/ステップ)、録音、ドライラン、ズーム、AI設定などのボタンが並んでいます。画面下部にはステータスバーがあり、実行中のステップ数や経過時間を表示します。
マクロは .rmproj 形式(JSON)で保存・読込できます。
* マークが表示されます左のパレットからワークスペースにブロックを配置するには、2つの方法があります。
ブロックを他のブロックに近づけると(20ピクセル以内)、自動的にスナップ接続されます。接続候補のブロックは黄色のハイライトで表示されます。
ブロックを選択すると、画面右側にプロパティパネルが表示されます。共通設定と各ブロック固有のパラメータを編集できます。
パレット上部の検索ボックスでブロックをインクリメンタルサーチできます。全カテゴリを横断して、表示名やOperationType名でマッチするブロックを検索します。検索中はカテゴリグループが非表示になり、マッチしたブロックだけが一覧表示されます。Esc キーまたは検索ボックスの「x」ボタンで検索をクリアできます。
ワークスペース左下に200x150pxの俯瞰ビュー(ミニマップ)を表示できます。全ブロックがカテゴリカラーの小さな矩形で表示され、白い枠で現在のビューポート範囲を示します。ミニマップ上をクリック/ドラッグするとワークスペースがパンします。ツールバーのボタンで表示/非表示を切り替えられます。
RocketMouse AI では、6種類のブロック形状があり、それぞれ異なる役割と接続ルールを持っています。
| 形状 | 特徴 | 用途 |
|---|---|---|
| Stack型 | 上に凹み(受け側)、下に凸(接続側)。もっとも標準的なブロック形状。 | LeftClick、KeyInput、AppLaunch など、ほとんどの操作に使用 |
| Hat型 | 丸い上辺。上コネクタなし(他のブロックの下に接続不可)。 | Startブロック(マクロの開始点)、FunctionDefine(関数定義) |
| C型ブロック | 口の中に子ブロックを配置可能。口の高さは内部のブロック数に応じて自動拡張。 | 条件分岐(if-then, if-then-else)、ループ(for, forEach)、TryCatch |
| Boolean型 | 六角形。true / false の条件を表す。C型ブロックの条件スロットにスナップ。 | 比較(=, >, <)、論理演算(AND, OR, NOT)、ファイル存在チェックなど |
| Reporter型 | カプセル型(丸い両端)。値を返す。他のブロックのパラメータスロットにスナップ。 | 変数参照、数学演算(加算・減算等)、文字列操作、マウス座標など |
| Cap型 | 上コネクタのみ(下コネクタなし)。フローの終了を表す。 | BreakLoop、ContinueLoop、MacroExit、FunctionReturn |
RocketMouse AI には多数のブロックがカテゴリ別に整理されています。各カテゴリをクリックすると詳細を展開できます。
マウスのクリック、移動、ドラッグ、スクロールなどの操作を自動化するブロックです。
| ブロック | 説明 |
|---|---|
| LeftClick | 指定座標を左クリック |
| RightClick | 指定座標を右クリック |
| MiddleClick | 指定座標を中クリック |
| DoubleClick | 指定座標をダブルクリック |
| MouseMove | 指定座標にマウスカーソルを移動 |
| MouseDrag | 指定の開始座標から終了座標へドラッグ |
| ScrollUp | マウスホイールを上方向にスクロール |
| ScrollDown | マウスホイールを下方向にスクロール |
| LeftDown | 左ボタンを押下(離さない) |
| LeftUp | 左ボタンを離す |
| RightDown | 右ボタンを押下(離さない) |
| RightUp | 右ボタンを離す |
| MiddleDown | 中ボタンを押下(離さない) |
| MiddleUp | 中ボタンを離す |
| ScrollLeft | マウスホイールを左方向にスクロール |
| ScrollRight | マウスホイールを右方向にスクロール |
キーボード入力やテキスト貼り付けを自動化するブロックです。
| ブロック | 説明 |
|---|---|
| KeyInput | キーコンボ入力。修飾キー(Ctrl, Shift, Alt)との組み合わせや、特殊キー({ENTER}, {TAB}, {F1}等)のシーケンスに対応。KeyComboピッカーで直感的に入力可能。 |
| TextPaste | テキスト文字列をクリップボード経由で貼り付け。日本語(IME)を含む任意のテキストに対応。 |
ウィンドウのアクティブ化、最小化、最大化、サイズ変更などの操作を行うブロックです。
| ブロック | 説明 |
|---|---|
| ActivateWindow | 指定タイトルのウィンドウをアクティブ(前面)に |
| CloseWindow | 指定タイトルのウィンドウを閉じる |
| MinimizeWindow | ウィンドウを最小化 |
| MaximizeWindow | ウィンドウを最大化 |
| RestoreWindow | ウィンドウを元のサイズに復元 |
| ResizeWindow | ウィンドウのサイズを変更 |
| MoveWindow | ウィンドウの位置を移動 |
| SnapWindow | ウィンドウを画面端にスナップ |
Webブラウザの起動、ナビゲーション、要素操作、スクリーンショットなどを自動化するブロックです。Playwright を利用し、Edge / Chrome をシステムの channel モードで使用します。
| ブロック | 説明 |
|---|---|
| BrowserLaunch | ブラウザを起動(Edge / Chrome / Chromium 選択可) |
| BrowserNavigate | 指定URLに移動 |
| BrowserClick | CSSセレクタで指定した要素をクリック |
| BrowserFill | テキストフィールドに文字入力 |
| BrowserSelect | ドロップダウンから選択 |
| BrowserCheck | チェックボックスのオン/オフ |
| BrowserGetText | 要素のテキストを取得して変数に格納 |
| BrowserGetAttribute | 要素の属性値を取得 |
| BrowserGetTitle | ページタイトルを取得して変数に格納 |
| BrowserGetUrl | 現在のURLを取得して変数に格納 |
| BrowserScreenshot | ページまたは要素のスクリーンショットを保存 |
| BrowserExecuteScript | JavaScript コードを実行 |
| BrowserWaitForElement | 指定要素が表示されるまで待機 |
| BrowserSwitchTab | 指定タブに切替 |
| BrowserGoBack | 前のページに戻る |
| BrowserClose | ブラウザを閉じる |
Excel COM オートメーションでブック/シート/セルを操作するブロックです。Microsoft Excel がインストールされている必要があります。
| ブロック | 説明 |
|---|---|
| ExcelOpen | Excelファイルを開く |
| ExcelClose | Excelブックを閉じる |
| ExcelSave | ブックを保存 |
| ExcelReadCell | 指定セルの値を読み取り変数に格納 |
| ExcelWriteCell | 指定セルに値を書き込み |
| ExcelSetFormula | セルに数式を設定 |
| ExcelRunMacro | VBAマクロを実行 |
| ExcelFilter | オートフィルタを適用 |
| ExcelReadRange | 範囲のデータを一括読み取り |
| ExcelWriteRange | 範囲にデータを一括書き込み |
| ExcelCopySheet | シートをコピー |
| ExcelDeleteSheet | シートを削除 |
| ExcelRenameSheet | シート名を変更 |
| ExcelCreateBook | 新規ブックを作成 |
| ExcelAddSheet | 新しいシートを追加 |
| ExcelGetLastRow | データのある最終行を取得 |
| ExcelGetLastColumn | データのある最終列を取得 |
| ExcelSaveAs | 名前を付けてブックを保存 |
ファイルのコピー、移動、削除、読み書きなどの操作を行うブロックです。
| ブロック | 説明 |
|---|---|
| FileCopy | ファイルをコピー |
| FileMove | ファイルを移動 |
| FileDelete | ファイルを削除 |
| FileRead | テキストファイルの内容を読み取り変数に格納 |
| FileWrite | テキストファイルに内容を書き込み(上書き) |
| FileAppend | テキストファイルに内容を追記 |
| DirectoryCopy | ディレクトリをコピー |
| DirectoryCreate | ディレクトリを作成 |
| DirectoryDelete | ディレクトリを削除 |
| DirectoryGetFiles | ディレクトリ内のファイル一覧を取得 |
| FileGetInfo | ファイルの情報(サイズ、更新日時等)を取得 |
| FileRename | ファイル名を変更 |
JSON解析、正規表現、文字列操作、日付演算、リスト操作など、データの加工・変換を行うブロックです。
| ブロック | 説明 |
|---|---|
| JsonParse | JSON文字列を解析し、指定パスの値を変数に格納 |
| JsonStringify | 値をJSON文字列に変換 |
| RegexMatch | 正規表現でテキストを検索、マッチした値を変数に格納 |
| RegexReplace | 正規表現でテキストを置換 |
| ブロック | 説明 |
|---|---|
| StringSubstring | 文字列の部分取得 |
| StringReplace | 文字列の置換 |
| StringSplit | 区切り文字で文字列を分割しリスト化 |
| StringTrim | 文字列の前後の空白を除去 |
| StringIndexOf | 文字列内で指定テキストの位置を検索 |
| StringStartsWith | 文字列が指定テキストで始まるかチェック |
| StringEndsWith | 文字列が指定テキストで終わるかチェック |
| ブロック | 説明 |
|---|---|
| DateAdd | 日付に日数/月数/年数を加算 |
| DateDiff | 2つの日付の差を計算 |
| DateFormat | 日付を指定フォーマットで文字列に変換 |
| ブロック | 説明 |
|---|---|
| ListCreate | 新しいリスト(配列)を作成 |
| ListAdd | リストに要素を追加 |
| ListGet | リストの指定インデックスの要素を取得 |
| ListSet | リストの指定インデックスの要素を変更 |
| ListLength | リストの要素数を取得 |
| ListRemove | リストから要素を削除 |
| ListSort | リストをソート |
| ListJoin | リストの要素を区切り文字で結合して文字列に |
条件分岐、ループ、待機、関数定義・呼び出しなど、マクロの実行フローを制御するブロックです。
| ブロック | 説明 |
|---|---|
| ConditionBranch | if-then 分岐。条件スロットにBooleanブロックをスナップして条件を指定。 |
| ConditionBranchElse | if-then-else 分岐。条件が偽の場合のelse口も持つ。 |
| ブロック | 説明 |
|---|---|
| LoopStart | 指定回数繰り返し(forループ)。{=_loopIndex} で現在のループ番号(1始まり)を参照可能。 |
| ForEachLoop | リストの各要素に対して繰り返し。要素を変数に格納。 |
| ブロック | 説明 |
|---|---|
| TryCatch | Try-Catch構造。try口で実行し、エラー発生時はcatch口を実行。リトライ回数指定可。 |
| ブロック | 説明 |
|---|---|
| BreakLoop | 現在のループを中断して抜ける |
| ContinueLoop | 現在のループの残りをスキップして次の繰り返しへ |
| MacroExit | マクロの実行を即座に正常終了 |
| ブロック | 説明 |
|---|---|
| WaitTime | 指定ミリ秒間待機 |
| FunctionDefine | カスタム関数を定義(Hat型)。関数名を指定。 |
| FunctionCall | 定義済み関数を呼び出し(Stack型)。 |
| FunctionReturn | 関数から値を返して終了(Cap型)。 |
| VariableDefine | 変数を定義(値を設定) |
| VariableDelete | 変数を削除 |
| VariableExpression | 四則演算式を評価して変数に格納 |
| Comment | コメントブロック。実行時はスキップ。メモや説明を記述。 |
LLM(大規模言語モデル)やAI Vision APIを使って、プロンプト送信・画面操作・画面認識を行うブロックです。
| ブロック | 説明 |
|---|---|
| AI指示 | LLMにプロンプトを送信し、応答を変数に格納。5プロバイダ対応。画像添付でVision APIも利用可(4MB制限)。 |
| AIオートパイロット NEW | AIが画面を見ながら自律的にタスクを完了。Claude Computer Use APIによるマルチターン操作。 |
| AIクリック NEW | 自然言語で要素を指定してクリック。AIが画面を分析して座標を特定。2パスリファインメント対応。 |
| AIスマート待機 NEW | AIが画面を定期確認し、指定条件を満たすまでインテリジェントに待機。 |
| AI OCR NEW | AI Visionで画面上のテキストを読み取り変数に格納。文脈理解による高精度な読み取り。 |
| AI検証 NEW | 操作後の画面をAIが検証し、条件を満たすかtrue/falseで判定。 |
| AI条件 NEW | 六角形Boolean。if/whileの条件にAI画面判定を使用(例:「ログイン画面が表示されているか」)。 |
画像認識(テンプレートマッチング)やOCR(文字認識)を使って画面要素を検出・操作するブロックです。
| ブロック | 説明 |
|---|---|
| VisionClick | テンプレート画像にマッチする画面上の位置をクリック |
| VisionWait | テンプレート画像が画面上に表示されるまで待機 |
| VisionDisappear | テンプレート画像が画面上から消えるまで待機 |
| VisionGetPosition | テンプレート画像の位置(X,Y座標)を変数に格納 |
| VisionCapture | 画面の指定領域をキャプチャして画像ファイルに保存 |
| OcrReadText | 指定領域のテキストをOCR(Windows OCR)で読み取り変数に格納 |
| OcrClickText | OCRで検出したテキストの位置をクリック |
| OcrWaitText | 指定テキストがOCRで検出されるまで待機 |
| WaitImage | AI Vision APIを使用して画面の状態を分析し、条件に合致するまで待機 |
六角形の条件ブロック(Boolean型)です。C型ブロック(if-then/if-then-else)の条件スロットにスナップして使用します。
| ブロック | 説明 |
|---|---|
| BoolCompareEquals | 左辺 = 右辺(等しい) |
| BoolCompareGreater | 左辺 > 右辺(より大きい) |
| BoolCompareLess | 左辺 < 右辺(より小さい) |
| ブロック | 説明 |
|---|---|
| BoolAnd | AND(かつ)。2つの条件スロットを持つ。両方trueの場合true。 |
| BoolOr | OR(または)。2つの条件スロットを持つ。どちらかがtrueの場合true。 |
| BoolNot | NOT(否定)。1つの条件スロットを持つ。trueとfalseを反転。 |
| ブロック | 説明 |
|---|---|
| BoolVariableEquals | 変数の値が指定値と等しいかチェック |
| BoolFileExists | ファイルが存在するかチェック |
| BoolWindowVisible | 指定タイトルのウィンドウが表示されているかチェック |
| BoolImageFound | テンプレート画像が画面上に見つかるかチェック |
| BoolColorFound | 指定座標のピクセルが指定色と一致するかチェック |
(A > 10) AND (B = "OK"))を組み立てられます。
アプリケーション起動、メッセージボックス、クリップボード、プロセス管理、圧縮、エンコード、ハッシュなどのシステム操作ブロックです。
| ブロック | 説明 |
|---|---|
| AppLaunch | アプリケーションを起動(パス指定) |
| AppClose | アプリケーションを終了 |
| MessageBox | メッセージボックスを表示 |
| InputDialog | テキスト入力ダイアログを表示し、入力値を変数に格納 |
| ClipboardSet | クリップボードにテキストを設定 |
| ClipboardGet | クリップボードからテキストを取得 |
| ProcessStart | プロセスを起動(引数指定可) |
| ProcessKill | プロセスを終了(プロセス名指定) |
| ZipCreate | ファイル/フォルダをZIP圧縮 |
| ZipExtract | ZIPファイルを展開 |
| Base64Encode | 文字列/ファイルをBase64エンコード |
| Base64Decode | Base64をデコード |
| HashCompute | ハッシュ値を計算(MD5 / SHA1 / SHA256 / SHA512) |
| PlaySound | サウンドファイルを再生 |
| ScreenCapture | 画面全体をキャプチャして画像ファイルに保存 |
| LogWrite | ログにメッセージを出力 |
| RegistryRead | レジストリの値を読み取り |
| RegistryWrite | レジストリに値を書き込み |
カプセル型のレポーターブロックは値を返し、他のブロックのパラメータスロットにスナップして使用します。Scratchの「演算」「調べる」ブロックに相当します。
| ブロック | 説明 |
|---|---|
| VariableReference | 変数の値を参照。パラメータスロットにスナップして変数値を動的に使用。 |
| ブロック | 説明 |
|---|---|
| MathAdd | 加算(A + B) |
| MathSubtract | 減算(A - B) |
| MathMultiply | 乗算(A * B) |
| MathDivide | 除算(A / B) |
| MathModulo | 剰余(A % B) |
| MathFunction | 数学関数(abs, round, floor, ceil, sqrt, sin, cos, tan, log, pow, min, max) |
| ブロック | 説明 |
|---|---|
| StringConcat | 2つの文字列を結合 |
| StringLength | 文字列の長さを返す |
| StringCharAt | 指定位置の文字を返す |
| RandomNumber | 指定範囲の乱数を生成 |
| ブロック | 説明 |
|---|---|
| SenseMouseX | 現在のマウスX座標 |
| SenseMouseY | 現在のマウスY座標 |
| SenseCurrentDateTime | 現在の日時 |
| SenseClipboardText | クリップボードのテキスト |
| SenseEnvironmentVariable | 環境変数の値 |
ツールバーの ▶ 再生 ボタンでマクロを実行します。Startブロック(Hat型)から順に、接続されたブロックチェーンを上から下に実行していきます。
[3/42])が表示されます。■ 停止 ボタンで実行を即座に中断します。一時停止中でも停止可能です。
実際のマウス・キーボード操作を行わずに、フローの流れだけを確認するモードです。各ブロックの処理をログに出力しますが、実際のシステム操作(クリック、入力、ファイル操作等)は実行しません。ロジックの確認やデバッグに便利です。
ツールバーのスライダーで 1x ~ 10x の速度調整が可能です。速度はリアルタイムに変更でき、実行中でも即座に反映されます。速度を上げると各ステップ間の待機時間が短縮されます(50msのフロアあり)。
エラーが発生したブロックは 赤色の枠 でハイライト表示されます。ブロックにマウスを合わせると、ToolTipにエラーメッセージの詳細が表示されます。
画面下部のパネルに構造化ログが表示されます。4色のレベルで情報を識別できます。
| 色 | レベル | 内容 |
|---|---|---|
| ● 灰 | Info | ステップ開始、パラメータ情報 |
| ● 緑 | Success | ステップ完了、所要時間、条件評価結果 |
| ● 赤 | Error | エラー発生、エラーメッセージ |
| ● 黄 | Warning | 一時停止、スキップ情報 |
下部パネルの「変数」タブに切り替えると、実行中の全変数の名前と値をリアルタイムで監視できます。値が更新された変数は 緑色の背景 でハイライトされます。
特定のブロックで実行を自動停止させるブレークポイント機能です。
ツールバーの ● 録音 ボタンで、マウス操作やキーボード入力を自動記録できます。記録された操作は自動的にブロックとしてワークスペースに配置されます。
VariableDefine ブロックで変数を作成し、値を設定します。変数の値は {=変数名} 構文で他のブロックのパラメータ内から参照できます。
例: 変数名「filePath」に値「C:\Documents\data.txt」を設定
→ FileRead ブロックのパスに {=filePath} と入力
→ 実行時に自動的に「C:\Documents\data.txt」に置換
{=myVar} と {=MYVAR} は同じ変数を参照します。
VariableExpression ブロックで四則演算の結果を変数に格納できます。
+, -, *, /, %(剰余)() で優先順位を指定可能{=name} を式の中で使用可能{=total} * 1.1, ({=width} + {=margin}) * 2ループ内では以下のシステム変数が自動的に設定されます。
| 変数名 | 説明 |
|---|---|
{=_loopIndex} | 現在のループ番号(1始まり)。1回目=1, 2回目=2, ... |
{=_loopIteration} | 現在のループ反復回数(0始まり)。1回目=0, 2回目=1, ... |
リスト(配列)を作成・操作するブロックが用意されています。
繰り返し使用する処理をカスタム関数として定義できます。
出力変数を持つブロック(ExcelReadCell、FileRead、BrowserGetText 等)をパレットから配置すると、スマートなデフォルト変数名が自動設定されます。
CellValueCellValue → CellValue2 → CellValue3AI指示ブロックは、マクロ実行中にLLM(大規模言語モデル)にプロンプトを送信し、AIの応答を変数に格納します。テキスト生成、データ分析、意思決定の自動化などに活用できます。
| パラメータ | 説明 |
|---|---|
| prompt | LLMに送信するプロンプト。{=変数名} で変数参照可能。 |
| outputVariable | 応答を格納する変数名(デフォルト: AIResponse) |
| filePath | 添付画像ファイルのパス(Vision API用。4MB制限) |
| provider | 使用するプロバイダ(Default = AI設定のデフォルト) |
| model | 使用するモデルID(空欄 = プロバイダのデフォルトモデル) |
| temperature | 生成の多様性(0.0 = 決定的 ~ 1.0 = 創造的。デフォルト: 0.3) |
ツールバーの AI設定ボタンから、各プロバイダの API キーとデフォルトモデルを設定します。
| プロバイダ | 主要モデル | Vision対応 |
|---|---|---|
| OpenAI | gpt-5.5, gpt-5.5-mini, gpt-5.4, gpt-5.2, gpt-4.1, gpt-4o | 対応 |
| Anthropic | claude-sonnet-4-6, claude-opus-4-7, claude-haiku-4-5 | 対応 |
| Google Gemini | gemini-3-pro / 3-flash (Preview), gemini-2.5-pro / 2.5-flash | 対応 |
| Groq | Llama 4 Scout 17B (multimodal), Llama 3.3 70B, Llama 3.1 8B | 対応 (Llama 4 Scout 選択時) |
| ローカルLLM | LM Studio / Ollama(任意モデル) | 対応(モデル依存) |
RocketMouse AI v2.0 で追加された AI Vision 機能群は、AIが画面のスクリーンショットを「見て」理解し、操作を行います。従来の座標指定やテンプレートマッチングでは対応が難しかった、動的なUI変化やレイアウト変更に強い自動化を実現します。
| ブロック | 機能 | 主なパラメータ |
|---|---|---|
| AIクリック | AIが画面を見て要素を特定しクリック | プロンプト(クリック対象の説明), button, clickType, provider, model, outputX/Y |
| AIスマート待機 | AIが画面を定期確認し条件充足まで待機 | プロンプト(待機条件), timeoutMs, pollingMs, provider, model |
| AI OCR | AIが画面上のテキストを読み取り | プロンプト(読取指示), outputVariable, provider, model |
| AI検証 | 操作結果をAIが検証(true/false) | プロンプト(検証条件), outputVariable, provider, model |
| AI条件 | if/whileの条件にAI画面判定を使用 | プロンプト(条件文), provider, model |
各AI Visionブロックに渡すプロンプトの例です。具体的で明確な記述ほどAIの精度が向上します。
メモ帳の「ファイル」メニュー
「名前を付けて保存」ダイアログの「保存」ボタン
タスクバーの Chrome アイコン
Excelのセル B3
ファイルのダウンロードが完了した(プログレスバーが消えた)
「処理が完了しました」というメッセージが表示された
アプリの起動画面(スプラッシュ)が消えてメインウィンドウが表示された
画面中央のダイアログに表示されているエラーメッセージを読み取ってください
Excelの表の合計金額(一番下の行の右端の数値)を読み取ってください
タイトルバーに表示されているファイル名を読み取ってください
ファイルの保存に成功した(タイトルバーに「*」マークがない)
ログイン画面が表示されている(ユーザー名とパスワードの入力欄が見える)
印刷プレビューが正しく表示されている
画面にエラーダイアログが表示されている
メモ帳が画面に表示されている
Webページの読み込みが完了している(ローディングスピナーが表示されていない)
| パラメータ | 説明 | デフォルト |
|---|---|---|
| provider | 使用するLLMプロバイダ。"Default"でAI設定のデフォルトを使用 | Default |
| model | モデルID。空欄でプロバイダのデフォルトモデル | (空) |
AIオートパイロット は、自然言語でタスクを記述するだけで、AIが画面を見ながらマウス・キーボード操作を自律的に実行し、タスク完了まで繰り返す自律エージェントです。
Autopilotは使用するプロバイダとモデルに応じて、3つの実行パスを自動選択します。v2.0.6 から OpenAI GPT-5.5 ネイティブパスに対応。
| パス | 条件 | 動作方式 | 精度・特徴 |
|---|---|---|---|
| Anthropic ネイティブパス | Anthropic + Sonnet/Opus | Claude Computer Use API(マルチターン tool_use/tool_result) | 高精度・安定(実績豊富) |
| OpenAI ネイティブパス NEW | OpenAI + GPT-5.5 / GPT-5.4 / computer-use-preview | OpenAI Responses API(previous_response_id でステートレス継続) | 高速・低コスト(Sonnet比 約1.3倍速、約1/5コスト) |
| 汎用パス | その他全プロバイダ + Anthropic Haiku | プロンプトベースJSON方式 | 標準 |
ネイティブパスでは、AI がスクリーンショットを受け取り、ツール呼び出しでアクション(クリック、入力、スクロール等)を返し、実行結果のスクリーンショットを返送、というマルチターン会話を繰り返します。これにより高い精度と自己修正能力を実現しています。
アプローチに違いがあります: GPT-5.5 は効率重視で最短経路を選びがち(例: Win+R で Run ダイアログ起動)、Claude Sonnet は人間らしくスタートメニューから検索して段階的に進めて確認多めです。シンプルなタスクは GPT-5.5、複雑な画面認識が必要なタスクは Sonnet が向いています。
| パラメータ | 説明 | デフォルト |
|---|---|---|
| task(プロンプト) | タスクの自然言語記述(例:「メモ帳を開いてHello Worldと入力して保存」) | (必須) |
| maxSteps | 最大ステップ数。各ステップでスクリーンショット+LLM推論+アクション実行 | 30 |
| timeoutSeconds | タイムアウト秒数 | 300 |
| provider | LLMプロバイダ。DefaultはAI設定の「AIオートパイロット」セクションで選択したプロバイダ(Anthropic または OpenAI)。ブロック単位で Anthropic / OpenAI / OpenAICompatible 等に上書き可能 | Default |
| model | モデルID。ブロック単位で上書き可能(例: gemma4:26b) | (空 = AI設定に従う) |
| outputVariable | 結果(True/False)を格納する変数 | AutopilotResult |
| アクション | 説明 |
|---|---|
| left_click / right_click / double_click | マウスクリック |
| type | テキスト入力(日本語対応 — クリップボード方式で自動処理) |
| key | キー入力(Ctrl+S, Enter, Win+D 等) |
| scroll | マウスホイールスクロール |
| mouse_move / left_click_drag | カーソル移動・ドラッグ |
| screenshot | 追加スクリーンショット取得 |
| wait | 2秒待機 |
具体的で手順の明確なタスク記述ほど、Autopilotは正確に動作します。
メモ帳を起動して「Hello World」と入力して、デスクトップに test.txt として保存してください
→ 具体的なファイル名と保存先を明示
Chromeで https://example.com を開いて、ページタイトルをコピーしてメモ帳に貼り付けてください
→ 複数アプリの連携タスク
電卓を起動して 1234 × 5678 を計算してください
→ シンプルで明確な目標
デスクトップにある report.xlsx を開いて、A1セルの値を確認してください
→ 既存ファイルの操作
AI Vision機能はVision対応の全プロバイダで動作しますが、用途に応じた推奨モデルがあります。
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| AI Autopilot(速度・コスト優先) NEW | OpenAI GPT-5.5 | built-in Computer Use 対応。Sonnet比 約1.3倍速・1/5コスト。OpenAI Tier 1 から利用可。シンプルな定型タスクに最適。 |
| AI Autopilot(精度・安定優先) | Claude Sonnet 4.6 | Computer Use API ネイティブ対応。長期運用実績豊富、段階的に状態確認しながら進めるアプローチで複雑タスクに強い。 |
| AI Autopilot(最高性能) | Claude Opus 4.7 | Computer Use API ネイティブ対応。最も高い精度と自己修正能力。長時間の複雑タスク向け。 |
| AI Autopilot(OpenAI 上位) | computer-use-preview | OpenAI 専用調整モデル。Tier 3+ 必須(累計 $100 + 7日経過)。 |
| AI Autopilot(ローカルLLM) | Gemma 4 26B A4B / Qwen3-VL 8B | Ollama経由。API料金不要・オフライン動作。速度はGPU性能に依存。 |
| AIクリック / AIスマート待機 / AI OCR | Claude Sonnet 4.6 / GPT-5.5 / Gemini 2.5 Pro / Llama 4 Scout | 1回のVision API呼び出しで完結。どのVision対応モデルでも高精度。 |
| AI条件 | Gemini 2.5 Flash / GPT-5.5 mini | Yes/No判定のみ。高速・低コストモデルで十分。 |
| AI指示(テキスト生成) | 任意(用途に応じて選択) | Vision不要ならGroqやローカルLLMも選択可。 |
AI Autopilotのネイティブパスで使用するモデルは、AI設定 →「AIオートパイロット」セクション →「デフォルトモデル」で 1 つの統合 ComboBox から選択します。Anthropic(Sonnet 4.6 / Opus 4.7)と OpenAI(GPT-5.5 / 5.4 / computer-use-preview)の中から、用途に応じてプロバイダ × モデルを一発で選択できます。ブロックレベルの provider / model パラメータで個別に上書きすることも可能です。
provider + model パラメータ → (2) AI設定の「AIオートパイロット」デフォルトモデル → (3) デフォルト: Claude Sonnet 4.6(Anthropic)
computer-use-preview は Tier 3+(累計 $100 入金 + 7日経過)が必要です。また、OpenAI プロジェクトの「Allowed Models」ホワイトリストで対象モデルを許可する必要があります(Default project では gpt-4o しか許可されていないケースあり)。
Ollama等でVision対応のローカルLLM(Gemma 4など)を起動すれば、API料金なし・オフラインでAutopilotを利用できます。
http://localhost:11434/v1)とモデル名(例: gemma4:26b)を設定OpenAICompatible に変更| モデル | Ollamaコマンド | VRAM目安 | 特徴 |
|---|---|---|---|
| Gemma 4 26B A4B | ollama pull gemma4:26b | ~15GB | MoE構造(3.8Bアクティブ)で高速。Vision+関数呼び出し対応。Apache 2.0ライセンス。 |
| Qwen3-VL 8B | ollama pull qwen3-vl:8b | ~6GB | 軽量で高速。VRAM少なめのGPUでも動作可能。8Bながら高いVision精度。 |
クラウドAPIを使わずに、ローカルで動作するVision対応LLMでもAI Vision機能を利用できます。RocketMouse AI の「ローカルLLM」プロバイダ(OpenAI互換API)で接続します。
以下は画面認識・UI要素検出に適したVision対応ローカルモデルの推奨一覧です(2026年3月時点)。
| モデル | サイズ | VRAM目安 (Q4) | 対応ランタイム | 用途・特徴 |
|---|---|---|---|---|
| Qwen3-VL 8B | 8B | 約6GB | LM Studio / Ollama | 最推奨 GUI要素の検出精度がクラス最高(ScreenSpot 94.4%)。画面操作・OCR・UI認識すべてに優秀。128Kコンテキスト。 |
| Qwen2.5-VL 7B | 7B | 約6GB | LM Studio / Ollama | 実績豊富な定番モデル。ドキュメントOCR(DocVQA 95.7)に特に強い。安定性重視の場合に。 |
| Gemma 3 4B | 4B | 約3-4GB | LM Studio / Ollama | 軽量 VRAM 6GB以下のGPUでも動作。簡単な画面状態チェック(Yes/No判定)向き。精密な座標検出には不向き。 |
| Phi-4-Reasoning-Vision 15B | 15B | 約10GB | LM Studio (GGUF) | Microsoft製。複雑な画面内容の推論・分析が得意。チャート、表、エラーメッセージの読解に強い。 |
| Gemma 3 27B QAT | 27B | 約14GB | LM Studio / Ollama | 高精度 24GB GPU向け。量子化対応学習(QAT)で品質低下が少ない。ローカル最高品質を求める場合に。 |
ollama pull qwen3-vl で導入できます。
http://localhost:1234、Ollama は http://localhost:11434qwen3-vl-8b)右パネルのAIアシスタントは、マクロに関する質問や操作をチャット形式でサポートします。
RocketMouse AI は 15日間のトライアル を提供しています。トライアル期間中はすべての機能を制限なく使用できます。トライアル期間が終了すると、マクロの実行(再生・録音)が制限されますが、編集・保存・AIアシスタントは引き続き利用可能です。
ライセンスキーを購入・入力すると、制限なくすべての機能をご利用いただけます。詳しくは ライセンスページ をご覧ください。
| 種類 | 対象 | 制限 |
|---|---|---|
| 個人版(Personal) | 個人利用 | 1台のPCに限定 |
| 法人版(Business) | 商用利用 | PC台数無制限 |
AI指示ブロック、AI Visionブロック、AIアシスタントで使用するLLMプロバイダの設定です。
HKCU\Software\Mojosoft\RocketMouse\AI)。プロジェクトファイル (.rmproj) には保存されないため、プロジェクトを共有してもAPIキーは漏洩しません。
マクロプロジェクトは .rmproj ファイル(JSON形式)に保存されます。テキストエディタで開いて手動編集することも可能です。プロジェクトファイルには以下の情報が含まれます。
RocketMouse AI で使用できるキーボードショートカットの一覧です。
| ショートカット | 動作 |
|---|---|
| Ctrl+Z | 元に戻す(Undo) |
| Ctrl+Y | やり直し(Redo) |
| Ctrl+C | 選択ブロックをコピー |
| Ctrl+V | コピーしたブロックをペースト |
| Ctrl+D | 選択ブロックを複製 |
| Ctrl+A | 全ブロックを選択 |
| Delete | 選択ブロックを削除 |
| Escape | 選択を解除 |
| ショートカット | 動作 |
|---|---|
| Ctrl+S | 上書き保存 |
| Ctrl+Shift+S | 名前を付けて保存 |
| ショートカット | 動作 |
|---|---|
| Ctrl+F | ブロック検索を開く |
| Home | 全体表示(ZoomToFit) — 全ブロックが画面に収まるようにズーム |
| マウスホイール | ズーム(拡大/縮小) |
| 中ボタンドラッグ | ワークスペースをパン |
| 右ボタンドラッグ | ワークスペースをパン |
| ショートカット | 動作 |
|---|---|
| F9 | ブレークポイントの設定/解除 |
| Ctrl+Shift+F | C型ブロックの折り畳み/展開 |