RocketMouse AI とは

RocketMouse AI は、Scratch風のパズルピースブロックをドラッグ&スナップで組み立てて、RPAマクロを作成するビジュアルエディタです。プログラミング知識は不要で、マウス操作、キーボード入力、ブラウザ操作、Excel操作、画像認識など、さまざまな作業を自動化できます。

ブロックをつなげるだけで自動化フローを構築でき、条件分岐やループ、変数、関数、AI連携などの高度な機能も備えています。

ポイント: RocketMouse AI では、すべての操作を「ブロック」として表現します。ブロックの形状(Stack、Hat、C型、Boolean、Reporter、Cap)によって、接続できる場所や役割が異なります。

画面構成

メイン画面は3カラム構成です。

  • 左カラム: カテゴリサイドバー + ブロックパレット。カテゴリを選択すると、そのカテゴリに属するブロックがパレットに表示されます。
  • 中央カラム: ワークスペース(ブロック配置エリア)。ここにブロックをドラッグ&ドロップして、マクロフローを組み立てます。
  • 右カラム: プロパティパネル(ブロック選択時)+ ログ/変数パネル(実行時)。選択したブロックの設定変更や、実行時のログ・変数の確認ができます。

画面上部にはツールバーがあり、ファイル操作、実行制御(再生/停止/一時停止/ステップ)、録音、ドライラン、ズーム、AI設定などのボタンが並んでいます。画面下部にはステータスバーがあり、実行中のステップ数や経過時間を表示します。

プロジェクトファイル

マクロは .rmproj 形式(JSON)で保存・読込できます。

  • Ctrl+S で上書き保存
  • Ctrl+Shift+S で名前を付けて保存
  • 未保存の変更がある場合、タイトルバーに * マークが表示されます
  • アプリ終了時に未保存変更がある場合、保存確認ダイアログが表示されます

エディタの基本操作

ブロックの配置

左のパレットからワークスペースにブロックを配置するには、2つの方法があります。

  • ドラッグ&ドロップ: パレットのブロックをドラッグし、ワークスペースの任意の位置にドロップします。
  • クリック配置: パレットのブロックをクリックすると、ワークスペースの適当な位置に自動配置されます。

スナップ接続

ブロックを他のブロックに近づけると(20ピクセル以内)、自動的にスナップ接続されます。接続候補のブロックは黄色のハイライトで表示されます。

  • 上下接続: ブロックの下部凸と次のブロックの上部凹みが接続
  • C型ブロックの口: C型ブロック(if、ループ等)の口の中にブロックを配置
  • Booleanスロット: 六角形のBooleanブロックをC型ブロックの条件スロットにスナップ
  • Reporterスロット: カプセル型のReporterブロックを他のブロックのパラメータスロットにスナップ

選択とドラッグ

  • クリック選択: ブロックをクリックすると青枠で選択状態になります。
  • 複数選択: Ctrl+クリックで複数のブロックを選択できます。
  • マーキー選択: ワークスペースの空白部分からドラッグすると、範囲内のブロックをまとめて選択できます。
  • 全選択: Ctrl+A でワークスペース上の全ブロックを選択。
  • スタック一括ドラッグ: 接続されたブロック列の上部をドラッグすると、下に接続されたすべてのブロックが一緒に移動します。
  • 複製: Ctrl+D または右クリックメニューで選択ブロックを複製。
  • コピー&ペースト: Ctrl+C / Ctrl+V でブロックをコピー&ペースト。C型ブロックやBooleanブロックのツリーも完全にコピーされます。
  • 削除: Delete キーまたは右クリックメニューで選択ブロックを削除。
  • 元に戻す/やり直し: Ctrl+Z / Ctrl+Y で直前の操作を取り消し・再実行(スナップショット方式)。

ズームとパン

  • ズーム: マウスホイールの回転でワークスペースを拡大/縮小
  • パン: マウス中ボタンドラッグまたは右ボタンドラッグでワークスペースをスクロール
  • 無限キャンバス: ブロックはワークスペースのどこにでも配置可能。キャンバスの端は存在しません。
  • 全体表示: Home キーで全ブロックが画面に収まるようにズーム&パンを自動調整

プロパティパネル

ブロックを選択すると、画面右側にプロパティパネルが表示されます。共通設定と各ブロック固有のパラメータを編集できます。

  • コメント: ブロックにメモを記入。実行には影響しません。
  • 遅延 (ms): ブロック実行後の待機時間(ミリ秒)を指定。
  • 有効/無効: 無効に設定したブロックは実行時にスキップされます。
  • 操作固有パラメータ: 各ブロックの種類に応じたパラメータ(座標、ファイルパス、キーコンボ、変数名など)を設定。

パレット上部の検索ボックスでブロックをインクリメンタルサーチできます。全カテゴリを横断して、表示名やOperationType名でマッチするブロックを検索します。検索中はカテゴリグループが非表示になり、マッチしたブロックだけが一覧表示されます。Esc キーまたは検索ボックスの「x」ボタンで検索をクリアできます。

ミニマップ

ワークスペース左下に200x150pxの俯瞰ビュー(ミニマップ)を表示できます。全ブロックがカテゴリカラーの小さな矩形で表示され、白い枠で現在のビューポート範囲を示します。ミニマップ上をクリック/ドラッグするとワークスペースがパンします。ツールバーのボタンで表示/非表示を切り替えられます。

ブロックの種類

RocketMouse AI では、6種類のブロック形状があり、それぞれ異なる役割と接続ルールを持っています。

形状 特徴 用途
Stack型 上に凹み(受け側)、下に凸(接続側)。もっとも標準的なブロック形状。 LeftClick、KeyInput、AppLaunch など、ほとんどの操作に使用
Hat型 丸い上辺。上コネクタなし(他のブロックの下に接続不可)。 Startブロック(マクロの開始点)、FunctionDefine(関数定義)
C型ブロック 口の中に子ブロックを配置可能。口の高さは内部のブロック数に応じて自動拡張。 条件分岐(if-then, if-then-else)、ループ(for, forEach)、TryCatch
Boolean型 六角形。true / false の条件を表す。C型ブロックの条件スロットにスナップ。 比較(=, >, <)、論理演算(AND, OR, NOT)、ファイル存在チェックなど
Reporter型 カプセル型(丸い両端)。値を返す。他のブロックのパラメータスロットにスナップ。 変数参照、数学演算(加算・減算等)、文字列操作、マウス座標など
Cap型 上コネクタのみ(下コネクタなし)。フローの終了を表す。 BreakLoop、ContinueLoop、MacroExit、FunctionReturn

ブロックカテゴリ一覧

RocketMouse AI には多数のブロックがカテゴリ別に整理されています。各カテゴリをクリックすると詳細を展開できます。

Mouse マウス操作 — 16ブロック

マウスのクリック、移動、ドラッグ、スクロールなどの操作を自動化するブロックです。

ブロック説明
LeftClick指定座標を左クリック
RightClick指定座標を右クリック
MiddleClick指定座標を中クリック
DoubleClick指定座標をダブルクリック
MouseMove指定座標にマウスカーソルを移動
MouseDrag指定の開始座標から終了座標へドラッグ
ScrollUpマウスホイールを上方向にスクロール
ScrollDownマウスホイールを下方向にスクロール
LeftDown左ボタンを押下(離さない)
LeftUp左ボタンを離す
RightDown右ボタンを押下(離さない)
RightUp右ボタンを離す
MiddleDown中ボタンを押下(離さない)
MiddleUp中ボタンを離す
ScrollLeftマウスホイールを左方向にスクロール
ScrollRightマウスホイールを右方向にスクロール

Keyboard キーボード操作 — 2ブロック

キーボード入力やテキスト貼り付けを自動化するブロックです。

ブロック説明
KeyInputキーコンボ入力。修飾キー(Ctrl, Shift, Alt)との組み合わせや、特殊キー({ENTER}, {TAB}, {F1}等)のシーケンスに対応。KeyComboピッカーで直感的に入力可能。
TextPasteテキスト文字列をクリップボード経由で貼り付け。日本語(IME)を含む任意のテキストに対応。

Window ウィンドウ操作 — 8ブロック

ウィンドウのアクティブ化、最小化、最大化、サイズ変更などの操作を行うブロックです。

ブロック説明
ActivateWindow指定タイトルのウィンドウをアクティブ(前面)に
CloseWindow指定タイトルのウィンドウを閉じる
MinimizeWindowウィンドウを最小化
MaximizeWindowウィンドウを最大化
RestoreWindowウィンドウを元のサイズに復元
ResizeWindowウィンドウのサイズを変更
MoveWindowウィンドウの位置を移動
SnapWindowウィンドウを画面端にスナップ

Browser ブラウザ操作 — 16ブロック

Webブラウザの起動、ナビゲーション、要素操作、スクリーンショットなどを自動化するブロックです。Playwright を利用し、Edge / Chrome をシステムの channel モードで使用します。

ブロック説明
BrowserLaunchブラウザを起動(Edge / Chrome / Chromium 選択可)
BrowserNavigate指定URLに移動
BrowserClickCSSセレクタで指定した要素をクリック
BrowserFillテキストフィールドに文字入力
BrowserSelectドロップダウンから選択
BrowserCheckチェックボックスのオン/オフ
BrowserGetText要素のテキストを取得して変数に格納
BrowserGetAttribute要素の属性値を取得
BrowserGetTitleページタイトルを取得して変数に格納
BrowserGetUrl現在のURLを取得して変数に格納
BrowserScreenshotページまたは要素のスクリーンショットを保存
BrowserExecuteScriptJavaScript コードを実行
BrowserWaitForElement指定要素が表示されるまで待機
BrowserSwitchTab指定タブに切替
BrowserGoBack前のページに戻る
BrowserCloseブラウザを閉じる

Excel Excel操作 — 18ブロック

Excel COM オートメーションでブック/シート/セルを操作するブロックです。Microsoft Excel がインストールされている必要があります。

ブロック説明
ExcelOpenExcelファイルを開く
ExcelCloseExcelブックを閉じる
ExcelSaveブックを保存
ExcelReadCell指定セルの値を読み取り変数に格納
ExcelWriteCell指定セルに値を書き込み
ExcelSetFormulaセルに数式を設定
ExcelRunMacroVBAマクロを実行
ExcelFilterオートフィルタを適用
ExcelReadRange範囲のデータを一括読み取り
ExcelWriteRange範囲にデータを一括書き込み
ExcelCopySheetシートをコピー
ExcelDeleteSheetシートを削除
ExcelRenameSheetシート名を変更
ExcelCreateBook新規ブックを作成
ExcelAddSheet新しいシートを追加
ExcelGetLastRowデータのある最終行を取得
ExcelGetLastColumnデータのある最終列を取得
ExcelSaveAs名前を付けてブックを保存

File ファイル操作 — 12ブロック

ファイルのコピー、移動、削除、読み書きなどの操作を行うブロックです。

ブロック説明
FileCopyファイルをコピー
FileMoveファイルを移動
FileDeleteファイルを削除
FileReadテキストファイルの内容を読み取り変数に格納
FileWriteテキストファイルに内容を書き込み(上書き)
FileAppendテキストファイルに内容を追記
DirectoryCopyディレクトリをコピー
DirectoryCreateディレクトリを作成
DirectoryDeleteディレクトリを削除
DirectoryGetFilesディレクトリ内のファイル一覧を取得
FileGetInfoファイルの情報(サイズ、更新日時等)を取得
FileRenameファイル名を変更

Data データ処理 — 22ブロック

JSON解析、正規表現、文字列操作、日付演算、リスト操作など、データの加工・変換を行うブロックです。

JSON / 正規表現

ブロック説明
JsonParseJSON文字列を解析し、指定パスの値を変数に格納
JsonStringify値をJSON文字列に変換
RegexMatch正規表現でテキストを検索、マッチした値を変数に格納
RegexReplace正規表現でテキストを置換

文字列操作

ブロック説明
StringSubstring文字列の部分取得
StringReplace文字列の置換
StringSplit区切り文字で文字列を分割しリスト化
StringTrim文字列の前後の空白を除去
StringIndexOf文字列内で指定テキストの位置を検索
StringStartsWith文字列が指定テキストで始まるかチェック
StringEndsWith文字列が指定テキストで終わるかチェック

日付演算

ブロック説明
DateAdd日付に日数/月数/年数を加算
DateDiff2つの日付の差を計算
DateFormat日付を指定フォーマットで文字列に変換

リスト操作

ブロック説明
ListCreate新しいリスト(配列)を作成
ListAddリストに要素を追加
ListGetリストの指定インデックスの要素を取得
ListSetリストの指定インデックスの要素を変更
ListLengthリストの要素数を取得
ListRemoveリストから要素を削除
ListSortリストをソート
ListJoinリストの要素を区切り文字で結合して文字列に

Control 制御フロー — 17ブロック

条件分岐、ループ、待機、関数定義・呼び出しなど、マクロの実行フローを制御するブロックです。

条件分岐(C型ブロック)

ブロック説明
ConditionBranchif-then 分岐。条件スロットにBooleanブロックをスナップして条件を指定。
ConditionBranchElseif-then-else 分岐。条件が偽の場合のelse口も持つ。

ループ(C型ブロック)

ブロック説明
LoopStart指定回数繰り返し(forループ)。{=_loopIndex} で現在のループ番号(1始まり)を参照可能。
ForEachLoopリストの各要素に対して繰り返し。要素を変数に格納。

エラー処理(C型ブロック)

ブロック説明
TryCatchTry-Catch構造。try口で実行し、エラー発生時はcatch口を実行。リトライ回数指定可。

フロー制御(Cap型ブロック)

ブロック説明
BreakLoop現在のループを中断して抜ける
ContinueLoop現在のループの残りをスキップして次の繰り返しへ
MacroExitマクロの実行を即座に正常終了

待機・関数・変数・その他

ブロック説明
WaitTime指定ミリ秒間待機
FunctionDefineカスタム関数を定義(Hat型)。関数名を指定。
FunctionCall定義済み関数を呼び出し(Stack型)。
FunctionReturn関数から値を返して終了(Cap型)。
VariableDefine変数を定義(値を設定)
VariableDelete変数を削除
VariableExpression四則演算式を評価して変数に格納
Commentコメントブロック。実行時はスキップ。メモや説明を記述。

AI AI操作 — 7ブロック

LLM(大規模言語モデル)やAI Vision APIを使って、プロンプト送信・画面操作・画面認識を行うブロックです。

ブロック説明
AI指示LLMにプロンプトを送信し、応答を変数に格納。5プロバイダ対応。画像添付でVision APIも利用可(4MB制限)。
AIオートパイロット NEWAIが画面を見ながら自律的にタスクを完了。Claude Computer Use APIによるマルチターン操作。
AIクリック NEW自然言語で要素を指定してクリック。AIが画面を分析して座標を特定。2パスリファインメント対応。
AIスマート待機 NEWAIが画面を定期確認し、指定条件を満たすまでインテリジェントに待機。
AI OCR NEWAI Visionで画面上のテキストを読み取り変数に格納。文脈理解による高精度な読み取り。
AI検証 NEW操作後の画面をAIが検証し、条件を満たすかtrue/falseで判定。
AI条件 NEW六角形Boolean。if/whileの条件にAI画面判定を使用(例:「ログイン画面が表示されているか」)。
設定方法: AI設定ダイアログ(ツールバー)でAPIキーとデフォルトモデルを設定してください。各ブロック個別にプロバイダやモデルを上書きすることもできます。AI Autopilotは OpenAI GPT-5.5(速度・コスト優先)または Anthropic Claude Sonnet 4.6 / Opus 4.7(精度・安定優先)が推奨です。

Vision 画像認識 — 9ブロック

画像認識(テンプレートマッチング)やOCR(文字認識)を使って画面要素を検出・操作するブロックです。

ブロック説明
VisionClickテンプレート画像にマッチする画面上の位置をクリック
VisionWaitテンプレート画像が画面上に表示されるまで待機
VisionDisappearテンプレート画像が画面上から消えるまで待機
VisionGetPositionテンプレート画像の位置(X,Y座標)を変数に格納
VisionCapture画面の指定領域をキャプチャして画像ファイルに保存
OcrReadText指定領域のテキストをOCR(Windows OCR)で読み取り変数に格納
OcrClickTextOCRで検出したテキストの位置をクリック
OcrWaitText指定テキストがOCRで検出されるまで待機
WaitImageAI Vision APIを使用して画面の状態を分析し、条件に合致するまで待機

Boolean 条件ブロック — 11種類

六角形の条件ブロック(Boolean型)です。C型ブロック(if-then/if-then-else)の条件スロットにスナップして使用します。

比較演算

ブロック説明
BoolCompareEquals左辺 = 右辺(等しい)
BoolCompareGreater左辺 > 右辺(より大きい)
BoolCompareLess左辺 < 右辺(より小さい)

論理演算

ブロック説明
BoolAndAND(かつ)。2つの条件スロットを持つ。両方trueの場合true。
BoolOrOR(または)。2つの条件スロットを持つ。どちらかがtrueの場合true。
BoolNotNOT(否定)。1つの条件スロットを持つ。trueとfalseを反転。

状態チェック

ブロック説明
BoolVariableEquals変数の値が指定値と等しいかチェック
BoolFileExistsファイルが存在するかチェック
BoolWindowVisible指定タイトルのウィンドウが表示されているかチェック
BoolImageFoundテンプレート画像が画面上に見つかるかチェック
BoolColorFound指定座標のピクセルが指定色と一致するかチェック
ネスト対応: AND/OR/NOT ブロックのスロットに別のBooleanブロックをスナップすることで、複雑な条件式(例: (A > 10) AND (B = "OK"))を組み立てられます。

System システム / アプリ — 18ブロック

アプリケーション起動、メッセージボックス、クリップボード、プロセス管理、圧縮、エンコード、ハッシュなどのシステム操作ブロックです。

ブロック説明
AppLaunchアプリケーションを起動(パス指定)
AppCloseアプリケーションを終了
MessageBoxメッセージボックスを表示
InputDialogテキスト入力ダイアログを表示し、入力値を変数に格納
ClipboardSetクリップボードにテキストを設定
ClipboardGetクリップボードからテキストを取得
ProcessStartプロセスを起動(引数指定可)
ProcessKillプロセスを終了(プロセス名指定)
ZipCreateファイル/フォルダをZIP圧縮
ZipExtractZIPファイルを展開
Base64Encode文字列/ファイルをBase64エンコード
Base64DecodeBase64をデコード
HashComputeハッシュ値を計算(MD5 / SHA1 / SHA256 / SHA512)
PlaySoundサウンドファイルを再生
ScreenCapture画面全体をキャプチャして画像ファイルに保存
LogWriteログにメッセージを出力
RegistryReadレジストリの値を読み取り
RegistryWriteレジストリに値を書き込み

Reporter レポーターブロック — 15ブロック + 変数参照

カプセル型のレポーターブロックは値を返し、他のブロックのパラメータスロットにスナップして使用します。Scratchの「演算」「調べる」ブロックに相当します。

変数参照

ブロック説明
VariableReference変数の値を参照。パラメータスロットにスナップして変数値を動的に使用。

数学演算(Math)

ブロック説明
MathAdd加算(A + B)
MathSubtract減算(A - B)
MathMultiply乗算(A * B)
MathDivide除算(A / B)
MathModulo剰余(A % B)
MathFunction数学関数(abs, round, floor, ceil, sqrt, sin, cos, tan, log, pow, min, max)

文字列(String)

ブロック説明
StringConcat2つの文字列を結合
StringLength文字列の長さを返す
StringCharAt指定位置の文字を返す
RandomNumber指定範囲の乱数を生成

センシング(Sensing)

ブロック説明
SenseMouseX現在のマウスX座標
SenseMouseY現在のマウスY座標
SenseCurrentDateTime現在の日時
SenseClipboardTextクリップボードのテキスト
SenseEnvironmentVariable環境変数の値

実行とデバッグ

マクロの実行

ツールバーの ▶ 再生 ボタンでマクロを実行します。Startブロック(Hat型)から順に、接続されたブロックチェーンを上から下に実行していきます。

  • 実行中のブロックは 緑色の枠 でハイライトされます。
  • ステータスバーに現在のステップ番号と総ステップ数(例: [3/42])が表示されます。
  • ワークスペース上部に薄い緑色のプログレスバーが実行進捗を表示します。

一時停止 / 再開 / ステップ実行

  • 一時停止: 実行中に一時停止。現在のブロックの実行完了後に停止します。
  • 再開: 一時停止状態から通常実行を再開。
  • ステップ: 1ブロックだけ実行して再び一時停止。フローの動作を1ステップずつ確認できます。

停止

■ 停止 ボタンで実行を即座に中断します。一時停止中でも停止可能です。

ドライラン

実際のマウス・キーボード操作を行わずに、フローの流れだけを確認するモードです。各ブロックの処理をログに出力しますが、実際のシステム操作(クリック、入力、ファイル操作等)は実行しません。ロジックの確認やデバッグに便利です。

速度コントロール

ツールバーのスライダーで 1x ~ 10x の速度調整が可能です。速度はリアルタイムに変更でき、実行中でも即座に反映されます。速度を上げると各ステップ間の待機時間が短縮されます(50msのフロアあり)。

デバッグツール

エラー可視化

エラーが発生したブロックは 赤色の枠 でハイライト表示されます。ブロックにマウスを合わせると、ToolTipにエラーメッセージの詳細が表示されます。

ログパネル

画面下部のパネルに構造化ログが表示されます。4色のレベルで情報を識別できます。

レベル内容
Infoステップ開始、パラメータ情報
Successステップ完了、所要時間、条件評価結果
Errorエラー発生、エラーメッセージ
Warning一時停止、スキップ情報

変数ウォッチパネル

下部パネルの「変数」タブに切り替えると、実行中の全変数の名前と値をリアルタイムで監視できます。値が更新された変数は 緑色の背景 でハイライトされます。

ブレークポイント

特定のブロックで実行を自動停止させるブレークポイント機能です。

  • 設定方法: ブロックを右クリック → 「ブレークポイント設定」、または F9 キー
  • ブレークポイントが設定されたブロックには 赤い丸マーカー が表示されます
  • 実行がブレークポイントに到達すると自動的に一時停止します
  • 一時停止後、再開またはステップ実行で続行できます

録音機能

ツールバーの ● 録音 ボタンで、マウス操作やキーボード入力を自動記録できます。記録された操作は自動的にブロックとしてワークスペースに配置されます。

  • マウスクリック(左/右/中/ダブル)、ドラッグ、スクロールを記録
  • キーボード入力(英語テキスト、日本語IME入力、ショートカットキー)を記録
  • 録音停止後、記録された操作をブロックチェーンとして確認・編集可能

変数と関数

変数の定義と参照

VariableDefine ブロックで変数を作成し、値を設定します。変数の値は {=変数名} 構文で他のブロックのパラメータ内から参照できます。

例: 変数名「filePath」に値「C:\Documents\data.txt」を設定
    → FileRead ブロックのパスに {=filePath} と入力
    → 実行時に自動的に「C:\Documents\data.txt」に置換
変数名は大文字小文字を区別しません。 {=myVar}{=MYVAR} は同じ変数を参照します。

変数の式

VariableExpression ブロックで四則演算の結果を変数に格納できます。

  • 対応演算子: +, -, *, /, %(剰余)
  • 括弧 () で優先順位を指定可能
  • 変数参照 {=name} を式の中で使用可能
  • 例: {=total} * 1.1, ({=width} + {=margin}) * 2
注意: VariableExpression は数学演算専用です。文字列の結合には VariableDefine の value パラメータ、または StringConcat レポーターブロックを使用してください。

システム変数

ループ内では以下のシステム変数が自動的に設定されます。

変数名説明
{=_loopIndex}現在のループ番号(1始まり)。1回目=1, 2回目=2, ...
{=_loopIteration}現在のループ反復回数(0始まり)。1回目=0, 2回目=1, ...

リスト操作

リスト(配列)を作成・操作するブロックが用意されています。

  • ListCreate: 空のリスト、またはカンマ区切りの初期値でリストを作成
  • ListAdd: リストの末尾に要素を追加
  • ListGet / ListSet: インデックス指定で要素の取得・設定(0始まり)
  • ListLength: リストの要素数を取得
  • ListRemove: 指定インデックスの要素を削除
  • ListSort: リストをソート(昇順/降順)
  • ListJoin: リストの全要素を区切り文字で結合して文字列に変換

カスタム関数

繰り返し使用する処理をカスタム関数として定義できます。

  • FunctionDefine(Hat型): 関数を定義します。関数名を指定し、口の中に処理ブロックを配置します。ワークスペース上にStartブロックとは別に配置します。
  • FunctionCall(Stack型): 定義済みの関数を呼び出します。関数名を指定。
  • FunctionReturn(Cap型): 関数から値を返して終了します。呼び出し元のFunctionCallブロックの出力変数に格納されます。
再帰呼び出し対応: 関数は自分自身を呼び出す再帰処理に対応しています。無限再帰防止のため、コールスタックの上限は100段です。

自動出力変数

出力変数を持つブロック(ExcelReadCell、FileRead、BrowserGetText 等)をパレットから配置すると、スマートなデフォルト変数名が自動設定されます。

  • 例: ExcelReadCell → CellValue
  • 同名の変数が既にワークスペース上にある場合は自動連番: CellValueCellValue2CellValue3
  • コピー&ペースト時にも自動連番が適用されます

AI機能

AI指示ブロック

AI指示ブロックは、マクロ実行中にLLM(大規模言語モデル)にプロンプトを送信し、AIの応答を変数に格納します。テキスト生成、データ分析、意思決定の自動化などに活用できます。

パラメータ

パラメータ説明
promptLLMに送信するプロンプト。{=変数名} で変数参照可能。
outputVariable応答を格納する変数名(デフォルト: AIResponse)
filePath添付画像ファイルのパス(Vision API用。4MB制限)
provider使用するプロバイダ(Default = AI設定のデフォルト)
model使用するモデルID(空欄 = プロバイダのデフォルトモデル)
temperature生成の多様性(0.0 = 決定的 ~ 1.0 = 創造的。デフォルト: 0.3)

プロバイダ設定

ツールバーの AI設定ボタンから、各プロバイダの API キーとデフォルトモデルを設定します。

プロバイダ主要モデルVision対応
OpenAIgpt-5.5, gpt-5.5-mini, gpt-5.4, gpt-5.2, gpt-4.1, gpt-4o対応
Anthropicclaude-sonnet-4-6, claude-opus-4-7, claude-haiku-4-5対応
Google Geminigemini-3-pro / 3-flash (Preview), gemini-2.5-pro / 2.5-flash対応
GroqLlama 4 Scout 17B (multimodal), Llama 3.3 70B, Llama 3.1 8B対応 (Llama 4 Scout 選択時)
ローカルLLMLM Studio / Ollama(任意モデル)対応(モデル依存)

AI Vision / Computer Use

RocketMouse AI v2.0 で追加された AI Vision 機能群は、AIが画面のスクリーンショットを「見て」理解し、操作を行います。従来の座標指定やテンプレートマッチングでは対応が難しかった、動的なUI変化やレイアウト変更に強い自動化を実現します。

AI Visionブロック一覧

ブロック機能主なパラメータ
AIクリックAIが画面を見て要素を特定しクリックプロンプト(クリック対象の説明), button, clickType, provider, model, outputX/Y
AIスマート待機AIが画面を定期確認し条件充足まで待機プロンプト(待機条件), timeoutMs, pollingMs, provider, model
AI OCRAIが画面上のテキストを読み取りプロンプト(読取指示), outputVariable, provider, model
AI検証操作結果をAIが検証(true/false)プロンプト(検証条件), outputVariable, provider, model
AI条件if/whileの条件にAI画面判定を使用プロンプト(条件文), provider, model
2パスリファインメント(AIクリック): Pass 1で全画面を1280×720に縮小して大まかな座標を取得。画面端(200px以内)の場合、Pass 2で元解像度1000×1000pxクロップによる精密座標を再取得します。スタートボタン等の小さなアイコンも高精度に検出できます。

プロンプト例

各AI Visionブロックに渡すプロンプトの例です。具体的で明確な記述ほどAIの精度が向上します。

AIクリック — クリック対象のUI要素を具体的に記述
メモ帳の「ファイル」メニュー 「名前を付けて保存」ダイアログの「保存」ボタン タスクバーの Chrome アイコン Excelのセル B3
AIスマート待機 — 画面の状態変化を条件として記述
ファイルのダウンロードが完了した(プログレスバーが消えた) 「処理が完了しました」というメッセージが表示された アプリの起動画面(スプラッシュ)が消えてメインウィンドウが表示された
AI OCR — 読み取りたいテキストの場所と内容を指示
画面中央のダイアログに表示されているエラーメッセージを読み取ってください Excelの表の合計金額(一番下の行の右端の数値)を読み取ってください タイトルバーに表示されているファイル名を読み取ってください
AI検証 — 操作後に確認したい画面状態を記述
ファイルの保存に成功した(タイトルバーに「*」マークがない) ログイン画面が表示されている(ユーザー名とパスワードの入力欄が見える) 印刷プレビューが正しく表示されている
AI条件 — if/while条件として使う画面判定を記述
画面にエラーダイアログが表示されている メモ帳が画面に表示されている Webページの読み込みが完了している(ローディングスピナーが表示されていない)

AI Visionの共通パラメータ

パラメータ説明デフォルト
provider使用するLLMプロバイダ。"Default"でAI設定のデフォルトを使用Default
modelモデルID。空欄でプロバイダのデフォルトモデル(空)
セルフヒーリング: AI設定で「セルフヒーリング」を有効にすると、通常のVisionClick(テンプレートマッチング)が失敗した場合に自動的にAIクリックにフォールバックします。既存マクロの堅牢性が大幅に向上します。

AIオートパイロット(自律エージェント)

AIオートパイロット は、自然言語でタスクを記述するだけで、AIが画面を見ながらマウス・キーボード操作を自律的に実行し、タスク完了まで繰り返す自律エージェントです。

デュアルプロバイダ × デュアルパスルーティング

Autopilotは使用するプロバイダとモデルに応じて、3つの実行パスを自動選択します。v2.0.6 から OpenAI GPT-5.5 ネイティブパスに対応

パス条件動作方式精度・特徴
Anthropic ネイティブパスAnthropic + Sonnet/OpusClaude Computer Use API(マルチターン tool_use/tool_result)高精度・安定(実績豊富)
OpenAI ネイティブパス NEWOpenAI + GPT-5.5 / GPT-5.4 / computer-use-previewOpenAI Responses API(previous_response_id でステートレス継続)高速・低コスト(Sonnet比 約1.3倍速、約1/5コスト)
汎用パスその他全プロバイダ + Anthropic HaikuプロンプトベースJSON方式標準

ネイティブパスでは、AI がスクリーンショットを受け取り、ツール呼び出しでアクション(クリック、入力、スクロール等)を返し、実行結果のスクリーンショットを返送、というマルチターン会話を繰り返します。これにより高い精度と自己修正能力を実現しています。

アプローチに違いがあります: GPT-5.5 は効率重視で最短経路を選びがち(例: Win+R で Run ダイアログ起動)、Claude Sonnet は人間らしくスタートメニューから検索して段階的に進めて確認多めです。シンプルなタスクは GPT-5.5、複雑な画面認識が必要なタスクは Sonnet が向いています。

Autopilotパラメータ

パラメータ説明デフォルト
task(プロンプト)タスクの自然言語記述(例:「メモ帳を開いてHello Worldと入力して保存」)(必須)
maxSteps最大ステップ数。各ステップでスクリーンショット+LLM推論+アクション実行30
timeoutSecondsタイムアウト秒数300
providerLLMプロバイダ。DefaultはAI設定の「AIオートパイロット」セクションで選択したプロバイダ(Anthropic または OpenAI)。ブロック単位で Anthropic / OpenAI / OpenAICompatible 等に上書き可能Default
modelモデルID。ブロック単位で上書き可能(例: gemma4:26b(空 = AI設定に従う)
outputVariable結果(True/False)を格納する変数AutopilotResult

対応アクション

アクション説明
left_click / right_click / double_clickマウスクリック
typeテキスト入力(日本語対応 — クリップボード方式で自動処理)
keyキー入力(Ctrl+S, Enter, Win+D 等)
scrollマウスホイールスクロール
mouse_move / left_click_dragカーソル移動・ドラッグ
screenshot追加スクリーンショット取得
wait2秒待機

タスク記述例(task パラメータ)

具体的で手順の明確なタスク記述ほど、Autopilotは正確に動作します。

AIオートパイロット — タスク全体を自然言語で記述
メモ帳を起動して「Hello World」と入力して、デスクトップに test.txt として保存してください → 具体的なファイル名と保存先を明示 Chromeで https://example.com を開いて、ページタイトルをコピーしてメモ帳に貼り付けてください → 複数アプリの連携タスク 電卓を起動して 1234 × 5678 を計算してください → シンプルで明確な目標 デスクトップにある report.xlsx を開いて、A1セルの値を確認してください → 既存ファイルの操作
コストに注意: Autopilotは各ステップでスクリーンショット(約200KB)をLLMに送信します。30ステップのタスクでは相応のAPI料金が発生します。定型処理はWin32ブロック、判断が必要な部分のみAutopilotを使うハイブリッド構成を推奨します。

AI Vision機能はVision対応の全プロバイダで動作しますが、用途に応じた推奨モデルがあります。

用途推奨モデル理由
AI Autopilot(速度・コスト優先) NEWOpenAI GPT-5.5built-in Computer Use 対応。Sonnet比 約1.3倍速・1/5コスト。OpenAI Tier 1 から利用可。シンプルな定型タスクに最適。
AI Autopilot(精度・安定優先)Claude Sonnet 4.6Computer Use API ネイティブ対応。長期運用実績豊富、段階的に状態確認しながら進めるアプローチで複雑タスクに強い。
AI Autopilot(最高性能)Claude Opus 4.7Computer Use API ネイティブ対応。最も高い精度と自己修正能力。長時間の複雑タスク向け。
AI Autopilot(OpenAI 上位)computer-use-previewOpenAI 専用調整モデル。Tier 3+ 必須(累計 $100 + 7日経過)。
AI Autopilot(ローカルLLM)Gemma 4 26B A4B / Qwen3-VL 8BOllama経由。API料金不要・オフライン動作。速度はGPU性能に依存。
AIクリック / AIスマート待機 / AI OCRClaude Sonnet 4.6 / GPT-5.5 / Gemini 2.5 Pro / Llama 4 Scout1回のVision API呼び出しで完結。どのVision対応モデルでも高精度。
AI条件Gemini 2.5 Flash / GPT-5.5 miniYes/No判定のみ。高速・低コストモデルで十分。
AI指示(テキスト生成)任意(用途に応じて選択)Vision不要ならGroqやローカルLLMも選択可。

Computer Use モデル設定

AI Autopilotのネイティブパスで使用するモデルは、AI設定 →「AIオートパイロット」セクション →「デフォルトモデル」で 1 つの統合 ComboBox から選択します。Anthropic(Sonnet 4.6 / Opus 4.7)と OpenAI(GPT-5.5 / 5.4 / computer-use-preview)の中から、用途に応じてプロバイダ × モデルを一発で選択できます。ブロックレベルの provider / model パラメータで個別に上書きすることも可能です。

モデル優先順位: (1) ブロックの provider + model パラメータ → (2) AI設定の「AIオートパイロット」デフォルトモデル → (3) デフォルト: Claude Sonnet 4.6(Anthropic)
OpenAI 利用時の注意: GPT-5.5 は Tier 1($5+ 入金済)から利用可能ですが、computer-use-preview は Tier 3+(累計 $100 入金 + 7日経過)が必要です。また、OpenAI プロジェクトの「Allowed Models」ホワイトリストで対象モデルを許可する必要があります(Default project では gpt-4o しか許可されていないケースあり)。

ローカルLLMでAutopilotを使う

Ollama等でVision対応のローカルLLM(Gemma 4など)を起動すれば、API料金なし・オフラインでAutopilotを利用できます。

  1. AI設定 →「各プロバイダの設定」→「OpenAI Compatible」にOllamaのURL(http://localhost:11434/v1)とモデル名(例: gemma4:26b)を設定
  2. AIオートパイロットブロックのプロパティで providerOpenAICompatible に変更
  3. ローカルLLMは応答に時間がかかるため、必要に応じて timeoutSeconds を延長してください

Autopilot向けローカルLLM推奨モデル

モデルOllamaコマンドVRAM目安特徴
Gemma 4 26B A4Bollama pull gemma4:26b~15GBMoE構造(3.8Bアクティブ)で高速。Vision+関数呼び出し対応。Apache 2.0ライセンス。
Qwen3-VL 8Bollama pull qwen3-vl:8b~6GB軽量で高速。VRAM少なめのGPUでも動作可能。8Bながら高いVision精度。
注意: ローカルLLMはClaude Sonnet/Opusと比べて精度・速度ともに劣ります。簡単なタスクから試すことを推奨します。

ローカルLLMでのAI Vision(LM Studio / Ollama)

クラウドAPIを使わずに、ローカルで動作するVision対応LLMでもAI Vision機能を利用できます。RocketMouse AI の「ローカルLLM」プロバイダ(OpenAI互換API)で接続します。

以下は画面認識・UI要素検出に適したVision対応ローカルモデルの推奨一覧です(2026年3月時点)。

推奨ローカルVisionモデル

モデルサイズVRAM目安 (Q4)対応ランタイム用途・特徴
Qwen3-VL 8B 8B 約6GB LM Studio / Ollama 最推奨 GUI要素の検出精度がクラス最高(ScreenSpot 94.4%)。画面操作・OCR・UI認識すべてに優秀。128Kコンテキスト。
Qwen2.5-VL 7B 7B 約6GB LM Studio / Ollama 実績豊富な定番モデル。ドキュメントOCR(DocVQA 95.7)に特に強い。安定性重視の場合に。
Gemma 3 4B 4B 約3-4GB LM Studio / Ollama 軽量 VRAM 6GB以下のGPUでも動作。簡単な画面状態チェック(Yes/No判定)向き。精密な座標検出には不向き。
Phi-4-Reasoning-Vision 15B 15B 約10GB LM Studio (GGUF) Microsoft製。複雑な画面内容の推論・分析が得意。チャート、表、エラーメッセージの読解に強い。
Gemma 3 27B QAT 27B 約14GB LM Studio / Ollama 高精度 24GB GPU向け。量子化対応学習(QAT)で品質低下が少ない。ローカル最高品質を求める場合に。
おすすめ: まず Qwen3-VL 8B をお試しください。6GBのVRAMで動作し、GUI要素の検出精度がクラウドAPIに迫る水準です。LM Studio なら検索バーで「qwen3-vl」と入力してダウンロード、Ollama なら ollama pull qwen3-vl で導入できます。

接続設定

  1. LM Studio または Ollama でVision対応モデルを起動
  2. RocketMouse AI → AI設定 →「ローカルLLM」セクション
  3. ベースURL: LM Studio は http://localhost:1234、Ollama は http://localhost:11434
  4. モデルID: 起動中のモデル名(例: qwen3-vl-8b
  5. 「接続テスト」で確認 →「保存」
AI Autopilotについて: AI Autopilotのネイティブパス(Computer Use API)は Anthropic Claude(Sonnet/Opus)と OpenAI(GPT-5.5 / GPT-5.4 / computer-use-preview)の両方に対応しています。ローカルLLMでは汎用パス(プロンプトベースJSON方式)で動作します。AIクリック・AI OCR・AIスマート待機・AI検証・AI条件は全プロバイダ(ローカルLLM含む)で利用可能です。

AIアシスタント

右パネルのAIアシスタントは、マクロに関する質問や操作をチャット形式でサポートします。

主な機能

  • マクロの説明: 選択したブロックやマクロ全体の動作をAIが解説
  • 問題の診断: エラーやフローの問題点をAIが分析・提案
  • 一般質問: 使い方やブロックの機能についてチャットで質問
  • ブロック自動生成: 自然言語でタスクを記述すると、AIがブロック列をJSON形式で生成し、ワークスペースに配置できます

ブロック自動生成の使い方

  1. AIアシスタントのチャット入力欄にタスクを自然言語で記述(例:「メモ帳を開いてHello Worldと入力して保存して」)
  2. AIがブロック列を生成し、チャット内にプレビュー表示
  3. 「配置する」ボタンをクリックすると、生成されたブロックがワークスペースのStartブロックに接続配置されます
マルチターン対応: AIアシスタントは会話の文脈を保持します。追加の指示(「もう1つループを追加して」等)を送ると、前回の会話を踏まえた応答が得られます。「新しい会話」ボタンで会話履歴をリセットできます。

ライセンスと設定

ライセンス概要

RocketMouse AI は 15日間のトライアル を提供しています。トライアル期間中はすべての機能を制限なく使用できます。トライアル期間が終了すると、マクロの実行(再生・録音)が制限されますが、編集・保存・AIアシスタントは引き続き利用可能です。

ライセンスキーを購入・入力すると、制限なくすべての機能をご利用いただけます。詳しくは ライセンスページ をご覧ください。

ライセンスの種類

種類対象制限
個人版(Personal)個人利用1台のPCに限定
法人版(Business)商用利用PC台数無制限

ライセンス認証方法

  1. ツールバー右側の「About」ボタンをクリック
  2. Aboutダイアログでライセンスキーを入力
  3. 「認証」ボタンをクリックして有効化

AI設定

AI指示ブロック、AI Visionブロック、AIアシスタントで使用するLLMプロバイダの設定です。

  1. ツールバーの AI設定ボタン(歯車アイコン)をクリック
  2. 使用するプロバイダのセクションを展開
  3. APIキーを入力
  4. 「接続テスト」ボタンで接続を確認
  5. デフォルトプロバイダとモデルを選択
  6. 「AIオートパイロット」セクション:「デフォルトモデル」でAutopilot用モデルを統合 ComboBox から選択(Anthropic Sonnet 4.6 / Opus 4.7、または OpenAI GPT-5.5 / 5.4 / computer-use-preview)
  7. 「セルフヒーリング」の有効/無効を設定
  8. 「保存」をクリック
APIキーの管理: APIキーはDPAPI暗号化でレジストリに保存されます(HKCU\Software\Mojosoft\RocketMouse\AI)。プロジェクトファイル (.rmproj) には保存されないため、プロジェクトを共有してもAPIキーは漏洩しません。

プロジェクト設定

マクロプロジェクトは .rmproj ファイル(JSON形式)に保存されます。テキストエディタで開いて手動編集することも可能です。プロジェクトファイルには以下の情報が含まれます。

  • マクロステップ(ブロックのフラットリスト)
  • 各ブロックのパラメータと設定
  • ブロックの座標位置
  • プロジェクト変数のデフォルト値

キーボードショートカット

RocketMouse AI で使用できるキーボードショートカットの一覧です。

編集操作

ショートカット動作
Ctrl+Z元に戻す(Undo)
Ctrl+Yやり直し(Redo)
Ctrl+C選択ブロックをコピー
Ctrl+Vコピーしたブロックをペースト
Ctrl+D選択ブロックを複製
Ctrl+A全ブロックを選択
Delete選択ブロックを削除
Escape選択を解除

ファイル操作

ショートカット動作
Ctrl+S上書き保存
Ctrl+Shift+S名前を付けて保存

ナビゲーション

ショートカット動作
Ctrl+Fブロック検索を開く
Home全体表示(ZoomToFit) — 全ブロックが画面に収まるようにズーム
マウスホイールズーム(拡大/縮小)
中ボタンドラッグワークスペースをパン
右ボタンドラッグワークスペースをパン

デバッグ

ショートカット動作
F9ブレークポイントの設定/解除
Ctrl+Shift+FC型ブロックの折り畳み/展開