1インストール方法

動作要件

システム要件

  • OS: macOS 14.0 Sonoma 以降
  • プロセッサ: Apple Silicon 推奨(M1 / M2 / M3 / M4 / A18 Pro)
    MacBook Neo(A18 Pro / 8GB RAM)にも最適化済み。モデルDL不要ですぐ使えます。
  • メモリ: RAM 8GB以上推奨(16GB推奨)
  • ストレージ: 200MB + モデルファイル(最大3GB)
  • Apple Intelligence(任意): macOS 26 以降 + Apple Intelligence が有効(設定方法

インストール手順

  1. ダウンロードページから最新版の .dmg ファイルをダウンロードします。
  2. ダウンロードした DMG ファイルをダブルクリックして開き、RocketWhisper アイコンを Applications フォルダにドラッグ&ドロップします。
  3. 初回起動時に Gatekeeper の警告が表示される場合は、「開く」を選択してください。もしくは、システム設定 > プライバシーとセキュリティ から「このまま開く」をクリックしてください。
  4. 初回起動時の動作は OS バージョンによって異なります:
    • macOS 26 以降: Apple SpeechAnalyzer を使用するため、モデルのダウンロードは不要で即座に使用できます。MacBook Neo(A18 Pro / 8GB RAM)ユーザーは、開封したその日から何のセットアップもなく音声入力が始められます。
    • macOS 14〜15: WhisperKit モデルのダウンロードが始まります。ネットワーク環境に応じて数分かかります。

💡 MacBook Neo ユーザーへ

MacBook Neo(A18 Pro / 8GB RAM / ¥99,800 / "Built for Apple Intelligence")は、RocketWhisper v2.0.8 に最適な環境です。

  • モデルDL 0MB: macOS 26+ のデフォルトエンジンが Apple SpeechAnalyzer になったため、WhisperKit モデル(最大3GB)のダウンロードは不要です。256GB SSD を圧迫しません。
  • メモリ負荷ゼロ: 8GB RAM でも OS 内蔵エンジンを使うため、RocketWhisper 自体のメモリフットプリントは最小限に抑えられます。
  • クラウド課金なし: 整形AI に Apple Foundation Models(オンデバイス ~3B LLM)を選べば、APIキーもクラウド送信もゼロで運用できます。
  • 完全オフライン: 飛行機・地下鉄・海外出張先でもフル機能が使えます。

「Built for Apple Intelligence な Mac のための、Built for Apple Intelligence 音声入力」を目指して設計されています。

モデルの選び方

Whisper モデル比較

モデル サイズ 精度 速度 おすすめ用途
Small 500MB 速い 低スペックMac向け
Medium 1.5GB 普通 5秒以内の音声
Large V3 Turbo 推奨 1.6GB 速い 5〜20秒の音声
Large V3 3.0GB 最高 やや遅い 20秒以上の音声

Tip: 迷ったら Large V3 Turbo がおすすめです。精度と速度のバランスに優れ、Apple Silicon の Neural Engine で高速に動作します。

※ 日本語の音声認識には Large V3 Turbo 以上のモデルを推奨します。Small / Medium では漢字変換やカタカナ語の精度が低下する場合があります。

2基本的な使い方

マイク入力で音声認識

  1. メニューバーの RocketWhisper アイコンをクリックして、ポップアップウィンドウを表示します。
  2. 録音ボタン(マイクアイコン)をクリックします。
  3. マイクに向かって話します。
  4. 停止ボタンをクリックします。
  5. 認識結果がテキストエリアに表示されます。

認識結果の利用

Tip: ショートカットを使った録音では、録音開始前にフォーカスされていたアプリに自動的にテキストを貼り付けることができます。UIボタンからの録音では手動でコピー&ペーストする必要があります。

3設定

ポップアップウィンドウの歯車アイコンをクリックして設定画面を開きます。以下のタブで各種設定が可能です。

タブ 設定内容
モデル・言語 Whisper モデルの選択、認識言語の設定
入力デバイス マイクデバイスの選択、自動コピー、自動貼り付けの設定
ショートカット 録音ショートカットのカスタマイズ、右Optionキー設定、キャンセルキー、AIコマンドショートカット(⌃⇧Space
単語辞書 専門用語・社名・人名等のカスタム用語登録
テキスト処理 句読点自動挿入、改行挿入、音声コマンドの有効/無効
誤認識修正 自動修正の有効/無効、プリセットルール、カスタムルールの管理
アプリ別処理 処理モードの設定、アプリとモードのマッピング
AI処理 AIプロバイダの選択(Apple Intelligence / OpenAI / Anthropic / Groq / Gemini / ローカルLLM)、モデル選択、APIキーの入力
ライセンス ライセンス種別の確認、ライセンスキーの入力

4グローバルショートカット

RocketWhisper はカスタマイズ可能なグローバルショートカットに対応しており、どのアプリを使用中でも即座に録音を開始できます。さらに、右Optionキーのタップや長押し(Push-to-Talk)にも対応しています。

右Optionキーの操作

操作 動作
右Optionを押し続ける → 離す Push-to-Talk(押している間だけ録音、離すと停止して認識開始)
右Optionを素早く2回タップ 常時録音モードに切り替え(もう一度タップで停止)
右Option押し中に他のキーを入力 録音キャンセル(通常のOption修飾キーとして動作)

おすすめショートカット設定

ショートカット タイプ 説明
⌥Space トグル式 デフォルト設定。Option + Space で録音開始/停止。Superwhisper と同じキー。
右Option(長押し) Push-to-Talk 最もおすすめ。押している間だけ録音し、離すと自動停止。
⌃⇧R トグル式 Record の R。押すたびに録音開始/停止が切り替わる。
F9 トグル式 ファンクションキー。他のショートカットと競合しにくい。

録音キャンセル

録音中に Escape キーを押すと、録音をキャンセルして認識処理を行わずに終了できます。

AIコマンドショートカット

⌃⇧Space(Control + Shift + Space)で AIコマンドモードを起動できます。詳しくは AIコマンドモード のセクションをご覧ください。

注意: グローバルショートカットの動作にはアクセシビリティ権限が必要です。初回起動時に権限の許可を求められます。システム設定 > プライバシーとセキュリティ > アクセシビリティ で RocketWhisper が有効になっていることを確認してください。

5認識履歴

RocketWhisper は過去の認識結果を自動的に保存します。ポップアップウィンドウの履歴ボタンをクリックすると、認識履歴の一覧を確認できます。

履歴機能

6テキスト処理(句読点・改行)

RocketWhisper は、認識されたテキストを自然な日本語にするための高度なテキスト処理機能を搭載しています。

句読点プロンプト

Whisper モデルに対して句読点を含む出力を促すプロンプトを設定します。これにより、モデル自体が句読点を含むテキストを生成しやすくなります。

句読点自動挿入

認識結果に対して後処理として7つのルールベースで句読点を自動的に挿入します。Whisper の出力に句読点が不足している場合でも、自然な句読点が付与されます。

句読点挿入ルール(7段階)

  • 文末表現(〜です、〜ます 等)の後に句点「。」を挿入
  • 接続助詞(〜が、〜けど 等)の後に読点「、」を挿入
  • 疑問文の末尾に「?」を挿入
  • 感嘆文の末尾に「!」を挿入
  • 列挙表現に読点を挿入
  • 長い文節の区切りに読点を挿入
  • 行頭の不要な句読点を除去

改行自動挿入

文の区切りで自動的に改行を挿入する機能です。長い文章をパラグラフに分けて読みやすくします。

Tip: 句読点自動挿入と改行自動挿入はそれぞれ独立して有効/無効を切り替えられます。チャットアプリでは改行を無効にし、ドキュメント作成時は有効にするなど、用途に応じて使い分けてください。

7音声コマンド

音声コマンドを使うと、特定のフレーズを話すことでテキスト編集操作を実行できます。設定の「テキスト処理」タブで有効/無効を切り替えられます。

対応コマンド一覧

コマンド トリガーフレーズ 動作
改行 「改行」「かいぎょう」「エンター」 改行を挿入
段落 「段落」「だんらく」「新しい段落」 2回改行を挿入(段落区切り)
削除 「削除」「取り消し」「デリート」 直前の単語を削除

Tip: 音声コマンドは、テキスト処理パイプラインの Stage 1 で処理されます。コマンドと一致するフレーズが検出されると、対応する操作が実行され、そのフレーズはテキストから除去されます。

音声コマンドがうまく認識されない場合

Whisper は同音異義語(ホモフォン)を文脈から判断するため、意図した漢字と異なる変換結果になることがあります。例えば「改行」と発声しても「開業」「海洋」などと認識される場合があります。

自動対応済みの誤認識パターン

RocketWhisper の音声コマンドには、Whisper の典型的な誤認識パターンがあらかじめトリガーフレーズとして登録されています。音声コマンドを有効にしていれば、以下の誤認識は自動的にコマンドとして処理されます。

コマンド 登録済みトリガー(誤認識パターン含む)
改行 改行、かいぎょう、開業海洋、カイギョウ、エンター、Enter
段落 段落、だんらく、新しい段落、暖楽、ダンラク
削除 削除、さくじょ、サクジョ、取り消し、とりけし、デリート

音声コマンドが期待どおりに動作しない場合は、以下を確認してください:

  1. 音声コマンドが有効になっているか確認 — 設定の「テキスト処理」タブで「音声コマンド」が有効(ON)になっていることを確認してください。音声コマンドが無効の場合、「開業」等の誤認識パターンはそのままテキストとして出力されます。
  2. コマンドの前後にポーズを入れる — 音声コマンドの検出には、コマンドの前後に短い間(ポーズ)が必要です。文章の途中で早口に「改行」と言うと、通常のテキストと区別できず認識されない場合があります。
  3. はっきりと発声する — 「か・い・ぎょ・う」と一語ずつ明瞭に発音すると認識率が向上します。

Tip: 音声コマンドを使わずに改行を挿入したい場合は、誤認識修正ルールで対応することもできます。正規表現を有効にして、パターンに 開業[。、.]*、置換に \n と設定すると、「開業」「開業。」のどちらも改行に変換されます。ただし、音声コマンドの方がポーズ検出による誤判定防止機能があるため、通常は音声コマンドの利用を推奨します。

8単語辞書(専門用語登録)

単語辞書を使うと、Whisper が認識しにくい専門用語・社名・人名・略語などを事前に登録し、認識精度を大幅に向上させることができます。これは macOS 標準の音声入力にはない機能です。

仕組み

登録された単語は WhisperKit の promptTokens として使用されます。これにより、Whisper モデルが該当する語彙を優先的に出力するようになります。

登録方法

  1. 設定画面の「単語辞書」タブを開きます。
  2. 「追加」ボタンをクリックします。
  3. 登録したい単語(例: React, TypeScript, AWS)を入力します。
  4. 必要に応じて「読み」を設定します(Whisper の認識補助用)。

注意: 登録語は約15語(短いトークン)を上限としてください。登録語が多すぎるとデコーダーのログ確率に影響し、認識精度が低下する場合があります。

登録例

  • 技術用語: React、TypeScript、Kubernetes、Docker
  • 社名: Mojosoft、OpenAI
  • 人名: 田中太郎
  • 略語: AWS、GCP、CI/CD

特長

9誤認識修正ルール

Whisper の認識結果に含まれる誤認識を自動的に修正するルールを設定できます。シンプルな文字列置換と正規表現の両方に対応しています。

ルール種別

内蔵ハルシネーション対策

Whisper モデルが無音時に生成しがちな「幻聴テキスト」(ハルシネーション)を自動除去する27種類のフィルターが内蔵されています。例えば以下のようなテキストが自動的に除去されます。

プリセットルール

よくある誤認識パターンに対応するプリセットルールが用意されています。設定画面からワンクリックで有効化できます。

カスタムルール

  1. 設定画面の「誤認識修正」タブを開きます。
  2. 「ルール追加」ボタンをクリックします。
  3. 検索文字列(誤認識されるテキスト)と置換文字列(正しいテキスト)を入力します。
  4. 必要に応じて「正規表現を使用」「大文字小文字を無視」オプションを設定します。

10アプリ別処理モード

アプリ別処理モードを使うと、フォーカスされているアプリに応じて自動的に異なるテキスト処理設定を適用できます。例えば、テキストエディタでは句読点付きの丁寧な文章を、チャットアプリではカジュアルな文体を自動的に選択できます。

処理モード一覧

モード AI必須 説明
スマート 不要 句読点・改行を自動整形。最も汎用的なモード。
シンプル 不要 認識結果をそのまま出力。最小限の処理。
ビジネス 必須 敬語・丁寧な文体に自動変換。メール・ドキュメント向け。
カジュアル 必須 親しみやすい文体に変換。チャット・SNS向け。
要約 必須 認識テキストを要約して出力。議事録・メモ向け。
翻訳 必須 日本語から英語に翻訳して出力。
文法修正 必須 誤認識や文法ミスをAIが修正して出力。

アプリマッピングの設定

  1. 設定画面の「アプリ別処理」タブを開きます。
  2. 「アプリ別処理モード」を有効にします。
  3. 「追加」ボタンでアプリを選択し、適用するモードを設定します。

Tip: アプリ別処理モードが有効で、かつ現在のアプリにモードが設定されている場合はモード固有の設定が適用されます。それ以外の場合はグローバル設定が使用されます。

11AI処理(LLM連携)

RocketWhisper は6つのAIプロバイダと連携し、認識テキストの自動整形、翻訳、要約などの高度な処理を実行できます。

対応AIプロバイダ

プロバイダ モデル例 特徴
Apple Intelligence NEW ~3B オンデバイスモデル APIキー不要、完全オフライン、macOS 26以降
OpenAI GPT-4.1, GPT-4.1 mini 高精度、幅広い言語対応
Anthropic 推奨 Claude Sonnet 4.6, Opus 4.6 自然な日本語、丁寧な出力
Groq LLaMA 3.3 70B, LLaMA 4 Scout 超高速推論、無料枠あり
Google Gemini 推奨 Gemini 2.5 Flash-Lite / Flash / Pro 無料枠が豊富、マルチモーダル対応
ローカルLLM LM Studio, Ollama 完全オフライン、プライバシー重視

Apple Intelligence の設定方法(macOS 26 以降)

⚠️ 事前準備が必要です

Apple Intelligence を使用するには、macOS の設定で Apple Intelligence を有効化し、必要なモデルのダウンロードを完了させる必要があります。

  1. システム設定を開きます。
  2. 「Apple Intelligence と Siri」をクリックします。
  3. 「Apple Intelligence をオンにする」をクリックします。
  4. モデルのダウンロードが自動的に開始されます。ダウンロードが完了するまでお待ちください(Wi-Fi 環境で数分〜数十分)。
  5. ダウンロード完了後、RocketWhisper の設定画面 → AI処理タブで「Apple Intelligence」を選択すると、「利用可能」と表示されます。

💡 Tip: Apple Intelligence が有効になると、RocketWhisper は自動的に検出して利用可能な状態に切り替わります。アプリの再起動は不要です。

クラウド AI の設定方法

  1. 設定画面の「AI処理」タブを開きます。
  2. 使用するプロバイダを選択します。
  3. APIキーを入力します(Apple Intelligence / ローカルLLMの場合は不要)。
  4. 使用するモデルを選択します。
  5. AI処理を有効にして、処理モードを選択します。

ローカルLLM の設定例

LM Studio と連携する場合

  1. LM Studio をインストールし、お好みのモデルをダウンロードします。
  2. LM Studio でローカルサーバーを起動します(デフォルト: http://localhost:1234)。
  3. RocketWhisper の AI処理設定で「ローカルLLM」を選択します。
  4. ベースURLに http://localhost:1234 を入力します。
  5. モデルIDは空欄でOKです(LM Studio がロード中のモデルを自動使用します)。
  6. APIキーは空欄、またはダミーの値(例: lm-studio)を入力します。

Ollama と連携する場合

  1. Ollama をインストールします。
  2. ターミナルで使いたいモデルをダウンロードします:
    ollama pull llama3.2(例: Llama 3.2 の場合)
  3. Ollama サーバーが起動していることを確認します(通常はインストール後に自動起動)。
  4. RocketWhisper の AI処理設定で「ローカルLLM」を選択します。
  5. ベースURLに http://localhost:11434 を入力します。
  6. モデルIDにダウンロード済みのモデル名を入力します(例: llama3.2qwen2.5gemma2 等)。
    ollama list コマンドで利用可能なモデル名を確認できます。
  7. APIキーは空欄のままでOKです(Ollama では不要)。

Tip: macOS 26 以降をお使いなら、Apple Intelligence がおすすめです。APIキー不要・完全オフラインでAI整形が利用できます。コストを抑えたい場合は Google Gemini(無料枠が豊富)も選択肢です。

Vision対応プロバイダ & 推奨モデル

AIコマンドやカスタム指示で画像を含む処理を行う場合、以下のVision対応プロバイダ・モデルを使用してください。

プロバイダ 推奨モデル 備考
Google Gemini 推奨 gemini-2.5-flash-lite 1日1000リクエストまで無料!
Anthropic Claude Sonnet 4.6 高精度、自然な日本語出力
OpenAI GPT-4.1 高精度、幅広い言語対応

Gemini 無料枠について

Google Gemini API は、APIキーを取得するだけで(クレジットカード不要)以下の無料枠を利用できます。

モデル 1日のリクエスト数 1分あたり上限
Gemini 2.5 Flash-Lite 推奨 1,000回/日 15回/分
Gemini 2.5 Flash 250回/日 10回/分

※ 無料枠は毎日太平洋時間の午前0時にリセットされます。制限はプロジェクト単位で適用されます。Google が予告なく変更する場合があります。

12AIコマンドモード

AIコマンドモードは、選択中のテキストに対して音声で指示を出し、AIに処理させる機能です。テキストの翻訳、要約、敬語変換など、さまざまな編集操作を声だけで実行できます。

使い方

  1. 任意のアプリでテキストを選択します。
  2. ⌃⇧Space(Control + Shift + Space)を押してAIコマンドモードを起動します。
  3. マイクに向かって指示を話します(例: 「英語に翻訳して」)。
  4. AIが選択テキストを指示に従って処理し、結果で置き換えます。

使用例

音声指示 処理内容
「英語に翻訳して」 選択テキストを英語に翻訳
「要約して」 選択テキストを簡潔に要約
「敬語にして」 カジュアルな文章を丁寧な敬語に変換
「コメントを追加して」 コードにコメントを追加
「箇条書きにして」 文章を箇条書き形式に変換
「誤字を直して」 文章の誤字脱字を修正

注意: AIコマンドモードを使用するには、AI処理設定でいずれかのプロバイダのAPIキーが設定されている必要があります。

13カスタム指示

カスタム指示は、専用ショートカットにAI処理指示を事前に割り当てておく機能です。AIコマンドとは異なり、音声で指示を出す必要がなく、認識されたテキストがそのまま事前設定されたプロンプトでAI処理されます。

AIコマンドとの違い

機能 AIコマンド カスタム指示
AI指示の方法 毎回音声で指示 事前にプロンプトを設定
テキスト選択 必要(選択テキストを処理) 不要(音声入力を処理)
ショートカット 共通1つ(⌃⇧Space) 指示ごとに個別設定
用途 都度異なる指示を出したい場合 よく使う処理をワンアクションで実行

使い方

  1. 設定画面の「カスタム指示」タブで指示を作成し、ショートカットを割り当てます。
  2. 任意のアプリで、割り当てたショートカットを押して録音を開始します。
  3. マイクに向かって話します(認識テキストがAI処理の入力になります)。
  4. 同じショートカットをもう一度押して録音を停止します。
  5. 音声が認識され、事前設定されたプロンプトでAI処理された結果が自動的に貼り付けられます。

プリセット指示

初回起動時に4つのプリセットが自動作成されます。これらは編集可能ですが、削除はできません。

プリセット 説明
🌐 Translate to English 音声を英語に翻訳
💼 Business Style ビジネス敬体に変換
📝 Summary テキストを簡潔に要約
✔️ Grammar Fix 文法誤り・誤認識を修正

注意: カスタム指示を使用するには、AI処理設定でいずれかのプロバイダのAPIキーが設定されている必要があります。最大20件まで登録できます。

14ボイスランチャー

ボイスランチャーは、登録したキーワードを話すだけでアプリの起動やURLの表示を実行できる機能です。テキスト処理パイプラインの最初(Stage 0)で処理されるため、キーワードに一致した場合は他の処理は行われません。

仕組み

設定方法

  1. 設定画面からボイスランチャーの設定を開きます。
  2. 「追加」ボタンをクリックします。
  3. トリガーとなるキーワード(例: 「メモ」「ブラウザ」)を入力します。
  4. 起動するアプリのパスまたはURLを入力します。

設定例

キーワード アクション 種別
「メモ」 /Applications/Notes.app アプリ起動
「ブラウザ」 /Applications/Safari.app アプリ起動
「ターミナル」 /Applications/Utilities/Terminal.app アプリ起動
「GitHub」 https://github.com URL表示
「メール」 /System/Applications/Mail.app アプリ起動

17フローティング波形インジケーター

録音中に画面上に小さなミニイコライザー風の波形バーを表示するフローティングウィンドウです。常に最前面に表示されるため、他のアプリで作業中でも録音状態を一目で確認できます。

表示仕様

インジケーターの詳細

  • サイズ: 96 x 48 ピクセル(コンパクトなカプセル型)
  • バー数: 8本のミニイコライザー風バー
  • 色: 青 → 紫 → ピンクのグラデーション
  • 背景: すりガラス風(ultraThinMaterial)+ 角丸
  • 表示: 録音開始でフェードイン、停止でフェードアウト
  • 初期位置: 画面下部の中央

操作方法

設定

設定画面の「モデル・言語」タブにある「録音中にフローティング波形を表示」のトグルで有効/無効を切り替えられます。デフォルトは有効(ON)です。

Tip: 位置をリセットしたい場合は、ターミナルで以下のコマンドを実行してください:
defaults delete biz.mojosoft.RocketWhisper FloatingWaveformX
defaults delete biz.mojosoft.RocketWhisper FloatingWaveformY

18バッチ処理

複数の音声ファイルをまとめて文字起こしできる機能です。録音済みの会議音声やインタビューファイルを一括処理するのに便利です。

起動方法

  1. メニューバーのポップアップを開きます。
  2. ヘッダー右側のバッチ処理ボタン(書類アイコン)をクリックします。
  3. 独立したバッチ処理ウィンドウが開きます。

使い方

  1. ファイルを追加: 「ファイルを追加」ボタンで音声ファイルを選択、またはウィンドウにドラッグ&ドロップします。
  2. 一括認識開始: 「一括認識開始」ボタンをクリックすると、追加したファイルを順番に文字起こしします。
  3. 結果確認: 各ファイルの認識結果(文字数)がリストに表示されます。
  4. エクスポート: 「エクスポート」メニューから出力形式を選び、保存先フォルダを指定します。

対応ファイル形式

WAV, MP3, M4A, FLAC, OGG, WMA, AAC, AIFF

エクスポート形式

形式 説明 用途
TXT プレーンテキスト 一般的な文字起こしテキスト
SRT SubRip字幕形式 動画編集ソフトでの字幕作成
VTT WebVTT字幕形式 Web動画やHTML5での字幕表示

Tip: バッチ処理は独自のWhisperモデルインスタンスを使用するため、リアルタイム音声入力と同時に使用できます。ただし、大量のファイルを処理する場合はメモリ使用量にご注意ください。

19ライブ翻訳(v2.2.0 以降)

Mac 上で再生されるあらゆる音声(Web 会議・動画・Podcast など)を、Apple の SpeechAnalyzer で認識し、Apple Translation で別言語に翻訳して、デスクトップ上に Netflix 風のフローティング字幕として表示する機能です。クラウド送信ゼロ、APIキー不要、完全オンデバイスで動作します。

システム要件: macOS 26 Tahoe 以降が必要です(Apple Translation API と SpeechAnalyzer を使用するため)。macOS 14 Sonoma / 15 Sequoia では本機能は利用できません。アプリ本体(音声入力・文字起こしなど)は macOS 14 以降で動作します。

起動方法

  1. メニューバーの RocketWhisper アイコン(音声波形マーク )をクリックしてポップアップを開きます。
  2. 「ライブ翻訳」ボタン(字幕アイコン )をクリックします。
  3. 初回起動時は、システム音声録音の権限を要求されます(後述の「システム音声録音の許可」を参照)。
  4. 画面下部中央にフローティング字幕パネルが表示されます(初期状態は「聞き取り中…」)。
  5. 対象アプリから音声が流れ始めると、自動的に認識と翻訳が開始されます。
  6. 翻訳を終了するには、もう一度「ライブ翻訳」ボタンをクリックします。

システム音声録音の許可(v2.2.3 以降で UI 改善)

macOS 26 の システム音声録音専用(System Audio Recording Only) は、従来の画面収録(Screen Recording)とは別の TCC カテゴリです。ライブ翻訳にはこの許可が必要です。

  1. 初回起動時、RocketWhisper がアクティブプローブ(440Hz の短い自己発音テスト)で権限状態を判定します。
  2. 未許可の場合、macOS の標準許可ダイアログが表示されます。
  3. 許可 を選ぶと、アプリの 「終了して再起動」 ダイアログが続けて出るので必ず応じてください。これは macOS の仕様で、権限をアプリに反映するため初回のみ必須です。
  4. 再起動後、もう一度ライブ翻訳ボタンを押すとそのまま翻訳が開始されます。

許可をうっかり拒否した場合(v2.2.3 以降): 字幕パネル内に「システム音声の録音を許可」ガイドが表示されます。「システム設定を開く」ボタンから設定ウィンドウを直接開き、プライバシーとセキュリティ → システム音声録音専用 で RocketWhisper のトグルを ON にしてください。ON にすると macOS が「終了して再起動」を求めるので応じ、再起動後に「再試行」を押せば翻訳を開始できます。

注意: ライブ翻訳が使用するのは「システム音声録音専用」です。従来の「画面収録(Screen Recording)」ではありません。System Settings 内で別のカテゴリになっているため、間違えないようにご注意ください。

言語設定

設定画面の「ライブ翻訳」タブで、認識元の言語(ソース)翻訳先の言語(ターゲット)を選択します。

対応言語

RocketWhisper では以下 6 言語をライブ翻訳の対象として選択できます(ソース・ターゲットとも共通):

対応する言語ペアは、お使いの macOS に搭載されている Apple Translation のモデルに依存します。未対応のペアを選んだ場合は、ライブ翻訳開始時にその旨が通知されます。

使用例

翻訳モデルのダウンロード

言語ペアを初めて使う場合、macOS の Apple Translation が翻訳モデル(数十MB〜)を自動的にダウンロードします。

「聞き取り中…」の表示について

ライブ翻訳を開始した直後や、再生中の動画が無音区間のとき、字幕パネルには「聞き取り中…」と表示されます。これはシステム音声の取得には成功しているが、まだ発話を検出していない状態を示します。対象アプリから声・セリフが再生されると、自動的に認識が始まり翻訳テキストに切り替わります。しばらく待っても変わらない場合は、後述の FAQ をご確認ください。

字幕パネルの操作

表示設定

設定画面「ライブ翻訳」タブで以下を調整できます:

使い方の例

英語の YouTube 動画を日本語字幕で視聴する

  1. 設定画面「ライブ翻訳」タブを開き、ソース言語を「英語」、ターゲット言語を「日本語」に設定。
  2. (任意)同タブの「事前ダウンロード」を押して翻訳モデルを先に取得。
  3. YouTube を開き、動画を再生(システム音声が流れる状態)。
  4. メニューバーから「ライブ翻訳」を開始。
  5. 画面下部に日本語字幕がリアルタイムで表示されます。

よくある質問

以下を順に確認してください:

  • macOS 26 以降を使用していますか?(システム情報で確認)
  • システム設定 → プライバシーとセキュリティ → システム音声録音専用 で RocketWhisper が ON になっていますか?(「画面収録」ではなく「システム音声録音専用」です)
  • 対象アプリから音声が再生されていますか?(ミュート状態では認識できません)
  • 初回の翻訳モデルダウンロードが完了していますか?(インターネット接続必須)
  • 上記すべて問題なく「聞き取り中…」のまま進まない場合は、メニューバーから一度ライブ翻訳を停止して再度開始してみてください。

v2.2.3 以降は、字幕パネル内に「システム音声の録音を許可」ガイド画面が自動的に表示されます。「システム設定を開く」ボタンから該当ページに直接移動でき、ON にして「終了して再起動」に応じた後、「再試行」を押すだけで翻訳を開始できます。v2.2.2 以前のバージョンをお使いの場合は、v2.2.3 以降へのアップデートを推奨します。

いいえ、初回許可時のみです。macOS のシステム音声録音は、許可変更をアプリに反映するために一度だけアプリの再起動が必要です(Screen Recording と同じ挙動)。二回目以降は再起動なしで使えます。

パネルの中央部分をドラッグしてください。左右の端(10pt 以内)はリサイズ領域になっています。v2.2.1 でドラッグ不具合を修正済みです。

ライブ翻訳はシステム再生音声を対象としています。マイク入力の翻訳には、通常の音声入力+AI整形で翻訳プロンプトを使う方法をご検討ください。

はい。ライブ翻訳は独立したパイプラインで動作するため、ホットキーでの音声入力と同時に使用できます。

アプリ UI で選択できる言語は 6 つ(英語・日本語・中国語簡体・中国語繁体・韓国語・スペイン語)で、理論上は最大 6×5 = 30 通りのペアが作れます。実際にどのペアが使えるかは、お使いの macOS に Apple がどの翻訳モデルを用意しているかに依存します。未対応ペアを選んだ場合はライブ翻訳開始時にその旨が通知されます。

プライバシー: 音声データは全て Apple のオンデバイス処理(SpeechAnalyzer + Translation)で完結します。クラウドには一切送信されません。APIキーも不要です。

20トラブルシューティング

問題が発生した場合は、以下のFAQを参考にしてください。

ネットワーク接続を確認してください。モデルファイルは数百MB〜3GBと大きいため、安定したWi-Fi環境でのダウンロードを推奨します。ダウンロードが中断された場合は、アプリを再起動して再度ダウンロードを試みてください。VPNやプロキシを使用している場合は、一時的に無効にすることで解決する場合があります。

以下の点を確認してください:

  • モデルの変更: より大きなモデル(Large V3 Turbo 推奨)に切り替えてください。
  • マイクの調整: 外付けマイクの使用、マイクとの距離の調整、周囲の騒音の軽減を試してください。
  • 言語設定: 認識言語が正しく設定されているか確認してください。
  • 単語辞書: 専門用語が多い場合は、単語辞書に登録することで精度が向上します。

アクセシビリティ権限を確認してください。

  1. システム設定を開きます。
  2. プライバシーとセキュリティ > アクセシビリティを選択します。
  3. RocketWhisper が一覧に表示されていて、トグルが有効になっていることを確認します。
  4. 一覧にない場合は「+」ボタンで追加してください。
  5. 既に追加済みで動作しない場合は、一度無効にしてから再度有効にしてください。

また、他のアプリが同じショートカットを使用していないか確認してください。競合がある場合は、別のショートカットに変更してください。

Whisper は同音異義語を文脈で判断するため、「改行」が「開業」や「海洋」と認識されることがあります。RocketWhisper の音声コマンドにはこれらの誤認識パターンがあらかじめトリガーとして登録済みです。

音声コマンドが有効になっていれば、「開業」と認識されても自動的に改行として処理されます。詳しくは 音声コマンド セクションの「音声コマンドがうまく認識されない場合」をご覧ください。

その他の確認事項:

  • 設定の「テキスト処理」タブで「音声コマンド」が有効(ON)になっていることを確認してください。
  • コマンドの前後に短い間(ポーズ)を入れてください。
  • 「か・い・ぎょ・う」と一語ずつ明瞭に発音すると認識率が上がります。

以下を確認してください:

  • macOS バージョン: macOS 14.0 Sonoma 以降が必要です。Apple メニュー > このMacについてでバージョンを確認してください。
  • Gatekeeper: 初回起動時に「開発元が未確認のため開けません」と表示される場合は、システム設定 > プライバシーとセキュリティの画面で「このまま開く」をクリックしてください。
  • Apple Silicon: Intel Mac でも動作しますが、Apple Silicon(M1以降)を推奨します。

以下を確認してください:

  • APIキー: 設定画面でAPIキーが正しく入力されているか確認してください。
  • インターネット接続: クラウドAIプロバイダを使用する場合は、インターネット接続が必要です。
  • API残高: OpenAI や Anthropic の場合、APIクレジットが残っているか確認してください。
  • ローカルLLM: LM Studio や Ollama を使用する場合は、ローカルサーバーが起動していることを確認してください。

RocketWhisper がマイクにアクセスするには権限が必要です。

  1. システム設定を開きます。
  2. プライバシーとセキュリティ > マイクを選択します。
  3. RocketWhisper のトグルが有効になっていることを確認します。

初回起動時に権限ダイアログが表示されなかった場合は、アプリを一度終了して再起動してください。

macOS の「per-app override」で RocketWhisper を English (Default) に設定しても、システム全体の「優先する言語」リストにその言語が一つも入っていないと override は効きません。

解決手順:

  1. システム設定 > 一般 > 言語と地域 を開きます。
  2. 画面左上の「優先する言語」リストを確認します。
  3. 表示したい言語 (English 等) が一つも入っていない場合、「+」ボタンで追加します。
  4. RocketWhisper を完全に終了して再起動します。

これにより RocketWhisper の表示が選択した言語に切り替わります。app の per-app override 設定は、システムの優先言語リストに含まれる言語の中でしか選択できない仕様です。

Terminal で強制する方法 (システム設定を変更したくない場合):

defaults write biz.mojosoft.RocketWhisper AppleLanguages '(en)'

その後 RocketWhisper を再起動すると、システム言語に関わらず英語 UI で起動します。日本語に戻す場合は (ja) に置き換えるか、defaults delete biz.mojosoft.RocketWhisper AppleLanguages で削除してください。

以下を確認してください:

  • マイク入力: 設定の「入力デバイス」タブで正しいマイクが選択されているか確認してください。
  • マイク権限: macOS のプライバシー設定でマイクのアクセス権限が許可されているか確認してください。
  • 音量: マイクの入力音量が十分か確認してください。システム設定の「サウンド」>「入力」で確認できます。
  • 録音時間: 極端に短い録音(1秒未満)では認識結果が得られない場合があります。