1インストール方法

動作要件

システム要件

  • OS: macOS 14.0 Sonoma 以降
  • プロセッサ: Apple Silicon 推奨(M1 / M2 / M3 / M4)
  • メモリ: RAM 8GB以上推奨(16GB推奨)
  • ストレージ: 200MB + モデルファイル(最大3GB)

インストール手順

  1. ダウンロードページから最新版の .dmg ファイルをダウンロードします。
  2. ダウンロードした DMG ファイルをダブルクリックして開き、RocketWhisper アイコンを Applications フォルダにドラッグ&ドロップします。
  3. 初回起動時に Gatekeeper の警告が表示される場合は、「開く」を選択してください。もしくは、システム設定 > プライバシーとセキュリティ から「このまま開く」をクリックしてください。
  4. 初回起動時に使用する Whisper モデルのダウンロードが始まります。ネットワーク環境に応じて数分かかる場合があります。

モデルの選び方

Whisper モデル比較

モデル サイズ 精度 速度 おすすめ用途
Small 500MB 速い 低スペックMac向け
Medium 1.5GB 普通 5秒以内の音声
Large V3 Turbo 推奨 1.6GB 速い 5〜20秒の音声
Large V3 3.0GB 最高 やや遅い 20秒以上の音声

Tip: 迷ったら Large V3 Turbo がおすすめです。精度と速度のバランスに優れ、Apple Silicon の Neural Engine で高速に動作します。

※ 日本語の音声認識には Large V3 Turbo 以上のモデルを推奨します。Small / Medium では漢字変換やカタカナ語の精度が低下する場合があります。

2基本的な使い方

マイク入力で音声認識

  1. メニューバーの RocketWhisper アイコンをクリックして、ポップアップウィンドウを表示します。
  2. 録音ボタン(マイクアイコン)をクリックします。
  3. マイクに向かって話します。
  4. 停止ボタンをクリックします。
  5. 認識結果がテキストエリアに表示されます。

認識結果の利用

Tip: ショートカットを使った録音では、録音開始前にフォーカスされていたアプリに自動的にテキストを貼り付けることができます。UIボタンからの録音では手動でコピー&ペーストする必要があります。

3設定

ポップアップウィンドウの歯車アイコンをクリックして設定画面を開きます。以下のタブで各種設定が可能です。

タブ 設定内容
モデル・言語 Whisper モデルの選択、認識言語の設定
入力デバイス マイクデバイスの選択、自動コピー、自動貼り付けの設定
ショートカット 録音ショートカットのカスタマイズ、右Optionキー設定、キャンセルキー、AIコマンドショートカット(⌃⇧Space
単語辞書 専門用語・社名・人名等のカスタム用語登録
テキスト処理 句読点自動挿入、改行挿入、音声コマンドの有効/無効
誤認識修正 自動修正の有効/無効、プリセットルール、カスタムルールの管理
アプリ別処理 処理モードの設定、アプリとモードのマッピング
AI処理 AIプロバイダの選択(OpenAI / Anthropic / Groq / Gemini / ローカルLLM)、モデル選択、APIキーの入力
ライセンス ライセンス種別の確認、ライセンスキーの入力

4グローバルショートカット

RocketWhisper はカスタマイズ可能なグローバルショートカットに対応しており、どのアプリを使用中でも即座に録音を開始できます。さらに、右Optionキーのタップや長押し(Push-to-Talk)にも対応しています。

右Optionキーの操作

操作 動作
右Optionを押し続ける → 離す Push-to-Talk(押している間だけ録音、離すと停止して認識開始)
右Optionを素早く2回タップ 常時録音モードに切り替え(もう一度タップで停止)
右Option押し中に他のキーを入力 録音キャンセル(通常のOption修飾キーとして動作)

おすすめショートカット設定

ショートカット タイプ 説明
⌥Space トグル式 デフォルト設定。Option + Space で録音開始/停止。Superwhisper と同じキー。
右Option(長押し) Push-to-Talk 最もおすすめ。押している間だけ録音し、離すと自動停止。
⌃⇧R トグル式 Record の R。押すたびに録音開始/停止が切り替わる。
F9 トグル式 ファンクションキー。他のショートカットと競合しにくい。

録音キャンセル

録音中に Escape キーを押すと、録音をキャンセルして認識処理を行わずに終了できます。

AIコマンドショートカット

⌃⇧Space(Control + Shift + Space)で AIコマンドモードを起動できます。詳しくは AIコマンドモード のセクションをご覧ください。

注意: グローバルショートカットの動作にはアクセシビリティ権限が必要です。初回起動時に権限の許可を求められます。システム設定 > プライバシーとセキュリティ > アクセシビリティ で RocketWhisper が有効になっていることを確認してください。

5認識履歴

RocketWhisper は過去の認識結果を自動的に保存します。ポップアップウィンドウの履歴ボタンをクリックすると、認識履歴の一覧を確認できます。

履歴機能

6テキスト処理(句読点・改行)

RocketWhisper は、認識されたテキストを自然な日本語にするための高度なテキスト処理機能を搭載しています。

句読点プロンプト

Whisper モデルに対して句読点を含む出力を促すプロンプトを設定します。これにより、モデル自体が句読点を含むテキストを生成しやすくなります。

句読点自動挿入

認識結果に対して後処理として7つのルールベースで句読点を自動的に挿入します。Whisper の出力に句読点が不足している場合でも、自然な句読点が付与されます。

句読点挿入ルール(7段階)

  • 文末表現(〜です、〜ます 等)の後に句点「。」を挿入
  • 接続助詞(〜が、〜けど 等)の後に読点「、」を挿入
  • 疑問文の末尾に「?」を挿入
  • 感嘆文の末尾に「!」を挿入
  • 列挙表現に読点を挿入
  • 長い文節の区切りに読点を挿入
  • 行頭の不要な句読点を除去

改行自動挿入

文の区切りで自動的に改行を挿入する機能です。長い文章をパラグラフに分けて読みやすくします。

Tip: 句読点自動挿入と改行自動挿入はそれぞれ独立して有効/無効を切り替えられます。チャットアプリでは改行を無効にし、ドキュメント作成時は有効にするなど、用途に応じて使い分けてください。

7音声コマンド

音声コマンドを使うと、特定のフレーズを話すことでテキスト編集操作を実行できます。設定の「テキスト処理」タブで有効/無効を切り替えられます。

対応コマンド一覧

コマンド トリガーフレーズ 動作
改行 「改行」「かいぎょう」「エンター」 改行を挿入
段落 「段落」「だんらく」「新しい段落」 2回改行を挿入(段落区切り)
削除 「削除」「取り消し」「デリート」 直前の単語を削除

Tip: 音声コマンドは、テキスト処理パイプラインの Stage 1 で処理されます。コマンドと一致するフレーズが検出されると、対応する操作が実行され、そのフレーズはテキストから除去されます。

音声コマンドがうまく認識されない場合

Whisper は同音異義語(ホモフォン)を文脈から判断するため、意図した漢字と異なる変換結果になることがあります。例えば「改行」と発声しても「開業」「海洋」などと認識される場合があります。

自動対応済みの誤認識パターン

RocketWhisper の音声コマンドには、Whisper の典型的な誤認識パターンがあらかじめトリガーフレーズとして登録されています。音声コマンドを有効にしていれば、以下の誤認識は自動的にコマンドとして処理されます。

コマンド 登録済みトリガー(誤認識パターン含む)
改行 改行、かいぎょう、開業海洋、カイギョウ、エンター、Enter
段落 段落、だんらく、新しい段落、暖楽、ダンラク
削除 削除、さくじょ、サクジョ、取り消し、とりけし、デリート

音声コマンドが期待どおりに動作しない場合は、以下を確認してください:

  1. 音声コマンドが有効になっているか確認 — 設定の「テキスト処理」タブで「音声コマンド」が有効(ON)になっていることを確認してください。音声コマンドが無効の場合、「開業」等の誤認識パターンはそのままテキストとして出力されます。
  2. コマンドの前後にポーズを入れる — 音声コマンドの検出には、コマンドの前後に短い間(ポーズ)が必要です。文章の途中で早口に「改行」と言うと、通常のテキストと区別できず認識されない場合があります。
  3. はっきりと発声する — 「か・い・ぎょ・う」と一語ずつ明瞭に発音すると認識率が向上します。

Tip: 音声コマンドを使わずに改行を挿入したい場合は、誤認識修正ルールで対応することもできます。正規表現を有効にして、パターンに 開業[。、.]*、置換に \n と設定すると、「開業」「開業。」のどちらも改行に変換されます。ただし、音声コマンドの方がポーズ検出による誤判定防止機能があるため、通常は音声コマンドの利用を推奨します。

8単語辞書(専門用語登録)

単語辞書を使うと、Whisper が認識しにくい専門用語・社名・人名・略語などを事前に登録し、認識精度を大幅に向上させることができます。これは macOS 標準の音声入力にはない機能です。

仕組み

登録された単語は WhisperKit の promptTokens として使用されます。これにより、Whisper モデルが該当する語彙を優先的に出力するようになります。

登録方法

  1. 設定画面の「単語辞書」タブを開きます。
  2. 「追加」ボタンをクリックします。
  3. 登録したい単語(例: React, TypeScript, AWS)を入力します。
  4. 必要に応じて「読み」を設定します(Whisper の認識補助用)。

注意: 登録語は約15語(短いトークン)を上限としてください。登録語が多すぎるとデコーダーのログ確率に影響し、認識精度が低下する場合があります。

登録例

  • 技術用語: React、TypeScript、Kubernetes、Docker
  • 社名: Mojosoft、OpenAI
  • 人名: 田中太郎
  • 略語: AWS、GCP、CI/CD

特長

9誤認識修正ルール

Whisper の認識結果に含まれる誤認識を自動的に修正するルールを設定できます。シンプルな文字列置換と正規表現の両方に対応しています。

ルール種別

内蔵ハルシネーション対策

Whisper モデルが無音時に生成しがちな「幻聴テキスト」(ハルシネーション)を自動除去する27種類のフィルターが内蔵されています。例えば以下のようなテキストが自動的に除去されます。

プリセットルール

よくある誤認識パターンに対応するプリセットルールが用意されています。設定画面からワンクリックで有効化できます。

カスタムルール

  1. 設定画面の「誤認識修正」タブを開きます。
  2. 「ルール追加」ボタンをクリックします。
  3. 検索文字列(誤認識されるテキスト)と置換文字列(正しいテキスト)を入力します。
  4. 必要に応じて「正規表現を使用」「大文字小文字を無視」オプションを設定します。

10アプリ別処理モード

アプリ別処理モードを使うと、フォーカスされているアプリに応じて自動的に異なるテキスト処理設定を適用できます。例えば、テキストエディタでは句読点付きの丁寧な文章を、チャットアプリではカジュアルな文体を自動的に選択できます。

処理モード一覧

モード AI必須 説明
スマート 不要 句読点・改行を自動整形。最も汎用的なモード。
シンプル 不要 認識結果をそのまま出力。最小限の処理。
ビジネス 必須 敬語・丁寧な文体に自動変換。メール・ドキュメント向け。
カジュアル 必須 親しみやすい文体に変換。チャット・SNS向け。
要約 必須 認識テキストを要約して出力。議事録・メモ向け。
翻訳 必須 日本語から英語に翻訳して出力。
文法修正 必須 誤認識や文法ミスをAIが修正して出力。

アプリマッピングの設定

  1. 設定画面の「アプリ別処理」タブを開きます。
  2. 「アプリ別処理モード」を有効にします。
  3. 「追加」ボタンでアプリを選択し、適用するモードを設定します。

Tip: アプリ別処理モードが有効で、かつ現在のアプリにモードが設定されている場合はモード固有の設定が適用されます。それ以外の場合はグローバル設定が使用されます。

11AI処理(LLM連携)

RocketWhisper は5つのAIプロバイダと連携し、認識テキストの自動整形、翻訳、要約などの高度な処理を実行できます。

対応AIプロバイダ

プロバイダ モデル例 特徴
OpenAI GPT-4o, GPT-4o mini 高精度、幅広い言語対応
Anthropic Claude Sonnet 4.5, Haiku 4.5 自然な日本語、丁寧な出力
Groq LLaMA 3.3 70B 超高速推論、無料枠あり
Google Gemini Gemini 2.5 Pro / Flash 無料枠が豊富、マルチモーダル対応
ローカルLLM LM Studio, Ollama 完全オフライン、プライバシー重視

設定方法

  1. 設定画面の「AI処理」タブを開きます。
  2. 使用するプロバイダを選択します。
  3. APIキーを入力します(ローカルLLMの場合は不要)。
  4. 使用するモデルを選択します。
  5. AI処理を有効にして、処理モードを選択します。

ローカルLLM の設定例

LM Studio と連携する場合

  1. LM Studio をインストールし、お好みのモデルをダウンロードします。
  2. LM Studio でローカルサーバーを起動します(デフォルト: http://localhost:1234)。
  3. RocketWhisper の AI処理設定で「ローカルLLM」を選択します。
  4. ベースURLに http://localhost:1234 を入力します。
  5. モデルIDは空欄でOKです(LM Studio がロード中のモデルを自動使用します)。
  6. APIキーは空欄、またはダミーの値(例: lm-studio)を入力します。

Ollama と連携する場合

  1. Ollama をインストールします。
  2. ターミナルで使いたいモデルをダウンロードします:
    ollama pull llama3.2(例: Llama 3.2 の場合)
  3. Ollama サーバーが起動していることを確認します(通常はインストール後に自動起動)。
  4. RocketWhisper の AI処理設定で「ローカルLLM」を選択します。
  5. ベースURLに http://localhost:11434 を入力します。
  6. モデルIDにダウンロード済みのモデル名を入力します(例: llama3.2qwen2.5gemma2 等)。
    ollama list コマンドで利用可能なモデル名を確認できます。
  7. APIキーは空欄のままでOKです(Ollama では不要)。

Tip: コストを抑えたい場合は Groq(無料枠あり)や Google Gemini(無料枠が豊富)がおすすめです。完全なプライバシーが必要な場合は、ローカルLLM を使用すると音声認識からAI処理まですべてオフラインで完結します。

12AIコマンドモード

AIコマンドモードは、選択中のテキストに対して音声で指示を出し、AIに処理させる機能です。テキストの翻訳、要約、敬語変換など、さまざまな編集操作を声だけで実行できます。

使い方

  1. 任意のアプリでテキストを選択します。
  2. ⌃⇧Space(Control + Shift + Space)を押してAIコマンドモードを起動します。
  3. マイクに向かって指示を話します(例: 「英語に翻訳して」)。
  4. AIが選択テキストを指示に従って処理し、結果で置き換えます。

使用例

音声指示 処理内容
「英語に翻訳して」 選択テキストを英語に翻訳
「要約して」 選択テキストを簡潔に要約
「敬語にして」 カジュアルな文章を丁寧な敬語に変換
「コメントを追加して」 コードにコメントを追加
「箇条書きにして」 文章を箇条書き形式に変換
「誤字を直して」 文章の誤字脱字を修正

注意: AIコマンドモードを使用するには、AI処理設定でいずれかのプロバイダのAPIキーが設定されている必要があります。

13カスタム指示

カスタム指示は、専用ショートカットにAI処理指示を事前に割り当てておく機能です。AIコマンドとは異なり、音声で指示を出す必要がなく、認識されたテキストがそのまま事前設定されたプロンプトでAI処理されます。

AIコマンドとの違い

機能 AIコマンド カスタム指示
AI指示の方法 毎回音声で指示 事前にプロンプトを設定
テキスト選択 必要(選択テキストを処理) 不要(音声入力を処理)
ショートカット 共通1つ(⌃⇧Space) 指示ごとに個別設定
用途 都度異なる指示を出したい場合 よく使う処理をワンアクションで実行

使い方

  1. 設定画面の「カスタム指示」タブで指示を作成し、ショートカットを割り当てます。
  2. 任意のアプリで、割り当てたショートカットを押して録音を開始します。
  3. マイクに向かって話します(認識テキストがAI処理の入力になります)。
  4. 同じショートカットをもう一度押して録音を停止します。
  5. 音声が認識され、事前設定されたプロンプトでAI処理された結果が自動的に貼り付けられます。

プリセット指示

初回起動時に4つのプリセットが自動作成されます。これらは編集可能ですが、削除はできません。

プリセット 説明
🌐 Translate to English 音声を英語に翻訳
💼 Business Style ビジネス敬体に変換
📝 Summary テキストを簡潔に要約
✔️ Grammar Fix 文法誤り・誤認識を修正

注意: カスタム指示を使用するには、AI処理設定でいずれかのプロバイダのAPIキーが設定されている必要があります。最大20件まで登録できます。

14ボイスランチャー

ボイスランチャーは、登録したキーワードを話すだけでアプリの起動やURLの表示を実行できる機能です。テキスト処理パイプラインの最初(Stage 0)で処理されるため、キーワードに一致した場合は他の処理は行われません。

仕組み

設定方法

  1. 設定画面からボイスランチャーの設定を開きます。
  2. 「追加」ボタンをクリックします。
  3. トリガーとなるキーワード(例: 「メモ」「ブラウザ」)を入力します。
  4. 起動するアプリのパスまたはURLを入力します。

設定例

キーワード アクション 種別
「メモ」 /Applications/Notes.app アプリ起動
「ブラウザ」 /Applications/Safari.app アプリ起動
「ターミナル」 /Applications/Utilities/Terminal.app アプリ起動
「GitHub」 https://github.com URL表示
「メール」 /System/Applications/Mail.app アプリ起動

17フローティング波形インジケーター

録音中に画面上に小さなミニイコライザー風の波形バーを表示するフローティングウィンドウです。常に最前面に表示されるため、他のアプリで作業中でも録音状態を一目で確認できます。

表示仕様

インジケーターの詳細

  • サイズ: 96 x 48 ピクセル(コンパクトなカプセル型)
  • バー数: 8本のミニイコライザー風バー
  • 色: 青 → 紫 → ピンクのグラデーション
  • 背景: すりガラス風(ultraThinMaterial)+ 角丸
  • 表示: 録音開始でフェードイン、停止でフェードアウト
  • 初期位置: 画面下部の中央

操作方法

設定

設定画面の「モデル・言語」タブにある「録音中にフローティング波形を表示」のトグルで有効/無効を切り替えられます。デフォルトは有効(ON)です。

Tip: 位置をリセットしたい場合は、ターミナルで以下のコマンドを実行してください:
defaults delete biz.mojosoft.RocketWhisper FloatingWaveformX
defaults delete biz.mojosoft.RocketWhisper FloatingWaveformY

18バッチ処理

複数の音声ファイルをまとめて文字起こしできる機能です。録音済みの会議音声やインタビューファイルを一括処理するのに便利です。

起動方法

  1. メニューバーのポップアップを開きます。
  2. ヘッダー右側のバッチ処理ボタン(書類アイコン)をクリックします。
  3. 独立したバッチ処理ウィンドウが開きます。

使い方

  1. ファイルを追加: 「ファイルを追加」ボタンで音声ファイルを選択、またはウィンドウにドラッグ&ドロップします。
  2. 一括認識開始: 「一括認識開始」ボタンをクリックすると、追加したファイルを順番に文字起こしします。
  3. 結果確認: 各ファイルの認識結果(文字数)がリストに表示されます。
  4. エクスポート: 「エクスポート」メニューから出力形式を選び、保存先フォルダを指定します。

対応ファイル形式

WAV, MP3, M4A, FLAC, OGG, WMA, AAC, AIFF

エクスポート形式

形式 説明 用途
TXT プレーンテキスト 一般的な文字起こしテキスト
SRT SubRip字幕形式 動画編集ソフトでの字幕作成
VTT WebVTT字幕形式 Web動画やHTML5での字幕表示

Tip: バッチ処理は独自のWhisperモデルインスタンスを使用するため、リアルタイム音声入力と同時に使用できます。ただし、大量のファイルを処理する場合はメモリ使用量にご注意ください。

19トラブルシューティング

問題が発生した場合は、以下のFAQを参考にしてください。

ネットワーク接続を確認してください。モデルファイルは数百MB〜3GBと大きいため、安定したWi-Fi環境でのダウンロードを推奨します。ダウンロードが中断された場合は、アプリを再起動して再度ダウンロードを試みてください。VPNやプロキシを使用している場合は、一時的に無効にすることで解決する場合があります。

以下の点を確認してください:

  • モデルの変更: より大きなモデル(Large V3 Turbo 推奨)に切り替えてください。
  • マイクの調整: 外付けマイクの使用、マイクとの距離の調整、周囲の騒音の軽減を試してください。
  • 言語設定: 認識言語が正しく設定されているか確認してください。
  • 単語辞書: 専門用語が多い場合は、単語辞書に登録することで精度が向上します。

アクセシビリティ権限を確認してください。

  1. システム設定を開きます。
  2. プライバシーとセキュリティ > アクセシビリティを選択します。
  3. RocketWhisper が一覧に表示されていて、トグルが有効になっていることを確認します。
  4. 一覧にない場合は「+」ボタンで追加してください。
  5. 既に追加済みで動作しない場合は、一度無効にしてから再度有効にしてください。

また、他のアプリが同じショートカットを使用していないか確認してください。競合がある場合は、別のショートカットに変更してください。

Whisper は同音異義語を文脈で判断するため、「改行」が「開業」や「海洋」と認識されることがあります。RocketWhisper の音声コマンドにはこれらの誤認識パターンがあらかじめトリガーとして登録済みです。

音声コマンドが有効になっていれば、「開業」と認識されても自動的に改行として処理されます。詳しくは 音声コマンド セクションの「音声コマンドがうまく認識されない場合」をご覧ください。

その他の確認事項:

  • 設定の「テキスト処理」タブで「音声コマンド」が有効(ON)になっていることを確認してください。
  • コマンドの前後に短い間(ポーズ)を入れてください。
  • 「か・い・ぎょ・う」と一語ずつ明瞭に発音すると認識率が上がります。

以下を確認してください:

  • macOS バージョン: macOS 14.0 Sonoma 以降が必要です。Apple メニュー > このMacについてでバージョンを確認してください。
  • Gatekeeper: 初回起動時に「開発元が未確認のため開けません」と表示される場合は、システム設定 > プライバシーとセキュリティの画面で「このまま開く」をクリックしてください。
  • Apple Silicon: Intel Mac でも動作しますが、Apple Silicon(M1以降)を推奨します。

以下を確認してください:

  • APIキー: 設定画面でAPIキーが正しく入力されているか確認してください。
  • インターネット接続: クラウドAIプロバイダを使用する場合は、インターネット接続が必要です。
  • API残高: OpenAI や Anthropic の場合、APIクレジットが残っているか確認してください。
  • ローカルLLM: LM Studio や Ollama を使用する場合は、ローカルサーバーが起動していることを確認してください。

RocketWhisper がマイクにアクセスするには権限が必要です。

  1. システム設定を開きます。
  2. プライバシーとセキュリティ > マイクを選択します。
  3. RocketWhisper のトグルが有効になっていることを確認します。

初回起動時に権限ダイアログが表示されなかった場合は、アプリを一度終了して再起動してください。

以下を確認してください:

  • マイク入力: 設定の「入力デバイス」タブで正しいマイクが選択されているか確認してください。
  • マイク権限: macOS のプライバシー設定でマイクのアクセス権限が許可されているか確認してください。
  • 音量: マイクの入力音量が十分か確認してください。システム設定の「サウンド」>「入力」で確認できます。
  • 録音時間: 極端に短い録音(1秒未満)では認識結果が得られない場合があります。