1インストール方法
動作要件
システム要件
- OS: macOS 14.0 Sonoma 以降
- プロセッサ: Apple Silicon 推奨(M1 / M2 / M3 / M4)
- メモリ: RAM 8GB以上推奨(16GB推奨)
- ストレージ: 200MB + モデルファイル(最大3GB)
インストール手順
- ダウンロードページから最新版の
.dmgファイルをダウンロードします。 - ダウンロードした DMG ファイルをダブルクリックして開き、RocketWhisper アイコンを Applications フォルダにドラッグ&ドロップします。
- 初回起動時に Gatekeeper の警告が表示される場合は、「開く」を選択してください。もしくは、システム設定 > プライバシーとセキュリティ から「このまま開く」をクリックしてください。
- 初回起動時に使用する Whisper モデルのダウンロードが始まります。ネットワーク環境に応じて数分かかる場合があります。
モデルの選び方
Whisper モデル比較
| モデル | サイズ | 精度 | 速度 | おすすめ用途 |
|---|---|---|---|---|
| Small | 500MB | 高 | 速い | 低スペックMac向け |
| Medium | 1.5GB | 高 | 普通 | 5秒以内の音声 |
| Large V3 Turbo 推奨 | 1.6GB | 高 | 速い | 5〜20秒の音声 |
| Large V3 | 3.0GB | 最高 | やや遅い | 20秒以上の音声 |
Tip: 迷ったら Large V3 Turbo がおすすめです。精度と速度のバランスに優れ、Apple Silicon の Neural Engine で高速に動作します。
※ 日本語の音声認識には Large V3 Turbo 以上のモデルを推奨します。Small / Medium では漢字変換やカタカナ語の精度が低下する場合があります。
2基本的な使い方
マイク入力で音声認識
- メニューバーの RocketWhisper アイコンをクリックして、ポップアップウィンドウを表示します。
- 録音ボタン(マイクアイコン)をクリックします。
- マイクに向かって話します。
- 停止ボタンをクリックします。
- 認識結果がテキストエリアに表示されます。
認識結果の利用
- コピー: コピーボタンをクリックすると、認識結果がクリップボードにコピーされます。
- 自動コピー: 設定で有効にすると、認識完了時に自動的にクリップボードにコピーされます。
- 自動貼り付け: 設定で有効にすると、ショートカット録音時に認識結果が自動的にアクティブなアプリのテキストフィールドに貼り付けられます。
Tip: ショートカットを使った録音では、録音開始前にフォーカスされていたアプリに自動的にテキストを貼り付けることができます。UIボタンからの録音では手動でコピー&ペーストする必要があります。
3設定
ポップアップウィンドウの歯車アイコンをクリックして設定画面を開きます。以下のタブで各種設定が可能です。
| タブ | 設定内容 |
|---|---|
| モデル・言語 | Whisper モデルの選択、認識言語の設定 |
| 入力デバイス | マイクデバイスの選択、自動コピー、自動貼り付けの設定 |
| ショートカット | 録音ショートカットのカスタマイズ、右Optionキー設定、キャンセルキー、AIコマンドショートカット(⌃⇧Space) |
| 単語辞書 | 専門用語・社名・人名等のカスタム用語登録 |
| テキスト処理 | 句読点自動挿入、改行挿入、音声コマンドの有効/無効 |
| 誤認識修正 | 自動修正の有効/無効、プリセットルール、カスタムルールの管理 |
| アプリ別処理 | 処理モードの設定、アプリとモードのマッピング |
| AI処理 | AIプロバイダの選択(OpenAI / Anthropic / Groq / Gemini / ローカルLLM)、モデル選択、APIキーの入力 |
| ライセンス | ライセンス種別の確認、ライセンスキーの入力 |
4グローバルショートカット
RocketWhisper はカスタマイズ可能なグローバルショートカットに対応しており、どのアプリを使用中でも即座に録音を開始できます。さらに、右Optionキーのタップや長押し(Push-to-Talk)にも対応しています。
右Optionキーの操作
| 操作 | 動作 |
|---|---|
| 右Optionを押し続ける → 離す | Push-to-Talk(押している間だけ録音、離すと停止して認識開始) |
| 右Optionを素早く2回タップ | 常時録音モードに切り替え(もう一度タップで停止) |
| 右Option押し中に他のキーを入力 | 録音キャンセル(通常のOption修飾キーとして動作) |
おすすめショートカット設定
| ショートカット | タイプ | 説明 |
|---|---|---|
⌥Space |
トグル式 | デフォルト設定。Option + Space で録音開始/停止。Superwhisper と同じキー。 |
右Option(長押し) |
Push-to-Talk | 最もおすすめ。押している間だけ録音し、離すと自動停止。 |
⌃⇧R |
トグル式 | Record の R。押すたびに録音開始/停止が切り替わる。 |
F9 |
トグル式 | ファンクションキー。他のショートカットと競合しにくい。 |
録音キャンセル
録音中に Escape キーを押すと、録音をキャンセルして認識処理を行わずに終了できます。
AIコマンドショートカット
⌃⇧Space(Control + Shift + Space)で AIコマンドモードを起動できます。詳しくは AIコマンドモード のセクションをご覧ください。
注意: グローバルショートカットの動作にはアクセシビリティ権限が必要です。初回起動時に権限の許可を求められます。システム設定 > プライバシーとセキュリティ > アクセシビリティ で RocketWhisper が有効になっていることを確認してください。
5認識履歴
RocketWhisper は過去の認識結果を自動的に保存します。ポップアップウィンドウの履歴ボタンをクリックすると、認識履歴の一覧を確認できます。
履歴機能
- 一覧表示: 過去の認識結果をタイムスタンプ付きで表示
- 検索: キーワードで過去の認識結果を検索
- コピー: 任意の履歴項目をクリップボードにコピー
- 削除: 不要な履歴を個別に削除
- エクスポート: 履歴をテキストファイルとしてエクスポート
6テキスト処理(句読点・改行)
RocketWhisper は、認識されたテキストを自然な日本語にするための高度なテキスト処理機能を搭載しています。
句読点プロンプト
Whisper モデルに対して句読点を含む出力を促すプロンプトを設定します。これにより、モデル自体が句読点を含むテキストを生成しやすくなります。
句読点自動挿入
認識結果に対して後処理として7つのルールベースで句読点を自動的に挿入します。Whisper の出力に句読点が不足している場合でも、自然な句読点が付与されます。
句読点挿入ルール(7段階)
- 文末表現(〜です、〜ます 等)の後に句点「。」を挿入
- 接続助詞(〜が、〜けど 等)の後に読点「、」を挿入
- 疑問文の末尾に「?」を挿入
- 感嘆文の末尾に「!」を挿入
- 列挙表現に読点を挿入
- 長い文節の区切りに読点を挿入
- 行頭の不要な句読点を除去
改行自動挿入
文の区切りで自動的に改行を挿入する機能です。長い文章をパラグラフに分けて読みやすくします。
Tip: 句読点自動挿入と改行自動挿入はそれぞれ独立して有効/無効を切り替えられます。チャットアプリでは改行を無効にし、ドキュメント作成時は有効にするなど、用途に応じて使い分けてください。
7音声コマンド
音声コマンドを使うと、特定のフレーズを話すことでテキスト編集操作を実行できます。設定の「テキスト処理」タブで有効/無効を切り替えられます。
対応コマンド一覧
| コマンド | トリガーフレーズ | 動作 |
|---|---|---|
| 改行 | 「改行」「かいぎょう」「エンター」 | 改行を挿入 |
| 段落 | 「段落」「だんらく」「新しい段落」 | 2回改行を挿入(段落区切り) |
| 削除 | 「削除」「取り消し」「デリート」 | 直前の単語を削除 |
Tip: 音声コマンドは、テキスト処理パイプラインの Stage 1 で処理されます。コマンドと一致するフレーズが検出されると、対応する操作が実行され、そのフレーズはテキストから除去されます。
音声コマンドがうまく認識されない場合
Whisper は同音異義語(ホモフォン)を文脈から判断するため、意図した漢字と異なる変換結果になることがあります。例えば「改行」と発声しても「開業」「海洋」などと認識される場合があります。
自動対応済みの誤認識パターン
RocketWhisper の音声コマンドには、Whisper の典型的な誤認識パターンがあらかじめトリガーフレーズとして登録されています。音声コマンドを有効にしていれば、以下の誤認識は自動的にコマンドとして処理されます。
| コマンド | 登録済みトリガー(誤認識パターン含む) |
|---|---|
| 改行 | 改行、かいぎょう、開業、海洋、カイギョウ、エンター、Enter |
| 段落 | 段落、だんらく、新しい段落、暖楽、ダンラク |
| 削除 | 削除、さくじょ、サクジョ、取り消し、とりけし、デリート |
音声コマンドが期待どおりに動作しない場合は、以下を確認してください:
- 音声コマンドが有効になっているか確認 — 設定の「テキスト処理」タブで「音声コマンド」が有効(ON)になっていることを確認してください。音声コマンドが無効の場合、「開業」等の誤認識パターンはそのままテキストとして出力されます。
- コマンドの前後にポーズを入れる — 音声コマンドの検出には、コマンドの前後に短い間(ポーズ)が必要です。文章の途中で早口に「改行」と言うと、通常のテキストと区別できず認識されない場合があります。
- はっきりと発声する — 「か・い・ぎょ・う」と一語ずつ明瞭に発音すると認識率が向上します。
Tip: 音声コマンドを使わずに改行を挿入したい場合は、誤認識修正ルールで対応することもできます。正規表現を有効にして、パターンに 開業[。、.]*、置換に \n と設定すると、「開業」「開業。」のどちらも改行に変換されます。ただし、音声コマンドの方がポーズ検出による誤判定防止機能があるため、通常は音声コマンドの利用を推奨します。
8単語辞書(専門用語登録)
単語辞書を使うと、Whisper が認識しにくい専門用語・社名・人名・略語などを事前に登録し、認識精度を大幅に向上させることができます。これは macOS 標準の音声入力にはない機能です。
仕組み
登録された単語は WhisperKit の promptTokens として使用されます。これにより、Whisper モデルが該当する語彙を優先的に出力するようになります。
登録方法
- 設定画面の「単語辞書」タブを開きます。
- 「追加」ボタンをクリックします。
- 登録したい単語(例:
React,TypeScript,AWS)を入力します。 - 必要に応じて「読み」を設定します(Whisper の認識補助用)。
注意: 登録語は約15語(短いトークン)を上限としてください。登録語が多すぎるとデコーダーのログ確率に影響し、認識精度が低下する場合があります。
登録例
- 技術用語: React、TypeScript、Kubernetes、Docker
- 社名: Mojosoft、OpenAI
- 人名: 田中太郎
- 略語: AWS、GCP、CI/CD
特長
- 完全ローカル処理 — APIコスト不要、インターネット接続不要
- リアルタイム反映 — 登録後すぐに次の認識から有効
- 辞書置換にも対応 — 認識結果の自動置換ルールとしても使用可能
9誤認識修正ルール
Whisper の認識結果に含まれる誤認識を自動的に修正するルールを設定できます。シンプルな文字列置換と正規表現の両方に対応しています。
ルール種別
- シンプル置換: 特定の文字列を別の文字列に置き換えます(例: 「お電話」→「お伝」)
- 正規表現: 正規表現パターンを使った高度な置換が可能です
- 大文字小文字の区別: ルールごとに大文字小文字を区別するかどうかを設定できます
内蔵ハルシネーション対策
Whisper モデルが無音時に生成しがちな「幻聴テキスト」(ハルシネーション)を自動除去する27種類のフィルターが内蔵されています。例えば以下のようなテキストが自動的に除去されます。
- 「ご視聴ありがとうございました」
- 「チャンネル登録お願いします」
- 「おやすみなさい」(無音時のハルシネーション)
プリセットルール
よくある誤認識パターンに対応するプリセットルールが用意されています。設定画面からワンクリックで有効化できます。
カスタムルール
- 設定画面の「誤認識修正」タブを開きます。
- 「ルール追加」ボタンをクリックします。
- 検索文字列(誤認識されるテキスト)と置換文字列(正しいテキスト)を入力します。
- 必要に応じて「正規表現を使用」「大文字小文字を無視」オプションを設定します。
10アプリ別処理モード
アプリ別処理モードを使うと、フォーカスされているアプリに応じて自動的に異なるテキスト処理設定を適用できます。例えば、テキストエディタでは句読点付きの丁寧な文章を、チャットアプリではカジュアルな文体を自動的に選択できます。
処理モード一覧
| モード | AI必須 | 説明 |
|---|---|---|
| スマート | 不要 | 句読点・改行を自動整形。最も汎用的なモード。 |
| シンプル | 不要 | 認識結果をそのまま出力。最小限の処理。 |
| ビジネス | 必須 | 敬語・丁寧な文体に自動変換。メール・ドキュメント向け。 |
| カジュアル | 必須 | 親しみやすい文体に変換。チャット・SNS向け。 |
| 要約 | 必須 | 認識テキストを要約して出力。議事録・メモ向け。 |
| 翻訳 | 必須 | 日本語から英語に翻訳して出力。 |
| 文法修正 | 必須 | 誤認識や文法ミスをAIが修正して出力。 |
アプリマッピングの設定
- 設定画面の「アプリ別処理」タブを開きます。
- 「アプリ別処理モード」を有効にします。
- 「追加」ボタンでアプリを選択し、適用するモードを設定します。
Tip: アプリ別処理モードが有効で、かつ現在のアプリにモードが設定されている場合はモード固有の設定が適用されます。それ以外の場合はグローバル設定が使用されます。
11AI処理(LLM連携)
RocketWhisper は5つのAIプロバイダと連携し、認識テキストの自動整形、翻訳、要約などの高度な処理を実行できます。
対応AIプロバイダ
| プロバイダ | モデル例 | 特徴 |
|---|---|---|
| OpenAI | GPT-4o, GPT-4o mini | 高精度、幅広い言語対応 |
| Anthropic | Claude Sonnet 4.5, Haiku 4.5 | 自然な日本語、丁寧な出力 |
| Groq | LLaMA 3.3 70B | 超高速推論、無料枠あり |
| Google Gemini | Gemini 2.5 Pro / Flash | 無料枠が豊富、マルチモーダル対応 |
| ローカルLLM | LM Studio, Ollama | 完全オフライン、プライバシー重視 |
設定方法
- 設定画面の「AI処理」タブを開きます。
- 使用するプロバイダを選択します。
- APIキーを入力します(ローカルLLMの場合は不要)。
- 使用するモデルを選択します。
- AI処理を有効にして、処理モードを選択します。
ローカルLLM の設定例
LM Studio と連携する場合
- LM Studio をインストールし、お好みのモデルをダウンロードします。
- LM Studio でローカルサーバーを起動します(デフォルト:
http://localhost:1234)。 - RocketWhisper の AI処理設定で「ローカルLLM」を選択します。
- ベースURLに
http://localhost:1234を入力します。 - モデルIDは空欄でOKです(LM Studio がロード中のモデルを自動使用します)。
- APIキーは空欄、またはダミーの値(例:
lm-studio)を入力します。
Ollama と連携する場合
- Ollama をインストールします。
- ターミナルで使いたいモデルをダウンロードします:
ollama pull llama3.2(例: Llama 3.2 の場合) - Ollama サーバーが起動していることを確認します(通常はインストール後に自動起動)。
- RocketWhisper の AI処理設定で「ローカルLLM」を選択します。
- ベースURLに
http://localhost:11434を入力します。 - モデルIDにダウンロード済みのモデル名を入力します(例:
llama3.2、qwen2.5、gemma2等)。
※ollama listコマンドで利用可能なモデル名を確認できます。 - APIキーは空欄のままでOKです(Ollama では不要)。
Tip: コストを抑えたい場合は Groq(無料枠あり)や Google Gemini(無料枠が豊富)がおすすめです。完全なプライバシーが必要な場合は、ローカルLLM を使用すると音声認識からAI処理まですべてオフラインで完結します。
12AIコマンドモード
AIコマンドモードは、選択中のテキストに対して音声で指示を出し、AIに処理させる機能です。テキストの翻訳、要約、敬語変換など、さまざまな編集操作を声だけで実行できます。
使い方
- 任意のアプリでテキストを選択します。
⌃⇧Space(Control + Shift + Space)を押してAIコマンドモードを起動します。- マイクに向かって指示を話します(例: 「英語に翻訳して」)。
- AIが選択テキストを指示に従って処理し、結果で置き換えます。
使用例
| 音声指示 | 処理内容 |
|---|---|
| 「英語に翻訳して」 | 選択テキストを英語に翻訳 |
| 「要約して」 | 選択テキストを簡潔に要約 |
| 「敬語にして」 | カジュアルな文章を丁寧な敬語に変換 |
| 「コメントを追加して」 | コードにコメントを追加 |
| 「箇条書きにして」 | 文章を箇条書き形式に変換 |
| 「誤字を直して」 | 文章の誤字脱字を修正 |
注意: AIコマンドモードを使用するには、AI処理設定でいずれかのプロバイダのAPIキーが設定されている必要があります。
13カスタム指示
カスタム指示は、専用ショートカットにAI処理指示を事前に割り当てておく機能です。AIコマンドとは異なり、音声で指示を出す必要がなく、認識されたテキストがそのまま事前設定されたプロンプトでAI処理されます。
AIコマンドとの違い
| 機能 | AIコマンド | カスタム指示 |
|---|---|---|
| AI指示の方法 | 毎回音声で指示 | 事前にプロンプトを設定 |
| テキスト選択 | 必要(選択テキストを処理) | 不要(音声入力を処理) |
| ショートカット | 共通1つ(⌃⇧Space) | 指示ごとに個別設定 |
| 用途 | 都度異なる指示を出したい場合 | よく使う処理をワンアクションで実行 |
使い方
- 設定画面の「カスタム指示」タブで指示を作成し、ショートカットを割り当てます。
- 任意のアプリで、割り当てたショートカットを押して録音を開始します。
- マイクに向かって話します(認識テキストがAI処理の入力になります)。
- 同じショートカットをもう一度押して録音を停止します。
- 音声が認識され、事前設定されたプロンプトでAI処理された結果が自動的に貼り付けられます。
プリセット指示
初回起動時に4つのプリセットが自動作成されます。これらは編集可能ですが、削除はできません。
| プリセット | 説明 |
|---|---|
| 🌐 Translate to English | 音声を英語に翻訳 |
| 💼 Business Style | ビジネス敬体に変換 |
| 📝 Summary | テキストを簡潔に要約 |
| ✔️ Grammar Fix | 文法誤り・誤認識を修正 |
注意: カスタム指示を使用するには、AI処理設定でいずれかのプロバイダのAPIキーが設定されている必要があります。最大20件まで登録できます。
14ボイスランチャー
ボイスランチャーは、登録したキーワードを話すだけでアプリの起動やURLの表示を実行できる機能です。テキスト処理パイプラインの最初(Stage 0)で処理されるため、キーワードに一致した場合は他の処理は行われません。
仕組み
- 完全一致でキーワードを判定(句読点は無視、大文字小文字は無視)
- キーワードに一致すると、登録されたアプリを起動またはURLをブラウザで表示
- マッチした場合、テキスト出力は行われません(アクション実行のみ)
設定方法
- 設定画面からボイスランチャーの設定を開きます。
- 「追加」ボタンをクリックします。
- トリガーとなるキーワード(例: 「メモ」「ブラウザ」)を入力します。
- 起動するアプリのパスまたはURLを入力します。
設定例
| キーワード | アクション | 種別 |
|---|---|---|
| 「メモ」 | /Applications/Notes.app |
アプリ起動 |
| 「ブラウザ」 | /Applications/Safari.app |
アプリ起動 |
| 「ターミナル」 | /Applications/Utilities/Terminal.app |
アプリ起動 |
| 「GitHub」 | https://github.com |
URL表示 |
| 「メール」 | /System/Applications/Mail.app |
アプリ起動 |
15音声検索
音声検索機能を使うと、特定のフレーズを話すだけでGoogle検索を即座に実行できます。検索結果はデフォルトのブラウザで表示されます。
対応フレーズ(10パターン)
| フレーズパターン | 例 |
|---|---|
| 「〜について調べて」 | 「SwiftUIについて調べて」 |
| 「〜を調べて」 | 「Neural Engineを調べて」 |
| 「〜を検索して」 | 「macOS Sequoiaを検索して」 |
| 「〜を検索」 | 「RocketWhisperを検索」 |
| 「〜をググって」 | 「Apple Silicon M4をググって」 |
| 「〜って何」 | 「WhisperKitって何」 |
| 「〜とは」 | 「CoreMLとは」 |
| 「〜について教えて」 | 「Metal APIについて教えて」 |
| 「〜を調べたい」 | 「新しいMacBookを調べたい」 |
| 「〜で検索して」 | 「音声認識 精度で検索して」 |
Tip: 音声検索はテキスト処理パイプラインの Stage 0.5 で処理されます。キーワード部分が自動的に抽出され、Google 検索のクエリとして使用されます。
17フローティング波形インジケーター
録音中に画面上に小さなミニイコライザー風の波形バーを表示するフローティングウィンドウです。常に最前面に表示されるため、他のアプリで作業中でも録音状態を一目で確認できます。
表示仕様
インジケーターの詳細
- サイズ: 96 x 48 ピクセル(コンパクトなカプセル型)
- バー数: 8本のミニイコライザー風バー
- 色: 青 → 紫 → ピンクのグラデーション
- 背景: すりガラス風(ultraThinMaterial)+ 角丸
- 表示: 録音開始でフェードイン、停止でフェードアウト
- 初期位置: 画面下部の中央
操作方法
- ドラッグ移動: インジケーターをドラッグして好きな位置に移動できます。
- 位置の記憶: 移動した位置はアプリ終了後も保存され、次回起動時に同じ位置に表示されます。
- 全Space対応: macOS の全デスクトップ(Space)で表示されます。
- 常に最前面: 他のウィンドウの上に表示され続けます。
設定
設定画面の「モデル・言語」タブにある「録音中にフローティング波形を表示」のトグルで有効/無効を切り替えられます。デフォルトは有効(ON)です。
Tip: 位置をリセットしたい場合は、ターミナルで以下のコマンドを実行してください:
defaults delete biz.mojosoft.RocketWhisper FloatingWaveformX
defaults delete biz.mojosoft.RocketWhisper FloatingWaveformY
18バッチ処理
複数の音声ファイルをまとめて文字起こしできる機能です。録音済みの会議音声やインタビューファイルを一括処理するのに便利です。
起動方法
- メニューバーのポップアップを開きます。
- ヘッダー右側のバッチ処理ボタン(書類アイコン)をクリックします。
- 独立したバッチ処理ウィンドウが開きます。
使い方
- ファイルを追加: 「ファイルを追加」ボタンで音声ファイルを選択、またはウィンドウにドラッグ&ドロップします。
- 一括認識開始: 「一括認識開始」ボタンをクリックすると、追加したファイルを順番に文字起こしします。
- 結果確認: 各ファイルの認識結果(文字数)がリストに表示されます。
- エクスポート: 「エクスポート」メニューから出力形式を選び、保存先フォルダを指定します。
対応ファイル形式
WAV, MP3, M4A, FLAC, OGG, WMA, AAC, AIFF
エクスポート形式
| 形式 | 説明 | 用途 |
|---|---|---|
| TXT | プレーンテキスト | 一般的な文字起こしテキスト |
| SRT | SubRip字幕形式 | 動画編集ソフトでの字幕作成 |
| VTT | WebVTT字幕形式 | Web動画やHTML5での字幕表示 |
Tip: バッチ処理は独自のWhisperモデルインスタンスを使用するため、リアルタイム音声入力と同時に使用できます。ただし、大量のファイルを処理する場合はメモリ使用量にご注意ください。
19トラブルシューティング
問題が発生した場合は、以下のFAQを参考にしてください。
ネットワーク接続を確認してください。モデルファイルは数百MB〜3GBと大きいため、安定したWi-Fi環境でのダウンロードを推奨します。ダウンロードが中断された場合は、アプリを再起動して再度ダウンロードを試みてください。VPNやプロキシを使用している場合は、一時的に無効にすることで解決する場合があります。
以下の点を確認してください:
- モデルの変更: より大きなモデル(Large V3 Turbo 推奨)に切り替えてください。
- マイクの調整: 外付けマイクの使用、マイクとの距離の調整、周囲の騒音の軽減を試してください。
- 言語設定: 認識言語が正しく設定されているか確認してください。
- 単語辞書: 専門用語が多い場合は、単語辞書に登録することで精度が向上します。
アクセシビリティ権限を確認してください。
- システム設定を開きます。
- プライバシーとセキュリティ > アクセシビリティを選択します。
- RocketWhisper が一覧に表示されていて、トグルが有効になっていることを確認します。
- 一覧にない場合は「+」ボタンで追加してください。
- 既に追加済みで動作しない場合は、一度無効にしてから再度有効にしてください。
また、他のアプリが同じショートカットを使用していないか確認してください。競合がある場合は、別のショートカットに変更してください。
Whisper は同音異義語を文脈で判断するため、「改行」が「開業」や「海洋」と認識されることがあります。RocketWhisper の音声コマンドにはこれらの誤認識パターンがあらかじめトリガーとして登録済みです。
音声コマンドが有効になっていれば、「開業」と認識されても自動的に改行として処理されます。詳しくは 音声コマンド セクションの「音声コマンドがうまく認識されない場合」をご覧ください。
その他の確認事項:
- 設定の「テキスト処理」タブで「音声コマンド」が有効(ON)になっていることを確認してください。
- コマンドの前後に短い間(ポーズ)を入れてください。
- 「か・い・ぎょ・う」と一語ずつ明瞭に発音すると認識率が上がります。
以下を確認してください:
- macOS バージョン: macOS 14.0 Sonoma 以降が必要です。Apple メニュー > このMacについてでバージョンを確認してください。
- Gatekeeper: 初回起動時に「開発元が未確認のため開けません」と表示される場合は、システム設定 > プライバシーとセキュリティの画面で「このまま開く」をクリックしてください。
- Apple Silicon: Intel Mac でも動作しますが、Apple Silicon(M1以降)を推奨します。
以下を確認してください:
- APIキー: 設定画面でAPIキーが正しく入力されているか確認してください。
- インターネット接続: クラウドAIプロバイダを使用する場合は、インターネット接続が必要です。
- API残高: OpenAI や Anthropic の場合、APIクレジットが残っているか確認してください。
- ローカルLLM: LM Studio や Ollama を使用する場合は、ローカルサーバーが起動していることを確認してください。
RocketWhisper がマイクにアクセスするには権限が必要です。
- システム設定を開きます。
- プライバシーとセキュリティ > マイクを選択します。
- RocketWhisper のトグルが有効になっていることを確認します。
初回起動時に権限ダイアログが表示されなかった場合は、アプリを一度終了して再起動してください。
以下を確認してください:
- マイク入力: 設定の「入力デバイス」タブで正しいマイクが選択されているか確認してください。
- マイク権限: macOS のプライバシー設定でマイクのアクセス権限が許可されているか確認してください。
- 音量: マイクの入力音量が十分か確認してください。システム設定の「サウンド」>「入力」で確認できます。
- 録音時間: 極端に短い録音(1秒未満)では認識結果が得られない場合があります。
解決しない場合は
上記で問題が解決しない場合は、サポートページからお問い合わせください。
サポートに問い合わせる