ヘルプ - RocketWhisper Linux版 | AI音声認識・文字起こしソフト

📦 1. インストール方法

AppImageの実行

RocketWhisperはAppImage形式で配布されています。インストールは不要で、ダウンロードして実行するだけで使えます。

                # 1. ダウンロードしたAppImageに実行権限を付与

chmod +x RocketWhisper-1.2.0-aarch64.AppImage

# 2. 実行

./RocketWhisper-1.2.0-aarch64.AppImage

FUSEがない環境

AppImageはFUSEを使用します。FUSEがインストールされていない環境では、以下のように展開して実行できます：

                # FUSEをインストール

sudo apt install fuse libfuse2

# または展開して実行

./RocketWhisper-1.2.0-aarch64.AppImage --appimage-extract

./squashfs-root/AppRun

📋 2. 必須パッケージ

RocketWhisperを使用するには、以下のパッケージが必要です：

Ubuntu / Debian / Linux Mint / Pop!_OS

sudo apt install pulseaudio-utils xdotool xclip ffmpeg

Fedora

sudo dnf install pulseaudio-utils xdotool xclip ffmpeg

Arch Linux

sudo pacman -S pulseaudio xdotool xclip ffmpeg

パッケージの詳細

パッケージ	用途	必須
`pulseaudio-utils`	マイク録音（parecコマンド）	必須
`xdotool`	キーボード操作・ウィンドウ検出	必須
`xclip`	クリップボード操作	必須
`ffmpeg`	音声ファイル変換	任意

インストール確認: which parec xdotool xclip

🚀 3. 初回起動

初回起動時、RocketWhisperは自動的にWhisperモデルをダウンロードします。

AppImageを実行
初回セットアップ画面が表示されます
使用するモデルを選択（推奨: large-v3-turbo）
モデルのダウンロードが完了するまで待機
ダウンロード完了後、メイン画面が表示されます

モデルは ~/.local/share/RocketWhisper/Models/ に保存されます。

⌨️ 4. ホットキー

デフォルトホットキー

機能	ホットキー	説明
録音開始/停止	`F8`	押して話す。もう一度押して認識
キャンセル	`Escape`	録音を中断
AIコマンド	`Ctrl + Shift + Space`	選択テキストにAI処理

ホットキーの変更

設定画面（歯車アイコン）→「ホットキー」タブで変更できます。

テキストボックスをクリックして、新しいキーの組み合わせを押すと設定されます。

🧠 5. Whisperモデル

モデル	サイズ	精度	速度	推奨メモリ
small	466MB	中	普通	8GB
medium	1.5GB	高	やや遅	8GB
large-v3-turbo	1.6GB	高	高速	8GB
large-v3	2.9GB	最高	遅	16GB

推奨: large-v3-turboは精度と速度のバランスが良く、多くの環境で最適です。

📁 6. バッチ処理（動画対応）

複数の音声ファイルや動画ファイルを一括で文字起こしできます。動画ファイルはFFmpegで音声を自動抽出して処理します。

対応フォーマット

音声入力: WAV, MP3, FLAC, OGG, M4A, WMA
動画入力: MP4, MKV, AVI, MOV, WebM, WMV, FLV
テキスト出力: TXT, SRT字幕, VTT字幕

使い方

メインウィンドウの「バッチ処理」ボタンをクリック
ファイルを追加（ドラッグ＆ドロップも可）
出力形式（テキスト/SRT字幕/VTT字幕）を選択
「処理開始」をクリック

ヒント: 動画ファイルの文字起こしにはFFmpegが必要です。sudo apt install ffmpeg でインストールしてください。

✨ 7. カスタム指示

認識テキストをAIに自由なプロンプトで処理させる機能です。議事録作成、翻訳、要約など、用途に合わせた指示を設定できます。

使い方

設定画面の「AI処理」タブでプロバイダを設定
「カスタム指示」欄に自由なプロンプトを入力（例：「議事録形式にまとめて」）
カスタム指示のホットキーで録音 → 停止すると、認識テキストがAIで処理されます

活用例

「日本語を英語に翻訳して」 → 音声を翻訳テキストとして出力
「議事録形式にまとめて」 → 発言を議事録に整形
「箇条書きで要約して」 → 長い発言を簡潔に要約
「敬語に変換して」 → カジュアルな発言をビジネス文体に変換

ヒント: ローカルLLM（Ollama等）を使えば、完全オフライン・完全無料でカスタム指示を利用できます。

📜 8. 認識履歴

過去の認識結果が自動的に保存され、いつでも検索・コピー・再利用できます。

機能

自動保存: 認識結果は自動的に履歴に保存されます
検索: キーワードで過去の認識結果を検索
コピー: 履歴からテキストをコピーして再利用
日時表示: いつ認識したかを日時で確認

使い方

メインウィンドウの「履歴」ボタンをクリックすると、認識履歴ウィンドウが開きます。

🤖 9. AIコマンドモード

選択したテキストに対して、音声で指示を出してAI処理を行う機能です。

使い方

任意のアプリでテキストを選択
AIコマンドホットキー（Ctrl + Shift + Space）を押す
音声で指示（「日本語に翻訳して」「要約して」など）
もう一度ホットキーを押して処理実行
結果がRocketWhisperのウィンドウに表示されます

AI処理プロバイダの設定

AIコマンドモードを使用するには、設定画面でAI処理プロバイダを設定する必要があります：

OpenAI (GPT-4, GPT-3.5)
Anthropic (Claude)
Google Gemini
Groq (LLaMA)
OpenAI互換API（ローカルLLM等）

AIコマンドモードにはAIプロバイダのAPIキーが必要です。設定画面の「AI処理」タブで設定してください。

🔍 10. 音声検索

特定のフレーズを認識すると、自動でブラウザ検索を実行します。

対応フレーズ

「〇〇について調べて」
「〇〇を検索して」
「〇〇をググって」
「〇〇について教えて」
「〇〇って何？」
「〇〇とは？」

設定

設定画面→「音声ランチャー・検索」タブで有効/無効を切り替えられます。

🚀 11. 音声ランチャー

特定のキーワードを話すと、対応するアプリケーションを起動できます。

設定方法

設定画面→「音声ランチャー・検索」タブを開く
「追加」ボタンをクリック
キーワード（例: 「ターミナル起動」）を入力
実行ファイルパス（例: /usr/bin/gnome-terminal）を入力
保存をクリック

「参照...」ボタンでファイルを選択することもできます。

🎯 12. アプリ別処理モード

アプリケーションごとに異なる設定を自動適用できます。

プリセットモード

スマート: 句読点自動挿入 + 自動修正
シンプル: 認識結果をそのまま出力
コマンド: 音声コマンド有効

アプリ紐づけ

設定画面→「アプリ別処理」タブを開く
「現在のアプリを取得」をクリック（対象アプリをフォアグラウンドにしておく）
使用するモードを選択
保存をクリック

⚠️ 13. Wayland環境

Waylandでは一部機能に制限があります。

制限事項

グローバルホットキー: ydotoolが必要、root権限が必要な場合あり
自動貼り付け: wl-clipboardが必要
AIコマンドモード: クリップボード制限の影響
アプリ別処理: ウィンドウ検出に制限

追加パッケージ

sudo apt install ydotool wl-clipboard

全機能を使用するには、ログイン時に「Xorg」または「X11」セッションを選択してください。

セッションの確認

                echo $XDG_SESSION_TYPE

# "x11" と表示されればX11環境

# "wayland" と表示されればWayland環境

🎮 14. CUDA/GPU設定

NVIDIA GPU搭載環境では、自動的にCUDA加速が有効になります。

対応GPU

NVIDIA DGX Spark (Blackwell) - 最適化済み
Jetson AGX Orin (Ampere)
Jetson Orin NX/Nano (Ampere)

確認方法

                # NVIDIAドライバが認識されているか確認

nvidia-smi

# CUDAバージョン確認

nvcc --version

CUDA 12.0以上が必要です。GPUがない場合は自動的にCPUにフォールバックします。

🔧 15. トラブルシューティング

マイクが認識されない

                # PulseAudioのソース（入力デバイス）一覧を表示

pactl list sources short

# 録音テスト

parec --device=0 --rate=16000 --channels=1 --format=s16le | head -c 160000 > test.raw

ホットキーが反応しない

                # xdotoolの動作確認

xdotool getactivewindow

# X11セッションで実行しているか確認

echo $XDG_SESSION_TYPE

AppImageが起動しない

                # FUSEをインストール

sudo apt install fuse libfuse2

# または展開して実行

./RocketWhisper-*.AppImage --appimage-extract

./squashfs-root/AppRun

文字化けする

                # 日本語フォントをインストール

sudo apt install fonts-noto-cjk

設定ファイルの場所

                ~/.config/RocketWhisper/

├── settings.json          # アプリ設定

├── modes.json             # 処理モード設定

├── mappings.json          # アプリ別マッピング

├── voice_launcher.json    # 音声ランチャー設定

└── correction_rules.json  # 誤認識修正ルール

📖ヘルプ

目次