📖ヘルプ

目次

📦 1. インストール方法

AppImageの実行

RocketWhisperはAppImage形式で配布されています。インストールは不要で、ダウンロードして実行するだけで使えます。

# 1. ダウンロードしたAppImageに実行権限を付与
chmod +x RocketWhisper-1.2.0-aarch64.AppImage

# 2. 実行
./RocketWhisper-1.2.0-aarch64.AppImage

FUSEがない環境

AppImageはFUSEを使用します。FUSEがインストールされていない環境では、以下のように展開して実行できます:

# FUSEをインストール
sudo apt install fuse libfuse2

# または展開して実行
./RocketWhisper-1.2.0-aarch64.AppImage --appimage-extract
./squashfs-root/AppRun

📋 2. 必須パッケージ

RocketWhisperを使用するには、以下のパッケージが必要です:

Ubuntu / Debian / Linux Mint / Pop!_OS

sudo apt install pulseaudio-utils xdotool xclip ffmpeg

Fedora

sudo dnf install pulseaudio-utils xdotool xclip ffmpeg

Arch Linux

sudo pacman -S pulseaudio xdotool xclip ffmpeg

パッケージの詳細

パッケージ 用途 必須
pulseaudio-utils マイク録音(parecコマンド) 必須
xdotool キーボード操作・ウィンドウ検出 必須
xclip クリップボード操作 必須
ffmpeg 音声ファイル変換 任意
インストール確認: which parec xdotool xclip

🚀 3. 初回起動

初回起動時、RocketWhisperは自動的にWhisperモデルをダウンロードします。

  1. AppImageを実行
  2. 初回セットアップ画面が表示されます
  3. 使用するモデルを選択(推奨: large-v3-turbo)
  4. モデルのダウンロードが完了するまで待機
  5. ダウンロード完了後、メイン画面が表示されます
モデルは ~/.local/share/RocketWhisper/Models/ に保存されます。

⌨️ 4. ホットキー

デフォルトホットキー

機能 ホットキー 説明
録音開始/停止 F8 押して話す。もう一度押して認識
キャンセル Escape 録音を中断
AIコマンド Ctrl + Shift + Space 選択テキストにAI処理

ホットキーの変更

設定画面(歯車アイコン)→「ホットキー」タブで変更できます。

テキストボックスをクリックして、新しいキーの組み合わせを押すと設定されます。

🧠 5. Whisperモデル

モデル サイズ 精度 速度 推奨メモリ
small 466MB 普通 8GB
medium 1.5GB やや遅 8GB
large-v3-turbo 1.6GB 高速 8GB
large-v3 2.9GB 最高 16GB
推奨: large-v3-turboは精度と速度のバランスが良く、多くの環境で最適です。

📁 6. バッチ処理(動画対応)

複数の音声ファイルや動画ファイルを一括で文字起こしできます。動画ファイルはFFmpegで音声を自動抽出して処理します。

対応フォーマット

使い方

  1. メインウィンドウの「バッチ処理」ボタンをクリック
  2. ファイルを追加(ドラッグ&ドロップも可)
  3. 出力形式(テキスト/SRT字幕/VTT字幕)を選択
  4. 「処理開始」をクリック
ヒント: 動画ファイルの文字起こしにはFFmpegが必要です。sudo apt install ffmpeg でインストールしてください。

7. カスタム指示

認識テキストをAIに自由なプロンプトで処理させる機能です。議事録作成、翻訳、要約など、用途に合わせた指示を設定できます。

使い方

  1. 設定画面の「AI処理」タブでプロバイダを設定
  2. 「カスタム指示」欄に自由なプロンプトを入力(例:「議事録形式にまとめて」)
  3. カスタム指示のホットキーで録音 → 停止すると、認識テキストがAIで処理されます

活用例

ヒント: ローカルLLM(Ollama等)を使えば、完全オフライン・完全無料でカスタム指示を利用できます。

📜 8. 認識履歴

過去の認識結果が自動的に保存され、いつでも検索・コピー・再利用できます。

機能

使い方

メインウィンドウの「履歴」ボタンをクリックすると、認識履歴ウィンドウが開きます。

🤖 9. AIコマンドモード

選択したテキストに対して、音声で指示を出してAI処理を行う機能です。

使い方

  1. 任意のアプリでテキストを選択
  2. AIコマンドホットキー(Ctrl + Shift + Space)を押す
  3. 音声で指示(「日本語に翻訳して」「要約して」など)
  4. もう一度ホットキーを押して処理実行
  5. 結果がRocketWhisperのウィンドウに表示されます

AI処理プロバイダの設定

AIコマンドモードを使用するには、設定画面でAI処理プロバイダを設定する必要があります:

AIコマンドモードにはAIプロバイダのAPIキーが必要です。設定画面の「AI処理」タブで設定してください。

🚀 11. 音声ランチャー

特定のキーワードを話すと、対応するアプリケーションを起動できます。

設定方法

  1. 設定画面→「音声ランチャー・検索」タブを開く
  2. 「追加」ボタンをクリック
  3. キーワード(例: 「ターミナル起動」)を入力
  4. 実行ファイルパス(例: /usr/bin/gnome-terminal)を入力
  5. 保存をクリック
「参照...」ボタンでファイルを選択することもできます。

🎯 12. アプリ別処理モード

アプリケーションごとに異なる設定を自動適用できます。

プリセットモード

アプリ紐づけ

  1. 設定画面→「アプリ別処理」タブを開く
  2. 「現在のアプリを取得」をクリック(対象アプリをフォアグラウンドにしておく)
  3. 使用するモードを選択
  4. 保存をクリック

⚠️ 13. Wayland環境

Waylandでは一部機能に制限があります。

制限事項

追加パッケージ

sudo apt install ydotool wl-clipboard
全機能を使用するには、ログイン時に「Xorg」または「X11」セッションを選択してください。

セッションの確認

echo $XDG_SESSION_TYPE
# "x11" と表示されればX11環境
# "wayland" と表示されればWayland環境

🎮 14. CUDA/GPU設定

NVIDIA GPU搭載環境では、自動的にCUDA加速が有効になります。

対応GPU

確認方法

# NVIDIAドライバが認識されているか確認
nvidia-smi

# CUDAバージョン確認
nvcc --version
CUDA 12.0以上が必要です。GPUがない場合は自動的にCPUにフォールバックします。

🔧 15. トラブルシューティング

マイクが認識されない

# PulseAudioのソース(入力デバイス)一覧を表示
pactl list sources short

# 録音テスト
parec --device=0 --rate=16000 --channels=1 --format=s16le | head -c 160000 > test.raw

ホットキーが反応しない

# xdotoolの動作確認
xdotool getactivewindow

# X11セッションで実行しているか確認
echo $XDG_SESSION_TYPE

AppImageが起動しない

# FUSEをインストール
sudo apt install fuse libfuse2

# または展開して実行
./RocketWhisper-*.AppImage --appimage-extract
./squashfs-root/AppRun

文字化けする

# 日本語フォントをインストール
sudo apt install fonts-noto-cjk

設定ファイルの場所

~/.config/RocketWhisper/
├── settings.json # アプリ設定
├── modes.json # 処理モード設定
├── mappings.json # アプリ別マッピング
├── voice_launcher.json # 音声ランチャー設定
└── correction_rules.json # 誤認識修正ルール
トップに戻る 💬 お問い合わせ