RocketWhisperはAppImage形式で配布されています。インストールは不要で、ダウンロードして実行するだけで使えます。
# 1. ダウンロードしたAppImageに実行権限を付与
chmod +x RocketWhisper-1.2.0-aarch64.AppImage
# 2. 実行
./RocketWhisper-1.2.0-aarch64.AppImage
AppImageはFUSEを使用します。FUSEがインストールされていない環境では、以下のように展開して実行できます:
# FUSEをインストール
sudo apt install fuse libfuse2
# または展開して実行
./RocketWhisper-1.2.0-aarch64.AppImage --appimage-extract
./squashfs-root/AppRun
RocketWhisperを使用するには、以下のパッケージが必要です:
sudo apt install pulseaudio-utils xdotool xclip ffmpeg
sudo dnf install pulseaudio-utils xdotool xclip ffmpeg
sudo pacman -S pulseaudio xdotool xclip ffmpeg
| パッケージ | 用途 | 必須 |
|---|---|---|
pulseaudio-utils |
マイク録音(parecコマンド) | 必須 |
xdotool |
キーボード操作・ウィンドウ検出 | 必須 |
xclip |
クリップボード操作 | 必須 |
ffmpeg |
音声ファイル変換 | 任意 |
which parec xdotool xclip
初回起動時、RocketWhisperは自動的にWhisperモデルをダウンロードします。
~/.local/share/RocketWhisper/Models/ に保存されます。
| 機能 | ホットキー | 説明 |
|---|---|---|
| 録音開始/停止 | F8 |
押して話す。もう一度押して認識 |
| キャンセル | Escape |
録音を中断 |
| AIコマンド | Ctrl + Shift + Space |
選択テキストにAI処理 |
設定画面(歯車アイコン)→「ホットキー」タブで変更できます。
テキストボックスをクリックして、新しいキーの組み合わせを押すと設定されます。
| モデル | サイズ | 精度 | 速度 | 推奨メモリ |
|---|---|---|---|---|
| small | 466MB | 中 | 普通 | 8GB |
| medium | 1.5GB | 高 | やや遅 | 8GB |
| large-v3-turbo | 1.6GB | 高 | 高速 | 8GB |
| large-v3 | 2.9GB | 最高 | 遅 | 16GB |
複数の音声ファイルや動画ファイルを一括で文字起こしできます。動画ファイルはFFmpegで音声を自動抽出して処理します。
sudo apt install ffmpeg でインストールしてください。
認識テキストをAIに自由なプロンプトで処理させる機能です。議事録作成、翻訳、要約など、用途に合わせた指示を設定できます。
過去の認識結果が自動的に保存され、いつでも検索・コピー・再利用できます。
メインウィンドウの「履歴」ボタンをクリックすると、認識履歴ウィンドウが開きます。
選択したテキストに対して、音声で指示を出してAI処理を行う機能です。
Ctrl + Shift + Space)を押すAIコマンドモードを使用するには、設定画面でAI処理プロバイダを設定する必要があります:
特定のフレーズを認識すると、自動でブラウザ検索を実行します。
設定画面→「音声ランチャー・検索」タブで有効/無効を切り替えられます。
特定のキーワードを話すと、対応するアプリケーションを起動できます。
/usr/bin/gnome-terminal)を入力アプリケーションごとに異なる設定を自動適用できます。
Waylandでは一部機能に制限があります。
ydotoolが必要、root権限が必要な場合ありwl-clipboardが必要sudo apt install ydotool wl-clipboard
echo $XDG_SESSION_TYPE
# "x11" と表示されればX11環境
# "wayland" と表示されればWayland環境
NVIDIA GPU搭載環境では、自動的にCUDA加速が有効になります。
# NVIDIAドライバが認識されているか確認
nvidia-smi
# CUDAバージョン確認
nvcc --version
# PulseAudioのソース(入力デバイス)一覧を表示
pactl list sources short
# 録音テスト
parec --device=0 --rate=16000 --channels=1 --format=s16le | head -c 160000 > test.raw
# xdotoolの動作確認
xdotool getactivewindow
# X11セッションで実行しているか確認
echo $XDG_SESSION_TYPE
# FUSEをインストール
sudo apt install fuse libfuse2
# または展開して実行
./RocketWhisper-*.AppImage --appimage-extract
./squashfs-root/AppRun
# 日本語フォントをインストール
sudo apt install fonts-noto-cjk
~/.config/RocketWhisper/
├── settings.json # アプリ設定
├── modes.json # 処理モード設定
├── mappings.json # アプリ別マッピング
├── voice_launcher.json # 音声ランチャー設定
└── correction_rules.json # 誤認識修正ルール