C:\Users\tomoi\Downloads\whisper-bin-x64\Release に作成したから、もう私(江端)は、構築は不要
■構築手順
(1)whisper-bin-x64.zipのダウンロード (https://sourceforge.net/projects/whisper-cpp.mirror/files/v1.7.6/?utm_source=chatgpt.com) → 解凍
(2)Releaseの中にmodelsというディレクトリを掘り、https://huggingface.co/ggerganov/whisper.cpp/tree/mainから、ggml-small.binをダウンロードして、ディレクトリに放り込む
(3)ffmpeg -i xxxxx.m4a xxxx.wav などでwavファイルにする
(4)whisper-cli.exe -m models/ggml-small.bin -f "xxxx.wav" --language ja --output-txt
成功すれば、xxxx.txt が同じフォルダに出力されます。中身に日本語の文字起こしが入っているはずです
文字おこししたテキストに「カラン」とだけ記載されている時の対応
20251118.m4aも20251118.wavも、私の耳では十分聞こえる内容です。やや声は小さめですが。対応方法を絞ってて教えて下さい。
「肉声は普通に聞こえる(=無音ではない)」 という前提であれば、原因はかなり絞れます。
Whisper が 内容を全く認識できず “(カラン)” を大量生成する原因は、実質 2つ しかありません。
■結論:対策は「音量を上げて再エンコードする」か「モデル変更」のどちらかです
Whisper は 人の耳よりはるかに大きい音量(−20dB〜−27dB程度) を必要とします。
肉声が入っていても録音レベルが少し小さいだけで、Whisper から見ると「ほぼ無音」扱いになります。
あなたの今回の音源は「声が小さめ」とのことなので、これがほぼ確定原因です。
■【対応方法はこの2つだけでOK】
① ffmpeg で音量を強制的に引き上げてから Whisper に投げる
以下を実行してください。
▼音量を +20dB ブーストした WAV を作る
次に Whisper:
これで ほぼ確実に文字起こしが成功します。
※Whisper がダメなのは「ノイズ」ではなく「音量」です
小さすぎると、Noise Floor と同じレベルに埋もれ、「意味のある信号」として認識されません。