『私の持っている(稚拙な)AI技術については、ご存知である、という前提として、私が何から着手すれば良いのか、そのマイルストーンについて教えて下さい』とChatGPTに相談してみた件
本日、入院している義母に妻とともに面会にいってきたのですが、痰がからまることを含めて滑舌が悪く、妻ともども義母の言っている内容の3割(妻の場合で、私は1割以下)しか理解できないありさまでした。
しかし、近年の生成AIの技術を使えば、義母とのコミュニケーションは十分可能ではないか、という所感を得ましたので、個人的に研究を開始したいと思います。
私の持っている(稚拙な)AI技術については、ご存知である、という前提として、私が何から着手すれば良いのか、そのマイルストーンについて教えて下さい
以下に、あなたの現在のAI技術レベル(プログラミング経験豊富、音声・映像処理も一定経験あり、生成AI活用中)を前提として、義母とのコミュニケーション支援AI開発のための現実的なマイルストーンを整理しました。
マイルストーン 0: ゴール設定とシナリオ設計
-
目的確認
例: 「義母の発話内容をリアルタイムでテキスト化し、内容を要約・整形して妻が理解できるよう提示する」 -
使用シナリオ
例: 病室内、スマホorPCで動作、会話キャッチボール速度は数秒遅れまで許容
マイルストーン 1: 音声入力収録とデータ分析
-
義母の発話サンプル収録(許可を得て短時間録音)
→ 音質・滑舌の特徴(声量、周波数帯域、明瞭度)を把握 -
既存STT (Speech-to-Text) エンジン評価
Whisper (OpenAI)、Google Cloud Speech-to-Text、Amazon Transcribeなどで精度を比較
マイルストーン 2: 音声前処理パイプライン構築
-
ノイズ除去・雑音フィルタリング
-
痰絡みや曖昧母音に対する強調補正
(例: Bandpass Filter + 強調周波数変換)
マイルストーン 3: STT+生成AI統合プロトタイプ作成
-
STTモジュール → 生成AIプロンプト連携
-
STTで文字起こし
-
ChatGPTに要約+再構成指示を与え、読みやすい自然文生成
-
-
出力UI試作
-
CLI, WebUI, スマホで最も簡便に実現可能なもの
-
マイルストーン 4: テスト運用と失敗要因分析
-
面会時に実証実験
-
失敗原因特定
-
音質問題か
-
STT変換率か
-
生成AI要約指示不足か
-
マイルストーン 5: 改善と社会実装検討
-
病院での運用制約確認(録音規制、ネット接続)
-
UI改良(表示方法、フォントサイズ、色分け)
-
他患者・家族への展開可能性検討
補足: 並行して着手可能な学習・技術検討
-
Whisper Large-V3 のローカル運用(特に病室無ネット環境想定)
-
病室騒音下でのマイク配置・集音方法検討
-
パラ言語情報(口調、感情など)の解析
プライバシーの問題も含めて、ローカルLLMを前提として必要な機材は、個人購入を予定しています。利用可能な公開音声データなどもありましたら、ご教示下さい
以下に、ローカルLLM前提の機材選定、必要システム、公開音声データを体系的に整理します。
1. 機材選定(個人購入前提)
目的 | 推奨機材・スペック | 備考 |
---|---|---|
録音・集音 | コンデンサマイク(例: Shure MV7、Rode NT-USB)、もしくはピンマイク型(例: SONY ECM-CS3) | 痰絡み音声は周波数帯域が低めかつ不明瞭なため、高感度マイクが必要 |
オーディオインターフェイス | (USBマイクで代用可)より安定動作にはFocusrite Scarlett Soloなど | ノイズフロア低減、ゲイン調整 |
GPU搭載PC | NVIDIA RTX 3060 以上推奨 | Whisper large-v3やLlama3 などローカルLLM推論に必要 |
スマホorタブレット | iPhone/Androidタブレット(テスト用途) | 病室内でのUI試験用 |
2. ソフトウェア・LLM運用環境
-
Whisperローカル動作
OpenAI Whisper GitHubwhisper --model large-v3
で高精度運用可能。ただしGPUメモリ8GB以上推奨。 -
ローカルLLM
-
llamacpp: llama3やphi3モデルを軽量推論
-
Ollama: Mac/Windows/Linux上でワンクリック動作可能 (公式)
-
-
音声前処理
-
Audacity(無料)でノイズ除去・帯域フィルタ試験
-
Pythonの
pydub
,scipy.signal
で自動フィルタリング実装可
-
3. 公開音声データ(日本語・滑舌弱含む)
(A) 一般的日本語音声コーパス
データセット名 | 特徴 | URL |
---|---|---|
JSUT corpus | 標準日本語音声データ | JSUT |
JVS corpus | 複数話者での日本語音声データ | JVS |
Common Voice (Japanese) | Mozilla提供、話者多数 | Common Voice |
(B) 滑舌障害・嚥下障害音声
現状、日本語で公開されているものは少ないが、以下は参考可能。
※日本語障害音声コーパスはほぼ非公開(倫理審査、被験者保護のため)。義母様音声を用いる場合、個人利用範囲で録音し学習させる方が現実的。
4. 次の具体的着手
-
Whisperローカル環境構築
→ GPU搭載PCで実験 -
短時間録音データ収集(義母許可前提)
→ 音質評価と前処理設計 -
llamacpp or Ollama環境構築
→ STT後の要約・整形プロンプト試験