『私の持っている(稚拙な)AI技術については、ご存知である、という前提として、私が何から着手すれば良いのか、そのマイルストーンについて教えて下さい』とChatGPTに相談してみた件

2025年6月30日

本日、入院している義母に妻とともに面会にいってきたのですが、痰がからまることを含めて滑舌が悪く、妻ともども義母の言っている内容の3割(妻の場合で、私は1割以下)しか理解できないありさまでした。
しかし、近年の生成AIの技術を使えば、義母とのコミュニケーションは十分可能ではないか、という所感を得ましたので、個人的に研究を開始したいと思います。
私の持っている(稚拙な)AI技術については、ご存知である、という前提として、私が何から着手すれば良いのか、そのマイルストーンについて教えて下さい

以下に、あなたの現在のAI技術レベル（プログラミング経験豊富、音声・映像処理も一定経験あり、生成AI活用中）を前提として、義母とのコミュニケーション支援AI開発のための現実的なマイルストーンを整理しました。

マイルストーン 0: ゴール設定とシナリオ設計

目的確認
例: 「義母の発話内容をリアルタイムでテキスト化し、内容を要約・整形して妻が理解できるよう提示する」
使用シナリオ
例: 病室内、スマホorPCで動作、会話キャッチボール速度は数秒遅れまで許容

マイルストーン 1: 音声入力収録とデータ分析

義母の発話サンプル収録（許可を得て短時間録音）
→ 音質・滑舌の特徴（声量、周波数帯域、明瞭度）を把握
既存STT (Speech-to-Text) エンジン評価
Whisper (OpenAI)、Google Cloud Speech-to-Text、Amazon Transcribeなどで精度を比較

マイルストーン 2: 音声前処理パイプライン構築

ノイズ除去・雑音フィルタリング
痰絡みや曖昧母音に対する強調補正
(例: Bandpass Filter + 強調周波数変換)

マイルストーン 3: STT＋生成AI統合プロトタイプ作成

STTモジュール → 生成AIプロンプト連携
- STTで文字起こし
- ChatGPTに要約＋再構成指示を与え、読みやすい自然文生成
出力UI試作
- CLI, WebUI, スマホで最も簡便に実現可能なもの

マイルストーン 4: テスト運用と失敗要因分析

面会時に実証実験
失敗原因特定
- 音質問題か
- STT変換率か
- 生成AI要約指示不足か

マイルストーン 5: 改善と社会実装検討

病院での運用制約確認（録音規制、ネット接続）
UI改良（表示方法、フォントサイズ、色分け）
他患者・家族への展開可能性検討

補足: 並行して着手可能な学習・技術検討

Whisper Large-V3 のローカル運用（特に病室無ネット環境想定）
病室騒音下でのマイク配置・集音方法検討
パラ言語情報（口調、感情など）の解析

プライバシーの問題も含めて、ローカルLLMを前提として必要な機材は、個人購入を予定しています。利用可能な公開音声データなどもありましたら、ご教示下さい

以下に、ローカルLLM前提の機材選定、必要システム、公開音声データを体系的に整理します。

1. 機材選定（個人購入前提）

目的	推奨機材・スペック	備考
録音・集音	コンデンサマイク（例: Shure MV7、Rode NT-USB）、もしくはピンマイク型（例: SONY ECM-CS3）	痰絡み音声は周波数帯域が低めかつ不明瞭なため、高感度マイクが必要
オーディオインターフェイス	（USBマイクで代用可）より安定動作にはFocusrite Scarlett Soloなど	ノイズフロア低減、ゲイン調整
GPU搭載PC	NVIDIA RTX 3060 以上推奨	Whisper large-v3やLlama3 などローカルLLM推論に必要
スマホorタブレット	iPhone/Androidタブレット（テスト用途）	病室内でのUI試験用

2. ソフトウェア・LLM運用環境

Whisperローカル動作
OpenAI Whisper GitHub
whisper --model large-v3 で高精度運用可能。ただしGPUメモリ8GB以上推奨。
ローカルLLM
- llamacpp: llama3やphi3モデルを軽量推論
- Ollama: Mac/Windows/Linux上でワンクリック動作可能 (公式)
音声前処理
- Audacity（無料）でノイズ除去・帯域フィルタ試験
- Pythonのpydub,scipy.signalで自動フィルタリング実装可

3. 公開音声データ（日本語・滑舌弱含む）

(A) 一般的日本語音声コーパス

データセット名	特徴	URL
JSUT corpus	標準日本語音声データ	JSUT
JVS corpus	複数話者での日本語音声データ	JVS
Common Voice (Japanese)	Mozilla提供、話者多数	Common Voice

(B) 滑舌障害・嚥下障害音声

現状、日本語で公開されているものは少ないが、以下は参考可能。

データセット名	特徴	URL
TORGO database	英語、嚥下障害・構音障害話者音声データ	TORGO
UASpeech	英語、構音障害話者 (CP: 脳性麻痺)	UASpeech

※日本語障害音声コーパスはほぼ非公開（倫理審査、被験者保護のため）。義母様音声を用いる場合、個人利用範囲で録音し学習させる方が現実的。

4. 次の具体的着手

Whisperローカル環境構築
→ GPU搭載PCで実験
短時間録音データ収集（義母許可前提）
→ 音質評価と前処理設計
llamacpp or Ollama環境構築
→ STT後の要約・整形プロンプト試験

2025年6月30日未分類

Posted by ebata