Appearance
OpenClaw音声アシスタント構想
結論
Alexaの代替を作るのではなく、OpenClawを頭脳としたローカル音声アシスタントを構築する方針とする。
最終的な構成は、
- 音声入力:LLM Module(Wake Word・VAD・STT)
- 会話・推論:OpenClaw
- 家電制御:Nature Remo
- 音声出力:irodori-tts
- 音声端末:CoreS3 SE
を基本とする。
Home AssistantやOVOSは採用しないが、Wyoming Protocolのような「音声サービスを抽象化する」という設計思想は取り入れる。
プロジェクトの目的
作りたいものはAlexaではなく、
- OpenClaw
- GitHub
- Docker
- ComfyUI
- Markdown知識庫
- Nature Remo
など、自分専用ツールを音声で操作できるAIエージェント。
つまり
text
音声UI
↓
OpenClaw
↓
自分のツール群という構成が目的。
音声パイプライン
最終イメージ
text
CoreS3 SE + LLM Module
音声入力
Wake Word
STT
│
▼
OpenClaw
├─ Nature Remo
├─ GitHub
├─ Docker
├─ Knowledge Base
├─ ComfyUI
├─ MCP
└─ その他ツール
│
▼
irodori-tts
│
▼
CoreS3 SE
音声再生Home Assistant調査
Home Assistantとは
当初はAlexa代替OSSとして調査。
実際には
- 家電管理
- 自動化
- Dashboard
- 音声
をまとめるスマートホームOSだった。
音声認識そのものが優秀というより、
text
Wake Word
↓
STT
↓
Conversation
↓
TTSというパイプラインを管理している。
Home Assistantの役割
Home Assistant自身が
- Whisper
- Piper
- Ollama
を作っているわけではない。
それぞれを繋ぐオーケストレーター。
例
text
ESP32
↓
Whisper
↓
Assist
↓
Piper
↓
ESP32Wyoming Protocol
今回一番参考になった。
Wyomingは
音声サービス同士の共通プロトコル
という考え方。
例えば
text
Whisper
↓
Wyomingtext
Piper
↓
Wyomingtext
openWakeWord
↓
Wyoming全部同じインターフェースになる。
USBみたいなもの。
昔
- PS/2
- パラレル
- シリアル
だったものが
全部USBになったようなイメージ。
OpenClawへ取り入れたい考え方
Wyomingそのものを使う必要はない。
ただし
text
Voice Gateway
↓
OpenClaw
↓
TTS Gatewayという抽象化は取り入れたい。
Voice Gateway配下では
- Wake Word
- STT
- TTS
を差し替え可能にする。
例えば
text
LLM Module↓
将来
text
Whisperへ変更してもOpenClaw側は修正不要。
Home Assistantを採用しない理由
現在
Nature Remoに家電を統一している。
つまり
Home Assistant最大のメリットである
家電抽象化
が不要。
OpenClawから直接Nature Remo APIを呼べばよい。
OVOS調査
OpenVoiceOS。
Alexa代替を目的としたOSS。
特徴
- Wake Word
- STT
- TTS
- Skill
音声アシスタント専用OS。
採用しない理由
OpenClawが既にエージェントとして存在するため、
役割が重複する。
Rhasspy
昔から有名なローカル音声アシスタント。
現在はHome Assistantへ流れている印象。
新規採用優先度は低い。
openWakeWord
Wake Word専用OSS。
LLM Moduleを使わない場合の第一候補。
ハード比較(市場調査)
ESP32-S3-BOX
最初の有力候補。
理由
- Home Assistant公式対応
- マイク
- スピーカー
- 液晶
- 実績多数
完成度が高い。
ATOM Echo
約3500円。
非常に小さい。
マイク・スピーカー内蔵。
各部屋への量産向き。
将来的な音声サテライト候補。
ReSpeaker Lite
一番気になったハード。
特徴
- XMOS
- エコーキャンセル
- ノイズ除去
- 遠距離集音
マイク性能が非常に高い。
実用化するなら最有力。
Raspberry Pi Zero
ESP32より自由度が高い。
Whisperも動く。
ただし価格は高め。
M5Stack LLM Module
最初は
「LLMを載せるモジュール」
という印象だった。
調査すると
- Wake Word
- VAD
- STT
- TTS
を個別利用できることが判明。
OpenClawがあるため
LLM用途ではなく
音声前処理用
として利用する方が良いと判断。
Echo Flex
理想的なハード。
搭載
- マイク
- スピーカー
- LED
- コンセント直挿し
しかし
改造事例がほぼなく、
Linuxを書き換えて使うのは現実的ではない。
ただ
「コンセント直挿し」
という思想は非常に参考になった。
将来的には
OpenClaw端末も
壁コンセント設置
を目指したい。
手持ちハード比較
手持ち
- CoreS3 SE
- LLM Module
- AtomS3U
- Wio Terminal
CoreS3 SE
評価:★★★★★
マイク・スピーカー・画面が揃っている。
ESP32-S3-BOXとほぼ同じ役割。
市場調査後、
「既に持っているならこれが最適」
と判断。
LLM Module
評価:★★★★☆
Wake Word
VAD
STT
担当。
LLMはOpenClaw側が担当する。
AtomS3U
評価:★★★☆☆
スピーカーがない。
将来的には
- 小型音声サテライト
- IRリモコン
用途で利用できそう。
Wio Terminal
評価:★★★☆☆
音声端末ではなく
- 時計
- アラーム
- 情報表示
- ボタンUI
向き。
ベッドサイド端末として面白い。
音声出力
当初疑問だった点。
CoreS3 SEでどうやって
irodori-ttsの音声を流すのか。
構成
text
OpenClaw
↓
irodori-tts
↓
WAV生成
↓
HTTP取得
↓
CoreS3 SE
↓
playWav()最初はHTTPでWAV取得。
将来的にはPCMストリーミングも検討。
Nature Remo
家電抽象化は不要。
OpenClawから直接
- エアコン
- 照明
- シーン
などを制御する。
Home Assistantを入れる理由は薄い。
アラーム
CoreS3 SEで十分実現可能。
理想
- ローカルアラームは単独で鳴る
- OpenClaw接続時のみ
- 今日の予定
- 天気
- Nature Remoで照明ON
- irodori-tts読み上げ
ローカル機能とAI機能を分離する。
Wio Terminalを
時計・表示専用
として使う案も面白い。
OpenClawの設計
OpenClawを中心に据える。
text
CoreS3
↓
Voice Gateway
↓
OpenClaw
├─ Nature Remo
├─ GitHub
├─ Docker
├─ Knowledge Base
├─ ComfyUI
└─ MCP
↓
irodori-tts
↓
CoreS3Voice Gatewayでは
- Wake Word
- STT
- TTS
を抽象化する。
将来構想
各部屋に音声サテライトを置く。
text
寝室
CoreS3
リビング
AtomS3U
作業部屋
AtomS3U
│
▼
OpenClaw Server
│
Nature Remo
Docker
GitHub
Knowledge Base
ComfyUIどこから話しかけても
同じOpenClawが応答する。
判断・感想
最初はHome AssistantやOVOSを使う方向も考えたが、調査を進めると、自分が作りたいのはスマートホームではなく「AIエージェントの音声UI」だと整理できた。
Home Assistantは完成度が高いが、現在はNature Remoに家電を統一しているため恩恵は小さい。
一方、Wyoming Protocolのような「サービスを疎結合にする設計思想」は非常に参考になった。
また、市場調査ではESP32-S3-BOXやATOM Echo、ReSpeaker Liteが有力候補だったが、手持ちのCoreS3 SEがほぼ同じ役割を担えることが分かり、まずは追加投資なしで試作する方針とした。
LLM Moduleも当初はLLM用途を想定していたが、調査後はWake Word・VAD・STT専用として使う方がOpenClawとの役割分担が明確になると判断した。
未検証・注意点
- LLM ModuleのSTT精度・レイテンシ
- CoreS3 SEでのストリーミング再生
- irodori-ttsのストリーミング対応
- Wake WordをLLM Module・openWakeWordのどちらが担当するか
- CoreS3 SEとLLM Moduleの最適な通信方式
- 将来的にマイク性能が不足した場合はReSpeaker Liteへの移行を検討