Skip to content

OpenClaw音声アシスタント構想

結論

Alexaの代替を作るのではなく、OpenClawを頭脳としたローカル音声アシスタントを構築する方針とする。

最終的な構成は、

  • 音声入力:LLM Module(Wake Word・VAD・STT)
  • 会話・推論:OpenClaw
  • 家電制御:Nature Remo
  • 音声出力:irodori-tts
  • 音声端末:CoreS3 SE

を基本とする。

Home AssistantやOVOSは採用しないが、Wyoming Protocolのような「音声サービスを抽象化する」という設計思想は取り入れる。


プロジェクトの目的

作りたいものはAlexaではなく、

  • OpenClaw
  • GitHub
  • Docker
  • ComfyUI
  • Markdown知識庫
  • Nature Remo

など、自分専用ツールを音声で操作できるAIエージェント。

つまり

text
音声UI

    OpenClaw

自分のツール群

という構成が目的。


音声パイプライン

最終イメージ

text
CoreS3 SE + LLM Module
  音声入力
  Wake Word
  STT


OpenClaw
├─ Nature Remo
├─ GitHub
├─ Docker
├─ Knowledge Base
├─ ComfyUI
├─ MCP
└─ その他ツール


irodori-tts


CoreS3 SE
音声再生

Home Assistant調査

Home Assistantとは

当初はAlexa代替OSSとして調査。

実際には

  • 家電管理
  • 自動化
  • Dashboard
  • 音声

をまとめるスマートホームOSだった。

音声認識そのものが優秀というより、

text
Wake Word

STT

Conversation

TTS

というパイプラインを管理している。


Home Assistantの役割

Home Assistant自身が

  • Whisper
  • Piper
  • Ollama

を作っているわけではない。

それぞれを繋ぐオーケストレーター。

text
ESP32



Whisper



Assist



Piper



ESP32

Wyoming Protocol

今回一番参考になった。

Wyomingは

音声サービス同士の共通プロトコル

という考え方。

例えば

text
Whisper


Wyoming
text
Piper


Wyoming
text
openWakeWord


Wyoming

全部同じインターフェースになる。

USBみたいなもの。

  • PS/2
  • パラレル
  • シリアル

だったものが

全部USBになったようなイメージ。


OpenClawへ取り入れたい考え方

Wyomingそのものを使う必要はない。

ただし

text
Voice Gateway


OpenClaw


TTS Gateway

という抽象化は取り入れたい。

Voice Gateway配下では

  • Wake Word
  • STT
  • TTS

を差し替え可能にする。

例えば

text
LLM Module

将来

text
Whisper

へ変更してもOpenClaw側は修正不要。


Home Assistantを採用しない理由

現在

Nature Remoに家電を統一している。

つまり

Home Assistant最大のメリットである

家電抽象化

が不要。

OpenClawから直接Nature Remo APIを呼べばよい。


OVOS調査

OpenVoiceOS。

Alexa代替を目的としたOSS。

特徴

  • Wake Word
  • STT
  • TTS
  • Skill

音声アシスタント専用OS。


採用しない理由

OpenClawが既にエージェントとして存在するため、

役割が重複する。


Rhasspy

昔から有名なローカル音声アシスタント。

現在はHome Assistantへ流れている印象。

新規採用優先度は低い。


openWakeWord

Wake Word専用OSS。

LLM Moduleを使わない場合の第一候補。


ハード比較(市場調査)

ESP32-S3-BOX

最初の有力候補。

理由

  • Home Assistant公式対応
  • マイク
  • スピーカー
  • 液晶
  • 実績多数

完成度が高い。


ATOM Echo

約3500円。

非常に小さい。

マイク・スピーカー内蔵。

各部屋への量産向き。

将来的な音声サテライト候補。


ReSpeaker Lite

一番気になったハード。

特徴

  • XMOS
  • エコーキャンセル
  • ノイズ除去
  • 遠距離集音

マイク性能が非常に高い。

実用化するなら最有力。


Raspberry Pi Zero

ESP32より自由度が高い。

Whisperも動く。

ただし価格は高め。


M5Stack LLM Module

最初は

「LLMを載せるモジュール」

という印象だった。

調査すると

  • Wake Word
  • VAD
  • STT
  • TTS

を個別利用できることが判明。

OpenClawがあるため

LLM用途ではなく

音声前処理用

として利用する方が良いと判断。


Echo Flex

理想的なハード。

搭載

  • マイク
  • スピーカー
  • LED
  • コンセント直挿し

しかし

改造事例がほぼなく、

Linuxを書き換えて使うのは現実的ではない。

ただ

「コンセント直挿し」

という思想は非常に参考になった。

将来的には

OpenClaw端末も

壁コンセント設置

を目指したい。


手持ちハード比較

手持ち

  • CoreS3 SE
  • LLM Module
  • AtomS3U
  • Wio Terminal

CoreS3 SE

評価:★★★★★

マイク・スピーカー・画面が揃っている。

ESP32-S3-BOXとほぼ同じ役割。

市場調査後、

「既に持っているならこれが最適」

と判断。


LLM Module

評価:★★★★☆

Wake Word

VAD

STT

担当。

LLMはOpenClaw側が担当する。


AtomS3U

評価:★★★☆☆

スピーカーがない。

将来的には

  • 小型音声サテライト
  • IRリモコン

用途で利用できそう。


Wio Terminal

評価:★★★☆☆

音声端末ではなく

  • 時計
  • アラーム
  • 情報表示
  • ボタンUI

向き。

ベッドサイド端末として面白い。


音声出力

当初疑問だった点。

CoreS3 SEでどうやって

irodori-ttsの音声を流すのか。

構成

text
OpenClaw



irodori-tts



WAV生成



HTTP取得



CoreS3 SE



playWav()

最初はHTTPでWAV取得。

将来的にはPCMストリーミングも検討。


Nature Remo

家電抽象化は不要。

OpenClawから直接

  • エアコン
  • 照明
  • シーン

などを制御する。

Home Assistantを入れる理由は薄い。


アラーム

CoreS3 SEで十分実現可能。

理想

  • ローカルアラームは単独で鳴る
  • OpenClaw接続時のみ
    • 今日の予定
    • 天気
    • Nature Remoで照明ON
    • irodori-tts読み上げ

ローカル機能とAI機能を分離する。

Wio Terminalを

時計・表示専用

として使う案も面白い。


OpenClawの設計

OpenClawを中心に据える。

text
CoreS3



Voice Gateway



OpenClaw

├─ Nature Remo
├─ GitHub
├─ Docker
├─ Knowledge Base
├─ ComfyUI
└─ MCP



irodori-tts



CoreS3

Voice Gatewayでは

  • Wake Word
  • STT
  • TTS

を抽象化する。


将来構想

各部屋に音声サテライトを置く。

text
寝室
CoreS3

リビング
AtomS3U

作業部屋
AtomS3U





OpenClaw Server



Nature Remo
Docker
GitHub
Knowledge Base
ComfyUI

どこから話しかけても

同じOpenClawが応答する。


判断・感想

最初はHome AssistantやOVOSを使う方向も考えたが、調査を進めると、自分が作りたいのはスマートホームではなく「AIエージェントの音声UI」だと整理できた。

Home Assistantは完成度が高いが、現在はNature Remoに家電を統一しているため恩恵は小さい。

一方、Wyoming Protocolのような「サービスを疎結合にする設計思想」は非常に参考になった。

また、市場調査ではESP32-S3-BOXやATOM Echo、ReSpeaker Liteが有力候補だったが、手持ちのCoreS3 SEがほぼ同じ役割を担えることが分かり、まずは追加投資なしで試作する方針とした。

LLM Moduleも当初はLLM用途を想定していたが、調査後はWake Word・VAD・STT専用として使う方がOpenClawとの役割分担が明確になると判断した。


未検証・注意点

  • LLM ModuleのSTT精度・レイテンシ
  • CoreS3 SEでのストリーミング再生
  • irodori-ttsのストリーミング対応
  • Wake WordをLLM Module・openWakeWordのどちらが担当するか
  • CoreS3 SEとLLM Moduleの最適な通信方式
  • 将来的にマイク性能が不足した場合はReSpeaker Liteへの移行を検討

Built from Markdown with VitePress