認識はするけど距離があると難しいか。
実際にタイムラグ少ないし、質問者がのんびりという設定にすれば十分使えるかな?
質問者が質問をした時だけ音声収録、3〜5秒程度録音して終了、結果を待つという感じ。
まず間違いなく自分で解析するよりはいいはず(笑)