使うかもしれないからとりあえずメモ。
AIを活用した音声認識はだいたいオンライン
Azure AIとか。
英会話アプリでもこういうAI音声認識を活用した発音チェックがある。例えばレシピーとか。
このアプリは無料でも学習できるが発音チェックは有料。月額1300円のBasicプラン以上を契約しないと使用できない。
おそらくクラウドサービスの料金がかかるためか、AIによる発音チェックは有料であることが多い。
なのでオフラインで音声認識できるというのは貴重。ローカルでできるならゲームとかでも使えるし可能性が広がる。
学習済み言語モデル
VOSKを利用するには各言語の学習済モデルが必要。英語の一番容量のでかいモデルは2.3GBある。
一応Andoroid向けに計量モデルも用意されており、スマホに使えねえよ!という事態にはならない。
vosk-model-small-en-us-0.15 40M Lightweight wideband model for Android and RPi
英語のほかは日中韓、欧州諸語など28言語に対応。
Godotで使いたいなー的メモ
Unityで使う用のサンプルプロジェクトは公式にある。
けどUnity離れを考慮するとGodotで使いてえ。使えるかもしれない方法は2種類(まだ試してない)
Mono SDK/.NETからVOSK APIを使う
MonoはOSS版の.NETみたいなもん。公式のUnityへの導入を説明したページに
Vosk provides speech recognition in Unity with standard Vosk libraries as Unity is essentially C#/Mono scripting environment.
UnityはC#/Monoスクリプト環境だからVosk使えるって書いてあった。
Godot3系列ではMonoを使ってC#のコードをビルドしていたが、4以降では.NETに変わったらしい。
C#のパッケージ管理ツールnugetからVosk APIをインストールできる。
Python ScriptでVosk APIを使う
公式のAsset Libraryにあった。けどGodot3.2で開発が止まっていて4.0系列では使えない。