オフラインで音声認識できるOSSのツールVOSK

使うかもしれないからとりあえずメモ。

Azure AIとか。

英会話アプリでもこういうAI音声認識を活用した発音チェックがある。例えばレシピーとか。

このアプリは無料でも学習できるが発音チェックは有料。月額1300円のBasicプラン以上を契約しないと使用できない。

おそらくクラウドサービスの料金がかかるためか、AIによる発音チェックは有料であることが多い。

なのでオフラインで音声認識できるというのは貴重。ローカルでできるならゲームとかでも使えるし可能性が広がる。

VOSKを利用するには各言語の学習済モデルが必要。英語の一番容量のでかいモデルは2.3GBある。

一応Andoroid向けに計量モデルも用意されており、スマホに使えねえよ！という事態にはならない。

vosk-model-small-en-us-0.15 40M Lightweight wideband model for Android and RPi

英語のほかは日中韓、欧州諸語など28言語に対応。

Unityで使う用のサンプルプロジェクトは公式にある。

けどUnity離れを考慮するとGodotで使いてえ。使えるかもしれない方法は2種類（まだ試してない）

MonoはOSS版の.NETみたいなもん。公式のUnityへの導入を説明したページに

Vosk provides speech recognition in Unity with standard Vosk libraries as Unity is essentially C#/Mono scripting environment.

UnityはC#/Monoスクリプト環境だからVosk使えるって書いてあった。

Godot3系列ではMonoを使ってC#のコードをビルドしていたが、4以降では.NETに変わったらしい。

C#のパッケージ管理ツールnugetからVosk APIをインストールできる。

公式のAsset Libraryにあった。けどGodot3.2で開発が止まっていて4.0系列では使えない。

みんなおっぱい