みんなおっぱい

めんどくさい人生を楽に生きたい。楽に生きる知恵を記録するよ。おっぱい。

オフラインで音声認識できるOSSのツールVOSK

alphacephei.com

使うかもしれないからとりあえずメモ。

AIを活用した音声認識はだいたいオンライン

azure.microsoft.com

Azure AIとか。

英会話アプリでもこういうAI音声認識を活用した発音チェックがある。例えばレシピーとか。

www.polyglots.net

このアプリは無料でも学習できるが発音チェックは有料。月額1300円のBasicプラン以上を契約しないと使用できない。

おそらくクラウドサービスの料金がかかるためか、AIによる発音チェックは有料であることが多い。

なのでオフラインで音声認識できるというのは貴重。ローカルでできるならゲームとかでも使えるし可能性が広がる。

学習済み言語モデル

VOSKを利用するには各言語の学習済モデルが必要。英語の一番容量のでかいモデルは2.3GBある。

一応Andoroid向けに計量モデルも用意されており、スマホに使えねえよ!という事態にはならない。

vosk-model-small-en-us-0.15 40M Lightweight wideband model for Android and RPi

英語のほかは日中韓、欧州諸語など28言語に対応。

Godotで使いたいなー的メモ

Unityで使う用のサンプルプロジェクトは公式にある。

alphacephei.com

けどUnity離れを考慮するとGodotで使いてえ。使えるかもしれない方法は2種類(まだ試してない)

Mono SDK/.NETからVOSK APIを使う

www.mono-project.com

MonoはOSS版の.NETみたいなもん。公式のUnityへの導入を説明したページに

Vosk provides speech recognition in Unity with standard Vosk libraries as Unity is essentially C#/Mono scripting environment.

UnityはC#/Monoスクリプト環境だからVosk使えるって書いてあった。

codezine.jp

Godot3系列ではMonoを使ってC#のコードをビルドしていたが、4以降では.NETに変わったらしい。

C#のパッケージ管理ツールnugetからVosk APIをインストールできる。

www.nuget.org

Python ScriptでVosk APIを使う

godotengine.org

公式のAsset Libraryにあった。けどGodot3.2で開発が止まっていて4.0系列では使えない。