WhisperWebAPIサーバ&Androidクライアント

概要
つい先日Open AIによって発表されたWhisperという高性能文字起こしAIをWebAPI経由で利用できるようにした物です. クライアントとしてAndroidアプリの実装も行なっており,ファイルピッカーから選択した音声ファイルをサーバに送信して文字起こしすることができます.
動作映像
ソースコード
以下のGithubでサーバ側とクライアント側両方のソースコードを公開してます
サーバ側
- https://github.com/GanePrivate/WhisperWebAPI
- Dockerを使ってコマンド1つでサーバを建てられるようにしてあります
- GPUがない環境のためにcpu版のブランチもあります
クライアント側
使用技術など
[使用言語/ライブラリ]
- Python
- FastAPI
- Docker
- Android
- Kotlin
サーバはどこで動いてるの?
大学の研究室の割と高性能なデスクトップPCで動いてます. ちなみに,スペックは以下の通りです
- CPU:Core i 9-9900k
- メモリ:64GB
- GPU:Nvidia GTX 1080ti