Voicebox は、Qwen3‑TTSモデルを使用して任意の声を合成およびクローンすることができるオープンソースのデスクトップアプリです。Voicebox で生成されたすべてのものは、あなたのPC上でローカルに行われるため、トークンや有料サブスクリプションに依存することはありません。
Qwen3‑TTSによる音声クローンと合成
Voiceboxでは、Qwen3‑TTSの機能を使用して、トーン、音色、アクセントを高精度で再現し、わずか数秒(最大30秒)の参照オーディオから声をクローンできます。参照用の音声を使用するには、まず音声ファイルをアップロードするか、マイクから直接録音する必要があります。その後、アプリに自分が言ったことを伝えるか、内蔵のトランスクリプション機能を使ってテキストに変換する必要があります。この情報だけでアプリはプロファイルを保存し、その後再トレーニングすることなく音声を生成するために使用できます。
任意の声で音声を生成する
プロフィールが作成されたら、声に出してほしいテキストを書き、Voicebox が対応する音声を生成します。これは、例えば、あなたの声のトーンを維持しながら、テキストを他の言語に翻訳するのに役立ちます。また、面白い自家製の吹き替えを作ったり、ビデオゲームの吹き替えをすることもできます。さらに、各音声プロファイルをエクスポートして誰かに送信することで、その人が自分のPCで音声を作成できるようにすることができます。
Whisperと音声キャプチャによる文字起こし
Voicebox 入力音声を文字起こしし、生成された音声とテキストを整合させるために、Whisperをネイティブに統合します。これにより、タイムライン上で直接テキストを編集し、発音の変化を確認することができます。エラーを修正したり、ポーズを調整したり、同じクローン音声を維持しながら対話を編集したりする場合に非常に便利です。また、システムオーディオキャプチャも含まれているため、PCからの音(ゲームや通話など)を録音し、声をクローンするための参考にしたり、オーディオシーンの基礎として使用したりできます。
ローカルAPIと音声サーバー
そのグラフィカルインターフェースを超えて、Voicebox は他のプロジェクトに統合されるように設計されています。REST API と、ゲーム、アプリ、または AI エージェントから音声生成を使用するためにワンクリックで開始できるローカルサーバーを提供します。このAPIから、テキストを送信し、音声プロファイルを選択し、標準フォーマットで生成された音声を取得できます。これにより、クラウドサービスを利用せずにナレーション、対話、または音声通知の自動化が可能になります。このアプリはTauri、Rust、Pythonで構築されており、Electronベースのソリューションと比較して比較的軽量で、主要なハードウェア要件なしでローカル実行を可能にします。それでも、パフォーマンスはあなたのGPU/CPUと、マシン上でQwen3-TTSモデルがどのように構成されているかに依存します。すべての処理はあなた自身の機器で行われます。
声で物語を作成する
音声を生成することに加えて、 Voiceboxには、物語の中で起こしたいことを入力できる音声を使用した物語生成のセクションがあります。これは、お子様を楽しませるためのコンテンツを作成したり、さまざまな声を使ってジョークを言ったりするのに理想的です。
私の経験Voicebox
テスト中に、 VoiceboxをPCで使用したところ、わずか数秒の音声で声をクローンし、プロファイルを保存し、その後、タイムライン上で小さな対話を組み立てるためにいくつかのテキストクリップを生成するのが非常に簡単であることがわかりました。しかし、いくつかの機能が欠けています。例えば、より多くのオーディオを追加したり、よりリアルに聞こえるように高度な音声調整を行う能力です。
私が最も気に入った点と改善できる点
• 私が最も気に入った点: すべてのクローン作成と合成処理がローカルで行われ、クラウドやサブスクリプションが不要であること。
• 改善したい点: 声をカスタマイズできるようにし、複数のサンプルを使用して最終的に生成される音声がより良く聞こえるようにすること。さらに、お使いのPCの性能によっては、コンテンツの生成に数分かかる場合があります。コンテンツを生成するために使用できる軽量モデルもありますが、モデルが複雑であるほど、結果は良くなります。
Voicebox はあなたのためにあります...
✓ クラウドサービスに依存せず、サブスクリプション料金を支払わずに、声をクローンし、音声を生成したい。
✓ ポッドキャスト、吹き替え、ゲーム、またはAIエージェントに携わっており、音声シーンをまとめるためのタイムラインエディターが必要です。
✓ あなたは他のプロジェクトに統合できる、ローカルでプライベートかつオープンなソリューションを好みます。
Voicebox をダウンロードして、Qwen3‑TTSとWhisperをサポートする、完全にコンピュータ上で動作する音声合成およびクローンスタジオを使い始めましょう。
コメント
Voiceboxへのコメントはまだありません。誰よりも先にコメントしましょう! コメント