🎤 日本語 TTS アリーナへようこそ

日本語 TTS アリーナは、さまざまな音声合成(TTS)モデルをブラインドテストで比較評価する コミュニティベースのプラットフォームです。LMsysの Chatbot Arenaからインスピレーションを受け、 誰でも日本語 TTS モデルの品質を直接比較・評価できる場を作りました。

💡 2つのモデルの音声を聴いて、より自然な方に投票してください。モデル名は投票後に公開されます。

🤔 なぜ日本語 TTS ベンチマークが必要なのか?

多くの商用TTSがすでに存在していますが、日本語に特化した信頼できるベンチマークは 不足している状況です。グローバルTTSモデルは日本語処理においていくつかの限界を示しています。

既存評価方式の限界

WER (Word Error Rate)

問題あり

日本語の複雑な発音パターン(数字、日付、電話番号など)をSTTで評価する際、 精度が低く実際の発音品質を適切に反映できません。

MOS (Mean Opinion Score)

限界あり

小規模な参加者を対象とした主観的評価で、コストが高く 大規模コミュニティの多様な意見を反映することが困難です。

Arena方式

解決策

コミュニティ全体が参加するブラインドA/Bテストで、 Eloレーティングシステムを通じて客観的なランキングを導出します。

グローバルTTSモデルの日本語の限界

  • 韻律(プロソディ)の不自然さ
    自然なイントネーションとトーンを実現できず、単調(monotone)な発音が生成されます。
  • 日本語特有の発音処理の弱さ
    日英混用、日付・時刻、注文/固有番号、URL・メールなど日本語特有の発音パターンを 適切に処理できません。
  • 数字発音の困難さ
    「19,992円」を「いちまんきゅうせんきゅうひゃくきゅうじゅうにえん」と自然に読んだり、 電話番号形式(011-1234-1234)を正しく発音することが困難です。
  • 専門用語および略語の処理
    「%p」を「パーセントポイント」と読むなど、常識ベースの推論が必要な発音に弱いです。

⚙️ アリーナの仕組み

評価方法はシンプルです。テキストを入力すると、2つのTTSモデルがそれぞれ音声を生成します。 2つのサンプルを聴いて、より自然な方に投票してください。バイアスを防ぐため、モデル名は 投票後にのみ公開されます。

  • 直接テキストを入力するか、ランダムな文を選択できます
  • 同じテキストで生成された2つのTTSモデルの音声を比較します
  • より自然で、明瞭で、表現力のある音声に投票します
  • リーダーボードでモデルランキングを確認できます
  • Eloレーティングシステムで客観的なランキングが算出されます

❓ よくある質問

モデルのランキングはどのように決定されますか?
チェスのランキングと同様のEloレーティングシステムを使用します。投票を受けたモデルのスコアが上がり、 相手モデルのスコアは下がります。変動幅は両モデルの現在のレーティングによって異なります。
ログインが必要ですか?
投票にはHugging Faceログインが必要です。ログインすると投票記録を追跡し、 個人リーダーボードで好みのモデルを確認できます。
新しいモデルを追加したいです。
新しいTTSモデルの追加リクエストはいつでも歓迎します。 リリース前の匿名評価をご希望の場合もお問い合わせください。
どのような基準で投票すべきですか?
自然さ、発音の正確さ、イントネーション、感情表現などを総合的に考慮して、 より「人間らしい」音声に投票してください。

🔗 参考資料

Channel TTSチームの研究内容と技術的アプローチについて詳しく知る:

Channel TTS: Towards Real-World Prosody for Conversational Agents

👥 制作者

このプロジェクトはChannel AIチームが制作しました。

Robin (신승윤)
AI Team - Speech
Jake (황정인)
AI Team Lead

📜 プライバシーおよびライセンス

入力されたテキストと生成された音声は研究目的で保存される場合があります。 ログインした場合、投票記録がアカウントと関連付けられます。

生成された音声クリップは個人的、非商用目的でのみ使用でき、再配布はできません。