About - 日本語 TTS アリーナ

🎤 日本語 TTS アリーナへようこそ

日本語 TTS アリーナは、さまざまな音声合成（TTS）モデルをブラインドテストで比較評価するコミュニティベースのプラットフォームです。LMsysの Chatbot Arenaからインスピレーションを受け、誰でも日本語 TTS モデルの品質を直接比較・評価できる場を作りました。

💡 2つのモデルの音声を聴いて、より自然な方に投票してください。モデル名は投票後に公開されます。

多くの商用TTSがすでに存在していますが、日本語に特化した信頼できるベンチマークは不足している状況です。グローバルTTSモデルは日本語処理においていくつかの限界を示しています。

問題あり

日本語の複雑な発音パターン（数字、日付、電話番号など）をSTTで評価する際、精度が低く実際の発音品質を適切に反映できません。

限界あり

小規模な参加者を対象とした主観的評価で、コストが高く大規模コミュニティの多様な意見を反映することが困難です。

解決策

コミュニティ全体が参加するブラインドA/Bテストで、 Eloレーティングシステムを通じて客観的なランキングを導出します。

韻律（プロソディ）の不自然さ
自然なイントネーションとトーンを実現できず、単調（monotone）な発音が生成されます。
日本語特有の発音処理の弱さ
日英混用、日付・時刻、注文/固有番号、URL・メールなど日本語特有の発音パターンを適切に処理できません。
数字発音の困難さ
「19,992円」を「いちまんきゅうせんきゅうひゃくきゅうじゅうにえん」と自然に読んだり、電話番号形式（011-1234-1234）を正しく発音することが困難です。
専門用語および略語の処理
「%p」を「パーセントポイント」と読むなど、常識ベースの推論が必要な発音に弱いです。

評価方法はシンプルです。テキストを入力すると、2つのTTSモデルがそれぞれ音声を生成します。 2つのサンプルを聴いて、より自然な方に投票してください。バイアスを防ぐため、モデル名は投票後にのみ公開されます。

モデルのランキングはどのように決定されますか？

チェスのランキングと同様のEloレーティングシステムを使用します。投票を受けたモデルのスコアが上がり、相手モデルのスコアは下がります。変動幅は両モデルの現在のレーティングによって異なります。

ログインが必要ですか？

投票にはHugging Faceログインが必要です。ログインすると投票記録を追跡し、個人リーダーボードで好みのモデルを確認できます。

新しいモデルを追加したいです。

新しいTTSモデルの追加リクエストはいつでも歓迎します。リリース前の匿名評価をご希望の場合もお問い合わせください。

どのような基準で投票すべきですか？

自然さ、発音の正確さ、イントネーション、感情表現などを総合的に考慮して、より「人間らしい」音声に投票してください。

Channel TTSチームの研究内容と技術的アプローチについて詳しく知る：

このプロジェクトはChannel AIチームが制作しました。

Robin (신승윤)

AI Team - Speech

Jake (황정인)

AI Team Lead

入力されたテキストと生成された音声は研究目的で保存される場合があります。ログインした場合、投票記録がアカウントと関連付けられます。

生成された音声クリップは個人的、非商用目的でのみ使用でき、再配布はできません。