バズ読のURL変更しました!
新機能追加に伴い、バズ読のURLが変更になりました!新URLは以下↓
バズ読新URL:https://itl-portal.com/buzzdoku
こちらのURLをブックマークの上、ご利用をお願いしたします!
さて、音声読み上げサービス「バズ読」に音声認識、文字起こし機能が追加されました!
この記事では、新しい機能である文字起こしの機能について紹介していきます。
Whisperとは
Whisperは、「DALL-E3」や「ChatGPT」などを開発しているOpen AI社が開発した汎用的な音声認識モデルです。Webから収集されたおよそ68万時間の多言語音声を学習しているため、高い精度の文字起こしができることが強みです。多言語に対応しており、日本語の文字起こし精度が高いことも特徴の一つです。
Whisperの強み
1.日本語を含む多言語に対応
2.電話対応やナレーション、会議での録音やノイズにも強いため、雑踏などといったシチュエーションでもしっかりと音声認識し、文字起こしが可能です。
3.高い文字起こし精度
公開されている”単語誤り率”は日本語で”4.9%”。つまり”95.1%”という高い精度で文字起こしが可能という事です。
(https://github.com/openai/whisper より)
文字起こし例
音声データをアップロードするだけなので、簡単に文字起こし機能を使うことができます。
対応しているファイルは、mp3、mp4、flac、mpeg、m4a、ogg、wav、webm
の8種類です。
モデルサイズlarge-v2を使用。音声には、「バズ読」で読み上げした音声を使用しています。
それでは、実際に音声認識機能を使って音声を文字起こししてみましょう。
例1
・読み上げテキスト原文
「バズ読、カスタマーサポートです。ご利用方法に関するお問い合わせは1を、お支払いに関するお問い合わせは2を押してください。」
・Whisper文字起こし結果
「バズ読カスタマーサポートです ご利用方法に関するお問い合わせは一応お支払いに関するお問い合わせはにを押してください」
例2
・読み上げテキスト原文
「バズ読がアップデートしました。読み上げ機能に加えて文字起こし機能が追加されました。ウィスパーを活用して高精度の文字起こしが可能です。ぜひご利用ください。」
・Whisper文字起こし結果
「バズ読がアップデートしました 読み上げ機能に加えて文字起こし機能が追加されましたウィスパーを活用して高精度の文字起こしが可能です ぜひご利用ください」
例3
・読み上げテキスト原文
「今日の会議は、来期の目標や売上についてを議論していきたいと思っております。司会はわたくし山田が務めさせていただきます。本日はよろしくお願いいたします。それでは、まず営業部長の鈴木さんから発表をお願いします。」
・Whisper文字起こし結果
「今日の会議は来期の目標や売上についてを議論していきたいと思っております 司会は私山田が務めさせていただきます本日はよろしくお願いいたします それではまず営業部長の鈴木さんから発表をお願いします」
例4(英語バージョン)
・読み上げテキスト原文
「It’s nice to meet you. I work in the accounting department at the inter lab company. Have a nice day!」
・Whisper文字起こし結果
「It’s nice to meet you. I work in the accounting department at the Interlab company. Have a nice day.」
このように、ほぼ誤りのない高い精度で文字起こしを行ってくれます。
※これは音声読み上げサービス「バズ読」の音声を使用した文字起こし例です。
音声が録音された環境や、話者の話し方や音量により文字起こしの精度は変化します。
予めご了承ください。
価格
文字起こし機能追加により、新しいプランに移行となります。旧プランのプロプランは廃止となり、ライトプランが追加されました。
ライトプランは読み上げ専用のプランですが、20秒以下の音声ファイルであれば文字起こしをお試しいただけます。
音声読み上げ機能だけで良い、という方はライトプランがおすすめです。
文字起こし機能が使いたいという方は、スタンダードプラン、プレミアムプランをご契約ください。
プラン詳細
・フリープラン:会員登録のみで利用可能の無料プラン。読み上げ機能のみ利用可能。
1か月2,000トークンまで、1回の利用につき200文字までの読み上げ可能。
読み上げ音声商用利用不可
・ライトプラン:読み上げ機能のみ利用可能。
1か月100,000トークンまで、1回の利用につき2,000文字まで読み上げ可能。
読み上げ音声商用利用可能
・スタンダードプラン:読み上げ機能、文字起こし機能利用可能。
1か月200,000トークンまで、1回の利用につき2,000文字まで読み上げ可能。
25MB(動画換算で25分前後)の音声ファイルを文字起こし可能。
読み上げ音声商用利用可能
・プレミアムプラン:読み上げ機能、文字起こし機能利用可能。
1か月1,000,000トークンまで、1回の利用につき2,000文字まで読み上げ可能。
25MB(動画換算で25分前後)の音声ファイルを文字起こし可能。
読み上げ音声商用利用可
読み上げ・文字起こしは「バズ読」!
Whisperによる高精度の文字起こし機能が追加された「バズ読」をぜひ体験してみてください!