公開日 2025.03.21

更新日 2025.06.05

ChatGPT
生成AIトレンド

声までもAIで作れる？OpenAIが発表した音声モデルが衝撃的！

2025年3月21日、OpenAIが新たな音声モデルを発表しました。

発表した音声モデルは文字（テキスト）を入力するだけで、まるで本物の人が話しているような自然な音声を生成できます。

本記事では、音声モデルの概要から使い方、筆者が使った事例、活躍できる場面などを解説します。

この記事を参考に、実際に音声モデルを使ってみてください。

（株）SHIFT AI 代表取締役 / GMO AI & Web3株式会社AI活用顧問 / 生成AI活用普及協会（GUGA）協議員 / Microsoft Copilot+ PCのCMに出演 / 国内最大級AI活用コミュニティ SHIFT AI（会員20,000人超）を運営。
『日本をAI先進国に』実現のために活動中。Xアカウントのフォロワー数は12万人超え（2025年6月現在）

弊社SHIFT AIでは、ChatGPTやGeminiなどの生成AIを活用して、副業で収入を得たり、昇進・転職などに役立つスキルを学んだりするためのセミナーを開催しています。

また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。

「これからAIを学びたい」「AIを使って本業・副業を効率化したい」という方は、ぜひセミナーに参加してみてください。

10万人以上が受講！

音声モデルとは？

音声モデルとは、文字（テキスト）を入力するだけで人間が話しているような音声を生成できるAIです。

機械音声とは違い、抑揚や感情まで再現できるため「人が話しているような音声」を簡単に作れます。

以下の動画は、音声モデルが文字（テキスト）をもとに自動で読み上げた音声です。

音声モデルで文字（テキスト）をもとに自動で読み上げた音声

このように音声モデルを使えば、人間が話しているのような自然な音声を誰でも手軽に作成できます。

音声モデルの使い方

OpenAIが発表した音声モデルのうち「gpt-4o-mini-tts」は、こちらの公式デモサイトから誰でも簡単に使えます。

ここでは、デモサイトで音声を再生するための手順を解説します。

公式デモサイトにアクセス
音声の種類を選択
話し方の雰囲気を選択
読み上げる文章の入力
「PLAY」で音声を再生

画面に合わせて一緒に操作してみてください。

公式デモサイトにアクセス

音声モデル「gpt-4o-mini-tts」を使うために公式デモサイトにアクセスします。アクセスする時にログインは求められません。

音声の種類を選択

画面上部の「VOICE」で、好みの音声を選びます。一番右にあるボタンを押すとランダムで選択されます。

音声の種類の聞き分け方は以下の動画を参考にしてください。

音声を聞き分ける時の操作方法

話し方の雰囲気を選択

画面左側の「VIBE」で、話し方の雰囲気を選択します。また、灰色のボタンを選択すると雰囲気選択の一覧が更新されます。

以下の動画のように、使用者が音声の雰囲気を入力できます。

使用者が話し方の雰囲気を入力する時の操作方法

読み上げる文章の入力

画面右側の「Script」に読み上げる文章を入力します。

「PLAY」で音声を再生

ここまでの選択が完了したら「PLAY」を選択して作成した音声を聞いてみましょう。

作成した音声は「DOWNLOAD」や「SHARE」を選択すると、音声のwavファイル保存や共有ができます。

ぜひ、あなたオリジナルの音声を作成してみてください。

【筆者作成】音声モデル「gpt-4o-mini-tts」を使った3つの事例

ここでは、筆者が実際に音声モデル「gpt-4o-mini-tts」を使って筆者が作成した3つの事例を紹介します。

物語の読み聞かせ
ゲームキャラクターの音声
商品紹介動画のナレーション

音声を作成する時の参考にしてください。

物語の朗読

音声モデルを活用して、物語の読み聞かせの音声を作成しました。

物語の朗読した音声

作成時のコツは「VIBE」を箇条書きで整理し、声のトーンや表現のポイントを明確にすると抑揚がつき、より自然な朗読が作成できます。

ゲームキャラクターの音声

音声モデルを活用して、バトルに勝利したキャラクターの音声を作成しました。

バトルに勝利したキャラクターの音声

作成時のコツとして「PLAY」を繰り返し押し、納得のいく音声が出るまで再生してみましょう。

商品紹介動画のナレーション

音声モデルを使って、商品紹介動画のナレーション音声を作成しました。

商品紹介動画のナレーション音声

作成時のコツとしてセリフを短めに区切り、伝えたい商品の魅力を伝えたい部分にはかっこ（「」）や句読点（、。）を挿入しましょう。

音声モデル「gpt-4o-mini-tts」を活用できる場面

音声モデル「gpt-4o-mini-tts」は、誰でも簡単に音声を作成できるため幅広い場面で活用できます。

従来ナレーターの手配や録音・編集が必要だった音声制作を音声モデルを使用すると、短時間かつ手軽に作成できます。

音声モデル「gpt-4o-mini-tts」は、以下のような場面で活用できます。

子どもへの読み聞かせ
ゲームキャラクターのボイス
商品紹介動画のナレーション
YouTubeやSNS動画の音声
アプリやWebサービスの音声ガイド
結婚式やイベントでの演出用ナレーション
社内アナウンスや定型放送の自動化

音声モデル「gpt-4o-mini-tts」は、日常からビジネスまで幅広いシーンで使えます。さまざまな場面で音声モデル「gpt-4o-mini-tts」を活用してみましょう。

API連携に対応した音声モデルも発表

今回OpenAIは、開発者や企業向けにAPI連携に対応した音声モデルも発表しました。

以下は、今回発表されたAPI連携に対応できる音声モデルです。

モデル名	特徴	用途例
gpt-4o-mini-tts	声のトーン・話し方を細かく指定できる音声合成が可能	音声ガイド
gpt-4o-transcribe	高精度な音声認識を実現し、従来モデルよりも単語誤り率が改善	YouTube字幕を自動生成
gpt-4o-mini-transcribe	軽量化されたモデルで、モバイルデバイスでのリアルタイム音声認識に適合	スマホアプリで話しかけた内容の文字起こし

従来の音声モデル「Whisper」と比べて、単語の聞き取りミスが減り、対応できる言語数や認識の精度も向上しています。

これらの音声モデルを使えば、アプリやサービスに高性能な音声認識や自然な読み上げ機能を実装できるでしょう。

今すぐ文字からオリジナルの音声を作ってみよう！

2025年3月21日、OpenAIが発表した音声モデルは、文字を入力するだけでまるで人が話しているような音声を簡単に生成できます。

音声モデルの魅力は、面倒な録音作業やナレーターの手配が不要で、その場で即座に音声を作成できる点です。

まずは本記事で紹介した使い方の通りに、音声を作成してみましょう。

今回AIで音声を作成してみて「AIって他にもどんなことができるの」や「AIを使って副業を始めてみたい」と感じていませんか。

また、参加者限定で、「初心者が使うべきAIツール20選」や「AI副業案件集」「ChatGPTの教科書」など全12個の資料を無料で配布しています。

「これからAIを学びたい」「AIを使って本業・副業を効率化したい」という方は、ぜひセミナーに参加してみてください。

10万人以上が受講！

記事を書いた人

大学での学びと並行して活動するフリーランスのSEO/Webライター。
研究テーマは「Music to Video」。音楽の歌詞や曲調を分析し、自動で映像を生成する仕組みの開発中。
生成AIツールを実際に触れ、体験を通じて得た知見を活かし、価値を届けるライティングを実践。
趣味は野球観戦とラジオ聴取。