AI用語・モデル種類
音声生成AIとは
音声生成AI、音声認識AI、文字起こしAIの違いを初心者向けに整理します。
このページでできること
音声生成AI、音声認識AI、文字起こしAI、読み上げ、ナレーションの違いを整理できます。MAI-Voice-2のような音声生成系モデルを非公式ガイドとしてどう読むかも確認できます。
音声生成AIと文字起こしAIの違い
音声生成AIは文章から音声を作る方向のAIです。音声認識AIや文字起こしAIは、音声から文字へ変換する方向のAIです。どちらも便利ですが、本人同意、個人情報、誤認、権利確認が必要です。
役割分担
| 領域 | 向いていること | 人間が確認すること | 関連ページ |
|---|---|---|---|
| MAI-Voice-2 / Copilot | 音声生成、読み上げ、ナレーション文脈の整理 | 提供範囲、対応言語、本人同意 | MAI-Voice-2 |
| ChatGPT | ナレーション原稿、台本、YouTubeやSNS文面の整理 | 内容、言い回し、個人情報 | ChatGPTで原稿作成 |
| HAL | 本人同意、声の権利、なりすまし、詐欺リスク | 公開可否、第三者の声、商用利用 | AI音声安全注意 |
| GPT総合 | 音声生成AI、音声認識AI、文字起こしAIの用語整理 | モデル種類の混同 | 音声生成AIとは |
| Codex | Web、動画、LPへ出す前の公開前チェック | 説明文、埋め込み、秘密情報 | Codex公開前チェック |
音声生成AIチェックリスト
- 本人の声を無断で再現していない
- 第三者の声、未成年の声、会社関係者の声を慎重に扱っている
- なりすましや詐欺につながる音声を作っていない
- AI音声であることを明示すべき場面を確認した
- 医療、法律、金融、政治、災害など誤認リスクが高い文脈で使いすぎていない
- 音声データ、台本実物、会社情報、顧客情報を不要に掲載していない
- 料金、性能、対応言語、提供範囲は公式情報も確認した