「AI Gakufu で楽譜が生成できるのはわかった。でも、いったいどうやって音声ファイルを楽譜に変換しているの?」そんな疑問を持ったことはありませんか?このページでは、AI楽譜変換の核心にある「MIDI」という規格と、音声→MIDI→楽譜というプロセスを、音楽理論がわからない方でも理解できるようにひも解いていきます。
MIDIとは「音の情報」を記録するデータ形式
MIDI(Musical Instrument Digital Interface)は、1983年に制定された音楽データの国際規格です。簡単に言うと、「どの音を、いつ、どの強さで、どのくらいの長さ弾いたか」を数字で記録するフォーマットです。
例えばピアノの「ド」を弾くと、MIDIでは次のような情報として記録されます:
- 音程(ノートナンバー):60(中央ドを表す番号)
- ベロシティ(強さ):80(0〜127のスケール)
- タイミング:曲の開始から1.2秒後
- 音の長さ:0.5秒間
MIDIは「音そのもの(波形データ)」ではなく「演奏の指示書」です。このため、MP3のような音声ファイルより容量が圧倒的に小さく、楽譜化に都合が良いのです。
MP3からMIDIへ:AIが行う「音程の聞き取り」
AI Gakufu がアップロードされた音声ファイルを楽譜にする際、内部では次のプロセスを経ています:
- 音声ファイル(MP3 / WAV)の読み込み:まず音声を波形データとして解析します。
- ピッチ検出(基本周波数解析):Spotify が開発したオープンソースライブラリ「basic-pitch」を使い、波形から各音の音程(周波数)を検出します。
- MIDI変換:検出した音程・タイミング・強弱の情報を MIDI データとして出力します。
- 楽譜レンダリング:MIDI データを LilyPond(楽譜組版エンジン)に渡し、五線譜として描画し PDF を生成します。
このうち最も技術的に難しいのが「2. ピッチ検出」です。実際の音楽には複数の楽器・声・残響が重なっているため、「どの音が主旋律か」を正確に判断するのはAIにとっても高難易度の課題です。
basic-pitch が使う技術:ディープラーニングによる音源分離
Spotify の basic-pitch は、ディープラーニング(深層学習)を用いてポリフォニック(複数音が同時に鳴る)なオーディオからノートを検出します。具体的には音声の周波数成分を時間軸で表した「スペクトログラム」を画像のように扱い、ニューラルネットワークがどの周波数がどのタイミングで鳴っているかを予測します。
このアプローチは従来の手法(フーリエ変換ベース)より精度が高く、ピアノやギターのような調和音が多い楽器に特に効果的です。ただし、人の声・ドラム・複雑なコード演奏が混在する曲では、検出精度が下がりやすいのが現在の限界です。
楽譜の精度を上げるための3つのポイント
AI楽譜変換の仕組みを理解すると、「どうすれば精度が上がるか」が自然に見えてきます。
1. 単一楽器またはシンプルな編成の音源を使う
バンドサウンドやフルオーケストラの楽曲よりも、ピアノソロや単音ギターのほうが圧倒的に認識精度が高くなります。Suno AI でプロンプトを書く場合は「piano solo」「guitar melody only」などを明示すると効果的です。
2. リバーブ・エフェクトを最小限にする
残響音(リバーブ)は周波数を拡散させるため、ピッチ検出の精度を落とします。Suno AI のミックスを「dry(乾いた音)」に近づけると、AIが音程を拾いやすくなります。
3. テンポの安定した楽曲を選ぶ
テンポが大きく揺れる楽曲(ルバート演奏など)は、タイミング検出がずれやすくなります。一定のテンポで演奏された楽曲のほうが、拍の境界を正確に検出できます。
まとめ:仕組みを知ると楽譜化がもっと楽しくなる
MIDI は「演奏の指示書」であり、AI はその指示書を音声から自動で書き起こすツールです。音楽理論の知識がなくても楽譜を得ることができるのは、basic-pitch のようなAI技術と LilyPond のような楽譜レンダラーが融合したおかげです。
「なぜ一部の音が楽譜に反映されないの?」「なぜドラムパートは楽譜に出てこないの?」そういった疑問も、このしくみを理解すると自然と腑に落ちるはずです。AI Gakufu をより使いこなすために、ぜひ参考にしてみてください。