音声をMIDIに変換とは?

Audio to MIDIは、ピッチを検出して音声録音をMIDIノートデータに変換します。ボーカルメロディ、ギターリフ、その他のモノフォニック音声をアップロードすると、任意のDAWにインポートできるMIDIファイルをダウンロードできます。

ピッチ検出はYINアルゴリズムを使い、基本周波数をフレームごとに推定して安定したフレームを最も近い半音に量子化します。モノフォニック音源(同時に一音)で最も精度が出ます:ボーカル、フルート、ソロギター、口笛。ポリフォニックなコードやドラムは予測不能な結果になります。

使い方

  1. モノフォニックなメロディを含むオーディオファイル(WAV、MP3、OGG)をアップロードします。一度に1音ずつの演奏が最適です。
  2. 最小信頼度しきい値とノート持続時間を調整して、ノイズや短いトランジェントを除去します。
  3. ピアノロールで検出されたノートをプレビューし、標準MIDIファイルとしてダウンロードします。

使用するタイミング

  • スマホで録ったボーカルのアイデアをDAWにMIDIスケッチとして取り込む。
  • フルートや口笛のメロディを耳コピせずに楽譜化する。
  • アコギのフレーズをシンセラインとして使い回す。MIDIを別の音色で再生すれば質感が変わる。

結果

シンガーがスマートフォンでボーカルメロディのアイデアを録音します。そのMP3をここにアップロードすると、ツールが歌われた各音のピッチとタイミングを検出し、MIDIファイルをエクスポートします。それをAbleton Liveにドラッグしてシンセで再生できます。

よくある質問

音が抜けたり、変な音が混ざるのはなぜ?
息混じりの発音、半音以上のビブラート、重なった音は検出が苦手です。最小信頼度を上げて弱い検出を弾き、リバーブの少ない乾いた録音を使ってください。一度に一音ずつ鳴らすのがコツです。
コードとドラムが入った曲を丸ごと採譜できますか?
できません。アルゴリズムは同時に一つの音程しか想定しません。複数音が重なるとぐちゃぐちゃになります。アップロード前にトラックを分離してください(ボーカルのみ、ベースのみ等)。ポリフォニック採譜にはもっと重いモデルが必要です。
対応している音声フォーマットは?
WAV、MP3、OGG、FLACが使えます。デコードはWeb Audio APIを使ってこの端末上で行うため、ここで再生できるものはほぼ通ります。モノラルもステレオもOK。ステレオは解析前にモノラルへミックスダウンされます。
検出された音が1オクターブ上または下にずれるのはなぜ?
ピッチ検出器は基音ではなく倍音にロックすることがあり、オクターブエラーが起きます。「オクターブ」コントロールで全体を上下に動かしてください。低音が豊富な録音(エレキベース)で特に起きやすい現象です。
書き出したMIDIは元のタイミングを保ちますか?
保ちます。ノート開始時刻と長さはミリ秒で書き込まれるので、MIDIは元のテンポと一致し、グリッドにスナップされません。クオンタイズが欲しい場合はDAW側で読み込んだ後に処理してください。

関連ツール