音声をMIDIに変換とは?
Audio to MIDIは、ピッチを検出して音声録音をMIDIノートデータに変換します。ボーカルメロディ、ギターリフ、その他のモノフォニック音声をアップロードすると、任意のDAWにインポートできるMIDIファイルをダウンロードできます。
ピッチ検出はYINアルゴリズムを使い、基本周波数をフレームごとに推定して安定したフレームを最も近い半音に量子化します。モノフォニック音源(同時に一音)で最も精度が出ます:ボーカル、フルート、ソロギター、口笛。ポリフォニックなコードやドラムは予測不能な結果になります。
使い方
- モノフォニックなメロディを含むオーディオファイル(WAV、MP3、OGG)をアップロードします。一度に1音ずつの演奏が最適です。
- 最小信頼度しきい値とノート持続時間を調整して、ノイズや短いトランジェントを除去します。
- ピアノロールで検出されたノートをプレビューし、標準MIDIファイルとしてダウンロードします。
使用するタイミング
- スマホで録ったボーカルのアイデアをDAWにMIDIスケッチとして取り込む。
- フルートや口笛のメロディを耳コピせずに楽譜化する。
- アコギのフレーズをシンセラインとして使い回す。MIDIを別の音色で再生すれば質感が変わる。
結果
シンガーがスマートフォンでボーカルメロディのアイデアを録音します。そのMP3をここにアップロードすると、ツールが歌われた各音のピッチとタイミングを検出し、MIDIファイルをエクスポートします。それをAbleton Liveにドラッグしてシンセで再生できます。
よくある質問
- 音が抜けたり、変な音が混ざるのはなぜ?
- 息混じりの発音、半音以上のビブラート、重なった音は検出が苦手です。最小信頼度を上げて弱い検出を弾き、リバーブの少ない乾いた録音を使ってください。一度に一音ずつ鳴らすのがコツです。
- コードとドラムが入った曲を丸ごと採譜できますか?
- できません。アルゴリズムは同時に一つの音程しか想定しません。複数音が重なるとぐちゃぐちゃになります。アップロード前にトラックを分離してください(ボーカルのみ、ベースのみ等)。ポリフォニック採譜にはもっと重いモデルが必要です。
- 対応している音声フォーマットは?
- WAV、MP3、OGG、FLACが使えます。デコードはWeb Audio APIを使ってこの端末上で行うため、ここで再生できるものはほぼ通ります。モノラルもステレオもOK。ステレオは解析前にモノラルへミックスダウンされます。
- 検出された音が1オクターブ上または下にずれるのはなぜ?
- ピッチ検出器は基音ではなく倍音にロックすることがあり、オクターブエラーが起きます。「オクターブ」コントロールで全体を上下に動かしてください。低音が豊富な録音(エレキベース)で特に起きやすい現象です。
- 書き出したMIDIは元のタイミングを保ちますか?
- 保ちます。ノート開始時刻と長さはミリ秒で書き込まれるので、MIDIは元のテンポと一致し、グリッドにスナップされません。クオンタイズが欲しい場合はDAW側で読み込んだ後に処理してください。