心理学者のStanley Smith Stevensらによって提案された、人間の音高知覚が考慮された尺度です。
1000Hzの純音の高さの感覚を1000メルと決めた上で、1000メルの半分の高さに感じた音を500メル、1000メルの2倍の高さに感じた音を2000メルという容量で定めたものです。
Deep Learning for Audio Signal Processing
→ Deep Learningにおいては必要な情報が失われるためMFCCは使わずに、最後の計算ステップである離散コサイン変換を省いたメルスペクトラム(log-mel spectrum)が使われるそうです。MFCCは従来手法である隠れマルコフモデル、混合ガウスモデル、サポートベクターマシンで使われることが多いです。
参考: https://qiita.com/tmtakashi_dist/items/eecb705ea48260db0b62