Windows Media Audio 9 (9.2) VBR 50 et quelques genres musicaux

Pingre en espace de stockage, j'ai toujours été de ceux qui adorent flanquer plus de 250 chansons sur un simple CDR (plus ou moins 1 400 chansons sur un DVD !) sans que la qualité de ces dernières n'en pâtisse sévèrement au point de rendre la musique gênante à entendre. J’ai fait le tour des codecs afin de voir lequel permettrait que je satisfasse ma manie. Seule le WMA a attiré mon attention, non pas spécialement parce qu’il délivre une bonne qualité sonore à bas débit (l’AAC et l’OGG Vorbis le battent aisément sur ce dur terrain), mais surtout parce qu’en termes de compatibilité avec les appareils actuels et en termes de vitesse d'encodage, il reste sans rival. Et le bon compromis a été trouvé en fait de paramètres d'encodage : utilisation du mode VBR dont l’intéressante particularité est de disposer d'un modèle psycho-acoustique très efficace quant au respect des sons de faible volume. Question niveau de qualité, le niveau 50, dit de qualité moyenne, a par moi été choisi. Certes, il retire à la musique originelle les sons les plus aigus, mais maintient un bon équilibre tonal sans engendrer de métallisation sensible, défaut inévitable en ses si bas débits (en effet, WMA VBR 50 s’arrange, selon la nature du son à compresser, à produire un fichier final dont le débit binaire varie entre environ 40 et 112 kbits par seconde, voire plus si l’encodeur bogué versions 9.1 est utilisé. Mais généralement, si le CD audio original est riche en composantes spectrales aiguës, le bitrate avoisine 80 kbits par seconde).

Bien évidemment, en VBR 50, le WMA s’en tirera plus ou moins bien selon les caractéristiques des signaux soumis à ses modèles mathématiques. En général, plus une musique sera « variée », plus l’encodeur aura du mal à maintenir le niveau de qualité imposée. Cela se traduira généralement par des allocations automatiques de bits supplémentaires dans les zones difficiles de la chanson et, dans des rares cas, à une métallisation du signal audio dans les segments où un niveau de qualité plus élevé est exigé. WMA 9.2, heureusement, dispose d'algorithmes mieux étudiés pour ce genre situation et réduit fortement le son métallique.

Signalons aussi que des signaux trop simples (comme la voix d'une personne) peuvent, en monophonie, engendrer une légère métallisation si le son est de qualité médiocre. C'est qu’ici, l'encodeur baisse automatiquement le bitrate et le niveau de qualité d'origine à un niveau imposé (ici, 50). Lorsque le niveau originel est bas, abaisser de nouveaux ledit niveau ne peut qu’engendrer de la distorsion. Fait heureux, le WMA 9.2 pallie généralement ce type de désagréments grâce à des formules mathématiques mieux élaborées.

Ci-dessous, je vous présente quelques genres musicaux et quelques types de sons encodés en stéréo, ainsi que le comportement du mode VBR 50 en termes de bitrate. Ces genres et types de sons proviennent d’un CD audio original ou des fichiers MP3 à bitrate de 320 kbits par seconde (pertes infimes du signal, totalement inaudibles).

1.  Les sons et les genres « compliqués »

v  Castagnettes : leurs sons très aigus et leur cadence répétitive favorable au pré-écho obligent l’encodeur à trier dans ce fouillis des fréquences aigues nécessaire au maintien de la qualité 50. Lesdites fréquences s’avèrent nombreuses pour ce type de sons et font que le bitrate augmente, dépassant parfois 90 kbits par seconde

v  Guitare rock : sa richesse spectrale dont presque toute la gamme de sons a une intensité égale met sérieusement l'encodeur en difficulté. Parfois, ici, WMA VBR 50 occasionne une amputation assez remarquable de hautes fréquences et une très légère métallisation. Le bitrate est souvent compris entre 80 et 112 kbits par seconde

v  Techno, disco, ainsi que la musique électronique : bardés de son à multiples harmoniques (qui mettent en souffrances les algorithmes de masquage), d’une densité moindre que le rock certes, mais plus riches en aigues, ce genre fait souvent grimper le bitrate au-delà de 80 kbits par seconde, sans cependant distorsion audible en général

v  Salsa : généralement pleine de sonorités haute fréquence, la salsa génère parfois de la métallisation à la fréquence de coupure (environ 13 kHz) avec certains morceaux assez « durs », mais de manière moins audible que ce que le rock génère. Le bitrate dépasse souvent les 85 kbits par seconde

2.  Les sons et les genres « intermédiaires »

Ici se retrouvent, seben, zouk, rap, hip-hop, R&B, raï et autres slows. Selon la richesse instrumentale mise en jeu, le bitrate peut-être aussi bas que 50 kbits par seconde ou grimper à plus de 100 kbits par seconde. Mais il avoisine souvent la fourchette 65 à 85 kbits par seconde. Le seben, le raï, le zouk et styles voisins contraignent très souvent l’encodeur à créer des fichiers audio à bitrate moyen de plus de 80 kbits par seconde.

3.  Les sons et les genres « faciles »

v  Voix en a cappella : la voix humaine plus pauvre en harmoniques que beaucoup d'instruments, sa compression demande peu de bits, à moins qu’il s'agisse d'une foule. L'encodeur utilisera un bitrate généralement compris entre 45 et 75 kbits par seconde selon la richesse stéréo

v  Violon, harpe, piano : ces instruments produisent des sons aux composantes spectrales simples et régulières que les algorithmes du genre Huffman traitent rapidement et efficacement. Le débit binaire est presque identique à celui de la voix a cappella

v  Musique classique en général : riche en instruments ci-haut cités, elle engendre rarement des bitrates supérieurs à 80 kbits par seconde