Du sparst dabei nix. Aber Du kannst natürlich die Matrix-Multiplikationen von Hand für die drei einzelnen Rotationsmatrizen ausführen und bekommst eine Bildungsvorschrift für die finale Matrix. Damit sparst Du die drei Matrix-Multiplikationen, hast aber immernoch 6 Sinus/Cosinus-Funktionen. Das hat in der Matrix&Quaternion-FAQ auch schon jemand getan, aber halt nur für eine der zwölf möglichen Euler-Winkel-Varianten. Welchen der Euler-Winkel-Systeme Du benutzt, musst Du schon selbst wissen. Und rein statistisch stehen die Chancen eher schlecht, dass Deine Methode ausgerechnet die ist, die in der FAQ ausgeformelt wurde :-)
Und allgemein der Hinweis bei Optimierungsthemen: profile zuerst und fange dann an zu optimieren. Mit an Sicherheit grenzender Wahrscheinlichkeit hast Du das noch nicht profiled und optimierst hier auf Verdacht. Ich glaube nämlich, dass ein sinnvoll vektorisierender Compiler eine Matrix-Multiplikation in SSE2-Instruktionen abhandeln kann, weswegen die Matrixmultiplikation nicht mehr nennenswert Anteil am Gesamtsystem hat.
[edit] Und weil Nox es schon angesprochen hat: Euler-Winkel sind allgemein eine wenig zukunftsträchtige Idee. Quaternions und gezielte Rotationen nach dem tatsächlichen Bedarf anstatt einem Dreier-Tuple Winkeln sind die bessere Lösung.