apple 5 se

Iphone 5 se A9 SoC L3 Cache Size-coque rigide iphone 5-vrkmpd

Avec aujourd’hui l’analyse de Chipworks A9X die shot, je vais également utiliser ce temps pour revoir Apple A9 SoC. Sur la base de nouvelles informations de Chipworks et de quelques données de test internes supplémentaires, j’émets une correction à notre analyse originale du téléphone SoC de dernière génération d’Apple.

Dans notre analyse originale de l’A9, j’ai écrit que le cache L3 était de 8 Mo. Ceci était basé sur nos tests initiaux avec Chipworks propre analyse de la disposition physique de l’A9, qui a pointé vers un cache L3 de 8 Mo. Plus précisément, au moment où j’ai écrit:

Cependant, Apple utilise un cache de style inclus où toutes les données de cache sont répliquées aux niveaux inférieurs pour permettre une expulsion rapide aux niveaux supérieurs. Apple aurait alors dû augmenter la taille du cache L3 de 2 Mo dans le premier niveau. placer juste pour compenser le plus grand cache L2. L’augmentation de la taille du cache L3 a donc été tout aussi importante. Sinon, je suis un peu surpris qu’Apple ait été en mesure d’emballer dans ce qui représente 6 Mo de plus de SRAM sur A9 par rapport à A8, malgré l’absence d’une augmentation de la densité des transistors.

Mon analyse de mise en page pour A9 (Die Shot Courtesy Chipworks)

Comme il se trouve, 8 Mo de cache était trop beau pour être vrai. Après quelques discussions instructives avec d’autres personnes, quelques tests supplémentaires et de nouvelles discussions avec Chipworks, notre analyse des performances et leur analyse des matrices pointent beaucoup plus vers un cache de 4 Mo. En particulier, Chipworks met la taille physique du cache L3 TSMC A9 variante à 4.5mm2, contre 4.9mm2 pour le cache A8 L3. En fin de compte, le processus FinFET TSMC 16nm est construit en plus de leur processus 20nm. La taille de pas métallique utilisée par Apple est la même avec les deux processus et c’est le facteur limitant pour la densité SRAM du cache L3.

Mais ce qui est peut-être plus intéressant, c’est ce qu’Apple fait avec ses 4 Mo de cache L3. Un cache inclusif doit être plus grand que le niveau de cache (interne) précédent, car il contient une copie de tout ce qui provient du niveau de cache précédent. Sur A8, ce rapport était de 4: 1, alors qu’avec A9, il s’agit d’un rapport de 4: 3. Techniquement, on pourrait toujours avoir un cache L3 inclusif avec cette configuration, mais la plus grande partie de son espace serait occupée par la copie du cache L2 de 3 Mo d’A9.

Alors qu’est-ce que Apple a fait à la place À la lumière de la réévaluation par Chipworks de la taille du cache A9 L3, il est clair qu’Apple a modifié sa conception de cache L3 à la place.

Ce que je crois que nous regardons ici, c’est que Apple est passé d’un cache inclusif sur A7 et A8 à un cache victime sur A9. Un cache de victime, en un mot, est un type de capture exclusive qui est rempli (et seulement rempli) par des lignes de cache expulsées du niveau de cache précédent. Dans le cas A9, cela signifie Vente Coque Huawei que les éléments expulsés des caches L2 sont envoyés au L3. Cela permet de conserver les données et les instructions récemment utilisées dans le cache L2 encore sur la puce, améliorant ainsi les performances et économisant de l’énergie par rapport à la mémoire principale, car les données récemment utilisées seront probablement encore nécessaires.

Le passage d’un cache inclusif à un cache victime permet au cache de 4 Mo sur A9 d’être toujours utile, en dépit du fait qu’il est maintenant légèrement plus grand que le cache L2 du CPU. Bien sûr, il y a des compromis ici si vous avez réellement besoin de quelque chose dans la L3, plus de gérer les données de déplacement entre L2 et L3 mais en même temps cela permet à Apple de conserver plusieurs des avantages d’un cache sans consacrer plus d’espace à cache L3 plus grand.

Pendant ce temps, du côté logiciel, nous pouvons valider qu’il s’agit d’un cache victime en retournant à notre graphique de latence A9. Avec la nature exclusive Coque Huawei 2018 du cache victime, la plage effective du cache L3 sur A9 est la première 4 Mo après la fin du cache L2; En d’autres termes, le cache L3 couvre la plage de 3 Mo à 7 Mo dans ce test. En regardant nos résultats, il y a une augmentation significative de la latence de 7 Mo à 8 Mo. Auparavant, je pensais que cela était dû au fait que nos tests peuvent contrôler tout le contenu de l’antémémoire, le reste de l’OS doit encore fonctionner, mais rétrospectivement, cela correspond beaucoup mieux aux données, surtout quand Chipworks les analyse plus en détail.

En fin de compte, le fait qu’Apple ait fait un changement de cache aussi important avec A9 est plus que ce à quoi je m’attendais, mais en même temps, il faut garder à l’esprit que le cache L3 n’a été introduit qu’avec Cyclone (A7). Ainsi, comme coque iphone 2018 plusieurs autres aspects de la conception Apple SoC, A9 est très proche du style Intel du côté de la microarchitecture, Apple ayant apporté des changements significatifs à bien plus que le CPU. Bien que couplé avec ce que nous savons maintenant sur A9X, je me demande si Apple gardera autour du cache victime L3 pour A10 et au-delà, ou si elle va aussi le chemin du cache A9X L3 et sera entièrement supprimé dans les générations futures.

jasonelmore lundi 30 novembre 2015 lien

Je le savais, les gens donnaient beaucoup de crédit à Apple pour faire correspondre les tailles de cache L3 avec le processeur Core i7 et garder le die si petit.

Tout le monde pense mal, et cela nous apprend que même les rapports de Geekbench doivent être pris avec un grain de sel.

Je suis surpris qu’ils ont gimpé l’A9X sans L3 du tout. Quelque chose de plus doit se passer ici ou a fait sérieusement Apple ne pas avoir assez d’espace avec tout ce gpu.

En ce qui concerne le Metal Pitch étant 20nm, même sur un processus de 16nm, cela m’inquiète que le futur GPU Nvidia et AMD soit construit sur TSMC.

(a) Ce que Apple fait ici est probablement plus sophistiqué que ce que fait Intel. Le point délicat n’est pas d’avoir un cache exclusif ou victime, il maintient la cohérence entre les GPUs et les processeurs. Un cache inclusif est une solution simple (mais inefficace) à ce problème. Une solution plus efficace consiste à utiliser un répertoire (que vous pouvez imaginer comme quelque chose comme le L3 contient un ensemble de balises supplémentaires sans lignes attachées, balises décrivant le contenu des caches CPU et GPU L2).

On ne sait pas exactement combien de cohérence le monde Apple / ARM / Imagination et le monde Intel offrent entre GPU et CPU aujourd’hui. L’impression que je reçois est que la cohérence telle qu’elle existe dans les produits d’AUJOURD’HUI est limitée; mais toutes les parties veulent que cela se fasse le plus rapidement possible.

Vu la vitesse à laquelle Apple évolue, je pense qu’il se passe beaucoup de choses sur les puces A successives qui ne sont pas 100% prêtes à être expédiées et qui ne sont pas exposées aux utilisateurs / développeurs, mais qui ont été mises en place pour tester et expérimenter ; et je soupçonne que l’A9 L3 s’inscrit en partie dans cette catégorie. (Ce qui explique en partie pourquoi il n’était pas sur l’A9X il peut effectuer un travail secondaire de tester l’implémentation du répertoire Apple et clarifier les trous dans l’implémentation / protocole en étant sur un seul SoC, et clairement la combinaison de GPU L2 et assez bon pour l’iPad Pro pour bien fonctionner.)

(b) WTF est-ce que Geekbench a quelque chose à voir avec ça GB ne signale pas les tailles L3. GB ne prétend pas tester les performances de L3.

Vous avez la causalité exactement à l’envers. L’A9 a publié des résultats spectaculaires en GB (et sur tous les autres benchmarks), et certains individus bruyants sur Internet nous ont immédiatement dit que c’était PUREMENT parce qu’Apple avait placé un L3 de 8MiB sur le CPU pour le jeu GB..