Spekulationsthread: Was kommt 2011+

Wo fehlt der denn? :] Es ging nicht um L2 oder L3. Es ging einfach um eine gleichwertige Menge an Cache. Schliesslich existieren keine offiziellen Angaben zu einem Modul ohne L2. Wenn du welche hast, dann nur her damit. Dann rechnen wir nochmal ohne Cache, um die Grösse der Kernlogik zu vergleichen.
Nö schon klar das egal wie man es dreht und wendet nur Käse, ohne extakte Angeben, dabei herauskommt. Nur, wenn du bei deinem Vergleich den L3 vom Intel mit einbeziehst, dann solltest du es beim BD auch tun [an dieser Stelle: Windhund ich weiß sehr wohl das BD L3 bestitzt], und nicht mit zweierlei Maaß messen. An anderer Stelle wird gemunkelt das jener BD wohl mit L3 größer als Westmere ausfallen soll. Eine Ernüchterung wenn es so sein sollte.
.
EDIT :
.

Wow, die können wieder rechnen... *admin*

Der i7-950 hat einen Takt von 3,06/3,33Ghz Quad/Turbo,
der i7-930 hat einen Takt von 2,80/3,06Ghz Quad/Turbo
==> der i7-950 ist rund 9% schneller als der i7-930

Ist i7-980X rund 40% schneller als i7-930, dann ist er nicht gleichzeitig 40% schneller als der 9% Schnellere, sondern eben nur noch rund 28% schneller als der i7-950, mit dem BD verglichen wurde.

Und ist nun BD rund 50% schneller als der i7-950, aber i7-980X nur rund 28% schneller als der i7-950, dann wäre der BD noch rund 17% schneller als der i7-980X...
.
Deine Geschichte/Rechnung hat einen großen Haken, du weißt nicht unter welchen Bedingungen BD 50% schneller als ein (alter) i7 sein soll. Wäre es wie bei PCG gerechnet ein Anwendungs/Spiele mix, würde es stimmen. Wären es aber voll-optimierte Multithreaded-Andungen, sähe es anders aus, denn da wäre der 6 Core-Westmere in der Tat um 50% schneller als ein 4 Core Nehalem. Und da es sich bei BD um eine Serverprozessor handelt, wo MT-Leistung auschlaggeben ist, glaube ich eher letztere Variante.
 
Zuletzt bearbeitet:
Er schreibt doch klar und deutlich "4x 2 Pins im Sockel ausgespart"

Das habe ich gesehen.

und darunter beim "echten" AM3+ sieht man, dass es nur 3x 2 +1 Pin ausgespart sind.

...das nicht. Weder hab ich die Adleraugen noch genügend erfahrung um zu wissen wie diese Aussparungen aussehen. Also habe ich gefragt statt einfach nur zu raten.
.
EDIT :
.

Ein Kern ist ein Kern und ein Modul ist ein Modul. Ein Modul enthält 2 Int-Kerne, 2 128-Bit-FPUs/SIMD-Einheiten (zu 256Bit zusammenschaltbar) und ein Frontend

Also wenns FPU/SIMD Enthält ist es kein Kern mehr sondern ein Modul? Das muß ich meinem Athlon64 sagen, da läuft der gleich ne Ecke schneller.

Meine Meinung: Performance, elektrische Leistungsaufnahme, Größe des Die. Das sind die Parameter anhand dener ich einen Prozessor vergleichen würde, und da die Performance keine absolute Größe sondern von der Software abhängig ist würde ich diese Software immer mit einbeziehen.
 
Zuletzt bearbeitet:
Neues von der Patente Front, AMD hat was gegen das grottige Replay, das es beim P4 gab:
http://www.freepatentsonline.com/7861066.html

Edit:
Ach das Teil war wieder einmal bereits früher veröffentlicht, hier die alte Version:
http://www.freepatentsonline.com/pd.../2009/002/US20090024838/pdf/US20090024838.pdf

Also doch nichts Neues. Der Prüfer hat jetzt nen Berg Referezen ergänzt, das wars.
[h1]SUMMARY [/h1]
Various embodiments of a mechanism for suppressing instruction replay in a processor are disclosed. In one embodiment, a processor includes one or more execution units configured to execute instruction operations. The processor also includes a scheduler that may be configured to issue the instruction operations for execution by the one or more execution units, and to cause instruction operations that are determined to be incorrectly executed to be replayed, or reissued. In addition, a prediction unit within the processor may predict whether a given instruction operation will replay and to provide an indication that the given instruction operation will replay. The processor also includes a decode unit that may decode instructions and in response to detecting the indication, may flag the given instruction operation. The scheduler may further inhibit issue of the flagged instruction operation until a status associated with the flagged instruction is good.
In one specific implementation, the prediction unit includes a control unit that may predict instruction replay based on an execution history of the given instruction operation using, for example, a hashing function.
Vorgeschichte zum Replay:
2. Description of the Related Art
Superscalar processors attempt to achieve high performance by issuing and executing multiple instructions per clock cycle and by employing the highest possible clock frequency consistent with the design. One method for increasing the number of instructions executed per clock cycle is out of order execution. In out of order execution, instructions may be executed in a different order than that specified in the program sequence (or “program order”). Certain instructions near each other in a program sequence may have dependencies which prohibit their concurrent execution, while subsequent instructions in the program sequence may not have dependencies on the previous instructions. Accordingly, out of order execution may increase performance of the superscalar processor by increasing the number of instructions executed concurrently (on the average). Another method related to out of order execution is speculative execution, in which instructions are executed subsequent to other instructions which may cause program execution to proceed down a different path than the path containing the speculative instructions. For example, instructions may be speculative if the instructions are subsequent to a particular instruction which may cause an exception. Instructions are also speculative if the instructions are subsequent to a predicted conditional branch instruction which has not yet been executed. Similarly, instructions may be out of order or speculatively scheduled, issued, etc.
Unfortunately, scheduling instructions for out of order or speculative execution presents additional hardware complexities for the processor. The term “scheduling” generally refers to selecting an instruction for execution. Typically, the processor attempts to schedule instructions as rapidly as possible to maximize the average instruction execution rate (e.g. by executing instructions out of order to deal with dependencies and hardware availability for various instruction types). These complexities may limit the clock frequency at which the processor may operate. In particular, the dependencies between instructions must be respected by the scheduling hardware. Generally, as used herein, the term “dependency” refers to a relationship between a first instruction and a subsequent second instruction in program order which requires the execution of the first instruction prior to the execution of the second instruction. A variety of dependencies may be defined. For example, a source operand dependency occurs if a source operand of the second instruction is a destination operand of the first instruction.
Generally, instructions may have one or more source operands and one or more destination operands. The source operands are input values to be manipulated according to the instruction definition to produce one or more results (which are the destination operands). Source and destination operands may be memory operands stored in a memory location external to the processor, or may be register operands stored in register storage locations included within the processor. The instruction set architecture employed by the processor defines a number of architected registers. These registers are defined to exist by the instruction set architecture, and instructions may be coded to use the architected registers as source and destination operands. An instruction specifies a particular register as a source or destination operand via a register number (or register address) in an operand field of the instruction. The register number uniquely identifies the selected register among the architected registers. A source operand is identified by a source register number and a destination operand is identified by a destination register number.
In addition to operand dependencies, one or more types of ordering dependencies may be enforced by a processor. Ordering dependencies may be used, for example, to simplify the hardware employed or to generate correct program execution. By forcing certain instructions to be executed in order with respect to certain other instructions, hardware for handling consequences of the out of order execution of the instructions may be omitted. For example, instructions which update special registers containing general processor operating state may affect the execution of a variety of subsequent instructions which do not explicitly access the special registers. Generally, ordering dependencies may vary from microarchitecture to microarchitecture.
While the scheduling mechanism respects dependencies, it is desirable to be as aggressive as possible in scheduling instructions out of order and/or speculatively in an attempt to maximize the performance gain realized. However, the more aggressive the scheduling mechanism (i.e. the fewer conditions which may prevent a particular instruction from being scheduled), the more likely the occurrence of an incorrectly executed instruction becomes. One recovery technique for incorrectly executed instructions is to purge the incorrectly executed instruction and all subsequent instructions from the processor pipeline and to refetch the incorrectly executed instruction (and subsequent instructions). Often, the purging and refetching is delayed from the discovery of incorrect execution for hardware simplicity (e.g. until the incorrectly executed instruction is the oldest instruction in flight). The average number of instructions actually executed per clock cycle is decreased due to the incorrect execution and the subsequent purging events. For aggressive scheduling mechanisms which encounter incorrect execution more frequently, the performance degradation attributable to this type of recovery mechanism may be substantial.
Accordingly, many scheduling mechanisms include another recovery technique for incorrectly executed instructions. In this technique, an instruction operation that is subsequently found to be incorrectly executed may be reissued or “replayed.” Thus, the penalty for incorrect execution of instruction operations may be reduced when compared to purging the incorrectly executed instruction operation and younger instruction operations from the pipeline and refetching the instruction operation.
However although there are benefits to reissuing instruction operations, in some cases a reissue mechanism may cause problems. For example, if instruction operations are continually replayed, excess power consumption and performance degradation may result.
Oder auch schön mit Animation bei xbitlabs:
http://www.xbitlabs.com/articles/cpu/display/replay.html

und noch 2 Patente:
1 US7840786 Techniques for storing instructions and related information in a memory hierarchy
2 US7827355 Data processor having a cache with efficient storage of predecode information, cache, and method
 
Zuletzt bearbeitet:
Nö schon klar das egal wie man es dreht und wendet nur Käse, ohne extakte Angeben, dabei herauskommt. Nur, wenn du bei deinem Vergleich den L3 vom Intel mit einbeziehst, dann solltest du es beim BD auch tun
Es gibt aber keine Angaben von AMD zur Kernlogik + 2 MiB L3. Wie oft denn noch? :] Und nur, um deinem sinnfreien Einwurf jeglichen Wind aus den Segeln zu nehmen, L3 bei Intel ist sicherlich nicht pro AMD gerechnet, da L3 idR dichter gepackt ist als L2. Also nochmal, es ging nicht um L2 oder L3, oder Cache allgemein. Es ging rein um die Kernlogik. Und bevor du hier noch weiter überflüssige Beiträge schreibst, würde ich vorschlagen, du bringst entweder genaue Zahlen ohne Cache oder lässt es bleiben.


An anderer Stelle wird gemunkelt das jener BD wohl mit L3 größer als Westmere ausfallen soll. Eine Ernüchterung wenn es so sein sollte.
Nö, ganz sicher nicht. Die Designs sind sowieso nicht 1:1 vergleichbar. Der 4-Modul Bulldozer besitzt mehr Cache, 16 MiB L2+L3, gegenüber 13,5 MiB L2+L3 beim 6-Kern Westmere. Ausserdem sind die Einsatzgebiete andere. Westmere-EP kann maximal auf 2P Plattformen eingesetzt werden. Der Orochi Die hingegen ist auch die Basis für Interlagos, welcher ebenfalls auf 4P Plattformen einsetzbar ist. Dh, Orochi besitzt mehr Interconnects.
 
Mal was aus dem Server-Bereich:

Today JF-AMD confirmed some stuff for me about the new AMD server chips. The new Bulldozer architecture in the server market is a little bit different than the client versions. These chips will still be released under the AMD Opteron moniker which has been around since Sledgehammer K8 was released April 22, 2003. These chips took the market by storm something many hope Bulldozer will do as well. Opteron "Interlagos" and "Valencia" processors have a release date of Q3 2011.

AMD Opteron chips will all contain 4 HyperTrasport links this is to allow them to be used in a multiprocessor environment up to 4 cpu's per client. In addition to this each chip will contain two 128bit memory controllers these memory controllers will allow ganged and unganged usage as is possible on current chips however the pair of 128bit controllers equates to 4 channels not 2 which will be available to desktop chips. Unganged mode will allow simultaneous read/write of 4 memory channels (quad channel) this will substantially increase the performance in server memory.

8 core chips will be native bulldozer chips with the added HyperTransport links and dual 128bit memory controllers.

12/16 core chips will be two dies in a single package. They will be connected via an internal HyperTransport link JF-AMD would not comment on scaling via HyperTransport on the new chips. At initial release the 12 core chips will could be based off of a pair of 8 core dies with 4 cores disabled. If this is true there is a very slim chance mainly due to AMD server chipsets that the 12 core chips could be "unlocked" into 16 core chips. Due to the server environment this is unlikely as the 4 "extra" cores would have been disabled due to defect a word that does not fly well with a server environment or its customers. Eventually we may see a shift to a pair of 6 core dies in a single package. 16 core chips will of course be based off of a pair of 8 core dies in a single package.

Unlike older chips we will not be seeing a Opteron 1XXX series chip on a client board there will not be infrastructure sharing between client and server for Bulldozer based chips. Single Opteron servers will be handled by server series C32 boards. This means we will not have another Opteron 144 which was inducted into the "Hardware Hall of Fame" by UK magazine Custom PC in 2010 as the "The best overclocker's CPU ever made."

Socket C32 is an LGA1207 just like socket F however C32 is keyed differently to prevent mis-insertion of socket F chips which only contain a DDR2 memory controller. This socket will house the AMD Opteron "Valencia" processors.

Socket G34 currently houses "Magny-Cours" Opteron 6100 series cpu's and will be upgradable to Bulldozer-based "Interlagos" Opteron 6200 series processors. This socket features 4 channel (2 per die) memory. Socket G34 CPUs will function with unbuffered ECC or non-ECC RAM in addition to the traditional registered ECC RAM. G34 is a third generation Opteron socket just like C32.

Edit: I have been informed there will be no way to unlock a chip on a server platform...ever.
Quelle
 
8 core chips will be native bulldozer chips with the added HyperTransport links and dual 128bit memory controllers.
Das ist neu für mich. Bisher waren es 2x 64-Bit Memory Controller (oder 1x 128bit, welcher ganged/unganged betrieben werden konnte, was auch immer der korrekte Terminus ist). Wenn ich mich recht erinnere, war angekündigt, das Sockel C32-CPUs mit 3 Speicherkanälen (à 64 Bit) kommen soll (oder ein Nachfolger von C32? Hoffentlich verwechsle ich da jetzt nichts), aber 4 Kanäle auf einem Die, das ist mir neu. Das würde auch bedeuten, dass die angekündigten 8-Kerner auf Sockel G34 tatsächlich mit nur einem Die realisiert werden könnten.

Es sei denn, der Autor hat mit diesem Satz schlicht Bullshit geschrieben. Oder ich lese ihn falsch :]
 
Nein, da verwechselst du etwas. C32 ist Dual-Channel und wird es auch bleiben. Drei Kanäle waren für den Nachfolger angekündigt. Ist mir aber gerade entfallen, welcher das war. Müsste man nochmal auf der Roadmap nachschauen. Für mich sieht es eher so aus, als ob man die Bandbreite pro Kanal verdoppelt hätte? Das wäre zumindest auch ein Grund für AM3+.
 
Ich war gestern etwas zu müde schon um das zu übersetzen. Wenn ich das richtig lese werden alle Opterons 2x128bit bzw 4x64 besitzen. Also Quadchannel, was bei der Kernzahl durchaus vernünftig ist.

each chip will contain two 128bit memory controllers
Auch hier noch mal
8 core chips will be native bulldozer chips with the added HyperTransport links and dual 128bit memory controllers.

Man macht also bei AMD das erste mal größere Designunterschiede zum Desktop. Bisher war ja die HT-Anbindung der einzige Unterschied.

Der 12C wird ein beschnittener 16C. an diesem Punkt scheint AMD das alte Prinzip der Beschneidung weiterzuführen.
At initial release the 12 core chips will could be based off of a pair of 8 core dies with 4 cores disabled.

Sockel C32 wird die gleiche Pinzahl wie Sockel F haben, aber nicht kompatibel, da anders angesteuert.
Socket C32 is an LGA1207 just like socket F however C32 is keyed differently to prevent mis-insertion of socket F chips which only contain a DDR2 memory controller.

Aktuelle G34-Sockel sind aber (je nach BIOS-Support) kompatibel zum Bulldowzer.
Socket G34 currently houses "Magny-Cours" Opteron 6100 series cpu's and will be upgradable to Bulldozer-based "Interlagos" Opteron 6200 series processors.


das dürften so etwa alle Infos daraus sein.
 
Nein, da verwechselst du etwas. C32 ist Dual-Channel und wird es auch bleiben. Drei Kanäle waren für den Nachfolger angekündigt. Ist mir aber gerade entfallen, welcher das war. Müsste man nochmal auf der Roadmap nachschauen.
Dafür gibts den BD2 Thread:
http://www.planet3dnow.de/vbulletin/showthread.php?t=387886

Für mich sieht es eher so aus, als ob man die Bandbreite pro Kanal verdoppelt hätte? Das wäre zumindest auch ein Grund für AM3+.
Ich glaube eher, dass da einer was in den falschen Hals bekommen hat, eventuell meint er mit 8 Kernen ja auch 8 Module, sowas passiert schnell wenn man nicht 100% mit allen Details vertraut ist.
Am wahrscheinlichsten ist, dass er die "Dual 128bit" falsch verstanden hat, da hat er wohl was von dual memory Kontroller gelesen und dass der 128bit ist, und dass dann fälschlicherweise zusammengebastelt.


Ich war gestern etwas zu müde schon um das zu übersetzen. Wenn ich das richtig lese werden alle Opterons 2x128bit bzw 4x64 besitzen. Also Quadchannel, was bei der Kernzahl durchaus vernünftig ist.
Nö, ist Käse, dann hätte ein MCM 8 Speicherkanäle, was will man mit denen, G34 hat nur 4 Kanäle ? Das Einzigste, was sein könnte, ist das man schon den dritten Kanal auf dem DIE vorgesehen hat, wie gruffi schon sagte. Aber JF redet nie von so techn. Sachen, der redet nur über Endprodukte.

MMn ist das ganze nur ein Mißverständnis. Quadchannel für ein Orochi DIE wäre auch gar nicht vernünftig, sondern Overkill. Das Thema Speicherbandbreite hatten wir schon mal vor ner gewissen Zeit. Es reicht, wenn AMD DDR3 richtig ausnützt, im Moment bremst der Uncore der K10 die ganze Geschichte auf (dual channel) DDR2 Niveau runter. Anstatt 21 GB/s (1333) dröppeln 13-15 GB/s durch die Leitung, wenn BD die volle BW von dual 1866 ausnützen kann (~30 GB/s) reichts wunderbar, das ist schon eine Verdopplung der aktuellen Werte. Zu alledem gibts dann auch noch viel, viel Cache.
 
Nö, ist Käse, dann hätte ein MCM 8 Speicherkanäle, was will man mit denen, G34 hat nur 4 Kanäle ? Das Einzigste, was sein könnte, ist das man schon den dritten Kanal auf dem DIE vorgesehen hat, wie gruffi schon sagte. Aber JF redet nie von so techn. Sachen, der redet nur über Endprodukte.

MMn ist das ganze nur ein Mißverständnis. Quadchannel für ein Orochi DIE wäre auch gar nicht vernünftig, sondern Overkill. Das Thema Speicherbandbreite hatten wir schon mal vor ner gewissen Zeit. Es reicht, wenn AMD DDR3 richtig ausnützt, im Moment bremst der Uncore der K10 die ganze Geschichte auf (dual channel) DDR2 Niveau runter. Anstatt 21 GB/s (1333) dröppeln 13-15 GB/s durch die Leitung, wenn BD die volle BW von dual 1866 ausnützen kann (~30 GB/s) reichts wunderbar, das ist schon eine Verdopplung der aktuellen Werte. Zu alledem gibts dann auch noch viel, viel Cache.

Ok, wenn man das so sieht. Ich wusste nicht, dass da irgendwo was "bremst". Meine Rechnung war eher, dass 12C K10.5 etwa die Leistung von 8C K12 haben würden und entsprechend hier eine gleiche Speicherbandbreite nicht verkehrt wäre. Intels 8-Kerner wird ja auch ein Quadchannel-Interface bekommen.

Unmöglich wäre das ganze auch nicht, da man vielleicht für alle Bulldowzer mit 4 Modulen schon einen entsprechenden Speichercontroller vorgesehen hat, diese aber bei der Desktopvariante nicht nutzt.
 
Unmöglich wäre das ganze auch nicht, da man vielleicht für alle Bulldozer mit 4 Modulen schon einen entsprechenden Speichercontroller vorgesehen hat, diese aber bei der Desktopvariante nicht nutzt.

Dienst an den MB Hersteller, damit müssen sie nur ein Designe Herstellen und darauf können alle neu kaufbaren AMD Prozessoren laufen.
 
Welche Vorteile hätte es, auch Ethernet und Sound mit auf den Prozessor-Die zu bringen?
Das müsste im Vergleich zu DX10 oder DX11-Grafik ja verhältnismäßig einfach zu machen sein. Würde das Gesamtsystem evtl. wieder etwas sparsamer im Verbrauch und günstiger in der Anschaffung machen.

Die meisten nutzen doch heute den onboard-Sound und das Onboard-ethernet... Warum nicht gleich on Die?
 
Die meisten nutzen doch heute den onboard-Sound und das Onboard-ethernet... Warum nicht gleich on Die?

Für den x86 Markt und seine Struktur lohnt sich das derzeit nicht. AMD und Intel stellen Prozessoren und Chipsätze bereit, für die Umsetzung von Produkten sind aber die OEMs verantwortlich. Wirklich SoC die alles in sich vereinen würden wohl für viele OEMs nicht von Interesse sein, da man keine Produktvielfalt schaffen könnte. Dafür müsste dann AMD/Intel die SoC nach Kundenwünsche anpassen. Das ist bei Komplexen Designs ein zu großer Aufwand. AMDs Ontario/Zacate sollen sich zwar leichter auf Kundenwünsche anpassen lassen, aber ob dafür ein Markt besteht muss sich zeigen. Zum anderen sind Chips wie Ethernet oder Sound im Paket mit allen Komponenten - also Anschlüße, Wandler usw. - so günstig das dafür im x86 Bereich kaum ein Markt vorhanden ist. Man sieht es sehr schön an den Aktuellen SB von AMD. Die haben einen Ethernet Controller integriert, benutzt wird er aber von keinen Mainboardhersteller, da die zusätzlichen Komponenten um den Controller nutzbar zu machen mehr kosten als ein Gesamtpaket von Realtek.

Bei ARM sieht das wieder anders aus. Da gibt es SoC die fast alles in sich vereinen, das ist aber auch mehreren Umständen geschuldet. Zum ersten haben die Entwickler eines ARM SoC eine relativ freie Wahl der Komponenten und können dadurch das SoC an das gewünschte Endprodukt anpassen. Das wiederum ist durch die darauf Ausgelegte Architektur von ARM erleichtert. Was dann wiederum dafür sorgt das eine ARM Lizens interessanter wird. Als man hat drei dinge die es bei ARM leichter machen eine größere Vielfallt zu schaffen: lizenzierbares Design, auf Anpassung ausgelegtes Design und relativ freie Auswahl von zusätzlichen Komponenten die intrigiert werden können. Das dieses Modell sehr gut funktioniert sieht man sehr schön an aktuellen Smartphones, dort kommen selbst von gleichen Herstellern verschiedene SoC in verschieden Konfigurationen zum Einsatz. Aber auch hier gibt es Unterscheide zwischen OEMs die eine eigene Chipentwicklung haben und sich ihre ARM SoC selber entwickeln - z.B. Samsung - oder OEMs die bei Chipentwicklern - Qualcomm, TI, Marvell, nV - bereitgestellte Produkte wie im x86 Markt kaufen - z.B. Asus, HTC, Acer.

Da weder AMD noch Intel ihre Architektur lizenzieren werden kommt es also darauf an ob man auf Kundenwünsche eingehen kann und ob man damit einen wirtschaftlichen Vorteil für den Kunden erarbeitet. Da wo platz ist sind Sound- und Ethernetchips so günstig das es für große Plattformen so etwas warscheinlich nicht geben, bleibt also nur Anwendungen wo kein Platz für mehr Chips ist und das ist derzeit Smartphone- und Tabletmarkt (< 10"), ob man dort bald angepasste SoC von AMD sieht - vielleicht mit Fusion in 28nm? - wird sich zeigen müssen. Intel hat zu Anpassungen von Moorestown/Oak Trail und deren Nachfolgern nach Kundenwunsch noch nichts verlautbart, also hat derzeit ARM dieses Segment fest im Griff.
 
Zuletzt bearbeitet:
Charlie hat auf Semiaccurate ein Orochi-Wafer-Bild gepostet:

SemiAccurate_Orochi_wafer_WM.jpg


Kann jemand damit mehr anfangen als ich?
 
Man sieht schonmal, dass was sie versprochen haben :-)
Jo, wobei Deine grüne Fläche aber kein Modul ist, sondern 2 Module, hast ja auch 2x L3 dabei, das ist etwas viel :)
Aber ansonsten sieht man nur, dass es die kleinen Kerne und die kleinen L2 Caches dem Photoshop Die Shot waren. Hatten wir eh schon vermutet, wenn ich mich recht erinnere.
 
Ok, da hab ich wohl zulange auf die Präsentationsfolien geschaut wo 2 Threads nebeneinander "fließen" xD
So sehen die +12% Fläche = 160% Leistung viel besser aus ^^
 
Eine grobe Abschätzung von mir ergibt eine Diegröße um die 300mm²....aber nachdem ich nur abschätzt habe, wie groß der Wafer wirklich ist, ist auch meine Abschätzung entsprechend grob.

Aber wenn sich jemand die Mühe macht, und versucht anhand der Krümmung an den zwei sichtbaren Stellen die Größen zu ermitteln, wüssten wir mehr 8)
 
Zuletzt bearbeitet:
So sehen die +12% Fläche = 160% Leistung viel besser aus ^^

Stimmt das so, wie das hier steht bzw. wurde es so propagiert? Ich habe zwar in Erinnerung, dass der zweite Integerkern +80% bringt, aber nicht, dass man 80% + 80% rechnen muss. Ich dachte, es geht in die Richtung 100%+80%?

Kann mich jemand aufklären, welches die richtige (d.h. propagierte) Variante ist?

LG
 
ich dache bisher auch immer 1.Cluster = 100% & 2.Cluster = 80%

wenn man pro Modul 1.8 rechnet x 4 Module = 7.2

wenn die 7.2 aber nicht stimmen und es nur 6.4 sind, dann hat das Modul aber mehr Leistung pro takt wenn man bedenkt das Bulldozer laut spekus mit Westmere 6C/12T konkurriert. mir wäre lieber wenn AMD 4 Module als 4 Cores vermarktet, vielleicht hat AMD das abgelehnt weil 1 Modul noch nicht 1 Thread auslasten kann? aber selbst auf den neuen Folien steht für 2012 8 next Generation BD Cores, es bleibt also bei 8 Threads, ich bin mal gespannt ob die noch auf BD1 basieren, mehr Takt ist wahrscheinlich, vielleicht auch wie K8>K10 gleich 20% mehr IPC & FMA3 als kleines Design Update?
 
Zuletzt bearbeitet:
ich dache bisher auch immer 1.Cluster = 100% & 2.Cluster = 80%

wenn man pro Modul 1.8 rechnet x 4 Module = 7.2

Die beiden Cluster sind doch identisch oder nicht?
Ich dachte ein Int-Core bring 80% von einem Singlecore.
Wenn ein Modul 80% von einem Dualcore hat kommt es aufs selbe. o0
 
Eine grobe Abschätzung von mir ergibt eine Diegröße um die 300mm²....aber nachdem ich nur abschätzt habe, wie groß der Wafer wirklich ist, ist auch meine Abschätzung entsprechend grob.
Ist wohl ein bisschen mehr. Wenn man den Wafer mal gedanklich erweitert, komme ich auf etwa 15 Dies horizontal und 18-19 Dies vertikal, also ~320 mm². Was ja auch Hans de Vries vor einiger Zeit schon mal schrieb.
 
Zurück
Oben Unten