Zambezi - Fehler, Bugs, mangelnde Performance - Woran liegt es?

...Effizienz misst sich in Aufwand und Nutzen. Und solange das Ganze immer nur einseitig betrachtet wird, nämlich im Nutzen, und nicht berücksichtigt wird, wie viele REssorucen in die Entwicklung geflossen sind oder eben nicht, ist es der Logik zufolge illegitim daraus ein Versagen von irgendwem abzuleiten! - Möglicherweise betreibe ich hier Haarspalterei, aber ich finde es irgendo auch nicht ok dem Entwicklerteam gegenüber ihr Werk als total untauglich darzustellen nur weil es die Erwartungen nicht erfüllt oder im falschen MArkt angeboten wird!...
...Dass BD Potenzial besitzt und es viel zu optimieren gibt, haben wir schon mehrfach festgestellt. Wie schnell sich da was umsetzen lässt ist aber ein anderes Thema. Und wie sehr unser Bild der Architektur verzerrt wird durch FErtigungstechnische Anpassungen können wir auch nicht wissen.
Möglicherweise wäre BD wesentlich Energieeffizienter wenn das mit ULK Dielektrika im 32nm-Prozess hingehauen hätte und die Spannungen daher noch en Ganze Ecke niedriger wären. *noahnung*
Genau genommen wissen wir aktuell nichteinmal ob überhaupt aktuell alle Features in BD so funktionieren wie geplant...
...Übrigens, konnte mir bisher weder Duplex, noch rkinet, Bavarian Realist, noch sonst einer von den "AMD macht sowieso alles Falsch" - Verfechtern belegen dass sie selbst es besser hingekriegt hätten unter den selben Vorraussetungen (die wir nichtmal vollständig kennen) und genausowenig erklärt was es eigentlich bringen soll ...

Dass neue Projekte (BD) immer mit Risiken verbunden sind, sollte AMD wissen. Noch mehr Risiken geht man ein, wenn man das Ganze auch noch auf einen neuen Prozess aufsetzt. Dass BD (zumindest bisher) nicht das ist, was AMD und wir erwartet haben, hängt vermutlich nicht nur an AMDs Entwicklungsteams, sondern vermutlich zu einem großen Teil auch daran, dass der 32nm-Prozess nicht das ist, was AMD erwartet hat.

Aber weil man mit solchen Projekten große Risiken eingeht, braucht man für den Falle des Scheiterns einen Plan-B. Diesen Plan-B hatte ich gefordert und vermutlich auch andere bei AMD (D.Meyer?). Dafür, dass ich hier seit langen (ein Jahr?) diesen Plan-B fordere, bin ich hier oft genug angeeckt. Aber inzwischen haben alle (wir hier und AMD selbst) gesehen, dass so ein Plan-B gut gewesen wäre (d.h. ich habe nicht davon gesprochen, es "besser hin zu bekommen", nur einen Plan-B auf 45nm sehen wollen). Dass man im Nachhinein alles besser weiß, ist mir klar, aber meine früheren Anmerkungen waren jedenfalls berechtigt. Die Dinge hatten sich ansatzweise schon lange abgezeichnet, vor allem durch Verzögerungen von 32nm und BD selbst, nur wollte das nicht jeder sehen. Wie auch immer, jetzt liegen die Dinge auf dem Tisch und AMD muss sehen, wie es nun weiter geht.

Jetzt geht es bei AMD darum, aus dem was man nun hat, das Beste zu machen. Aus Highend/Performance ist man wohl erst mal raus, vor allem wegen dem gigantischen Prozess-Rückstand, der immer größer zu werden scheint. Zeichnet sich da bei GF nichts ab, muss AMD sich Gedanken machen, was man aus BD noch machen kann und oder ob man das Highend/Performance-Segment nicht mittelfristig verlässt.
Womöglich lässt sich aber aus BD ein effizientes Core entwickeln, was für Lowpower taugt. Dann könnte der Weg dort hin gehen. Klappt das nicht, muss man die nötigen Konsequenzen ziehen. Egal wie viel Geld in ein Projekt geflossen ist, spielt es keine Rolle was schon ausgegeben wurde (sunk costs), sondern was man aktuell daraus machen kann. Sieht man keinen Horizont, dann muss man das einesehen und weg damit und auf ein Neues.

Aber BD ist noch neu und dürfte noch nicht ausgereizt sein und könnte so noch viel Potenzial enthalten. Warten wir es ab. Und für den GF-Prozess hoffe ich auch, dass GF das noch gefixt bekommt.
 
Zuletzt bearbeitet:
Aus Highend/Performance ist man wohl erst mal raus, vor allem wegen dem gigantischen Prozess-Rückstand

So ein Unsinn. Man setzt den Fokus auf Server und schlanke Endgeräte.
Man spezialisiert sich, weil Intel in der Breite eine Nummer zu groß ist.
Die Baustellen werden dadurch langfristig kleiner.
So falsch finde ich das nicht.
 
... Man setzt den Fokus auf Server und schlanke Endgeräte.
Man spezialisiert sich, weil Intel in der Breite eine Nummer zu groß ist...

Genau das muss AMD nun richtig machen. Sie dürfen nicht krankhaft versuchen, zu viel zu versuchen, sondern die Lücken und Schwächen in Intels Portfolio zu finden und zu addressieren. Kann man das auch bei Server hier und da, umso besser. Es kommt nun darauf an, den Fokus richtig zu setzen, also die eigenen Stärken und Schwächen auch richtig einzuschätzen und zu nutzen.
 
Dass neue Projekte (BD)
Aber weil man mit solchen Projekten große Risiken eingeht, braucht man für den Falle des Scheiterns einen Plan-B. Diesen Plan-B hatte ich gefordert
Plan B, Plan B. Was wir jetzt sehen ist doch schon Plan C.
 
Ich vermute mal das der Phenom II X6 bereits der Plan B war, denn wenn ich mich recht entsinne wurde anfangs abgestritten das es für das Desktop Segment einen 6 Kerner geben wird und mal ehrlich....mit 346 mm² ist der Keks in der Preisklasse etwas sehr gross.
 
Übrigens, CMT war bisher nur ein theoretisches Konzept! - AMD waren schlichtweg die ersten die den Mut aufgebracht haben das mal in ein Konkretes Produkt umzusetzen.

AMD steht damit in direkter Nachkommenschaft von Microsoft die das Internet erfunden haben und von Apple die das erste Smartphone gebaut haben. Die Existenz eines Ultrasparc T1/T2 ist zu verneinen.
.
EDIT :
.

Genau - aber ich sprach explizit von der Desktopperformance

Die ist bescheiden, aber keineswegs katastrophal. Sicherlich würde es AMD gerne bedauern das man Prozessoren nach zigtausender Stückzahlen designed und nicht auf die Ansprüche der wilden Horde ("Es sind nur 200 - aber sie kreischen und zetern als wären es Tausende") ausrichtet.
 
Rücken wir das Thema wieder etwas in den Vordergrund.

Thread: Zambezi - Desktop CPU

Vorschlag Sprungvorhersage von Georgy ist doch wieder etwas wo man dem Prozessor auf den Zahn fühlen kann.
 
AMD steht damit in direkter Nachkommenschaft von Microsoft die das Internet erfunden haben ...
Hä?

Das Internet ging aus dem im Jahr 1969 entstandenen ARPANET hervor, einem Projekt der Advanced Research Project Agency (ARPA) des US-Verteidigungsministeriums. Es wurde zur Vernetzung von Universitäten und Forschungseinrichtungen benutzt. Ziel des Projekts war zunächst, die knappen Rechenkapazitäten sinnvoll zu nutzen, erst in den USA, später weltweit. Die anfängliche Verbreitung des Internets ist eng mit der Entwicklung des Betriebssystems Unix verbunden. Nachdem das Arpanet im Jahr 1982 TCP/IP adaptierte, begann sich auch der Name Internet durchzusetzen.
Quelle: wikipedia

Was also hat MS direkt mit den Erfindern des Internet zu tun? Hat zwar mit dem eigentlichen Thema nix zu tun (sorry), aber hier würde mich doch mal ne Erklärung interessieren.

Gruß,
Ritschie
 
Er wollte darauf hinweisen das der Ultrasparc T1/T2 CMT als erstes hatte nicht AMD sonst hätte auch Apple das erste Smartphone gebaut.
Ich überlege immer wieder ob Bobo´s Einwand den BD nur für die Server zu bringen und zb einen PH3 mit 1MB L2 nicht sinnvoller gewesen wäre.
Eigentlich hätte das auch kaum Ressourcen benötigt und ich kann mir nicht vorstellen das man von typischen Desktop Leistung nicht schon früh genug wusste.

Jetzt muss der BD halt das schaffen was MC mit ähnlichen Vorzeichen nicht schaffte, Marktanteile im Servermarkt. Klappt das hat AMD für sich alles richtig gemacht.
 
Mal ganz ehrlich....ein 8 Kerner mit 8 CPU Kernen des Llano wäre vermutlich kaum grösser als ein derzeitiger Phenom II X4 gewesen aber man hätte auf Features wie AVX und Co. verzichten müssen.
 
Ich überlege immer wieder ob Bobo´s Einwand den BD nur für die Server zu bringen und zb einen PH3 mit 1MB L2 nicht sinnvoller gewesen wäre.
Das Problem sind die Stückzahlen.
Die Entwicklung eines Designs bis zur Produktionsreife kostet. Diese Kosten werden auf den Chippreis umgelegt. Je mehr Chips dieser Serie verkauft werden, um so geringer dieser Entwicklungsanteil pro Chip.
Deshalb rechnet es sich ja auch, Quadcores als Dualcores zu verkaufen anstatt eine neue Serie Dualcores zu entwickeln.
Die Frage ist halt, ab welcher Stückzahl ammortisiert sich ein neuer Chip? Ist ja auch zu bedenken, dass der neue Chip die Verkaufszahlen der alten Chips vermindert.
 
@ Uwe
ich glaube halt nicht das die Entwicklung so aufwändig gewesen wäre, den L2 und Kerne in 32nm hat man sowieso dank Llano, das einzige wäre der L3 gewesen.
Vielleicht hat es auch einer bei AMD durchgerechnet und für Unsinn befunden aber im Desktopbereich würde er eine bessere Figur machen als Bulldozer.
 
Und auf größere Caches!
Scheint das Design nicht allso viel zu interessieren, denn sonst hätte der Llano bei gleichem Takt nicht mit dem Phenom vergleichbar. Im Desktop Umfeld scheint ihm 1MB L2 pro Kern dicke zu reichen.
 
Er wollte darauf hinweisen das der Ultrasparc T1/T2 CMT als erstes hatte nicht AMD sonst hätte auch Apple das erste Smartphone gebaut.
Woraus schließt du, dass der T1 CMT umsetzt? Meines Wissens verwendet der eine SMT-Technik um die 4 Threads pro Kern zu bekommen. Die Anzahl der FPUs ist irrelevant für SMT oder CMT. Die FPU könnte genauso auf einem externen Chip liegen.
 
@ Uwe
ich glaube halt nicht das die Entwicklung so aufwändig gewesen wäre, den L2 und Kerne in 32nm hat man sowieso dank Llano, das einzige wäre der L3 gewesen.
Vielleicht hat es auch einer bei AMD durchgerechnet und für Unsinn befunden aber im Desktopbereich würde er eine bessere Figur machen als Bulldozer.

Und zusammen mit einem ordentlichen L3 hätte ein 8 Kern K10.5 in 32nm ungefähr gleich viele Transistoren wie ein Bulldozer.

Damit wäre er für AMD nicht wirtschaftlicher und hätte die selben Probleme mit der Leistungsaufnahme, wie BD. Die 8 Kerne müsste er auch haben, denn sonst wäre er kein Fortschritt zum derzeitigen 6 Kerner; hier darf nicht vergessen werden, dass der BD bei gleichem Takt (und es gibt keinen X6 der Standardmäßig die 3,6GHz eines BD erreicht) trotz geringerer Singlethreadleistung einen 6% höheren Durchsatz hat als ein Phenom X6. Dafür müsste ein hypothetischer Phenom X8 dann auf die ganzen neuen Instruktionssätze verzichten. Das wäre nicht wirklich ein Gewinn, oder?

Da ja dem derzeitigen BD noch ULK zu fehlen scheint, darf man noch darauf hoffen, dass dies bei einer Prozessverbesserung kommt und noch eine nette Taktsteigerung bei gleicher Leistungsaufnahme ermöglicht. In dem Falle steht der BD dann auch bei den ganzen Anwendungen, welche kein ordentliches MT können gar nicht mehr so schlecht da.
 
@fst
Solange man der Wiki zum UltraSPARC_T2 glauben darf:

- Two integer ALUs per core instead of one, each one being shared by a group of four threads
- One floating point unit per core, up from just one FPU for the entire chip

Dass (in bestimmten Fällen) mehrere Threads pro Integer-Einheit einer CMT-Architektur nochmals den Durchsatz steigern können, wurde hier im Forum
von n1trux auch für den Bulldozer nachgewiesen.
 
Mal ganz ehrlich....ein 8 Kerner mit 8 CPU Kernen des Llano wäre vermutlich kaum grösser als ein derzeitiger Phenom II X4 gewesen aber man hätte auf Features wie AVX und Co. verzichten müssen.

Sompe, schau mal aktuell, 4 Kerner mit 4 CPU-Kernen in 32nm schafft 3GHz bei 100 Watt TDP (Athlon II X4 651).
Nun rechne mal durch wie weit du mit dem Takt runter musst, wenn du hier die doppelte Anzahl der Kerne unterbringen willst.
(und dann hast du immer noch nicht alle Features wie AVX und Co.)
Ne, der Schritt zum Bulldozer war schon richtig, nur hat man ihn zu spät vollzogen.
Meiner Meinung nach hätte AMD nicht mal den "nativen Quadcore" entwichelen sollen, sonder zwei Dual-Cores via HT auf ein Desktop-MCM pachen können.
Hätte man jetzt gleich alle Men-Power in das BD Projekt gesteckt ...
[ fiction an ]
- so hätten wir jetzt ein Desktop-MCM (damit währe man sehr Flexibel)
- man hätte bereits Quad-Channel Memory im Desktop-Berieich
- man hätte mit BD schon in 65nm Erfahrungen sammel können (Design- & Fertigungsfehler ausmerzen)
- dank dem MCM hätte man bei 65/45nm nicht auf Quadcores verzichten müssen
- in 45nm wäre BD weiter gereift und man hätte erste Fehler beseitigen können
- in 32nm hätten man evtl. schon ein 6 oder gar 8 Modul BD gießen können
- und da währe immernoch das Desktop-MCM, in das man auch zwei BDs integrieren könnte
(für alle die, die gerne mehr als 1000 Euro für Ihren Prozessor bezahlen)
[ fiction aus ]

Gruß Lehmann
 
Zuletzt bearbeitet:
@fst
Solange man der Wiki zum UltraSPARC_T2 glauben darf:

Code:
- Two integer ALUs per core instead of one, each one being shared by a group of four threads
- One floating point unit per core, up from just one FPU for the entire chip

Dass (in bestimmten Fällen) mehrere Threads pro Integer-Einheit einer CMT-Architektur nochmals den Durchsatz steigern können, wurde hier im Forum
von n1trux auch für den Bulldozer nachgewiesen.
Ich habe zwar zum T1 gefragt, denn dieser hat definitiv kein CMT, nicht mal SMT nach der Definition. Die CoolThreads-Technik ist VT (Vertical Threading), wie ich selber noch mal nachgelesen habe.

Der T1 hat 8 Integer-Threads für 8 Kerne, d.h. pro Kern einen Thread, bei CMT wären es 32 Threads für die 8 Kerne.
 
Mag stimmen. Trägt aber sowei nichts zur Bulldozer-Diskussion bei.
 
Mag stimmen. Trägt aber sowei nichts zur Bulldozer-Diskussion bei.
Stimmt, aber reduziert falsches Wissen.

Muss mich selber Korrigieren, damit es klar ist: 8 Pipelines für 32 Threads in 8 Kernen, müsste sonst 32 Pipelines für die 32 Threads haben in den 8 Kernen.
 
Der 32nm Prozess läuft ganz normal, Bulldozer hat pro Kern 10% mehr Basistakt + 33% mehr Kerne als Thuban die auch mit Mhz Taktraten gefüttert werden wollen...3,6Ghz Basistakt mit B2 Stepping ist Super, mit B3 soll 3,9Ghz möglich sein, was wollt ihr sehen? 4,5Ghz Basiakt geht nicht und warum kommt das mit der "Contra" Fertigung erst jetzt nachträglich? Bis auf die Anzahl der DIEs gibt es keine Probleme beim 32nm ;)

Nein die schlechte Leistung hat mit dem Prozess nichts zu tun, die Architektur hat unabhängig von der Fertigung durch falsche Design Entscheidungen zuwenig Leistung pro Takt, mögliche Bremsen wären z.b. das dumme Wright Trough Cache Design, kommt davon wenn man das nicht ähnlich wie beim Core2 macht, L1D Cache Rückschritt von 64Kb > 16Kb, 3 ALU/AGUs vs. 2 ALU/2AGUs 5-10% je nach Code, größeres Issuse Design bringt immer was, Intels 4 Fach OoO Design hat keine schwächen mit seinem Cache Design, CMT skaliert nichtmal mit 50%, Shangai hat bei 4 Kernen 4 FPUs, Valencia hat bei 8 Kernen nur 4 FPUs, hört ihr doppelt soviele Kerne und und nur 4 FPU einheiten...deswegen auch miese Werte in Cinebench gegenüber K10.

Und was soll das mit Llano? Der hat eine integrierte GPU im DIE, die GPU Shader werden mit Takt angesteuert, die brauchen ebenso genug Strom, das kann man nicht mit einer normalen CPU vergleichen, natürlich wäre ein K10 mit 8 Kernen, 1MB L2, 8MB L3 & 3,2Ghz bei optimierten Stepping ebenso in 32nm möglich gewesen, klar SSE 4.1/4.2 & AVX müsste man dann nachträglich hinzufügen, ich denke das man das aber innerhalb 2 Jahren hinbekommen hätte, also hätte AMD den K10 nach 2007 weiterentwickelt dann wäre er heute möglicherweise nach 4 Jahren auch besser als Llano pro Core geworden, dann hätte er auch aktuelle SSE Instructionen, das wäre vielleicht sogar die bessere Wahl gewesen, vielleicht hat man deswegen D. Meyer gefeuert.
 
Zuletzt bearbeitet:
@LehmannSaW
Zum einen sagt die TDP erstmal recht wenig über den realen Verbrauch aus und zum anderen kennen wir den Grund für die hohe CPU Spannung des Llano nicht.
Des weiteren ging es um den Leistungsverlußt durch den fehlenden L3 Cache, der aber nicht allso hoch sein kann. Vergleiche ich die Gesammtwerte beim ht4u Test, dann ist der CPU Part des Phenom II X4 955 ca. 8% schneller als der des Llano A8-3850 und das mit ca. 10% mehr Taktfrequenz.
http://ht4u.net/reviews/2011/amd_llano_apu_desktop_a8/index49.php

Zum Rest....klasse...ein MCM Chip mit Quad Speicherinterface. Dann könnten sie sich gleich begraben lassen, denn beides dürfte sowohl den CPU, als auch den Mainboardpreis recht deutlich nach oben schrauben oder würdes du dir für einen 4 Modul Bulli ein ca. 200€ teures Mainboard (siehe Sockel 2011 Boards) und 4 Speichermodule kaufen?
Wer es haben will schaut sich bei den Opterons um und kann sich von den Preisen inspirieren lassen.
Das wäre sowas wie der SuperGAU gewesen und man hätte ihm im Desktop Markt gleich vergessen können.
 
@ fst mag sein das der T2 kein CMT hat, ich hatte es mal gelesen und da Markus das auch erwähnt hatte war ich mir recht sicher.
Ich muss es nochmal lesen das eine von dir verlinkte klingt zumindest nach einen ähnlichen Ansatz.

@Lynxeye Warum ein 8 Core für den Desktop? da reichen auch 4 bis maximal 6 und ob man ULK dann nicht doch hätte nutzen können? Es ging ja um eine Desktopalternative wer 8+ Cores da braucht kann ein Workstationboard kaufen.
Mir ging es um ein moderates Phenom2 Upgrade was simpel sein sollte. Mit dem 1MB L2 könnte man vermutlich sogar den L3 noch auf 4MB reduzieren.
Da kommt sicher weniger Fläche zusammen als BD hat.
 
Zurück
Oben Unten