Conroe Intels Zukunft

Treverer · 22.01.2006

die frage ist aber immer noch offen, mit welchem "wunder" intel so drastisch wie behauptet den ipc pro watt erhöhen will/kann? *noahnung*

der jetzt so gelobte yonah ist doch im grunde auch wieder nur 08/15 technik: ein sowieso schon sparsames design (wegen niedriger taktung und stromsparfunktion im core) wurde geshrinkt, der core verdoppelt, der cache geshared (was ich sehr gut finde und schon vor monaten sowas bei amd wünschte). fertig ist/war der prozessor mit pi mal daumen 70% mehrleistung und kaum gestiegenen stromverbrauch. ist dummerweise (für intel) aber bei amd ebenso. was nun bringt der merom? 64bit, offiziell virtualisierung (scheint ja im yonah schon drin zu sein, oder?), noch ein paar stromspar tweak und vielleicht bißchen tuning an der rechenleistung von sse (so wie jetzt auch beim yonah) - alles nichts, was grandioses erwarten läßt meiner meinung nach, aber vielleicht irre ich ja total. deswegen frage ich ja danach, was eigentlich da so tolles kommen soll? ich sehe nichts :-X

NeuerBenutzer · 22.01.2006

@all

In der neuen c't ist ein mehrseitiger Bericht über Intel und die neuen CPUs.

mocad_tom · 22.01.2006

http://www.digit-life.com/articles2/cpu/p6-nexgen.html
http://www.digit-life.com/articles2/cpu/intel-yonah.html

@rkinet - zum Thema lahmer FSB:
http://www.anandtech.com/IT/showdoc.aspx?i=2447&p=7

Branch prediction penalties, due to the longer pipeline of Nocona/Irwindale, are not the problem. We noticed with Vtune and Code Analyst that the Branch Prediction Unit of the Xeon Nocona and Irwindale does a marvellous job and predicts between 96% (MySQL) and 97% (DB2) of the branches correctly, while the Opteron's BPU is about 93% and 94% correct of the time. MySQL consists of 20% branches, and DB2 has only 16% branches. The L2-caches also do a good job with only 2% of data demands being covered by the RAM, and a 98% hitrate on the L1 and L2-caches.

Und die Branch Prediction beim Dothan funktioniert noch besser. Ein Dothan mit 2Ghz und einem FSB533 ist nicht Bus-limitiert - Grund hierfür ist die gute Branch Prediction und der große Cache. Das Memory-Subsystem wird bei weitem nicht so gestresst wie beim Turion mit gleicher Rechenleistung.
Das ein 3,33 Merom XE mit FSB1333 den Bus stark beschäftigen kann steht ausser Frage, Bus-limitiert wird er aber wohl noch nicht sein.

Nur eine kleine Rechnung:
Ein Yonah mit FSB667 und 2,0GHz hat eine etwas geringere Pro-Takt-Leistung als ein A64 X2 3800. Ich vermute mal das der FSB nicht limitiert. Würde man den Yonah auf 3,33GHz jagen und dabei den Multi konstant lassen wären wir bei einem FSB 1110.

Grüße,
Tom

mocad_tom · 22.01.2006

Am Freitag den 20.01.2006 um 23:41Uhr MEZ habe ich folgendes geschrieben:
http://www.planet3dnow.de/vbulletin/showpost.php?p=2563021&postcount=41

Am Samstag den 21.01.2006 16:55Uhr EST hat Johan de Gelas folgendes geschrieben:
http://www.aceshardware.com/forums/read_post.jsp?id=115152196&forumid=1

I am starting to detect that the tide might be turning. AMD gives the impression that it is not able to keep it's advantage. Gives me flash backs from 2002. In 2001 the Athlon XP was so far ahead on Willamette that it wasn't funny. But Northwood quickly turned the tide once they hit 2.53 GHz.

Ich finde es sehr unterhaltsam wenn sich Johan de Gelas, Paul DeMone, Linus Torvalds und John "Hannibal" Stokes über die zukünftige Entwicklung streiten, unterhaltsam&informativ.

Grüße,
Tom

Bokill · 22.01.2006

Was ist überhaupt mit "Buslimitierung" gemeint?

Bei SSE Streaminginhalten reicht der Yonah eben nicht heran an die AMD Gegenstücke. Das hat was mit der Trennung des Speicherbusses vom Systembus zu tun. Die Limitierung ist, wie immer ist der Speicherbus, nicht im Systembus zu suchen.

Was die Diskussion meiner Meinung nach hier ignoriert, ist der Erfolg in dem Bereich Dicke Eisen. Dort war AMD noch nie so breit vertreten wie jetzt.

Grosse Systemintegratoren wie 1&1, GMX, und andere gehen erst jetzt dazu über ihre alte IT-Infrastruktur behutsam auf den Opteron umzustellen. Und diese setzen auch darauf, dass der Speicher gut erweiterbar ist, sowie auch Mehrfachsysteme gut miteinender skalieren. Dass sogar weniger Strom und Wärme dabei anfällt gegenüber älteren Xeonlösungen macht den Stimmungswechsel erklärbar.

Der Yonah wie er jetzt eingesetzt wird ist bei den Dicken Eisen noch nicht angekommen, was er sicher noch wird. Bis dahin wird aber auch AMD Technologien nachgeschoben haben (Horus, HTr 3.0, DDR2/DDR3, höherer Takt, Pazifica ... ).

MFG Bobo(2006)

mocad_tom · 22.01.2006

Bokill schrieb:
Grosse Systemintegratoren wie 1&1, GMX, und andere gehen erst jetzt dazu über ihre alte IT-Infrastruktur behutsam auf den Opteron umzustellen.

Gerade diese Firmen haben nur einen sehr geringen Anteil an Multi-Sockel-Systemen in ihren Hallen stehen. Einzig die Load-Balancer müssen größer ausfallen - der Rest wird nach Kosten angeschafft - und das sind günstige Single-Sockel-Systme.

Es stimmt, das AMD bei allen Systemen von 4 - 16 Sockel wegen Direct-Connect gut dasteht, allerdings werden die realen HP/Sun-Abnahmepreise des Opteron 8xx sehr viel niedriger liegen als sie derzeit in den Preislisten nachzulesen sind.

Und bisher ist auch noch kein einziges Horussystem ausgeliefert, geschweige denn gebencht.

Grüße,
Tom

rkinet · 22.01.2006

Treverer schrieb:
die frage ist aber immer noch offen, mit welchem "wunder" intel so drastisch wie behauptet den ipc pro watt erhöhen will/kann?
der jetzt so gelobte yonah ist doch im grunde auch wieder nur 08/15 technik: ein sowieso schon sparsames design (wegen niedriger taktung und stromsparfunktion im core) wurde geshrinkt, der core verdoppelt, der cache geshared (was ich sehr gut finde und schon vor monaten sowas bei amd wünschte). fertig ist/war der prozessor mit pi mal daumen 70% mehrleistung und kaum gestiegenen stromverbrauch. ist dummerweise (für intel) aber bei amd ebenso. was nun bringt der merom?
64bit, offiziell virtualisierung (scheint ja im yonah schon drin zu sein, oder?), noch ein paar stromspar tweak und vielleicht bißchen tuning an der rechenleistung von sse (so wie jetzt auch beim yonah) - alles nichts, was grandioses erwarten läßt meiner meinung nach, aber vielleicht irre ich ja total. deswegen frage ich ja danach, was eigentlich da so tolles kommen soll? ich sehe nichts

Intel ist ein genialer Ankündiger.

Die 65nm bringen bei gleichem Takt eben -30% bis -45% an Leistungsbedarf, da war der zweite Core und sonst gemeinsame Technik hin zum Yonah eher normal für so einen Shrink.

Bei der Virtualisierung wirds nur noch peinlich.
Nur AMD hat die Virtualisierung weitgehend in Hardware realisiert, bei Intel ist Software und die Northbridge noch gefragt (s. http://www.tecchannel.de/technologie/prozessoren/432777/index9.html)

Der Merom wird x64 und wohl 2007 Chipsätze mit kompletter Virtualisierungsunterstützung erhalten. In der Kommunikation natürlich alles viel früher.
FSB1066 ist noch 2006 machbar, der Rest mangels Chipsätzen schon wieder Zukunftsmusik.
Im Prinzip ein unausgereiftes Produkt, daß von Intel durchgepeitscht wird.
Und mit gewaltigem Druck, denn Netburst auch noch 2006 unterm Weihnachtsbaum wäre dem Intel-Geschäft abträglich. Mit dem Yonah & mobil könnte Intel noch einige Zeit leben, aber beim Desktop wirds ohne 64 Bit einfach eng.
Wir werden bis Ende 2006 die 2 GB RAM Wühltisch-PCs haben, die 1 oder sogar 2 GB für den PCI-Adressraum benötigen. Da ist Win x32 technisch k.o. mangels Adressiermöglichkeit für virtuellen Speicher. Die Zeit rennt Intel quasi davon, was man ja auch an der aktuellen Einschätzung an der Börse sieht.

Bokill · 22.01.2006

mocad_tom schrieb:
Gerade diese Firmen haben nur einen sehr geringen Anteil an Multi-Sockel-Systemen in ihren Hallen stehen. Einzig die Load-Balancer müssen größer ausfallen - der Rest wird nach Kosten angeschafft - und das sind günstige Single-Sockel-Systme. ...

Dem wiederspreche ich zwingend.

Sun & Niagara ... und anderes (Update) [orthy.de].

Kosten sind sicher ein Argument, aber speziell die Strato AG hat da eine Mischung aus verschiedenen Gründen beschrieben: Seite 4 vom Sun & Niagara-Artikel.

In so fern zählen zwar technische Gründe, aber das ist nur eine Seite. Da Strato und andere für Multitraffic gar den Niagara gerne nehmen, wenn weniger Rechenkraft pro Thread gefordert ist, fällt hier die Antwort von Intel derzeit vergleichsweise bescheiden aus. Und Strato hat deswegen gerne den Sun Fire V20Z (2 Sockel), V40Z (4 Sockel) [sun.com] genommen, andere aktuellere Kandidaten sind der Fire X4200, X4100, X2100 [sun.com] (Einzelsockel).

Nur so zur Info. Die Strato AG sieht sich als Nr.2 der Internetprovider neben der Nr.1 Deutsche Telekom.

MFG Bobo(2006)

Low Rider · 22.01.2006

Bokill schrieb:
Die Limitierung ist, wie immer ist der Speicherbus, nicht im Systembus zu suchen.

Warum wird dann immer bei Intels DualCores auf der FSB-Limitierung herumgeritten? Oder kann der XE 955 durch seinen höheren FSB etwa signifikante Vorteile ausspielen? *noahnung*

Bokill · 22.01.2006

Low Rider schrieb:
Warum wird dann immer bei Intels DualCores auf der FSB-Limitierung herumgeritten? Oder kann der XE 955 durch seinen höheren FSB etwa signifikante Vorteile ausspielen?

Weil darin zugleich sich auch der Speicherbus durchquengeln muss ...

Andere Architekturejn haben längst Systembus vom Speicherbus entkoppelt. Und siehe da, plötzlich entpuppte sich altbekanntes ... Nadelöhr Speicher, bzw. Speicherbus. Sun hatte schon früh den Systembus vom Speicherbus entkoppelt, DEC hatte mit dem Alpha EV 7 (Alpha 21364), dies so gemacht, IBM ging mit dem Power 5 auf eine Entkopplung hin, Freescale hat diverse PowerPC auf entkoppelte Speicherbusse umgestellt ... im Prinzip alle Modernen CPU Designschmieden haben den Systembus vom Speicherbus entkoppelt, nur Einer tanzt aus der Reihe ...

Dabei bedeutet entkoppelter Speicherbus gar nicht zwangläufig Speicherkontroller on Die. Es reicht schon, dass der "FSB" eben nicht mehr zusätzlich mit Datenverkehr das Speichersubsytems belastet wird.

mocad_tom · 22.01.2006

@bokill
Man braucht kein ccNUMA für gut partitionierbare Probleme, das macht man über lose gekoppelte Systeme. Die Infrastrukturkosten rechtfertigen sich nicht.

http://de.sun.com/company/events/2005/sparc-server/pdf/P7_Strato.pdf

Auf Seite 7 und 8 wird das ersetzen der SMTPin und SMTPout Server beschrieben.
Die wahren Brocken im Rechenzentrum sind aber auf Seite 5 zu sehen:
WebFarm #1 - WebFarm #X und die sind durch die Bank Single-Sockel-x86-basiert.

Grüße,
Tom

Bokill · 23.01.2006

mocad_tom schrieb:
@bokill
Man braucht kein ccNUMA für gut partitionierbare Probleme, das macht man über lose gekoppelte Systeme. Die Infrastrukturkosten rechtfertigen sich nicht.

Du brauchst mir mein Meeting nicht erklären ...

http://de.sun.com/company/events/2005/sparc-server/pdf/P7_Strato.pdf

Auf Seite 7 und 8 wird das ersetzen der SMTPin und SMTPout Server beschrieben.

Die wahren Brocken im Rechenzentrum sind aber auf Seite 5 zu sehen:
WebFarm #1 - WebFarm #X und die sind durch die Bank Single-Sockel-x86-basiert.

Und rate mal wo die neuen Sun Fire Server eingesetzt werden? Die V40Z Server sind nun mal bis zu 4 Sockel aufrüstbar ... und genau diese Standen im Sommer 2005 im Wettbewerb zu anderen Lösungen (Xeon, Power 5, HP Opteronlösungen).
http://de.sun.com/company/events/2005/speed64/pdf/Strato.pdf

Die neu eingeführte Galaxyreihe der 2100, 4100, 4200 sind die weiteren Alternativen zum weiteren Ausbau.

MFG Bobo(2006)

mocad_tom · 23.01.2006

>Du brauchst mir mein Meeting nicht erklären ...

Das nächste Technical Summit wo ich drinsitze und halb wegdöse bezeichne ich dann auch als "mein" Meeting.

Strato hat einen ziemlich schlechten Ruf weg, auch weil sie bei den Hoster-Tests einige Male schlecht abschnitten, also mussten sie was dagegen machen. Was macht man also? Man macht auf "hochtechnisiert".

Ein Sun Fire X2100 kostet mit einem Opteron 175 - 2300 Euro
Ein Sun v40z kostet voll ausgebaut 35.000 Euro

Angenommen auf dem X2100 kann man 1000 Seiten hosten, dann kann man aber auf dem v40z trotzdem nur 4000 Seiten hosten.

Für das Geld des v40z kann man sich 15 X2100 kaufen - kosten dann insgesamt 34500€ und man erhält fast die vierfache Leistung. Solche Hoster kaufen sich keine großen Kisten für Linux/Apache/MySQL/PHP, weil es in einem halben Jahr Hardware mit doppelter Leistung für das halbe Geld gibt(und halbem Stromverbrauch).

Aber ich will jetzt wieder zurück zum Topic.
Und das ist schließlich der Conroe, hat sich mittlerweile schon jemand die digit-live-Artikel weiter oben reingezogen, die sind schon sehr ausführlich gemacht.

Grüße,
Tom

Bokill · 23.01.2006

mocad_tom schrieb:
Ein Sun v40z kostet voll ausgebaut 35.000 Euro

Angenommen auf dem X2100 kann man 1000 Seiten hosten, dann kann man aber auf dem v40z trotzdem nur 4000 Seiten hosten.

Für das Geld des v40z kann man sich 15 X2100 kaufen - kosten dann insgesamt 34500€ und man erhält fast die vierfache Leistung. Solche Hoster kaufen sich keine großen Kisten für Linux/Apache/MySQL/PHP, weil es in einem halben Jahr Hardware mit doppelter Leistung für das halbe Geld gibt(und halbem Stromverbrauch). ...

Tja komischerweise haben sie nun mal die V40Z in der Auschreibung drin gehabt ... und auch angeschafft ... das sauge ich mir nicht aus den Fingern, sondern ist eine Beschreibung von einer Geschäftsbeziehung Sun <-> Strato.

Und was das mit den Conroe zu tun hat? Ganz einfach, die Entscheidungsprozesse laufen so, oder so ähnlich ab. Das hat nur teilweise mit Technik zu tun, aber auch mit Technik.

Die V40Z bietet nun mal auch die Ausbauoption mit 4 Sockeln an, die Erweiterung ist simpel und servicefreundlich. Das bietet der Sun Fire X2100 eben doch nur begrenzt ...

MFG Bobo(2006)

Treverer · 24.01.2006

mocad_tom schrieb:
Aber ich will jetzt wieder zurück zum Topic.
Und das ist schließlich der Conroe, hat sich mittlerweile schon jemand die digit-live-Artikel weiter oben reingezogen, die sind schon sehr ausführlich gemacht.

Grüße,
Tom

na, daß ist nicht nur viel sondern auch harte kost. und viel zu dem thema, was conroe gegenüber dem jetzigen yohan anders bzw. besser macht findet sich auch nicht. im kopf habe ich jetzt eine enorme verbesserung irgendwelcher fpu/sse befehle? und sse4 soll kommen - bringt aber sicher kaum leistung durchweg sondern nur im spezialfall, wie eben auch die fpu geschichte. klar, schnelleres ram, mehr cache - das wird es bringen. dann mal zitiert, wobei sich die aussage lt. überschrift auf den conroe bezieht:

Pentium M Performance Tests without Taking into Account Architectural Innovations. In case of a dual channel DDR2-533 memory controller, Pentium M (2.26 GHz, 533 MHz FSB) offers the following performance: SPECint_base2000 — 1812, SPECfp_base2000 — 1355. Thus, the expectable performance (roughly estimated) of a hypothetic Pentium M processor at 3 GHz, 1066 MHz FSB, and 2 MB L2 Cache in SPECint_base2000 is about 2200-2300, in SPECfp_base2000 — about 1800-1900.

tja, da wäre im spec_int ein athlon64@3000mhz schon noch weit weg, mit ddr2 aber sicher deutlich über 2000punkte. im spec_fp bereich aber liegt bereits jetzt ein athlon64@2800mhz deutlich über 2000, d.h. die fp-schwäche des dothan wird auch beim conroe nicht ausgemerzt sein? und dabei geht es noch nicht mal um reale anwendungen, schließlich ist der spec-bench ja nicht ganz unproblematisch. also, auch diese zahlen unterstützen meine these, daß keine wunderdinge zu erwarten sind. hinzu kommt, da es sich ja nur noch um dual-cores handelt, wären bzw. sind die rate-werte viel wichtiger. skaliert der athlon64 als multicore auch gegenüber dem conroe immer noch besser? ich denke schon, wenn sicher auch lange nicht mehr so deutlich, wie beim xeon...

mein fazit: keine grund, angst zu bekommen.

Zum Vergrößern anklicken....

Treverer · 24.01.2006

später werden die gechätzten spec_werte nochmals erhöht, z.b. um 10% wegen emt64. würde natürlich auch für amd gelten. auch da entsteht aber die frage, ob der athlon64 oder der conroe mehr gewinn durch 64bit macht... ich tippe mal wieder auf den athlon64...und, nein, ich will keine denatte "64bit bringt eh nichts"

mocad_tom · 24.01.2006

Treverer schrieb:
Pentium M Performance Tests without Taking into Account Architectural Innovations..... in SPECfp_base2000 — about 1800-1900.

Zum Vergrößern anklicken....

im spec_fp bereich aber liegt bereits jetzt ein athlon64@2800mhz deutlich über 2000, d.h. die fp-schwäche des dothan wird auch beim conroe nicht ausgemerzt sein?
mein fazit: keine grund, angst zu bekommen.

Dieser SPECfb_base wurde aber nur durch die Takterhöhung erbracht. Zusäztlich soll aber die Macro-Op-Fusion für die SIMD-Einheiten eingeführt werden.

"In addition, Merom has Macro-Op fusion, the ability to gang x86 operations before decode. As an example, if you have a multiply followed by an add, Macro-Op fusion can turn that into a Multiply and Accumulate". This one is the most incredible. It means that consecutive multiplication and addition instructions (supposedly SSE FPU instructions) are merged at the decode stage into a FMA macro-operation (FPmul+FPadd). This fusion may increase the MOP density along processor paths. But the main gain could be achieved in case of the combined FPU that would allows to run this merged instruction at each clock

Intel weiß über die Nachteile des PM-Kerns bescheid und bohrt ihn dort auf wo es nötig ist. Mit dem P4 haben sie Erfahrungen mit FP-Einheiten sammeln können, diese müssen aber jetzt auf energieeffiziente Beine gestellt und mit niedrigerem Takt performant gemacht werden.

Grüße,
Tom

mtb][sledgehammer · 24.01.2006

mocad_tom schrieb:
Zusäztlich soll aber die Macro-Op-Fusion für die SIMD-Einheiten eingeführt werden.

Habe mir jetzt doch mal durchgelesen, was hinter diesen Marketingbegriffen steht. Und siehe da: K7 kennt die Micro Op Fusion für die ALU, der K8 auch für die FPU. Also die beiden scheinen nichts neues zu sein. OK Macro Op Fusion scheint etwas neues zu sein. Aber mal ehrlich: ist ja schon und gut, wenn der Prozessor aus MuL und ADD einen MAC Befehl macht. Aber viel wichtiger erscheint mir, dass er diesen Befehl auch angemessen verarbeiten kann. Was für mich also relevant ist: Wieviele FPOps schafft Conroe pro Takt theoretisch? K7, K8 und Netburst schaffen theoretisch 2 double FLOPs pro Takt und Kern, ohne packed Befehle sind es beim K8 und K7 (der kann ja sowiso nur skalare 80 Bit) immernoch 2 pro Takt, bei Netburst jedoch nur noch einer. Damit muss sich Conroe messen und dann die Effektivität des K8 erreichen.

Treverer · 25.01.2006

http://digitimes.com/bits_chips/a20060125PR200.html

systems. For PC systems, where the single-processor approach is normally adopted, unless Intel screws up, in terms of execution, which is always a possibility, I think that Conroe will probably emerge as the performance leader on the desktop in the fourth quarter of next year. If Conroe appears on schedule, and it has a clock speed of at least 3.0GHz, and I believe the clock speed will be at least 10% above that for top-end parts, we think it will have quite a performance advantage over the current Athlon 64 scaled up to above 3.0GHz, if it is still available at that time. This is assuming that AMD does not miraculously decide to have a surprise launch of a new core before then.

My belief is that Intel will regain much of its performance leadership on the desktop and probably also in small servers. And where servers or workstations have a chipset supporting two front-side buses (FSBs) in parallel, as well as a large memory system, the next-generation Woodcrest could come to have the performance leadership for this server segment. And with the right chipset support, it's possible they could also compete fairly well against dual-socket Opterons using DDR2 memory, and they should be capable of reasonably equivalent performance.

In the quad-socket area, I think AMD will continue to lead there, even if Intel introduces complex chipsets supporting four FSBs simultaneously or tries similar tricks. If Intel tries that, it could just make the system overly complicated or too expensive. Certainly in single-socket systems, Intel should, hopefully, be shipping a pretty good platform in a year's time. And that should be a warning to AMD, because a new platform could signal renewed dominance of the x86 platform – a strategy quite different from the attempted dominance of the Itanium and IA-64 – and that could signal a serious threat to the performance leadership of the current Athlon 64 core. So just amending the socket architectures, including that of DDR2, and making some other minor adjustments may not be enough for AMD, in this case.

AMD will have to find ways to maintain market share, and one way of doing that would be drastically expanding the multicore approach, and that would mean not waiting until 2007 for a quad-core approach or the introduction of a new, faster core.

The alternative, for AMD, would be to improve current performance by, for example, having better integer throughput and better cache memory. Another possibility – and this could apply even more to Intel than AMD – would be to add hardware-accelerated functionality in the Southbridge, enabling high-definition (HD) sound, RAID 5, Gigabit Ethernet, a firewall and wireless capability. These functions could be handled by an internal 32-bit multithreaded embedded processor within the Southbridge, with hardware acceleration as well as DSP and DMA support. This would avoid burdening the CPU with a continuous stream of interrupts, and it would not add much cost if all high-end Southbridges for the desktop adopted this approach by default.

Alternatively, AMD could speed up their current floating-point (FP) performance, by, for example, having two SSE2 (FP) instructions in each cycle, rather than every two clock cycles. But at the end of the day, rather than these simple fixes, you need a new core on the AMD side as well. That's particularly the case when you realize that the current Athlon 64 core is essentially a 64-bit version of the old Athlon (32-bit) core. Except for the added support for the SSE2/3 instructions, there is not that much difference between the two cores, so in a sense, the time is right for a new core.

In fact, AMD would have to continuously reassess many aspects of the Athlon 64 architecture, and even then they need to be careful, with Merom, Conroe and Woodcrest due from Intel later this year. Faced with these new cores from Intel, AMD is now more vulnerable to mistakes and could make Intel's mistake of casting around for direction. AMD is far more vulnerable to such mishaps, but they cannot allow themselves such mistakes. In a sense, AMD has always been rather reminiscent of Alpha, in that they have often had good technology, but execution that doesn't match. This even seems to apply at a managerial level, where sometimes I sense there is no mind-set to push the architecture in a big way and really grasp the opportunity that they have – and win. I mean, Intel is not standing still, and the expectation is that Merom/Conroe/Woodcrest and later iterations of this core could tip the balance quite strongly in Intel's favor.

Q: So the corporate culture does have quite a strong influence, at the end of the day?

A: Well, look what happened to Alpha! It's question of what you do with technology, whether it's Alpha, MIPS or an Intel CPU. I mean a boardroom decision, for whatever reason, possibly for the benefit of the individuals involved, or the shareholders, which I doubt, was made to kill Alpha. This was not a decision made by engineers. I mean it's very simple. If you want to strip off a company's assets before you sell it, you take the best assets on offer – you either sell them or you kill them.

People have finally walked out of those companies with big bonuses and pay-offs, basically throwing money away and leaving the casualties lying on the floor. That's what happened, and that's what continues to happen, and not just in the IT industry.

Q: In terms of corporate culture, it seems a pity that Intel remains such an incommunicative entity.

A: Well, I would say that five years ago that was definitely the case. Things have changed substantially in the meantime. These days, I think Intel is way more open and productive, and sometimes AMD can be more open and productive. It depends, both on the situation and what you are talking about. If you step on the wrong foot, AMD can be just as self-protective as Intel is, if not more so.

Generally, I think Intel has modified its attitude and is more communicative. After all, they now have to fight to keep their leadership position in the industry. That is the reality of the situation, right now. And if you ask about this question in the distribution channel, I think you'll hear that as AMD has grown in strength, the strong-arming of the channel has now appeared on the AMD side also. It's the same old corporate story. When you are weak, you need to gain friends. When you are strong, those friends now appear disposable. Intel has now lost some of its position as an industry leader, so now it has to turn around and fix the problem.

Both sides, both AMD and Intel, have their pluses and minuses, but the current situation is one where neither side has made any dramatic improvements to their cores over the past 18 months. That tells you that despite advances in the technology from 0.13-micron to 90- and now 65-nanometer nodes, we've seen very little per-core performance improvement. And it's no secret that both companies are now adopting a multicore approach to performance improvement and have been for quite some time. The multicore approach is not really anything new. Five or six years ago we saw POWER4 adopting a multicore approach, and there were similar plans for MIPS and Alpha.

The important point about AMD64 is that the Opteron and Athlon 64 were planned from Day 1 to be multicore processors. This was partly the influence of Alpha, where these questions had been under consideration for some time. When the Athlon 64 and Opteron platforms were first presented at the Microprocessor Forum, they were shown with the second core present. The presentation indicated there was provision for the second core from Day 1. The plan had always been that improved performance would be gained by having the two cores communicating internally, at full speed. That is the advantage that AMD has, with its current generation of processors – they had a second core ready, and they could extract better performance, using the second core. So, with its current generation of processors, the AMD solution is much more elegant, while the Intel solution has been something of a last-minute fix. Essentially, Intel simply bolted together two cores for the Intel Extreme Edition Pentium.

Even so, while Intel's solution was architecturally clumsy, it did work, and it turned in record performance. I have tested both solutions, and while AMD has the performance lead in most areas, there are a few areas where Intel maintains the lead. That’s particularly the case if you take into account the wider margins for stable overclocking on Intel’s latest CPUs. And of course you have to bear in mind that while AMD does have that performance advantage right now, it's not forever. By the time Merom, Conroe and Woodcrest have appeared, AMD's performance lead will have evaporated. This is because the new Intel chip has been completely re-designed to take advantage of the dual-core approach, and AMD will no longer enjoy the advantage of internal communication between the cores. (The Yonah Centrino Duo is already using full-speed inter-core communication!) In fact, communication between the cores will be faster on the Intel platform because now they will have faster L1 caches. In addition, Intel is throwing in four instructions per cycle per core. Now, it's time for AMD to wake up and start to figure out what its response is going to be.

This is Part III of a five-part interview. Part I appeared on 23 January and Part II on 24 January. Part IV will follow on 26 January.

so interessant die bisherigen drei teile auch bisher waren, so redet er denn doch zuweilen blödsinn. beispiele: intel benutze hypertransport, games seien mit single-core besser dran, io bzw. ram-zugriffe durch eine grafikkarte seien bei amd wegen des umweges über hypertransport schlechter als bei chipsatz/fsb-lösungen.

doch nun zu diesem interview: ganz klar, er denkt auch, daß amd probleme bekommt, da die intel-cpus so super seien. und vielleicht hat er ja recht - wir werden es ja sehen. aber ich finde gut, daß er darüber spricht, was amd machen könnte. seine forderung nach einem neuen core da der k8-core ja schon auf den alten k7-core beruhe ist in anbetracht der yonah-vergangenheit natürlich etwas lustig.

was mir in einem anderen artikel auffiel, war die notwendigkeit für die opteronen, hypertransport-bandbreite kräftig zu erhöhen. ist dies eigentlich geplant? klar, destop und vor allem notebook cpus haben dies nicht so dringend nötig...

Bokill · 25.01.2006

Treverer schrieb:
http://digitimes.com/bits_chips/a20060125PR200.html
... io bzw. ram-zugriffe durch eine grafikkarte seien bei amd wegen des umweges über hypertransport schlechter als bei chipsatz/fsb-lösungen.

Kann man aber so sehen. Die Grafikkarte hat direkten Zugriff auf den Speicher, da die Grafikkarte direkt am Chipsatz ist. Und eben dieser Chipsatz direkte Verbindung zum Speicher hat.

Bei AMD kann erst über die CPU auf den Speicher zugegriffen werden. Bei integrierten Chipsätzen ist das sehr wohl ein Nachteil. Bei High End ist dies kaum nennenswert, da eigenständige Grafikkarten eh eigenen Speicher haben, sobald sie sich auf Fremdspeicher verlassen geht eh Leistung verloren.

was mir in einem anderen artikel auffiel, war die notwendigkeit für die opteronen, hypertransport-bandbreite kräftig zu erhöhen. ist dies eigentlich geplant? klar, destop und vor allem notebook cpus haben dies nicht so dringend nötig...

HyperTransport 2.0 sieht ab 1.0 GHz [Maximum 1,4 GHz (2,8 GHz Symboldatenrate)] Deemphasis vor ... wird zur Zeit aber noch nicht gemacht 8) ... HTr 3. Soll noch dieses Jahr kommen.

Was mir auffiel, war, dass so gut wie nie HyperTransport als Basistechnologie begriffen wird, und das von einem der die DEC Alphas kannte. ...

MFG Bobo(2006)

Treverer · 25.01.2006

Bokill schrieb:
Kann man aber so sehen. Die Grafikkarte hat direkten Zugriff auf den Speicher, da die Grafikkarte direkt am Chipsatz ist. Und eben dieser Chipsatz direkte Verbindung zum Speicher hat.

Bei AMD kann erst über die CPU auf den Speicher zugegriffen werden. Bei integrierten Chipsätzen ist das sehr wohl ein Nachteil. Bei High End ist dies kaum nennenswert, da eigenständige Grafikkarten eh eigenen Speicher haben, sobald sie sich auf Fremdspeicher verlassen geht eh Leistung verloren.

MFG Bobo(2006)

d.h. also, der weg graka-chipsatz-cpu-ram dauert länger als der weg graka-chipsatz-ram. auch, wenn die cpu mit viel höherem takt niedriegere latenz bietet, als die nb? und cpu müßte vermutlich ja sogar noch ersetzt werden durch memory-controller (crossbar?), denn die cpu hat damit ja nun null zu tun, wenn die grafikkarte dma zugriff macht. zugleich: ich bezweifle überhaupt, daß bei solchen dma-grafikkartenzugriffen latenzen viel ausmachen, sondern vielmehr bandbreite. numa-tests zeigten doch, daß ein hop über den hypertransport kaum die latenz erhöht (irgendwo auf digi-life sah ich es erst letztens). aber die bandbreitenlimitierung wirkt sich natürlich aus: 1ghz hypertransport macht einen maximalen burst von 4gb/s, oder? klar, in beide richtungen 4gb/s, aber was nutzt dies, wenn die grafikkarte nur lesen will aus einem ram, welches 6,4gb/s liefern könnte? zugleich: die erhöhung des ht-taktes von 800mhz auf 1ghz hat damals nichts gerbacht, oder? irgendwie bezweifle ich die "kritik" an der amd lösung schon noch...

also, in der vergangenheit wurde die trennung von io und ram immer als pluspunkt gesehen (etwa nur von mir?), ja sogar mit verantwortlich gemacht für die überragenden grafik/game-leistung der athlon64. nach deiner aussage bzw. dem interviewten sieht dies aber nun nicht mehr so aus. gibt es ein programm, welches die latenzzeiten und die bandbreite mißt, vom ram zur grafikkarte? und zwar mit dma-zugriff!

hmm, ne, je länger ich darüber nachdenke, halte ich diesen kritik-punkt an der amd-architektur für schmarrn. der kritikpunkt kommt ja auf als begründung, warum 2x16pcie nicht bzw. kaum mehr leistung bringen würde als 2x8pcie. nur hat ja auch bereits die vergangenheit gezeigt, daß der agpx-hoch23 wahn nicht wirklich mehr etwas brachte für höhere frames. warum wohl? ich denke, texturen oder sonstiges werden möglichst einmal geladen, dann benutzt. jeder notwendige wechsel führt zum zusammenbruch der leistung. deswegen bringen die "neuen" shared graka nichts zustande und deswegen verkaufen die hersteller eben auch mittlerweile graka mit 512mb. also, nochmals ne, dies als kritikpunkt an der architektur zu bringen scheint mir lächerlich, da der theoretische mangel real nicht relevant ist. soll intel doch über ihre fsb-lösung nie niedrigere latenz hinkriegen als amd mit der jetzigen lösung *buck*

glaube ich nicht dran..

ein programm zum testen wäre trotzdem schön...

p.s.: die probleme mit der integrierten grafik haben aber ja nur etwas mit den problemen bei den sleep-modie zu tun - nicht mit mangelnder leistungsfähigkeit. wäre doch fein, wenn nvidia endlich eine nforce mit onboard-grafik auch für intel liefert. dann könnte man sicher vergleiche anstellen...

Bokill · 25.01.2006

Treverer schrieb:
... also, in der vergangenheit wurde die trennung von io und ram immer als pluspunkt gesehen (etwa nur von mir?), ja sogar mit verantwortlich gemacht für die überragenden grafik/game-leistung der athlon64.

Ja vom Standpunkt der CPU gibt es nichts besseres.

nach deiner aussage bzw. dem interviewten sieht dies aber nun nicht mehr so aus. gibt es ein programm, welches die latenzzeiten und die bandbreite mißt, vom ram zur grafikkarte? und zwar mit dma-zugriff!

Aber vom Standpunkt einer GPU ist nun ein etwas längerer Weg zum Speicher mit dem K8 zustande gekommen. In der Praxis dürfte bei rechensiven Geschichten der Vorteil aber immer noch zugunsten des K8 liegen.

hmm, ne, je länger ich darüber nachdenke, halte ich diesen kritik-punkt an der amd-architektur für schmarrn. der kritikpunkt kommt ja auf als begründung, warum 2x16pcie nicht bzw. kaum mehr leistung bringen würde als 2x8pcie.

Jo das ist Schmarrn.

... ich denke, texturen oder sonstiges werden möglichst einmal geladen, dann benutzt.

Eben, direkt angebundener Speicher ist durch nichts zu ersetzen. Darum werden die aktuellen GPUs auch immer mehr Speicher auf der Grafikkarte bekommen.

jeder notwendige wechsel führt zum zusammenbruch der leistung.

Eben, noch schlimmer wird es, wenn die Daten erst mal von der Festplatte geladen werden müssen ... da ist der Vorteil eines externen nahen Speicherkontrollers für bessere Grafikleistung nichts mehr als ... Rabulistik.

... da der theoretische mangel real nicht relevant ist. soll intel doch über ihre fsb-lösung nie niedrigere latenz hinkriegen als amd mit der jetzigen lösung glaube ich nicht dran.

ein programm zum testen wäre trotzdem schön... ...

8)

MFG Bobo(2006)

derDUKE · 25.01.2006

Treverer schrieb:
hmm, ne, je länger ich darüber nachdenke, halte ich diesen kritik-punkt an der amd-architektur für schmarrn.

Es ist sogar Schmarrn hoch 35, denn welchen Besitzer eines Systemes mit einer shared-Grafik interessiert denn schon das letzte Quentchen Grafikleistung?

Das ist in etwa so, wie wenn man einer Familienlimousine vorwerfen würde, sie wäre nicht sportlich genug.

mtb][sledgehammer · 25.01.2006

Habe in diesem Text auch noch eine merkwürdige Passage gefunden:

Alternatively, AMD could speed up their current floating-point (FP) performance, by, for example, having two SSE2 (FP) instructions in each cycle, rather than every two clock cycles. But at the end of the day, rather than these simple fixes, you need a new core on the AMD side as well.

Tut mir leid, aber eine theoretische Verdopplung der FP Leistung ist eben kein"simpl fixe" sondern erfordert beim K8 Kern doch größere Änderungen. Wenn der Mensch Ahnung hätte, wüsste er, dass soviele Instruktionen nicht durch den Abschnitt von Dekuder und Scheduling durchpassen. SSE2 Packed Instruktionen werden als Double Instruktions dekoddiert, dass heißt aus einer SSE2 Instruktion werden 2 Macro Ops, davon kann der K8 eben maximal 3 pro Takt dekodieren.

Ergo müsste AMD den Kern mit Ausnahme der ALU (aber das wäre dann wohl das geringste) auf 4 Gleise aufweiten, also Dekoder Scheduler, FPU,.... Genau aus diesem Grund bin ich ja auch ein wenig skeptisch bezüglich Conroes glorreichem 4 issue Design (was ja alles und nichts sein kann

)

Den einzigen Punkt, an dem AMD IMO kurzfristig etwas drehen kann ist der Cache: dank Fab 36 sollte AMD nun auch endlich Cachemonster produzieren können. Und dann gibts natürlich die Möglichkeit, welche mit dem Stepping F realisiert werden soll: Laufzeitoptimierung/Fertigungsoptimierung für mehr Takt.

mocad_tom · 25.01.2006

io bzw. ram-zugriffe durch eine grafikkarte seien bei amd wegen des umweges über hypertransport schlechter als bei chipsatz/fsb-lösungen

Der IMC plus integrierte Grafik ist im Laptop ein großes Hindernis. Da der Prozessor nicht in den C3-State gehen kann. Sie haben zwar den Stutter-Mode als Marketing-Nebelkerze genannt, allerdings funktioniert dieser nicht:
http://www.planet3dnow.de/vbulletin/showthread.php?t=249930

Grüße,
Tom

Conroe Intels Zukunft

Grand Admiral Special

Fleet Captain Special

Admiral Special

Admiral Special

Gesperrt

Admiral Special

Grand Admiral Special

Gesperrt

Grand Admiral Special

Gesperrt

Admiral Special

Gesperrt

Admiral Special

Gesperrt

Grand Admiral Special

Grand Admiral Special

Admiral Special

Grand Admiral Special

Grand Admiral Special

Gesperrt

Grand Admiral Special

Gesperrt

Grand Admiral Special

Grand Admiral Special

Admiral Special

Ähnliche Themen