Spekulationsthread: Was kommt 2011+

Jetzt schon auszuplaudern was in einem Jahr an konkreter Performance kommt wäre angesichts der Konkurrenz auch töricht.
Viel wird nicht zu erwarten sein von der Demo und erst recht nichts was eine konkrete Performance abschätzen lässt.
Es heißt ja auch nicht dass die Orochis die sie da vorführen wollen schon verkaufsfertiges silizium sind...evtl. ist der Takt noch recht bescheiden o.ä.
Gut, wenn sie garnichts zeigen haben sie ein Problem der Glaubwürdigkeit ob da wirklih ein BD drinsteckt und nicht einfach ein K10 o.ä.
Also wenn schon müssten sie was mit AVX zeigen oder so, was garantiert noch keine akt. CPU aus ihrem Hause beherrscht...
whatever...wir werden sehen
 
Wie meist geht es um ein Zeichen...ein Lebenszeichen vom BD Die fuer die Investoren ..von mir aus mit Taskmanager und gebooteten System plus die eine oder andere Spielerei.
Vielleicht gibt es auch ein paar Details - aber mehr waere eher nettes Zubrot...
 
Schon, aber ist "irgendein" lauffähiges system, das im CPU-Z irgend eine komische familie etc. ausweist (sind ja alles theoretisch manipulierbare daten) wirklich ein aussagekräftiges zeichen?
Ich meine, ich kann auch hingehen, sagen ich hätte nen monsterchip in entwicklung und dann kaufe ich nen 0815-PC, patche CPU-Z und öffne den Taksmanager und schon hab ich investoren an der Angel!? Oo
 
Schon, aber ist "irgendein" lauffähiges system, das im CPU-Z irgend eine komische familie etc. ausweist (sind ja alles theoretisch manipulierbare daten) wirklich ein aussagekräftiges zeichen?
Ich meine, ich kann auch hingehen, sagen ich hätte nen monsterchip in entwicklung und dann kaufe ich nen 0815-PC, patche CPU-Z und öffne den Taksmanager und schon hab ich investoren an der Angel!? Oo

könntest du machen. würde aner im nachhinein deine glaubwürdigkeit stark einschränken (insofern etwas schief läuft) und damit auch das Geld, was das nächste mal von investoren kommt.
 
Schon, aber ist "irgendein" lauffähiges system, das im CPU-Z irgend eine komische familie etc. ausweist (sind ja alles theoretisch manipulierbare daten) wirklich ein aussagekräftiges zeichen?
Ich meine, ich kann auch hingehen, sagen ich hätte nen monsterchip in entwicklung und dann kaufe ich nen 0815-PC, patche CPU-Z und öffne den Taksmanager und schon hab ich investoren an der Angel!? Oo

Nun ja, richtig - aber sollte man eine Fakesystem zeigen und das kommt raus (und das kommt raus - siehe NV...) und es auch nur den Anschein haben, dass unter dem Kuehler ein Phenom II werkelt - schiesst man sich heftig ins Bein.
Etwas was sich AMD jetzt sicher nicht erlauben will oder kann - dann ist es besser zusagem: '..Hey Jungs, es dauert noch ein wenig...aber hier schon mal ein paar Flyer...mit der Roadmap der Ph2 fuer 2011...'
 
Etwas was sich AMD jetzt sicher nicht erlauben will oder kann - dann ist es besser zusagem: '..Hey Jungs, es dauert noch ein wenig...aber hier schon mal ein paar Flyer...mit der Roadmap der Ph2 fuer 2011...'

Ja vorallem, da man mit anderen Produkten derzeit noch recht gut aufgestellt ist.
 
Ja vorallem, da man mit anderen Produkten derzeit noch recht gut aufgestellt ist.
Z.Z. sicher - da gab es schon schlimmere Zeiten - aber Intel baut da gerade eine kleine Armada auf gegen die AMD es immer schwerer haben wird...ohne BD und Llano und Co...

Aber man ja zeigen, dass man auch noch etwas im Koecher hat..
 
Schon, aber ist "irgendein" lauffähiges system, das im CPU-Z irgend eine komische familie etc. ausweist (sind ja alles theoretisch manipulierbare daten) wirklich ein aussagekräftiges zeichen?
Ich meine, ich kann auch hingehen, sagen ich hätte nen monsterchip in entwicklung und dann kaufe ich nen 0815-PC, patche CPU-Z und öffne den Taksmanager und schon hab ich investoren an der Angel!? Oo

Hey Duuuu. Ja, genau. Dich meine ich. Du hast Talent, Du. Ja genau, Talent.
Möchtest Du nicht steinreich werden, Du? Ich suche einen wie Dich, Du. Du könntest mir helfen, Du. Ich habe da so ein ganz tolles Ding erfunden, Du. Ja genau. Das soll das Ipad platt machen, Du. Aber dafür brauche ich noch eine gute Präsentation, Du. Da kannst Du mir doch sicher helfen, Du....? Aber psss, Du. Das muß alles ganz geheim bleiben, Du.
 
Hey Duuuu. Ja, genau. Dich meine ich. Du hast Talent, Du. Ja genau, Talent.
Möchtest Du nicht steinreich werden, Du? Ich suche einen wie Dich, Du. Du könntest mir helfen, Du. Ich habe da so ein ganz tolles Ding erfunden, Du. Ja genau. Das soll das Ipad platt machen, Du. Aber dafür brauche ich noch eine gute Präsentation, Du. Da kannst Du mir doch sicher helfen, Du....? Aber psss, Du. Das muß alles ganz geheim bleiben, Du.
Warum nur muss ich, wenn ich das lese, unweigerlich an Stewie Griffin denken.*lol* Thnx 4 that. ;D
 
Ich entschuldige mich schon mal im voraus für die Frage, sollte diese im Thread schon behandelt worden sein; ich lese zwar die meiste Zeit hier mit, kann aber nicht alle Infos im Kopf behalten.

Kann der Decoder des BD beide Int-Einheiten mit Befehlen eines Threads füllen, sobald er erkennt, dass einer der beiden Threads auf eine Speicheranfrage wartet?

Ging mir gerade durch den Kopf, da ich gerade einen Treiber Lowlevel optimiere und dabei einige Spinwaits SMT freundlich ausgelegt habe. Dort kann ich dem Prozessor sagen, dass er die Schleife nicht schneller ausführen braucht, als der Speicher Daten liefern kann, da die Bedingung abhängig von einer Speicherwertveränderung ist, die nicht der Prozessor selbst auslöst, sonder eine PCIe Karte.

Bei SMT Prozessoren bringt das einen guten Leistungsschub, da der Prozessor weiß, dass er während dem warten auf den Speicher dem anderen Thread die Ressourcen zuteilen kann. Bei den aktuellen AMD Prozzies bringt es mir nur den Vorteil, dass ich Prozessor für die Dauer der Speicheranforderung idle und damit den Reordercache nicht zu sehr trashe. Sinnvolle Arbeit kann der Kern in dieser Zeit allerdings nicht leisten.

Wird sich dieses Verhalten mit Bulldozer ändern?
 
Kann der Decoder des BD beide Int-Einheiten mit Befehlen eines Threads füllen, sobald er erkennt, dass einer der beiden Threads auf eine Speicheranfrage wartet?
Nö das geht nicht, es gibt kein SMT, also 1Thread pro INT Cluster. Die FPU wird SMT ähnlich gemeinsam genutzt, aber dazu musst Du nichts machen, das geht automatisch. Berechnet wird, was in der Queue steht, wenn da nichts von Thread 1 kommt,dann kommt halt nichts. Wartet Thread 1 auf Daten, hat Thread2 die vollen Resourcen, ob er das nutzen kann hängt vom Code ab.
Wird sich dieses Verhalten mit Bulldozer ändern?
Nein, das Einzige was man sich vorstellen könnte, wäre ein Ideln des einen Clusters und ein Hochtakten des anderen per Turbo Mode. Wenn die Wartezeit ausreichend lange ist, könnte sich das rentieren. Aber das hängt wohl auch davon ab, wie Du das der CPU mitteilen kannst.

ciao

Ale
 
[ ... ]
Nein, das Einzige was man sich vorstellen könnte, wäre ein Ideln des einen Clusters und ein Hochtakten des anderen per Turbo Mode. Wenn die Wartezeit ausreichend lange ist, könnte sich das rentieren. Aber das hängt wohl auch davon ab, wie Du das der CPU mitteilen kannst.

Danke für die Antwort. Mitteilen kann man das dem Prozessor ganz einfach über einen Assemblerbefehl, der seit SSE2 unterstützt wird. Schade, das dadurch die Auslastung bei AMD CPUs nicht zu steigern ist.
 
Danke für die Antwort. Mitteilen kann man das dem Prozessor ganz einfach über einen Assemblerbefehl, der seit SSE2 unterstützt wird. Schade, das dadurch die Auslastung bei AMD CPUs nicht zu steigern ist.
Die Frage lautet nun: Muss die Auslastung gesteigert werden? So war es mal, als Vieles fix war (max. Takt, TDP). Aber jetzt ist es keine Verschwendung mehr, wenn ein nicht ausgelasteter Core oder die FPU Strom spart (im FPU-Fall bis zu 98%). Durch die gesparte Energie könnten andere Cores schneller arbeiten oder der gleiche Core später auch schneller, da eine Zeit lang der Energieverbrauch niedriger war (wie beim Sandy Bridge). Energie kann auch in den shared units wie Decoder gespart werden durch niedr. Durchsatz (dann clock gating) u. gefüllte Buffer.
 
Gerade in diesem Bereich wäre ich über SMT sehr froh. Ein Speicherzugriff beim Phenom dauert rund 200 Prozessortaktzyklen. Ich glaube nicht, dass in dieser geringen Zeit Clock- oder gar Powergating eingesetzt werden kann. Wenn ich also den Wartebefehl gebe, rennt die Pipeline munter mit NOOP weiter, was zwar ein Cache-Trashing verhindert, sinnvoll ist das aber meiner Meinung nach trotzdem nicht. Und um das nochmal deutlich zu machen: es geht mir nur um die INT-Einheiten, dass ein Thread mehr FPU Leistung bekommt, wenn der andere schläft ist mir klar.

Aber stimmt, ein Cross-Scheduling der Anweisungen zwischen den Int-Einheiten beim BD würde ein gemeinsamer Registerfile voraussetzen, was den schaltungstechnischen Aufwand ziemlich in die Höhe treiben würde.
 
Clock-Gating könnte man problemlos nutzen. Ob es für diese kurze Zeit wirklich Sinn macht, ist allerdings fraglich. Es gibt ja auch noch die CoolCore Technologie. Power-Gating ist eine andere Geschichte und problematischer, da der Aufwand um einiges höher ist.
 
Danke für die Antwort. Mitteilen kann man das dem Prozessor ganz einfach über einen Assemblerbefehl, der seit SSE2 unterstützt wird. Schade, das dadurch die Auslastung bei AMD CPUs nicht zu steigern ist.
Aja, das war Mwait, oder ? Wenn ich mich recht erinnere, nicht echter Bestandteil von SSE2, sondern nur "zufällig" mit dabei, da es halt zusammen mit dem ersten SSE2 P4 eingeführt hatte, der gleichzeitig eben auch noch SMT hatte. Oder wars schon der SSE3 P4 ... hmmm ach egal ^^

Gerade in diesem Bereich wäre ich über SMT sehr froh. Ein Speicherzugriff beim Phenom dauert rund 200 Prozessortaktzyklen. Ich glaube nicht, dass in dieser geringen Zeit Clock- oder gar Powergating eingesetzt werden kann. Wenn ich also den Wartebefehl gebe, rennt die Pipeline munter mit NOOP weiter, was zwar ein Cache-Trashing verhindert, sinnvoll ist das aber meiner Meinung nach trotzdem nicht. Und um das nochmal deutlich zu machen: es geht mir nur um die INT-Einheiten, dass ein Thread mehr FPU Leistung bekommt, wenn der andere schläft ist mir klar.
Hmmm wie siehts denn mit Prefetch aus ? Kannst Du da nicht irgendwas sinnvolles treiben ?
Ansonsten ist noch die Frage ob man die Wartezeit noch zu nem gewissen Grad mit OoO bzw. speculativen Berechnungen überbrücken kann.

Zusammengenommen sollte man damit die Not für SMT schon ziemlich eindämmen können, wenns darüberhinaus noch Zusatzboni wie hoher Takt etc. gibt, noch besser.

Speziell im Bulldozerfall kann man ja das auch andersherum sehen: Der Entwickler muss sich nicht mit SMT herumschlagen, da es 2 "echte" INT Cluster für 2 Threads gibt. Wieso kompliziert, wenns auch einfach geht ;-)

Ansonsten, wers noch nicht gesehen hat, AMD auf der SC10:
http://sites.amd.com/us/Documents/AMD_at_SC10_Schedule.pdf

Da gibts ein HPC Update ... mal schauen ob das noch ein bisschen mehr BD Infos gibt, als beim Analyst day.

ciao

Alex
 
Ich gebe zu mein Beispiel ist ein ziemlicher Spezialfall, da der Treiber anders als viele Programme kein vorhersehbaren Datensätze verarbeitet, womit Sachen wie Prefetch ausgeschlossen sind. In Grunde sind diese Spinwaits nur kurze Verzögerungen, in denen ich auf einen Zustandwechsel der Karte warte, bis ich dem Anwendungsprogramm sagen kann: "du darfst weitermachen und mir Befehle schicken". Diese Zustandswechsel erfolgen so schnell, dass sich ein echter Taskswitch nicht lohnt.

Die Befehle gehören zwar nicht logisch zu SSE, sind aber auf allen Prozessoren an die Versionen gekoppelt. Mit SSE3 kann ich die Kerne noch effektiver schlafen legen, aber das ist eine andere Geschichte.

Und ja ich verwende die MWAIT. Ansonsten spekuliert der Prozessor immer weiter, dass er die Schleife ohne Abhängigkeiten ausführen kann und schüttet damit den Reorderbuffer zu. Somit bringt es auch auf nicht HT Systemen einen Vorteil. Bei HT Systemen schnappt sich halt der andere Thread die Ressourcen und tut was sinnvolles.
 
@Opteron: Danke für Link
Bitte Bitte :)

Der Link zum heutigen Analyst Webcast ist gerade auch online gegangen:
http://www-waa-akam.thomson-webcast...e7&portal_id=583179303f3bd5200a6ee9411c6eb0f5

Los gehts um 17.30.

Also mal schon Popcorn bereitstellen :)

Wobei vielleicht auch vollwertiger Nahrung plus Kaffe vonnöten wäre:
Duration: Approximately 8 hours
Vielleicht warte ich doch nur ab, bis die Präsentationsfolien hier hochgeladen werden:
http://ir.amd.com/phoenix.zhtml?c=74093&p=irol-2010analystday

;-)

Edit:
Anscheinend Motto des Tages:
amddayrg5w.jpg


Klingt eher nach Fusion, denn Bulldozer, aber in 8 Stunden kann ja viel passieren ^^

ciao

Alex
 
Zuletzt bearbeitet:
naja "er" quatscht auch über Cloud --> Server !
 
Um 18:35 steht APU auf dem Programm. Dirk Meyer hat in seiner ersten Rede gesagt, dass Ontario diese Woche von AMD an die Partner geschickt wird.
 
Zuletzt bearbeitet:
Ich tippe auf den Taskmanager, der die Auslastung durch 8 Endlosschleifen zeigt
Wie erwartet: Genau so war es nun ...

1 HD Filmchen und 8 Threads im Taskmanager, war noch nichtmal 100% Last, sondern nur so ca. 25 ...

Roadmaps nicht viel Neues, ausser den 2012 Nennungen, da kommt dann wohl BDVer2 (next generation BD) im Fusion-BD Chip, aber keine näheren Spezifizierungen des 2011er Zeitplans :(

Aja und noch ein 8Core BD in 2012 ... sollte kein MCM sein, denn es steht auch ein 20 Core Opteron an ... ob das DIE wohl ins G34 Gehäuse passt ^^
Ich rechne da dann mal mit nur 1 MB L2 ...
notebookplanwsyr.jpg



amddesktop126q72.jpg


amdserver12nsvv.jpg


ciao

Alex
 
Zuletzt bearbeitet:
Hmm, 2012
Krishna und Wichita - 1-4 enhanced Bobcat Cores in 28 nm :D
Trinity - 2-4 Bulldozer Cores + DX11 GPU in 32 nm
 
Zurück
Oben Unten