App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Was kommt (nach den ersten Deneb (K10.5+)) fuer den Desktop bis zum Launch der BD(APUs)?
- Ersteller TNT
- Erstellt am
Dresdenboy
Redaktion
☆☆☆☆☆☆
Ich habe jetzt das richtige Bild im Blog veröffentlicht.
@Opteron:
An die Dispatcher-Anbindung schreiben wir mal TBD dran Das ist in der Tat diskussionswürdig. Ich werde mal nach weiteren Texthinweisen suchen. Passen würde es dennoch, da die INT-Cluster nicht auf Dispatch-Pakete in jedem Zyklus angewiesen sind, da ein Paket nach meinem Verständnis für 2 Zyklen Auslastung reicht. Sollte die FPU mit der entspr. Breite und Unterteilung arbeiten, kann sie aus der Menge an Dispatch-Paketen auch Nutzen schlagen.
Das Credo dürfte (auch laut JF) etwa lauten: Alles so effizient wie (wirtschaftlich) möglich. Möglichst wenige idle Einheiten während der Ausführung. Also Fast Path Decoder während µCode-Decoding mit nutzen, freie FPU-Teil-FUs für zusätzliche Ausführung nutzen, freie Int-Cluster für Eager Execution...
@Opteron:
An die Dispatcher-Anbindung schreiben wir mal TBD dran Das ist in der Tat diskussionswürdig. Ich werde mal nach weiteren Texthinweisen suchen. Passen würde es dennoch, da die INT-Cluster nicht auf Dispatch-Pakete in jedem Zyklus angewiesen sind, da ein Paket nach meinem Verständnis für 2 Zyklen Auslastung reicht. Sollte die FPU mit der entspr. Breite und Unterteilung arbeiten, kann sie aus der Menge an Dispatch-Paketen auch Nutzen schlagen.
Das Credo dürfte (auch laut JF) etwa lauten: Alles so effizient wie (wirtschaftlich) möglich. Möglichst wenige idle Einheiten während der Ausführung. Also Fast Path Decoder während µCode-Decoding mit nutzen, freie FPU-Teil-FUs für zusätzliche Ausführung nutzen, freie Int-Cluster für Eager Execution...
Dr@
Grand Admiral Special
- Mitglied seit
- 19.05.2009
- Beiträge
- 12.791
- Renomée
- 4.066
- Standort
- Baden-Württemberg
- Aktuelle Projekte
- Collatz Conjecture
- Meine Systeme
- Zacate E-350 APU
- BOINC-Statistiken
- Mein Laptop
- FSC Lifebook S2110, HP Pavilion dm3-1010eg
- Prozessor
- Turion 64 MT37, Neo X2 L335, E-350
- Mainboard
- E35M1-I DELUXE
- Speicher
- 2x1 GiB DDR-333, 2x2 GiB DDR2-800, 2x2 GiB DDR3-1333
- Grafikprozessor
- RADEON XPRESS 200m, HD 3200, HD 4330, HD 6310
- Display
- 13,3", 13,3" , Dell UltraSharp U2311H
- HDD
- 100 GB, 320 GB, 120 GB +500 GB
- Optisches Laufwerk
- DVD-Brenner
- Betriebssystem
- WinXP SP3, Vista SP2, Win7 SP1 64-bit
- Webbrowser
- Firefox 13
Die gibts noch Keines
Ich wollt ja auch nicht wissen obs nen Tape Out gab.Ich hab mal in den Raum gestellt, dass die reale Umsetzung bezüglich der relativen Lage zueinander ja nicht 1 zu 1 sein muss. Und wollte mal eure fachkundige Meinung dazu hören.
MfG
PS Danke für das Blockdiagramm Dresdenboy
Opteron
Redaktion
☆☆☆☆☆☆
Blöde Frage: Wieso ?Passen würde es dennoch, da die INT-Cluster nicht auf Dispatch-Pakete in jedem Zyklus angewiesen sind, da ein Paket nach meinem Verständnis für 2 Zyklen Auslastung reicht.
Ne Pipline muss doch immer gefüllt sein, wenn da kein Nachschub da ist -> idle -> ineffizient, sollte nach dem von Dir geschilderten Design Credo aber vermieden werden
Oder übersehe ich etwas ?
Apropos ... da fallen mir die Registersätze auf. Wenn alles so effizient genutzt werden sollte, dann sollten beide Cluster auch einen gemeinsamen Register Pool benützen (Hinweis für die, die es nicht wissen, es gibt mehr Register als x64 vorsieht, wg. Register Renaming). Gabs da nicht auch in einem Patent was dazu ?Das Credo dürfte (auch laut JF) etwa lauten: Alles so effizient wie (wirtschaftlich) möglich. Möglichst wenige idle Einheiten während der Ausführung. Also Fast Path Decoder während µCode-Decoding mit nutzen, freie FPU-Teil-FUs für zusätzliche Ausführung nutzen, freie Int-Cluster für Eager Execution...
Ist auf alle Fälle auch praktisch, wenn Cluster 2 spekuliert, da durch Renaming dann die Ergebnisse schnell in Cluster 1 zur Verfügung stünden.
Auf was ich raus will: Die FPU dazwischen bei sowas "etwas" störend
Ansonsten ... fürs nächste Bild könntest Du Dir überlegen, noch ne Map Unit hinzuzufügen, die ist ja für das spekulative Ausführen in Cluster 2 nötig:
http://www.planet3dnow.de/vbulletin/showthread.php?p=3929261#post3929261
Oder sparst Du Dir das, da es zu einem Bulldozer 2.0 gehört ?
ciao
Alex
Zuletzt bearbeitet:
Falls es noch keiner gesehen hat:
httx://wwx.computerbase.de/news/wirtschaft/unternehmen/intel/2009/august/intel-technologie-ausblick_4_jahr_2022/
Intel gibt einen Ausblick auf das, was sie erreichen WOLLEN.
Was meint ihr dazu? Bis wohin (Jahr/Fertigungsgröße) kann man das realistisch sehen?
httx://wwx.computerbase.de/news/wirtschaft/unternehmen/intel/2009/august/intel-technologie-ausblick_4_jahr_2022/
Intel gibt einen Ausblick auf das, was sie erreichen WOLLEN.
Was meint ihr dazu? Bis wohin (Jahr/Fertigungsgröße) kann man das realistisch sehen?
Falls es noch keiner gesehen hat:
httx://wwx.computerbase.de/news/wirtschaft/unternehmen/intel/2009/august/intel-technologie-ausblick_4_jahr_2022/
Intel gibt einen Ausblick auf das, was sie erreichen WOLLEN.
ich denke, dass es genauso zu sehen ist - was sie erreichen wollen - Intel haelt es fuer realistisch und man darf das 'Mooresche Gesetz' nicht vergessen - das zwingt ja nun gerade zu diesen Verbesserung.
Dass es nicht mehr haelt wurde ja schon oft prophezeit...
Intel sieht ja selbst grosse Schwierigkeiten in der Entwicklung auf sich zu kommen - spaetestens bei 16/11nm kennt selbst Intel den Loesungsweg nicht wirklich, aber bis 2014 fliesst noch viel Wasser den Rhein runter.Wer weiss wie dann die Halbleiterwelt aussieht.
Zuletzt bearbeitet:
Bobo_Oberon
Grand Admiral Special
- Mitglied seit
- 18.01.2007
- Beiträge
- 5.045
- Renomée
- 190
Sorry, da bekomme ich Kopfschmerzen. Es handelt sich weder um eine Gesetzmässigkeit rund um das Mohrsches Salz, noch eine französische Ortschaft.ich denke, dass es genauso zu sehen ist - was sie erreichen wollen - Intel haelt es fuer realistisch und man darf das 'Morrsche Gesetz' nicht vergessen ...
Sein Gesetz ist nach dem Intel-Mitgründer Gordon Moore benannt.
MFG Bobo(2009)
Zuletzt bearbeitet:
Sorry, da bekomme ich Kopfschmerzen. Es handelt sich weder um eine Gesetzmässigkeit rund um das Mohrsches Salz, noch eine französische Ortschaft.
Sein Gesetz ist nach den Intel-Mitgründer Gordon Moore benannt.
MFG Bobo(2009)
Ups...ist nun korrigiert...!!
Lepus
Fleet Captain Special
- Mitglied seit
- 14.08.2009
- Beiträge
- 289
- Renomée
- 1
- Standort
- München
- Mein Laptop
- Alienware M17x R4
- Prozessor
- Intel Core i7-3820M Single Thread @ max 4,1GHz
- Speicher
- 2x4GB Mushkin 1600MHz (ULV)
- Grafikprozessor
- Dell AMD HD 7970M
- Display
- 17,3" FHD
- HDD
- Crucial m4 256Gb mSata
- Optisches Laufwerk
- HL-DT-ST DVDRW/BR-ROM
- Soundkarte
- Creative Sound Blaster Recon 3Di / HM77
- Gehäuse
- Alienware M17x R4
- Netzteil
- Dell 240W
- Betriebssystem
- Windows 8
- Webbrowser
- Opera
Dann sollte man Mooresches Gesetz in eine Mooresche Regel umbennen, denn eine Regel muss nicht immer eingehalten werden im Gegensatz zu einem Gesetz. (Hab ich mal in der Schule gelernt, warum es nur RGT-Regel (Reaktionsgeschwindigkeit-Temperatur-Regel) heißt und kein Gesetz ist, da die Gesetze allgemeingültig sind.
Edit:
Kleines Wikizitat:
Edit:
Kleines Wikizitat:
Auf Intels Entwicklerforum (IDF) im Herbst 2007 sagte Moore das Ende seines „Gesetzes“ voraus: es werde wahrscheinlich noch 10 bis 15 Jahre Bestand haben, bis eine fundamentale Grenze erreicht ist. Allerdings wurde ein halbes Jahr später von Pat Gelsinger, Chef der Digital-Enterprise-Sparte von Intel prognostiziert, dass das Mooresche Gesetz noch bis 2029 Gültigkeit behalten soll.
Zuletzt bearbeitet:
Dann sollte man Mooresches Gesetz in eine Mooresche Regel umbennen, denn eine Regel muss nicht immer eingehalten werden im Gegensatz zu einem Gesetz. (Hab ich mal in der Schule gelernt, warum es nur RGT-Regel (Reaktionsgeschwindigkeit-Temperatur-Regel) heißt und kein Gesetz ist, da die Gesetze allgemeingültig sind.
Edit:
Kleines Wikizitat:
Ja, sicher..aber der Begriff 'Gesetz' in diesem Zusammenhang hat sich etabliert - bislang hat es auch gehalten - und wer sagt denn, dass man Gesetze nicht auf brechen kann? !!
Bobo_Oberon
Grand Admiral Special
- Mitglied seit
- 18.01.2007
- Beiträge
- 5.045
- Renomée
- 190
Jetzt mach dir nicht ins Hemd . Member TNT war so frei uns sogar gleich einen Link auf die Wikipdia zu setzen, worin die schillernde Vielgestalt des scheinbaren Gesetzes beschrieben wird. Diese Faustregel hat sich nun mal als "Gesetz" in der Umgangssprache festgesetzt.Dann sollte man Mooresches Gesetz in eine Mooresche Regel umbennen, ...
Kleines Wikizitat:
MFG Bobo(2009)
rkinet
Grand Admiral Special
http://www.computerbase.de/news/wir...ugust/intel-technologie-ausblick_4_jahr_2022/Ja, sicher..aber der Begriff 'Gesetz' in diesem Zusammenhang hat sich etabliert - bislang hat es auch gehalten - und wer sagt denn, dass man Gesetze nicht auf brechen kann? !!
Die 22-nm-Fertigung soll Ende 2011 serienreif sein und 2012 auf dem Massenmarkt verfügbar werden.
Danach wird es deutlich schwerer, gibt selbst Intel zu.
Während man die 16-nm-Fertigung 2014 noch halbwegs in den Griff bekommen könnte, sieht es bei der 11-nm-Fertigung deutlich kritischer aus.
Zumindest im Massenmarkt könnte sich langsam ein Ende der Strukturverkleinerung etablieren. Allerdings wäre dann das 'Gesetz' länger in der Verwendung gewesen als viele juristische Gesetze auf Erden.
Ein 'Erfolg' des Gesetztes ist ja auch die Abkehr von Single-Thread bei GPU und zuletzt CPU da ja mehr Bausteile (elektronisch) vernünftiger als GHz-Orgien sind.
Und es stellt sich die Frage ob wir wirklich noch deutlich unterhalb von 22nm Mainstream-Produkte einmal benötigen werden. Da sind dann auch Produkte die Milliarden funktionsfähige Transistoren enthalten müssen. Bei DRAMs landen wird selbst bei 'nur' 16nm einmal in der 50-100 Milliarden Transitoren je DIE Liga.
Und für CPUs bleibt jenseits der Shrinks und Multicore die Frage wer kann und will die Entwicklungskosten für immer ausgetüftetere CPU-Designs bezahlen ?
Zudem lassen Ideen wie Windows 8 (= höhere IPC-Zahl) erahnen dass wir im Softwarebereich noch lange nicht optimiert arbeiten was gerade bei zunehemder Mobilverwendung und low power Desktop sinnvoller als Shrinks wäre.
Lynxeye
Admiral Special
- Mitglied seit
- 26.10.2007
- Beiträge
- 1.107
- Renomée
- 60
- Standort
- Sachsen
- Mein Laptop
- Lifebook T1010
- Prozessor
- AMD FX 8150
- Mainboard
- Gigabyte GA-970A-UD3
- Kühlung
- Zalman Reserator 1 Plus
- Speicher
- 4x8GB DDR3-1600 G.Skill Ripjaws
- Grafikprozessor
- ASUS ENGTX 260
- Display
- 19" AOC LM928 (1280x1024), V7 21" (1680x1050)
- HDD
- Crucial M4 128GB, 500GB WD Caviar 24/7 Edition
- Optisches Laufwerk
- DVD Multibrenner LG GSA-4167B
- Soundkarte
- Creative Audigy 2 ZS
- Gehäuse
- Amacrox Spidertower
- Netzteil
- Enermax Liberty 500W
- Betriebssystem
- Fedora 17
- Webbrowser
- Firefox
- Verschiedenes
- komplett Silent durch passive Wasserkühlug
Und es stellt sich die Frage ob wir wirklich noch deutlich unterhalb von 22nm Mainstream-Produkte einmal benötigen werden. Da sind dann auch Produkte die Milliarden funktionsfähige Transistoren enthalten müssen. Bei DRAMs landen wird selbst bei 'nur' 16nm einmal in der 50-100 Milliarden Transitoren je DIE Liga.
Und für CPUs bleibt jenseits der Shrinks und Multicore die Frage wer kann und will die Entwicklungskosten für immer ausgetüftetere CPU-Designs bezahlen ?
Zudem lassen Ideen wie Windows 8 (= höhere IPC-Zahl) erahnen dass wir im Softwarebereich noch lange nicht optimiert arbeiten was gerade bei zunehemder Mobilverwendung und low power Desktop sinnvoller als Shrinks wäre.
Ähm rkinet. Jetzt hast du wieder deine bunten 5 Minuten, oder?
Ja, wir werden mit weiteren Strukturverkleinerungen in ganz neue Bereiche der Transistorenmengen vorstoßen. Die Ramgröße verhält sich allerdings direkt proportional zur Transistormenge, wir werden dort also noch lange keinen Stillstand feststellen können. Selbst wenn wir im Mobil- und Desktopbereich diese Mengen nicht brauchen. Wissenschaftliche Simulationen werden immer mehr Ram benötigen, weil man nur durch höhere Datenmengen näher an die Realität heran kommen kann. Und die Wissenschaft ist nun mal auch eine große Triebkraft hinter der Rechnerentwicklung.
Und zu deiner "Frage": wir befinden uns schon heute bei den Entwicklungskosten in Bereichen, die sich vor 10 Jahren noch niemand hätte träumen lassen. Trotzdem hat sich auf diesem Weg der Erhöhung noch nie jemand darüber Gedanken gemacht. Warum? Ganz einfach, weil der Bedarf an Rechenleistung nicht einfach zum Stillstand kommt. Es wird sich also immer jemand finden, der für höhere Rechenleistungen bezahlen wird.
Auch wenn es DIR momentan so schein, als würden Rechner mit höherer Leistung nutzlos sein: Wer sagt denn, das ewig mit Rechnern arbeiten werden, die eine GUI besitzen und über Maus und Tastatur steuerbar sind. An den Hochschulen etabliert sich gerade eine neue Wissenschaft (kognitive Psychologoie), welche sich nur damit beschäftigt neue Methoden zu finden, die Bedienung von Maschinen für den Menschen einfacher zu machen. Vll kommt von dort ja bald ein neues Konzept zur Mensch-Maschine-Interaktion, die ganz andere Dimensionen an Rechenleistug fordern. Was im Umkehrschluss bedeutet: neue Wege können nur gefunden werden, wenn die Rechenleistung auch weiterhin gesteigert wird.
Lepus
Fleet Captain Special
- Mitglied seit
- 14.08.2009
- Beiträge
- 289
- Renomée
- 1
- Standort
- München
- Mein Laptop
- Alienware M17x R4
- Prozessor
- Intel Core i7-3820M Single Thread @ max 4,1GHz
- Speicher
- 2x4GB Mushkin 1600MHz (ULV)
- Grafikprozessor
- Dell AMD HD 7970M
- Display
- 17,3" FHD
- HDD
- Crucial m4 256Gb mSata
- Optisches Laufwerk
- HL-DT-ST DVDRW/BR-ROM
- Soundkarte
- Creative Sound Blaster Recon 3Di / HM77
- Gehäuse
- Alienware M17x R4
- Netzteil
- Dell 240W
- Betriebssystem
- Windows 8
- Webbrowser
- Opera
Das ding ist ja, dass wir Irgedwann in Strukturbreiten vordringen, die nicht mehr weit weg von einzelnen Atomen sind (Bindungslänge beim Silizium rd 220pm je nach Art der Verbindung). Und wenn man an diesem Punkt angelangt ist, ist man mit Shrinks am Ende. Ich kann mir net vorstellen, dass einzelne Atome die Aufgaben eines Transistors übernehmen. Das kleinste Halbmetallatom mit drei Valenzelektronen ist das Bor.
Ich denk da eher an die Quantencomputer, die nun erstma noch 20 Jahre Zeit haben zu reifen. Und wenn diese dann nix taugen, dann hat man was neues gefunden, oder muss es halt hinnehmen, dass die DIEs immer größer werden. Vllt hat man ja bis dahin die Kühlung einfach besser im Griff. Wenn man das mal mit Autos vergleicht, sind diese in den Jahren auch größer geworden. Die Motoren laufen effizienter (war neulig mal im Benzmuseum. Als der Motor rauskam konnte man von einem PS bei einem Liter Hubraum ausgehen, heute sinds auch ohne Aufladung über 100). Es gab ja mal schöne Ansätze, die irgendwie wohl net Marktreif geworden sind, wie der Ionenwindlüfter. Naja. Warten mer ma bis 2025. Da ist der Launch der Evergreen noch recht Zeitnah ^^
Ich denk da eher an die Quantencomputer, die nun erstma noch 20 Jahre Zeit haben zu reifen. Und wenn diese dann nix taugen, dann hat man was neues gefunden, oder muss es halt hinnehmen, dass die DIEs immer größer werden. Vllt hat man ja bis dahin die Kühlung einfach besser im Griff. Wenn man das mal mit Autos vergleicht, sind diese in den Jahren auch größer geworden. Die Motoren laufen effizienter (war neulig mal im Benzmuseum. Als der Motor rauskam konnte man von einem PS bei einem Liter Hubraum ausgehen, heute sinds auch ohne Aufladung über 100). Es gab ja mal schöne Ansätze, die irgendwie wohl net Marktreif geworden sind, wie der Ionenwindlüfter. Naja. Warten mer ma bis 2025. Da ist der Launch der Evergreen noch recht Zeitnah ^^
rkinet
Grand Admiral Special
Bezahlen ?Ganz einfach, weil der Bedarf an Rechenleistung nicht einfach zum Stillstand kommt. Es wird sich also immer jemand finden, der für höhere Rechenleistungen bezahlen wird.
Anno 2022 ... K17+4 Sempron X16 mit 4 GHz (Turbomudsus bis 4 aktive Cores) & 32MB Cache für 19€ - boxed ...
Der Fall 'Atom 2xx' zeigt dass wir das Ende der Fahnenstange in einigen Marktsegmenten schon erreicht haben.
Und bei DRAM / 3-4 GByte und 64 Bit hat sich ja schon deutlich Widerstand gezeigt.
Und einige HighEnd Rechenprofis greifen heute schon zu GPUs (wie in Cern) um Daten vorzuverarbeiten.
Ob man das selbst einmal zuhause so bekommt ist fragwürdig. Eher vorstellbar eine Art Signalverarbeitungs-Google, wo stationär in großem Umfang optische und akustische Informationen ausgewertet werden. Und die heimischen Clients blieben kompakt und stromsparend.
Wie die Äußerungen und die Roadmap bei Intel zeigen ist bald Ende der Fahnenstande erreicht. Zudem benötigt es viel Käuferbeiträge um noch in mehr Technik zu investieren.
Und da ist kaum eine Perspektive erkennbar.
Markus Everson
Grand Admiral Special
Und einige HighEnd Rechenprofis greifen heute schon zu GPUs (wie in Cern) um Daten vorzuverarbeiten.
Du konstruierst einen Widerspruch wo keiner ist. Rechenleistung der GPU ist immer noch Rechenleistung und Rechenleistung der GPU skaliert bisher und auf absehbare Zeit mit der Zahl der Transistoren.
Ob man das selbst einmal zuhause so bekommt ist fragwürdig.
Ja, ist es. Allerdings war es für ct auch mal fragwürdig ob nach dem 50MHz 486er noch größere Taktsteigerungen möglich sind. Vor 15 Jahren wären mehr als 16 MB Ram in einem Computer fraglich gewesen, vor 10 Jahren mehr als 1 Gigabyte auf einer Festplatte.
Sicher ist das es Grenzen des Wachstums gibt. Auch bei Computern. Fakt ist aber das wir die noch nicht gefunden haben.
Eher vorstellbar [...]
rkinet erzählt Geschichten...gähn...
rkinet
Grand Admiral Special
a) Intel Atom statt Penryn ... wie http://www.computerbase.de/news/har...2009/august/asus_termin_ion-eee-box_-eee-top/Ja, ist es. Allerdings war es für ct auch mal fragwürdig ob nach dem 50MHz 486er noch größere Taktsteigerungen möglich sind. Vor 15 Jahren wären mehr als 16 MB Ram in einem Computer fraglich gewesen, vor 10 Jahren mehr als 1 Gigabyte auf einer Festplatte.
Sicher ist das es Grenzen des Wachstums gibt. Auch bei Computern. Fakt ist aber das wir die noch nicht gefunden haben.
b) AMD 'BE'-Edition ab $100 statt $800 FX-Modelle ...
Die Grenzen beim Wachstum sind längst sichtbar. Und gleichzeitig sind ja die 32/28nm bzw. teils 22/18nm schon recht realistisch in der Umsetzung. Das Wachstum wird also bis dahin laufen und gleichzeitig immer mehr Kunden im low budget Bereich ordern.
AMD hat dies sogar einmal in seiner 50x15 Initiative vorgemacht. Obige 'Ion-Eee-Box und -Eee-Top' liegen Faktor 3-5 über dem alten Geode Design.
Wie http://50x15.amd.com/en-us/internet_usage.aspx zeigt betracht selbst AMD low budget als sehr relevant für die Zukunft bei den Kunden.
Nur, um ins Internet zu kommen wird man 2015 locker mit 32/22nm Produkten auskommen und nicht nach 4nm Technik lechzen.
Lynxeye
Admiral Special
- Mitglied seit
- 26.10.2007
- Beiträge
- 1.107
- Renomée
- 60
- Standort
- Sachsen
- Mein Laptop
- Lifebook T1010
- Prozessor
- AMD FX 8150
- Mainboard
- Gigabyte GA-970A-UD3
- Kühlung
- Zalman Reserator 1 Plus
- Speicher
- 4x8GB DDR3-1600 G.Skill Ripjaws
- Grafikprozessor
- ASUS ENGTX 260
- Display
- 19" AOC LM928 (1280x1024), V7 21" (1680x1050)
- HDD
- Crucial M4 128GB, 500GB WD Caviar 24/7 Edition
- Optisches Laufwerk
- DVD Multibrenner LG GSA-4167B
- Soundkarte
- Creative Audigy 2 ZS
- Gehäuse
- Amacrox Spidertower
- Netzteil
- Enermax Liberty 500W
- Betriebssystem
- Fedora 17
- Webbrowser
- Firefox
- Verschiedenes
- komplett Silent durch passive Wasserkühlug
Du vergisst immer, das du nur die Hardwareentwicklungen bis 2015 absehen kannst. Du betrachtest aber keine möglichen Softwareentwicklungen bis dahin. Was weißt du, wie sich das Internet in 5 Jahren bedienen lässt und ob diese Form der Bedienung nicht einiges mehr an Rechenleistung erfordert, als du es dir heute vorstellen kannst?
Markus Everson
Grand Admiral Special
a) Intel Atom statt Penryn ...
b) AMD 'BE'-Edition ab $100 statt $800 FX-Modelle ...
Du solltest wirklich mal versuchen wenigstens für 15 Millisekunden beim gleichen Thema zu bleiben.
Es ging um Transistoren pro Chip. Es ging nicht um neue Märkte und nicht um Preisverfall.
Aber was red ich ... bringt eh nichts.
rkinet
Grand Admiral Special
Natürlich gehts um Preisverfall.Es ging um Transistoren pro Chip.
Es ging nicht um neue Märkte und nicht um Preisverfall.
Auch Intel kann sich keinen Okta-Core Atom in 22nm für $15/ Stück erlauben.
Entweder es gibt gut zahlende Märkte oder der technische Aufwand für die Produkte muss überschaubar klein sein.
Die möglichen Kunden fürs Internet leben in Schwellenländern und werden zunehemend weltweit interessant.Du vergisst immer, das du nur die Hardwareentwicklungen bis 2015 absehen kannst. Du betrachtest aber keine möglichen Softwareentwicklungen bis dahin. Was weißt du, wie sich das Internet in 5 Jahren bedienen lässt und ob diese Form der Bedienung nicht einiges mehr an Rechenleistung erfordert, als du es dir heute vorstellen kannst?
Ob wir hingegen 2015 bei ebay in 3D bieten können und planet3dnow nur ab 100 MBit/s Leistung noch performant geladen werden kann wird kaum die Produktentwicklung beeinflussen. Und Microsoft hat schon bei Win 7 und noch mehr bei Win 8 mehr Performance bei geringeren Verbrauch an Rechentakten angekündigt.
Was auch daran liegt dass Mobilanwender immer zahlreicher werden und hier Kompaktheit bei Code und Resourcenbedarf wichtig ist.
Zuletzt bearbeitet:
Dresdenboy
Redaktion
☆☆☆☆☆☆
Blöde Frage: Wieso ?
Ne Pipline muss doch immer gefüllt sein, wenn da kein Nachschub da ist -> idle -> ineffizient, sollte nach dem von Dir geschilderten Design Credo aber vermieden werden
Nach derzeitigem Stand hat jeder INT Cluster je 2 ALUs u. 2 AGUs. Die 4 Operationen in einem Dispatch-Paket dürften, wenn ich nichts übersehen habe, bis zu 4 macro-operations, also 8 micro-ops enthalten, nach altem Schema [ALU|AGU]. Das reicht für 2 Takte -> volle Auslastung erreichbar.
Apropos ... da fallen mir die Registersätze auf. Wenn alles so effizient genutzt werden sollte, dann sollten beide Cluster auch einen gemeinsamen Register Pool benützen (Hinweis für die, die es nicht wissen, es gibt mehr Register als x64 vorsieht, wg. Register Renaming). Gabs da nicht auch in einem Patent was dazu ?
Ist auf alle Fälle auch praktisch, wenn Cluster 2 spekuliert, da durch Renaming dann die Ergebnisse schnell in Cluster 1 zur Verfügung stünden.
Auf was ich raus will: Die FPU dazwischen bei sowas "etwas" störend
Ansonsten ... fürs nächste Bild könntest Du Dir überlegen, noch ne Map Unit hinzuzufügen, die ist ja für das spekulative Ausführen in Cluster 2 nötig:
http://www.planet3dnow.de/vbulletin/showthread.php?p=3929261#post3929261
Oder sparst Du Dir das, da es zu einem Bulldozer 2.0 gehört ?
Was mal ein überarbeiteter Kern wird, wissen wir nicht. Da bleibt nur Raten anhand von Filing Dates
Ein gemeinsamer Register Pool erfordert aber noch mehr Arbitration usw. Ein Patent war ja schon dafür gedacht, nur noch 6 read u. 4 write ports zu haben (passend für einen Cluster). Das ist auch effizienter ("divide and conquer" ). Normalerweise ist eine Map-Unit in jedem Cluster dabei (nur noch nicht dargestellt, aber OOO-typisch). Aber das (auch notwendige) Renaming über 4 ALUs, 4 AGUs u. 2 Threads wäre ganz schön happig. Sowieso würde eager execution öfters unabhängige Codestückchen abarbeiten, wo separates Renaming stattfände. Sehe ich also eher nicht so.
Wenn die Int-Cluster nebeneinander liegen, können sie auch besser kommunizieren. Nur die FPU hat's dann etwas weiter zu den LSUs u. Caches, was ja physikalisch recht große Brocken sind. Aber da schwebt mir schon ein Design vor (auf Ebene der Funktionsblöcke auf dem Die).
Damit wäre eben auch möglich, 2 Cluster an einen Dispatch Bus zu hängen u. die FPU an den anderen. Da wahrscheinlich irgendwelche microcoded instructions (Known Good Code) eher an die FPU gerichtet sind, passt das auch. Ich werde so etwas mal zeichnen.
Zuletzt bearbeitet:
Opteron
Redaktion
☆☆☆☆☆☆
Jo, für einen Cluster, aber bis zum Dispatcher muss man doch noch an Cluster 2 (und FPU) denken ... deren Queue will auch gefüllt werden. Wenn ich Dich jetzt richtig verstehe buchst Du die ganze Decoder/Dispatch Bandbreite nur auf den einen INT Cluster, oder ?Nach derzeitigem Stand hat jeder INT Cluster je 2 ALUs u. 2 AGUs. Die 4 Operationen in einem Dispatch-Paket dürften, wenn ich nichts übersehen habe, bis zu 4 macro-operations, also 8 micro-ops enthalten, nach altem Schema [ALU|AGU]. Das reicht für 2 Takte -> volle Auslastung erreichbar.
Ja da war was, sogar mit den FPU Register wenn ich mich recht erinnere, aber gut, das wird kompliziert ^^Ein gemeinsamer Register Pool erfordert aber noch mehr Arbitration usw. Ein Patent war ja schon dafür gedacht, nur noch 6 read u. 4 write ports zu haben (passend für einen Cluster). Das ist auch effizienter ("divide and conquer" ). Normalerweise ist eine Map-Unit in jedem Cluster dabei (nur noch nicht dargestellt, aber OOO-typisch). Aber das (auch notwendige) Renaming über 4 ALUs, 4 AGUs u. 2 Threads wäre ganz schön happig.
Ok, na dann lassen wirs malNormalerweise ist eine Map-Unit in jedem Cluster dabei (nur noch nicht dargestellt, aber OOO-typisch). Aber das (auch notwendige) Renaming über 4 ALUs, 4 AGUs u. 2 Threads wäre ganz schön happig. Sowieso würde eager execution öfters unabhängige Codestückchen abarbeiten, wo separates Renaming stattfände. Sehe ich also eher nicht so.
Jo das meinte ich, ich wüßte gar nicht, wies anders gehen sollteDamit wäre eben auch möglich, 2 Cluster an einen Dispatch Bus zu hängen u. die FPU an den anderen.
ciao
Alex
Dresdenboy
Redaktion
☆☆☆☆☆☆
Woran ich dachte, war folgendes Timing:Jo, für einen Cluster, aber bis zum Dispatcher muss man doch noch an Cluster 2 (und FPU) denken ... deren Queue will auch gefüllt werden. Wenn ich Dich jetzt richtig verstehe buchst Du die ganze Decoder/Dispatch Bandbreite nur auf den einen INT Cluster, oder ?
Takt 0: 4 Ops -> Cluster 1, 4 Ops -> FPU (wenn eine Gruppe davon von microcoded x86-Befehlen kommt)
Takt 1: 4 Ops -> Cluster 2, 4 Ops -> FPU (dito)
Auslastung wäre gegeben, aber nur unter den µCode-Einschränkungen. Wenn aber AVX erstmal über µCode abgebildet wird, wäre das auch kein Problem.
Effizienz entsteht ja auch, wenn ein guter Kompromiss zwischen idlen Einheiten u. Realität des Befehlsstroms gefunden wird. Es wäre ja auch nicht der Designphilosophie entsprechend, wenn die Decoder jeden Takt alle Einheiten proppenvoll stopfen könnten, während gerade INT-Code mit vielen Speicherreferenzen u. Sprüngen abläuft
Hier noch das neuere Bildchen:
Schau auch mal, was sich beim Dispatcher getan hat
Opteron
Redaktion
☆☆☆☆☆☆
Ah nun ... hab schlicht und ergreifend den 2ten Dispatchport übersehen ... sind ja 8 insgesamtWoran ich dachte, war folgendes Timing:
Takt 0: 4 Ops -> Cluster 1, 4 Ops -> FPU (wenn eine Gruppe davon von microcoded x86-Befehlen kommt)
Takt 1: 4 Ops -> Cluster 2, 4 Ops -> FPU (dito)
Wie wärs wenn Du das noch ins Bildchen einbaust ? 4 Linien zu den INT Cluster, 4 zur FPU. Dann übersieht man nichts
Stimmt auch wieder, ich frag mich eh, wie das so gut zur Zeit klappt, da kommen nur 3 MacroOps pro Takt für 9 FUs (wenn man die AGUs mitzählt) durch. So oder so sind da jetzt 8 für 12(?) FUs weit besser.Effizienz entsteht ja auch, wenn ein guter Kompromiss zwischen idlen Einheiten u. Realität des Befehlsstroms gefunden wird. Es wäre ja auch nicht der Designphilosophie entsprechend, wenn die Decoder jeden Takt alle Einheiten proppenvoll stopfen könnten, während gerade INT-Code mit vielen Speicherreferenzen u. Sprüngen abläuft
Aja, der Cache, gut Hoffentlich ist der auch dabei.Schau auch mal, was sich beim Dispatcher getan hat
Ansonsten: Charlie hat einen Artikel zum Magny Cours online:
http://www.semiaccurate.com/2009/08/24/amd-outs-socket-g34/
AMD musste da zwar bei den HTr Links sparen, meistens gibts nur 8bit, aber besser als nichts
ciao
Alex
Zuletzt bearbeitet:
Bobo_Oberon
Grand Admiral Special
- Mitglied seit
- 18.01.2007
- Beiträge
- 5.045
- Renomée
- 190
Also ich bin beim Zählen auf einen zusätzlichen HyperTransport-Link gekommen.... Ansonsten: Charlie hat einen Artikel zum Mangny Cours online:
http://www.semiaccurate.com/2009/08/24/amd-outs-socket-g34/
AMD musste da zwar bei den HTr Links sparen, meistens gibts nur 8bit, aber besser als nichts ...
Heise berichtet darüber ebenso: "Hot-Chips: Details zu AMDs Zwölfkerner". Im Forum dort habe ich die Bemerkungen des Texters kommentiert, das AMD da "halbe Links" nutze. Das mag zwar richtig sein, wenn man die Datenraten betrachtet. Aber das ist die Halbe Wahrheit, wenn man noch die Hops berücksichtigt, dann sind das 4 Links.
Hops-Zählweise:
16 Lanes nicht kohärent = 1
16 Lanes Kohärent extern = 1
8 Lanes Kohärent extern = 1
16 + 8 Lanes Kohärent intern = 1
-> 4 HyperTransport-Links
Datenratenzählweise:
16 Lanes nicht kohärent = 1
16 Lanes Kohärent extern = 1
8 Lanes Kohärent extern = "0,5"
16 + 8 Lanes Kohärent intern = "1,5"
-> 4 HyperTransport-Links
Zur Nomenklatur von Multicores
Ein Zwölfkerner kann man auch als Dodecacore bezeichnen, so wie man einen 16-Kerner als Hexacore bezeichnen kann. Chemiker haben da schon lange eine normierte Zähl-Nomenklatur.
Ach ja, RealworldTech hat noch erste Bemerkungen zum IBM Power7 und dem Niagara3 (Rainbow Falls) gemacht. Bis auf die Info von Quadcores beim neuen kommenden Power7, Embedded-RAM (eDRAM) mit 16 MByte L3 Cache und der Abkehr vom HochtaktDesign war da aber noch wenig drin.
MFG Bobo(2009)
Opteron
Redaktion
☆☆☆☆☆☆
Äh ne ich meinte nicht die Anzahl, das sind vier Ports, ja, da braucht man nicht großartig zählen, das steht auch schon in der Grafik:
Was ich meinte ist die Bandbreite, teilweise 8 statt der üblichen 16bit.
Deine Zählweise finde ich aber ehrlich gesagt etwas gewagt. Hops benützt man nur zur Entfernungsangabe, und wenn Du die "Datenratenzählweise" anwendest ist das auch krude, da es u.a. 32bit Links gibt. Schreib vielleicht dazu, dass Du 16bit Links meinst, dann passts einigermaßen
Edit:
Hab erst jetzt den Text zum Bild gelesen .. weiss nicht, was der Autor da für ein Problem hat .. "halbe" Links gibts nicht, sind halt teilweise 8 bit anstatt der bisher üblichen 16bit ... na und ? 16 bit ist die Hälfte von 32 und es gibt auch 2bit Links, das sieht mal wieder nach Halbwissen aus.
Danke für die restlichen Links (http, nicht HTr ^^)
Alex
Was ich meinte ist die Bandbreite, teilweise 8 statt der üblichen 16bit.
Deine Zählweise finde ich aber ehrlich gesagt etwas gewagt. Hops benützt man nur zur Entfernungsangabe, und wenn Du die "Datenratenzählweise" anwendest ist das auch krude, da es u.a. 32bit Links gibt. Schreib vielleicht dazu, dass Du 16bit Links meinst, dann passts einigermaßen
Edit:
Hab erst jetzt den Text zum Bild gelesen .. weiss nicht, was der Autor da für ein Problem hat .. "halbe" Links gibts nicht, sind halt teilweise 8 bit anstatt der bisher üblichen 16bit ... na und ? 16 bit ist die Hälfte von 32 und es gibt auch 2bit Links, das sieht mal wieder nach Halbwissen aus.
Danke für die restlichen Links (http, nicht HTr ^^)
Alex
Zuletzt bearbeitet:
Ähnliche Themen
- Antworten
- 0
- Aufrufe
- 933
- Antworten
- 80
- Aufrufe
- 15K
- Antworten
- 2
- Aufrufe
- 3K
- Antworten
- 764
- Aufrufe
- 101K
- Antworten
- 8
- Aufrufe
- 2K