ARM

Per il 2020 il 20% dei server sarà basato su architetture ARM

di Paolo Corsini pubblicata il 23 Aprile 2015, alle 11:01 nel canale Private Cloud

L'azienda inglese si dimostra molto ottimista sul sucesso di mercato delle proprie architetture a basso consumo anche nel settore dei server. Varie soluzioni di questo tipo sono già disponibili ma sarà solo nei prossimi anni che i microserver basati su architettura ARM conosceranno una elevata diffusione

I migliori sconti su Amazon oggi

-42%

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

76.90 44.90€ Compra ora

-42%

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

Compra ora

-13%

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

239.00 209.00€ Compra ora

Con ZenFone 2 Asus punta a vendere 30 milioni di smartphone nel 2015

Daniel Radcliffe e Bill Paxton nello sceneggiato TV su Grand Theft Auto

LMCH26 Aprile 2015, 23:58 #31

Originariamente inviato da: cdimauro

Scusami, ma l'iAPX 432 è un progetto che è nato nel 1975, dunque prima dell'8086, e che è stato rilasciato (e subito ucciso) nel 1981, quando cioé i PC erano appena nati (agosto 1981) e il loro enorme successo era ancora da venire.

Veramente nel 1983 Intel rilasciò altri due chip di supporto per iAPX32 che permettevano si arrivare a configurazioni con fino a 63 cpu.
Non avevano mollato nel 1981, il problema fu che non trovarono clienti interessati.

Originariamente inviato da: cdimauro

Il tuo discorso si potrebbe applicare al più all'80860 (ma assolutamente no all'iAPX 432), se non fosse che Intel aveva già rilasciato un altro processore (anch'esso RISC), l'80960, quale "erede" dell'iAPX 432, e dunque con le stesse ambizioni nonché segmento di mercato da attaccare. Ancora una volta, di rimpiazzare l'8086 non se ne parla proprio, visti anche i tempi (l'i960 è un progetto del 1984 e commercializzato l'anno successivo).

L'Intel 80960 era nato da una precedente joint venture tra Intel e Siemens (BiiN)
in cui confluirono progettisti e parte di quanto già sviluppato per iAPX 432.
Da quel che restava di BiiN fu sviluppato l' 80960 ma anche se lo proposero a Steve Jobs per la workstation NeXT alla fine fu utilizzato principalmente nel settore embedded.
Il "vero" successore di iAPX 432 fu l' 80860 (sviluppato da un altro gruppo ed in concorrenza interna ad Intel con 80960).

Originariamente inviato da: cdimauro

Infine l'i860 s'inserisce, ancora una volta, nello stesso filone/trend, che è quello di sfondare nel mercato di workstation & server, con un chip ad elevate prestazioni.

In tutto ciò di rimpiazzare IA-32 non se ne parla assolutamente, perché si tratta di mercati a esso del tutto alieni. Intel inizierà a competere in questi mercati soltanto con l'introduzione dell'80486 (stesso anno dell'i860), grazie alle elevate prestazioni (15 MIPS e 1 MFLOPS a 25Mhz) e al basso prezzo.

Intel dipendeva dalla cash cow x86 già allora, ed era da quello che voleva sganciarsi
entrando in nuovi mercati, possibilmente con cpu che non potessero essere "copiate"
dai concorrenti (IBM quando scelse l'8088 per il primo PC IBM impose nel contratto che Intel non fosse l'unico fornitore, con conseguenze rilascio di licenze ad AMD, Harris ed IBM stessa, se ricordo bene).

Originariamente inviato da: cdimauro

Per essere precisi, non fu tanto Intel a spingere in questa direzione, ma i produttori di workstation (in primis) e server ad accorgersi che un 486 era più conveniente di tanti RISC, grazie all'ottimo rapporto prestazioni/prezzo. Perfino Sun propose workstation basate su 486, pur potendo contare sui suoi famosi SPARC.

Se "ne accorsero" quando si resero conto che stavano perdendo sempre più mercato mercato in favore di pc desktop di fascia alta.

Originariamente inviato da: cdimauro

Sì, ma Merced fu anche la prima versione di Itanium. Le prestazioni erano scarse, tranne per la virgola mobile.

Itanium 2, presentato l'anno dopo, risolse molti dei problemi prestazionali.

Molti, non tutti e nel frattempo i sistemi basati su x86 erano andati più avanti e costavano molto meno.

Originariamente inviato da: cdimauro

Più che altro è stata l'introduzione di x86-64 da parte di AMD ha sparigliare le carte di Intel con Itanium.

La cosa da ricordare è che per prima cosa AMD con gli Athlon scavalcò Intel sul lato delle prestazioni, non avebbe convinto nessuno se avesse solo proposto una versione a 64bit di x86 senza prima dimostrare che poteva pure proporre prestazioni superiori.
E' stata la combinazione prestazioni+64bit, non i soli 64bit.

Originariamente inviato da: cdimauro

Senz'altro, Alpha era un'architettura estremamente votata alla prestazioni, ma anche... energivora. Considera che già all'epoca era Out-of-Order e in grado di decodificare ed eseguire ben 4 istruzioni per ciclo di clock.

Era progettato per server e workstation con primo obiettivo le prestazioni, come secondo obiettivo le prestazioni e come terzo obiettivo ... non richiedere più di una centrale nucleare nelle vicinanze per alimentarlo.

Originariamente inviato da: cdimauro

Se consideriamo che il Cortex-A72 annunciato da ARM giusto qualche giorno fa è in grado di decodificarne 3 ed eseguirne un massimo 5, ci può fare un'idea del mostro che Alpha era già allora.

Il Cortex-A72 è pensato per consumi massimi bassissimi rispetto a quelli ritenuti "nella media" per gli Alpha.

Originariamente inviato da: cdimauro

Ma, allo stesso tempo, si può anche capire che un design già così avanzato all'epoca non avrebbe potuto continuare a spingere così tanto sulle prestazioni.

Se ricordo bene, se lo sviluppo non fosse stato bloccato, i progettisti di Alpha avevano già una roadmap mica male.

Con Alpha 21464 si parlava di core simultaneous multithreading capaci di eseguire 4 thread per core con le unita di esecuzione dimensionate per 8 istruzioni per ciclo
(con come le prime implementazioni SMT dei Pentium 4 in cui al massimo si riempivano le "bolle" nelle pipeline rispetto alla versione single-thread).

Poi era prevista l'estensione Tarantula per il vector processing che consisteva
in 32 registri da 64x128bit per registro (ognuno di essi un vettore da 64 elementi ampi 128bit, ovvero un singolo registro corrispondeva ad 8Kbit ovvero 1KByte !!!).

Il vantaggio di Tarantula rispetto alle estensioni SIMD tipo SSE/SSE2/ecc.
consisteva nel fatto che non era pensato per "ridar fiato al vecchio set d'istruzioni"
come con gli x86
ma per dare una spinta massiccia alle prestazioni oltre il punto in cui
in calcoli vettoriali conveniva usare un vector processor SIMD "massiccio".

Per rendere l'idea, le AVX-512 di Intel supportano 32 registri vettoriali da 512bit
( 'na mezza pippa rispetto ai registri vettoriali di Tarantula da 8Kbit, ovvero 16 volte più grandi).

In altre parole già 15 anni fa per gli Alpha si pensava di implementare roba che se proposta adesso annichilirebbe le cpu di punta di Intel.

Originariamente inviato da: cdimauro

Nel settore embedded ARM entrerà soltanto nei primi anni '90, quando ormai quello desktop era perso. Un po' di anni dopo entrerà anche in quello mobile.

Non a caso sino al 1990 ARM era solo "la cpu dell' Acorn Archimedes" di proprietà di Acorn Computers Ltd. (diventata nel 1985 una controllata di Olivetti).

E' solo con la nascita della spin-off Advanced RISC Machines Ltd. nel 1990 che ARM si apre davvero a nuovi clienti ed utilizzi (e sin da subito principalmente sistemi embedded).

Originariamente inviato da: cdimauro

ARM è riuscita a sfondare, invece, col suo modello vincente di licensing delle sue architetture.

Quello è uno dei fattori che hanno contribuito al suo successo, ma senza una buona architettura di base non sarebbe bastato.

Originariamente inviato da: cdimauro

Pardon, ma Apple A8 e nVidia Denver non sono progetti nuovi, con micro-architetture estremamente votate alle prestazioni, e prestazioni allineate a quelle dei desktop?

Ma che devono operare con i budget energetici molto limitati degli smartphone e dei tablet.

cdimauro27 Aprile 2015, 21:16 #32

Originariamente inviato da: LMCH

Non ne sono sicuro, perché in passato Intel aveva progettato diversi processori senza il denaro proveniente da 8086 (che ha ingranato soltanto qualche anno dopo l'introduzione dei PC). Ne sono la dimostrazione i già citati iAPX 432 e l'80960: dove avrebbe preso i soldi per progettarli?

E' vero che poi (dopo i PC, appunto) quello dei processori è diventato il suo core business, ma Intel ha lavorato a tutto tondo nel mondo dei semiconduttori. Basti ricordare che le EPROM e le DRAM sono proprio invenzioni sue.

Beh, nel 2003, quando sono stata introdotta x86-64, Intel aveva già tirato fuori i Pentium-M, che avevano prestazioni allineate o anche superiori ai desktop di allora (P4 e Athlon-XP).

Il Cortex-A72 è pensato per consumi massimi bassissimi rispetto a quelli ritenuti "nella media" per gli Alpha.

Vero, ma volevo sottolineare come già all'epoca quella di Alpha fosse un'architettura molto tirata.

Questa versione sarebbe stata, però, orientata al carico di lavoro (come il Niagara di Sun o il POWER7 di IBM) piuttosto che alle elevate prestazioni su singolo core/thread.

Poi era prevista l'estensione Tarantula per il vector processing che consisteva
in 32 registri da 64x128bit per registro (ognuno di essi un vettore da 64 elementi ampi 128bit, ovvero un singolo registro corrispondeva ad 8Kbit ovvero 1KByte !!!).

Il vantaggio di Tarantula rispetto alle estensioni SIMD tipo SSE/SSE2/ecc.
consisteva nel fatto che non era pensato per "ridar fiato al vecchio set d'istruzioni"
come con gli x86
ma per dare una spinta massiccia alle prestazioni oltre il punto in cui
in calcoli vettoriali conveniva usare un vector processor SIMD "massiccio".

Per rendere l'idea, le AVX-512 di Intel supportano 32 registri vettoriali da 512bit
( 'na mezza pippa rispetto ai registri vettoriali di Tarantula da 8Kbit, ovvero 16 volte più grandi).

In altre parole già 15 anni fa per gli Alpha si pensava di implementare roba che se proposta adesso annichilirebbe le cpu di punta di Intel.

Non so. Il fatto che avesse registri da 8Kbit mi lascia perplesso. Tempo fa tu stesso hai parlato delle problematiche di clock skew puntando il dito proprio sui 512-bit di AVX-512.

Ad esempio in quest'articolo si parla del fatto che EV9 (suppongo sarebbe stato quello il successore di EV8) con Tarantula sarebbe stato in grado di eseguire fino a 32 operaioni a doppia precisione per ciclo di clock. 32x64 = 2048 bit. Mi sembrano tantini.

Poi ci sarebbe da vedere in che modo quei 32 set di 64x128bit registri sarebbero stati effettivamente utilizzati (mi riferisco al modo in cui le istruzioni svolgevano le operazioni).

Altra cosa abnorme è l'uso di ben 16MB di cache L2. All'epoca! Roba che oggi si deve soltanto per la ben più lenta L3.

Per cui sono abbastanza dubbioso sull'effettiva fattibilità e capacità di calcolo di questa particolare unità SIMD. Comunque in giro c'è poca roba, purtroppo; ho scaricato qualche slide e me la studio quando avrò un po' di tempo.

Quello è uno dei fattori che hanno contribuito al suo successo, ma senza una buona architettura di base non sarebbe bastato.

Di buone architetture RISC all'epoca ce n'erano già diverse. Il vantaggio di ARM era dovuto al fatto che era piccola, e tutto sommato aveva delle discrete prestazioni (anche se non paragonabili ai mostri sacri dell'epoca: MIPS, PowerPC, e poi il già citato Alpha).

Guardando oggi ARMv8, che è sostanzialmente una nuova architettura, si può vedere come tanti capisaldi dell'ISA a 32 bit siano stati tolti di mezzi, e che questa nuova ISA sia estremamente simile a quella di Alpha e MIPS. A motivo che adesso ARM ha puntato tutto sulle prestazioni.

Ma che devono operare con i budget energetici molto limitati degli smartphone e dei tablet.

Verissimo, ma ciò non toglie che siano micro-architetture estremamente tirate e complesse. Eseguire tutte quelle istruzioni per ciclo di clock, e OoO (non per Denver, che però si basa su altro), è un risultato notevole, e molto difficilmente vedremo delle rivoluzioni. Ovviamente mi focalizzo sempre sulle prestazioni su singolo core/thread.

LMCH28 Aprile 2015, 00:06 #33

Originariamente inviato da: cdimauro

Non so. Il fatto che avesse registri da 8Kbit mi lascia perplesso. Tempo fa tu stesso hai parlato delle problematiche di clock skew puntando il dito proprio sui 512-bit di AVX-512.

Si, ma le geometrie ottimali cambiano con il fattore di scala, come pure il fatto che
quell'unita sarebbe stata separata dai core superscalari+multithreading ed interconnessa in modo differente alle cache.

Il vbox (il core vettoriale) di Tarantula si interfacciava [U]direttamente[/U] con la L2, di fatto i suoi 32 registri da 1KB erano più simili ad una cache L1 da 32KB come velocità di accesso
(più lento ma con un parallelismo a dir poco massiccio nell' esecuzione).

Quindi da un lato i core superscalari multithreading ("le auto da corsa"

per il number crunching "ad alta velocita" , con percorsi di esecuzione complicati tipo loop e molti branch ecc. tipo delle auto da corsa, mentre dall'altro c'e' il vbox di Tarantula ("il treno merci"

Originariamente inviato da: cdimauro

Ad esempio in quest'articolo si parla del fatto che EV9 (suppongo sarebbe stato quello il successore di EV8) con Tarantula sarebbe stato in grado di eseguire fino a 32 operaioni a doppia precisione per ciclo di clock. 32x64 = 2048 bit. Mi sembrano tantini.

Considera che con una singola istruzione tra due dei suoi registri, il vbox
poteva inviare in esecuzione fino a 64 istruzioni scalari a 128bit.
Tenere alimentate 32 unita non sarebbe stato un problema, sarebbero state esse il collo di bottiglia.

Originariamente inviato da: cdimauro

Poi ci sarebbe da vedere in che modo quei 32 set di 64x128bit registri sarebbero stati effettivamente utilizzati (mi riferisco al modo in cui le istruzioni svolgevano le operazioni).

Sarebbero stati utilizzati esclusivamente su roba vettoriale "grossa" che sarebbe stata eseguita più agevolmente ed in modo più efficiente dal vbox (più lento rispetto ai core ma con banda di I/O più ampia)

Originariamente inviato da: cdimauro

Altra cosa abnorme è l'uso di ben 16MB di cache L2. All'epoca! Roba che oggi si deve soltanto per la ben più lenta L3.

La cache L2 era partizionata in 16 banchi, probabilmente le prime implementazioni sarebbero stare degli MCM (Multi Chip module) con più "chip L2" dedicati.

Qui tutto l'ambaradan viene spiegato in modo sintetico ma con sufficienti dettagli:
www.ee.duke.edu/~sorin/prior-courses/ece259-spring2006/presentations/tarantula-harting.ppt
www.ee.duke.edu/~sorin/prior-courses/ece259-spring2004/presentations/tarantula-meixner.ppt

In pratica Tarantula era un core VLIW "lento" abbinato ai core EV8 "veloci" con ognuna delle due parti ottimizzata per un tipo specifico di carico computazionale.

cdimauro02 Maggio 2015, 23:12 #34

Finalmente ho avuto modo di leggermi le presentazioni di Tarantula.

Originariamente inviato da: LMCH

In parte ricorda il design di Xeon Phi, dove l'unità scalare è separata da quella vettoriale, anche se condividono entrambe le cache.

Il vbox (il core vettoriale) di Tarantula si interfacciava [U]direttamente[/U] con la L2, di fatto i suoi 32 registri da 1KB erano più simili ad una cache L1 da 32KB come velocità di accesso
(più lento ma con un parallelismo a dir poco massiccio nell' esecuzione).

Non poteva essere altrimenti, perché la cache L1 era troppo piccola per poter soddisfare la fame di bandwidth di VBox.

Quindi da un lato i core superscalari multithreading ("le auto da corsa"

Ricorda molto Xeon Phi, come già detto prima. C'è anche la predicazione anziché l'esecuzione condizionale,anche se Xeon Phi ha ANCHE il supporto all'esecuzione condizionale di certe istruzioni, perché ci sono scenari, anche vettoriali, in cui ciò risulta necessario (le avevo previste indipendentemente anche nella mia ISA, ma poi ho scoperto che Intel le aveva introdotte con Knights Corner, se non ricordo male, perché prima non c'erano).

Per essere precisi, Xeon Phi è ben più giovane come ISA SIMD, quindi non è Tarantula che ha copiato alcuni concetti da Xeon Phi, ma è presumibile il viceversa.

Mi pare di aver letto che è possibile lavorare su 16 lane (ogni lane che lavora su una quadword = 64-bit), e su ogni lane applicare due operazioni. Per ciclo di clock, ovviamente. 64 istruzioni scalari a 128-bit per ciclo di clock si discostano dalle 16 * 2 operazioni per cicli di clock.

In ogni caso 64 * 128-bit è un valore che di per sé è enormemente più elevato, e che per forza di cose crea problemi di clock skew. Non è chiaro in che modo abbiano potuto aggirarlo. Magari all'epoca l'effetto non era sentito, ma alle frequenze + processi produttivi attuali lo sarebbe sicuramente, dunque VBox avrebbe dovuto lavorare a basse frequenze per evitare questi problemi.

Vengono utilizzate soltanto delle "slice" alla volta. Si prendono 16 valori (lane) da ognuno di questi registri, e si lavora solo su quelli.

Considerato che XBox ha comunque 32 registri vettoriali, IMO rimane un'esagerazione avere registri vettoriali così grandi.

La cache L2 era partizionata in 16 banchi, probabilmente le prime implementazioni sarebbero stare degli MCM (Multi Chip module) con più "chip L2" dedicati.

Per cui il design sarebbe stato ancora più complesso.

A parte questo, sarebbe rimasto l'enorme collo di bottiglia della banda verso la memoria, che non poteva essere espansa a piacimento. Alla fine, sì, lavori sui vettori internamente, ma poi quei dati li devi pur leggere e poi scrivere.

Qui tutto l'ambaradan viene spiegato in modo sintetico ma con sufficienti dettagli:
www.ee.duke.edu/~sorin/prior-courses/ece259-spring2006/presentations/tarantula-harting.ppt
www.ee.duke.edu/~sorin/prior-courses/ece259-spring2004/presentations/tarantula-meixner.ppt

In pratica Tarantula era un core VLIW "lento" abbinato ai core EV8 "veloci" con ognuna delle due parti ottimizzata per un tipo specifico di carico computazionale.

Ho letto tutto, grazie. Purtroppo rimango scettico a causa delle scelte di cui sopra. Inoltre anche i benchmark presentati mi sembrano eccessivamente ottimistici. Poi certe cose mi suonano strane: codice EV8 ottimizzato per EV6, mentre VBox è stato scritto tutto in assembly.

Ci sono, insomma, tante cose che mi lasciano pensare che quest'esperimento nella vita reale non avrebbe potuto rendere per com'è stato presentato. Ma rimane una mia opinione basata su quel poco che ho letto, sia chiaro.

Pier220403 Maggio 2015, 13:07 #35

Originariamente inviato da: LMCH

che esegue codice tipicamente vettoriale, più "prevedibile" con predicazione delle istruzioni e con parallelismo massiccio, per "macinare" al meglio grosse quantità di dati, roba enorme che arriva a saturare la banda di I/O a livello della cache L2 (per questo si interfacciava li).

Considera che con una singola istruzione tra due dei suoi registri, il vbox
poteva inviare in esecuzione fino a 64 istruzioni scalari a 128bit.
Tenere alimentate 32 unita non sarebbe stato un problema, sarebbero state esse il collo di bottiglia.

Sarebbero stati utilizzati esclusivamente su roba vettoriale "grossa" che sarebbe stata eseguita più agevolmente ed in modo più efficiente dal vbox (più lento rispetto ai core ma con banda di I/O più ampia)

La cache L2 era partizionata in 16 banchi, probabilmente le prime implementazioni sarebbero stare degli MCM (Multi Chip module) con più "chip L2" dedicati.

Qui tutto l'ambaradan viene spiegato in modo sintetico ma con sufficienti dettagli:
www.ee.duke.edu/~sorin/prior-courses/ece259-spring2006/presentations/tarantula-harting.ppt
www.ee.duke.edu/~sorin/prior-courses/ece259-spring2004/presentations/tarantula-meixner.ppt

In pratica Tarantula era un core VLIW "lento" abbinato ai core EV8 "veloci" con ognuna delle due parti ottimizzata per un tipo specifico di carico computazionale.

Interessantissima discussione tua e di cdimauro che mi fa tornare alla memoria le Workstation che ogni tanto vedevo in passato, DEC, Silicon Graphics, SUN.
Allora si rimaneva a bocca aperta vederle in azione, non c'era nulla di paragonabile in ambiente PC, anche se i costi di queste macchine erano esorbitanti.

Mi chiedo perché le architetture RISC di allora, che effettivamente avevano un potenziale enorme, non abbiano avuto un seguito e mettersi in competizione anche oggi, a parte ARM.
Nello specifico, visto che si parla di ALPHA, (CPU che montavano i super computer Cray), negli anni a cui si fa riferimento l'ambiente naturale era UNIX, poi supportato anche dal neonato Linux da cui deriva e da Windows NT, eppure non sono riuscite a ritagliarsi uno spazio, oggi anche le Workstation montano processori Intel Xeon che è un x86, ma in particolare non hanno trovato spazio nell'allora fenomeno di massa che si chiamava PC.

Non hanno capito il mercato oppure la discriminante fu la compatibilità x86? ..quello che nel tempo si è chiamata Wintel

cdimauro03 Maggio 2015, 14:24 #36

Se non ti dispiace, ti riporto la mia opinione. LMCH potrà fornirti la sua quando avrà tempo e/o voglia.

A mio avviso quella è soltanto una delle componenti, ma che è subentrata soltanto dopo parecchio tempo, quando cioé il parco software x86 è diventato smisurato.

Un altro fattore è rappresentato dal miglior rapporto prestazioni / prezzi delle soluzioni x86, dovuto all'abbattimento dei costi di questi processori, grazie alla grandissima diffusione.

Infine, va tenuto conto un altro importante fattore, che è comunque base del precedente: le prestazioni. Grazie agli investimenti e, soprattutto, alla ricerca, gli x86 hanno saputo raggiungere e perfino superare le prestazioni dei processori RISC più blasonati.
Il paradigma / macro-famiglia RISC aveva senso quando i transistor impacchettati in un chip erano pochi, ma quando siamo arrivati già nell'ordine dei milioni (anche per i RISC) il discorso è completamente cambiato. Oggi che abbiamo dalle diverse centinaia fino a diversi miliardi di transistor in un chip può immaginare quanto ormai i vantaggi dei RISC siano del tutto trascurabili.

Pier220403 Maggio 2015, 22:44 #37

Originariamente inviato da: cdimauro

Se non ti dispiace, ti riporto la mia opinione. LMCH potrà fornirti la sua quando avrà tempo e/o voglia.

A mio avviso quella è soltanto una delle componenti, ma che è subentrata soltanto dopo parecchio tempo, quando cioé il parco software x86 è diventato smisurato.

Un altro fattore è rappresentato dal miglior rapporto prestazioni / prezzi delle soluzioni x86, dovuto all'abbattimento dei costi di questi processori, grazie alla grandissima diffusione.

Infine, va tenuto conto un altro importante fattore, che è comunque base del precedente: le prestazioni. Grazie agli investimenti e, soprattutto, alla ricerca, gli x86 hanno saputo raggiungere e perfino superare le prestazioni dei processori RISC più blasonati.
Il paradigma / macro-famiglia RISC aveva senso quando i transistor impacchettati in un chip erano pochi, ma quando siamo arrivati già nell'ordine dei milioni (anche per i RISC) il discorso è completamente cambiato. Oggi che abbiamo dalle diverse centinaia fino a diversi miliardi di transistor in un chip può immaginare quanto ormai i vantaggi dei RISC siano del tutto trascurabili.

Grazie della risposta che condivido.

L'unica parte che mi pone delle domande è quella in grassetto, nel senso che è vero che Intel ha investito molto nell'evoluzione di x86 e l'ha portata a ciò che è oggi, CPU dal prezzo relativamente competitivo con ottime performance in relazione ai consumi, ed è vero che l'architettura RISC aveva dalla sua le ottime performance quando il numero di transistor su singolo chip erano minori, ma come sarebbe stata l'evoluzione dell'architettura RISC al giorno d'oggi se avessero investito come Intel?

Domanda che credo non troverà mai risposta..

cdimauro03 Maggio 2015, 22:55 #38

In realtà Intel, e in generale i produttori di processori x86, ha preso a piene mani dalle tante tecnologie che sono state sviluppate in precedenza proprio dai produttori di processori RISC. Tanto che, alla fine, un processore x86 da quasi una ventina d'anni a questa parte ha all'interno una sorta di core RISC che si occupa dell'effettiva esecuzione delle (micro)istruzioni (uop).

La ricerca delle prestazioni per x86 ha coinvolto principalmente il decoder, e in maniera secondaria il cranking delle istruzioni (in uop) e la loro esecuzione. Tutte cose difficilmente sono utilizzabili dai RISC, che NORMALMENTE non hanno di questi problemi (PowerPC e ARM/ISA a 32-bit, invece, sì, perché hanno istruzioni parecchio complesse).

Non so quanto abbiano inciso gli investimenti, perché a mio avviso tutto ciò rientra a pieno titolo nella sfera dell'inventiva degli ingegneri. Le idee o le hai oppure no, a prescindere da quanti soldi hai nel portafogli. Infatti anche aziende piccole hanno avuto idee interessanti su come accelerare le prestazioni dei processori x86. Ricordiamo NexGen (poi acquisita da AMD) e Transmeta.

Alcune idee innovative di Intel, però, si stanno riversando anche su altri processori. In particolare, ARM ha presentato di recente l'A72, che ha introdotto una sorta di micro-op fusion (fusione di 2 uop in una sola; quindi si possono eseguire 2 uop al "costo" di una sola), che migliora un po' le prestazioni.

In futuro magari potremmo vedere qualcosa come il Loop Stream Detection, che consente di spegnere completamente il decoder mediamente per l'80% del tempo, anche se su un RISC ha relativamente poca importanza (i decoder sono molto più semplici).

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

VIDEO IN EVIDENZA

TOPICS

tutti gli articoli »

tutte le news »

Intel Core Ultra 5 235 e Core Ultra 5 225F, CPU Arrow Lake per la fascia media Intel ha introdotto le CPU Core Ultra 200S "non K" a inizio 2025. I nuovi modelli stanno arrivando sul mercato e abbiamo avuto l'opportunità di provare le soluzioni...

HONOR 400 Pro trasforma ogni scatto in capolavoro animato. Recensione HONOR sorprende il mercato dei medio gamma e lo fa con il nuovo HONOR 400 Pro dal design sottile, sensore principale da 200 MP, display a 5.000 nit e AI evoluta....

Recensione DOOM: The Dark Ages, proiettili e heavy metal nel Medioevo Abbiamo indossato la corazza dello Slayer per tornare nell'universo di DOOM ed esplorare un'ambientazione inedita per l'FPS di id Software. Questa volta veniamo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Nutanix .NEXT: così l'azienda vuole aiutare i clienti a limitare la dipendenza da Broadcom All'evento globale di Nutanix l'azienda ha presentato una serie di novità mirate a ridurre la dipendenza dalle soluzioni di VMware/Broadcom. Arriva Cloud Native...

Tutto sulla nuova Tesla Model Y: autonomia in autostrada, prova bagagliaio e dettagli Abbiamo guidato per diversi giorni la nuova Tesla Model Y, in versione di lancio dual motor e con batteria long range. Ecco tutto quello che c'è da sapere sull'erede...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Per il 2020 il 20% dei server sarà basato su architetture ARM

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

38 Commenti