Доклад: Intel Pentium 4
Реализовав в своем
процессоре Athlon новый конвейерный FPU, AMD очень сильно обогнала интеловский
Pentium III в производительности при операциях с вещественными числами. Однако,
Intel в своем Pentium 4 не стал сосредотачиваться на совершенствовании своего
FPU, а просто увеличил возможности блока SSE. В результате, в Pentium 4 имеет
место расширенный набор команд SSE2, в котором к имеющемуся набору из 70
инструкций было добавлено еще 144. Такое решение – результат NetBurst
идеологии, основной целью которой является увеличение скорости работы с
потоками данных.
Инструкции
SSE позволяли оперировать с восемью 128-битными регистрами XMM0..XMM7, в
которых хранились по четыре вещественных числа одинарной точности. При этом все
SSE операции проводились одновременно над четверками чисел, в результате чего
специально оптимизированные программы, в которых производилось большое
количество однотипных вычислений (а к ним, помимо обработки потоков данных в
какой-то мере относятся и 3D-игры), получали существенный прирост в
производительности.
SSE2 же оперирует с теми же самыми регистрами и обратно совместим с SSE процессора Pentium III. А столь впечатляющее расширение набора команд вызвано тем, что теперь операции со 128-битными регистрами могут выполняться не только как с четверками вещественных чисел двойной точности, но и как с парами вещественных чисел двойной точности, с шестнадцатью однобайтовыми целыми, с восемью короткими двухбайтовыми целыми, с четырьмя четырехбайтовыми целыми, с двумя восьмибайтовыми целыми или с 16 байтовыми целыми. То есть, теперь SSE2 представляя собой симбиоз MMX и SSE и позволяет работать с любыми типами данных, влезающими в 128-битные регистры.
Таким образом, SSE2
гораздо более гибок, позволяя добиваться впечатляющего прироста в
производительности. Однако, использование нового набора команд требует
специальной оптимизации программ, поэтому ждать его внедрения сразу после
выхода нового процессора не стоит. Со временем же, SSE2 имеет достаточно
большие перспективы. Поэтому, даже AMD собирается реализовать SSE2 в своем
новом семействе процессоров Hammer.
Старые же программы, не использующие SSE2, а полагающиеся на обычный
арифметический сопроцессор, никакого прироста в производительности при
использовании Pentium 4 не получат. Более того, несмотря на то, что что Intel
говорит о том, что блок FPU в Pentium 4 был слегка усовершенствован, время,
необходимое на выполнение обычных операций с вещественными числами возросло по
сравнению с Pentium III в среднем на 2 такта.
1.6.1 L1 кэш
Что касается кеша первого уровня в Pentium 4, то поскольку теперь команды хранятся в Trace Cache, он предназначен только для хранения данных. Однако, его размер в Pentium 4, основанном на ядре Willamette составляет всего 8 Кбайт. Это выглядит достаточно небольшой цифрой даже на фоне 16-килобайтной области данных в L1 кэше Pentium III. Однако, Intel был вынужден сократить объем кеша первого уровня в Pentium 4, так как ядро этого процессора и без того получалось слишком большим. Тем не менее, архитектура этого процессора может поддерживать L1-кеш и большего размера, поэтому, скорее всего, при переходе на технологический процесс 0.13 мкм и новое ядро Northwood, этот кэш будет увеличен.
Однако, для
увеличения производительности, Intel применил для доступа к L1-кешу новый
алгоритм, чем уменьшил в Pentium 4 латентность этого кеша до двух процессорных
тактов вместо трех тактов в Pentium III. Таким образом, учитывая большую
тактовую частоту Pentium 4, время реакции его L1 кеша составляет всего 1.4нс
для 1.4 ГГц модели против 3нс у L1 кеша Pentium III 1 ГГц.
Также как и
в Pentium III, L1 кэш Pentium 4 является write through и ассоциативным с 4
областями ассоциативности. При этом длина одной строки L1 кеша равна 64 байтам.
1.6.2 L2 Advanced Transfer Cache
Процессор Pentium 4 обладает Advanced Transfer Cache второго уровня объемом 256 Кбайт. Также, как и в Pentium III, L2-кеш имеет широкую 256-битную шину, благодаря которой процессоры от Intel имеют более высокую пропускную способность кеша, чем их конкуренты от AMD, использующие 64-битную шину кеша. Однако, в отличие от Athlon, в Pentium 4 (впрочем, также как и в Pentium III) L2 кэш не является эксклюзивным, то есть он дублирует данные, находящиеся в L1 кэше.
Так как Pentium 4
рассчитан на обработку потоковых данных, скорость работы L2-кеша для него
является одним из ключевых моментов. Поэтому, Intel увеличил пропускную
способность кеша второго уровня в Pentium 4 в два раза. Это усовершенствование
было сделано благодаря передаче данных из L2-кеша на каждый процессорный такт,
в то время, как данные из L2-кеша Pentium III передаются только на каждый
второй такт. Таким образом, пропускная способность L2-кеша Pentium 4,
работающего, например, с частотой 1.4 ГГц имеет теперь внушительную величину
44.8 Гбайт/с. Для сравнения – пропускная способность Advanced Transfer Cache у
Pentium III 1 ГГц составляет 16 Гбайт/с.
Также как и
в Pentium III, L2 кэш имеет восемь областей ассоциативности и строки длиной 128
байт. Однако, в отличие от Pentium III, каждая строка может быть изъята не
целиком, а по 64-байтовым половинкам.
Говоря о
системе кэширования в Pentium 4, нельзя обойти стороной и тот факт, что
архитектура NetBurst поддерживает и кэш третьего уровня размером до 4 Мбайт.
Однако, в Pentium 4 пока эта возможность использоваться не будет. Она
зарезервирована для будущего применения в серверных процессорах.
2. Процессор
Итак, после краткого знакомства с основными деталями NetBurst архитектуры, основного оружия Pentium 4 взглянем на его формальную спецификацию:
Чип, производимый по технологии 0.18 мкм с использованием алюминиевых соединений. Переход на медные соединения Intel планирует произвести одновременно с внедрением технологии 0.13 мкм.
Ядро Willamette, основанное на архитектуре NetBurst. Содержит 42 млн. транзисторов и имеет площадь 217 кв.мм. Это более чем в два раза больше, чем площадь ядра Athlon или Pentium III.
Работает в специальных материнских платах с 423-контактным процессорным разъемом Socket 423.
Использует высокопроизводительную 400 МГц Quad Pumped системную шину
Кеш данных первого уровня 8 Кбайт. Trace Cache для декодированных инструкций рассчитан на 12000 микроопераций
Интегрированный Advanced Transfer Cache второго уровня размером 256 Кбайт. Работает на полной частоте ядра и имеет 256-битную шину
Напряжение питания - 1.7В
Набор SIMD-инструкций SSE2
Выпускаются версии с частотами 1.4 и 1.5 ГГц. Позднее ожидается версия с частотой 1.3 ГГц.
Процессор Intel Pentium 4 будет выпускаться в FC-PGA упаковке, однако само ядро будет закрыто heat spreader – специальной металлической крышкой, защищающей его от повреждения. Устанавливаться Pentium 4 будет в гнездо Socket 423, имеющее 423 контакта и отличающееся по размеру от обычных Socket 370 и Socket A.
Из-за большого ядра, тепловыделение новых кристаллов будет достаточно высоким. В частности, Pentium 4 1.4 ГГц, работающий на напряжении 1.7 В и потребляющий примерно 32 A, будет рассеивать порядка 52 Вт тепла (1.5 ГГц Pentium 4 рассеивает 55 Вт тепла). Поэтому, кулеры для Pentium 4 должны иметь достаточно большие размеры и площадь поверхности.
Стоимость процессора при поставках партиями 1000 шт. составляет, соответственно, $819 и $644 для моделей с тактовыми частотами 1.5 ГГц и 1.4 ГГц. Pentium 4 1.3 ГГц, который появится 29 января 2001 года, будет стоить $409. Intel планирует достаточно агрессивно снижать цены на Pentium 4, с тем, чтобы этот процессор мог применяться в настольных компьютерах среднего уровня:
20 ноября | 10 декабря | 29 января | |
Pentium 4 1.5 Гц | 819 | 819 | 644 |
Pentium 4 1.4 Гц | 644 | 574 | 440 |
Pentium 4 1.3 Гц | - | - | 409 |
3. Чипсет и системная шина