SSE4 — набор команд микроархитектуры Intel Core, впервые реализованный в процессорах серии Penryn (не следует путать с SSE4A от AMD)^[1].

Он был анонсирован 27 сентября 2006 года, однако детальное описание стало доступно только весной 2007 года. Более подробное описание новых возможностей процессоров для программистов можно найти на сайте Intel.

Подгруппа	Процессорные команды	Описание	Ожидаемые улучшения в работе приложения
Различные упакованные операции DWORD	PMULLD, PMULDQ	Новая поддержка четырех знаковых (и без знака) 32x32 битных умножений за одну инструкцию, так же как знаковые умножения вида 32x32->64.	Широко применимо для автоматизации компиляторной векторизации обработки данных, написанных на языках программирования высокого уровня (таких как C и Fortran).
Скалярное произведение с плавающей точкой	DPPS, DPPD	Повышенная производительность обработки данных типа AOS (массив структур) посредством поддержки скалярных произведений с одинарной и двойной точностью.	Создание трехмерного контента, игр. Поддержка языков программирования, таких как CG и HLSL.
Упакованное сопряжение	BLENDPS, BLENDPD, BLENDVPS, BLENDVPD, PBLENDVB, PBLENDDW	Условно операция сопряжения копирует одно поле от источника и переносит его в место назначения. Эти новые процессорные команды повысят производительность операций сопряжения для большинства размеров полей, посредством упаковки операций умножения в единую инструкцию.	Широко применимо для автоматизации компиляторной векторизации обработки данных, написанных на языках программирования высокого уровня (таких как C и Fortran), а также для приложений, предназначенных для обработки изображений, видеоинформации. Мультимедиа и игровые ресурсы.
Упакованные целочисленные максимальные и минимальные значения	PMINSB, PMAXSB, PMINUW, PMAXUW, PMINUD, PMAXUD, PMINDS, PMAXSD	Сравнивает упакованные знаковые/без знака на уровне байт/слов/двойных слов целочисленные значения в операнде назначения и в исходном операнде и возвращает минимальное или максимальное значение за одну инструкцию для каждого запакованного операнда в операнде назначения.	Широко применимо для автоматизации компиляторной векторизации обработки данных, написанных на языках программирования высокого уровня (таких как C и Fortran), а также для приложений, предназначенных для обработки изображений, видеоинформации.
Округление значений с плавающей запятой	ROUNDPS, ROUNDSS, ROUNDPD, ROUNDSD	Эффективно округляет скаляр и упакованный операнд с одинарной или двойной точностью до целочисленного значения с поддержкой требований языков программирования Fortran, Java и C99.	Обработка изображений, графики, видеоинформации. Приложения с двухмерной/трехмерной мультимедиа и игровые ресурсы.
Вставка/извлечение регистров	INSERTPS, PINSRB, PINSRD, PINSRQ, EXTRACTPS, PEXTRB, PEXTRD, PEXTRW, PEXTRQ	Эти новые процессорные команды упрощают процесс вставки и извлечения между регистрами GPR (или памятью) и XMM.	Широко применимо для автоматизации компиляторной векторизации обработки данных, написанных на языках программирования высокого уровня (таких как C и Fortran), а также для приложений, предназначенных для обработки изображений, видеоинформации.
Упакованное преобразование форматов	PMOVSXBW, PMOVZXBW, PMOVSXBD, PMOVZXBD, PMOVSXBQ, PMOVZXBQ, PMOVSXWD, PMOVZXWD, PMOVSXWQ, PMOVZXWQ, PMOVSXDQ, PMOVZXDQ	Преобразует упакованное целочисленное значение (из регистра XMM или памяти) в целочисленное значение более широкого типа со знаковым или нулевым расширением.	Широко применимо для автоматизации компиляторной векторизации обработки данных, написанных на языках программирования высокого уровня (таких как C и Fortran), а также для приложений, предназначенных для обработки изображений, видеоинформации.
Упакованная проверка и установка	PTEST	Более быстрое ветвление архитектуры SIMD, осуществляемое для поддержки векторизированного кода.	Применимо для автоматизации компиляторной векторизации обработки данных, обработки изображений и видеоинформации, создания трехмерного контента. Мультимедиа и игровые ресурсы.
Упакованное определение идентичности	PCMPEQQ, PCMPGTQ	Архитектура SIMD определяет идентичность упакованных значений QWORDs в операнде назначения и в исходном операнде.	Широко применимо для автоматизации компиляторной векторизации обработки данных, написанных на языках программирования высокого уровня (таких как C и Fortran), а также для приложений, предназначенных для обработки изображений, видеоинформации. Мультимедиа и игровые ресурсы.
Упаковка DWORD в беззнаковый формат WORD	PACKUSDW	Преобразует упакованный знаковый DWORD в упакованный формат WORD без знака посредством беззнакового сосредоточения для обработки условий переполнения. Эта новая процессорная команда завершает набор других команд в этом формате.	Широко применимо для автоматизации компиляторной векторизации обработки данных, написанных на языках программирования высокого уровня (таких как C и Fortran), а также для приложений, предназначенных для обработки изображений, видеоинформации. Мультимедиа и игровые ресурсы.
Улучшенные строковые операции	PCMPESTRI, PCMPESTRM, PCMPISTRI, PCMPISTRM	Эти новые процессорные команды содержат в себе большое количество возможностей обработки строк и текста, которые обычно требуют участия большего количества кодов операции.	Повышенная производительность для сканирования вирусов, поиска текста, строковой обработки библиотек, таких как ZLIB, базы данных, компиляторы и приложения, предназначенные для конечного автомата.

Входной формат			Результирующий формат
8 бит	16 бит	32 бита	Результирующий формат
PMOVSXBW			16 бит
PMOVZXBW	PMOVZXWW		16 бит
PMOVSXBD	PMOVSXWD		32 бита
PMOVZXBD	PMOVZXWD	PMOVSXDD	32 бита
PMOVSXBQ	PMOVSXWQ	PMOVSXDQ	64 бита
PMOVZXBQ	PMOVZXWQ	PMOVZXDQ	64 бита

Инструкция	Описание
LZCNT/POPCNT	Подсчет числа нулевых/единичных битов.
EXTRQ/INSERTQ	Комбинированные инструкции маскирования и сдвига^[5]
MOVNTSD/MOVNTSS	Скалярные инструкции потоковой записи^[6]

Наборы инструкций процессоров x86
Intel	MMX SSE SSE2 SSE3 SSSE3 SSE4 (SSE4.1 SSE4.2 ATA) AES AVX FMA Intel MPX
AMD	3DNow! SSE4a SSE5 AVX FMA AES XOP
Cyrix	MMXEXT

Набор команд

Изменения

Новые инструкции SSE4.1

Ускорение видео

Векторные примитивы

Вставки/извлечения

Скалярное умножение векторов

Смешивания

Проверки бит

Округления

Чтение WC памяти

Новые инструкции SSE4.2

Обработка строк

Подсчет CRC32

Подсчет популяции единичных битов

Векторные примитивы

SSE4a

Процессоры с поддержкой SSE4

Литература

Примечания