Модель памяти

Предпосылки

синхронизация (CAS, атомарные операции, мьютекс), когерентность кешей (MESI, store buffer, cache line transfer).

← Синхронизация | Lock-free структуры →

Мьютекс и CAS (Compare-And-Swap) дают корректный параллельный доступ к данным. Но каждый мьютекс стоит 20-50 нс: захват, запись, освобождение. На горячем пути с миллионами операций в секунду эта цена заметна. Иногда задача проще: один поток записывает данные и выставляет флаг, второй поток крутится в цикле на флаге и читает данные. Две обычных записи, две обычных чтения — казалось бы, мьютекс здесь избыточен.

// Поток A                              // Поток B
atomic_store_explicit(&data, 42, memory_order_relaxed);
atomic_store_explicit(&ready, true, memory_order_relaxed);
                                        while (!atomic_load_explicit(&ready, memory_order_relaxed)) { /* spin */ }
                                        printf("%d\n", atomic_load_explicit(&data, memory_order_relaxed));

Допустим, все операции атомарные (нет torn read/write, нет UB — неопределённого поведения), но используют самый слабый ordering — Relaxed. На x86 программа обычно выведет 42. На ARM — может вывести 0. Оба потока работают с разными адресами, каждая операция атомарна — но система не гарантирует, что два потока видят записи в том же порядке, в каком их выполнил автор. Без указания правильного ordering (Acquire/Release) атомарность каждой операции не означает упорядоченности между ними.

Прежде чем разбирать, почему это происходит и как это чинить, стоит осознать, что здесь не одна проблема, а две совершенно независимых.

Две проблемы, не одна

Первая проблема — разорванное чтение/запись (torn read/write). 64-битное значение на 32-битном процессоре записывается двумя инструкциями: сначала младшие 4 байта, потом старшие. Между ними другой поток может прочитать половину старого значения и половину нового. Результат — число, которого никогда не существовало.

Вторая проблема — порядок видимости (visibility ordering). Даже если каждая отдельная запись атомарна (не разорвана), нет гарантии, что другой поток увидит две записи в том же порядке. Поток A выполнил data = 42; ready = true;, но поток B может увидеть ready == true и data == 0.

Это разные проблемы с разными решениями. Relaxed атомарность решает первую. Acquire/Release решает вторую. Модель памяти (memory model) — контракт между программистом и системой: если программист явно попросит гарантии, система их обеспечит. Если не попросит — система вольна переставлять операции как угодно ради производительности.

Проблема 1: разорванное чтение

На 64-битном процессоре обычная запись uint64_t выполняется одной инструкцией mov и аппаратно атомарна для выровненных адресов. Но на 32-битной платформе (ARMv7, старые x86) 64-битное значение записывается двумя 32-битными инструкциями:

// ARMv7: запись uint64_t по адресу [r0]
str r2, [r0]        // младшие 32 бита
str r3, [r0, #4]    // старшие 32 бита

Между двумя str может произойти прерывание, и другой поток, запущенный на том же ядре, прочитает адрес [r0] в промежуточном состоянии: младшая половина новая, старшая — старая.

Пример: поток A записывает 0x0000_0001_0000_0000 поверх 0x0000_0000_FFFF_FFFF. Поток B читает между двумя str и видит 0x0000_0000_0000_0000 — число, которое A никогда не записывал.

Поток A                      Поток B
-------                      -------
str r2, [r0]                 (младшие: 0x00000000)
                             load [r0]  -->  0x0000_0000_0000_0000
str r3, [r0, #4]             (старшие: 0x00000001)

Решение — Relaxed атомарность. AtomicU64 с Ordering::Relaxed (в Rust) или atomic_load_explicit(..., memory_order_relaxed) (в C) гарантирует ровно одно: операция не будет разорвана. На 64-битном процессоре компилятор выберет одну инструкцию mov. На 32-битном — пару ldrexd/strexd (ARM) или lock cmpxchg8b (x86-32), которые аппаратно атомарны.

Relaxed не даёт ничего сверх этого. Никаких гарантий о порядке видимости. Никаких барьеров. Это минимальный контракт: «операция целостна, но когда и в каком порядке её увидят другие потоки — не определено».

Задача: "На 64-битном CPU упорядочивание вообще не нужно — запись и так одной инструкцией"

Типичная ошибка: раз аппаратно torn read невозможен, атомарные типы избыточны.

Обычная переменная без atomic — это data race по стандартам C++ и Rust: неопределённое поведение (UB) вне зависимости от аппаратуры. Компилятор имеет право предположить, что к неатомарной переменной обращается один поток, и применить оптимизации: закешировать значение в регистре, убрать «лишнее» чтение, переставить инструкции. На практике while (!ready) без атомарности превращается в бесконечный цикл: компилятор читает ready один раз, видит false и больше не проверяет.

Даже на 64-битной платформе AtomicU64 с Relaxed — минимум, который гарантирует, что компилятор будет генерировать load/store при каждом обращении.

Проблема 2: порядок видимости

Теперь каждая запись атомарна — torn read исключён. Вернёмся к исходному сценарию, но с атомарными типами и Relaxed:

use std::sync::atomic::{AtomicBool, AtomicI32, Ordering::Relaxed};
 
static DATA: AtomicI32 = AtomicI32::new(0);
static READY: AtomicBool = AtomicBool::new(false);
 
// Поток A
DATA.store(42, Relaxed);
READY.store(true, Relaxed);
 
// Поток B
while !READY.load(Relaxed) {}
let value = DATA.load(Relaxed);
// value может быть 0!

Оба store атомарны, оба load атомарны. Разорванных чтений нет. Но поток B может увидеть READY == true и DATA == 0. Почему?

Две причины, каждая из которых достаточна по отдельности.

Переупорядочивание компилятором

Компилятор видит два store в разные адреса: DATA и READY. Между ними нет зависимости по данным — значение READY не зависит от значения DATA. Компилятор вправе переставить их местами в целях оптимизации. В результате в машинном коде READY.store(true) может оказаться перед DATA.store(42).

Переупорядочивание процессором (store buffer)

Даже если компилятор сохранил порядок, процессор может нарушить его. Обе записи попадают в store buffer — очередь, в которой ядро «паркует» store, не дожидаясь завершения когерентного протокола. Записи DATA = 42 и READY = true уходят в разные кеш-линии. Когерентный протокол может завершить перенос линии с READY раньше, чем линии с DATA. Тогда READY = true выйдет из буфера в кеш раньше — и станет видна другому ядру до того, как туда дойдёт DATA = 42.

Ядро 0 (поток A)
┌──────────────────────────────────┐
│  store DATA=42    --\            │
│  store READY=true --+--> store   │ --> кеш L1
│                      |   buffer  │
│                      |   [READY] │ --> когерентная транзакция завершена
│                      |   [DATA]  │ --> ещё в буфере...
└──────────────────────────────────┘
 
Ядро 1 (поток B)
  load READY --> true  (из кеша, уже видно)
  load DATA  --> 0     (запись 42 ещё в store buffer ядра 0)

Поток B видит READY == true, читает DATA — и получает устаревшее значение 0. Данные ещё не покинули store buffer ядра 0.

На x86 store-store переупорядочивание не происходит: записи выходят из store buffer строго в порядке программы. Эту модель часто называют TSO (Total Store Order), хотя формально x86 не специфицирован как TSO — детали в dropdown ниже. Поэтому сценарий с data/ready работает на x86 даже с Relaxed. Но на ARM, RISC-V и Power — не работает: эти архитектуры разрешают store-store reordering.

На слабых архитектурах даже атомарные записи могут стать видны другим ядрам в произвольном порядке. Полагаться на гарантии x86 — значит получить баг при портировании. Нужен способ явно запросить упорядоченность, не привязываясь к конкретному железу.

x86 и TSO: почему это не совсем одно и то же

Формально x86 не специфицирован как TSO. Классическая TSO (SPARC) — формально определённая модель. Модель x86 описана в Intel/AMD мануалах как набор конкретных гарантий упорядочивания, без привязки к термину TSO.

Но базовый принцип совпадает: store→load reordering разрешён, остальные комбинации (load→load, store→store, load→store) запрещены. В некоторых деталях x86 даже сильнее чистой TSO — например, гарантии вокруг locked instructions (lock cmpxchg, xchg) строже.

Нюанс store forwarding: поток может видеть свою собственную запись до её глобальной видимости (через store buffer). Store forwarding включён в формальную модель x86-TSO как явная часть — это не отклонение от неё, а намеренно смоделированное поведение. Формализация — статья «x86-TSO: A Rigorous and Usable Programmer’s Model for x86 Multiprocessors» (CACM 2010).

На практике: говорить «x86 реализует TSO» — допустимое упрощение. Точнее: «модель x86 очень близка к TSO и как минимум такая же сильная».

Модель памяти: контракт, а не описание железа

Модель памяти — это контракт между программистом и системой (компилятор + процессор): «по умолчанию система переставляет всё, что может. Если нужны гарантии — запроси их явно. Система обеспечит нужный набор барьеров для текущей платформы.» Таким образом, один и тот же код корректно работает на x86, ARM (серверы Graviton на AWS, Apple Silicon) и RISC-V без ручных правок под каждую архитектуру.

Язык запросов — Ordering в Rust, memory_order в C/C++. Три уровня: Relaxed, Acquire/Release, SeqCst.

Release: гарантия для записи

В нашем примере поток A должен гарантировать: если B увидит READY == true, то DATA уже содержит 42. Это роль записывающей стороны — зафиксировать порядок публикации до того, как другой поток увидит сигнал. Такая гарантия называется Release (освобождение).

Release привязывается к store — записи, которая служит сигналом. Контракт: всё, что поток записал до Release-store, гарантированно станет видимым до того, как другой поток увидит сам Release-store.

В терминах store buffer: Release запрещает операциям, сделанным до него, «перепрыгивать» через него. На ARM это инструкция stlr (store-release) — односторонний барьер: все предшествующие операции с памятью (и чтения, и записи) обязаны стать видимыми до того, как stlr станет наблюдаемой другими ядрами.

На x86 TSO store-store порядок и так гарантирован аппаратно. Release-store компилируется в обычный mov — барьер нужен только на уровне компилятора (запрет на переупорядочивание инструкций при оптимизации). Стоимость: 0 нс дополнительных затрат на x86.

Acquire: гарантия для чтения

Acquire (захват) привязывается к load — чтению сигнала. Контракт: всё, что поток прочитает после Acquire-load, гарантированно увидит данные, записанные отправителем до парного Release-store.

На ARM это инструкция ldar (load-acquire): никакие последующие операции с памятью (ни чтения, ни записи) не могут стать видимыми раньше ldar. На x86 load-load и load-store порядок гарантирован TSO, поэтому Acquire — снова только компиляторный барьер.

Acquire + Release = happens-before

Release и Acquire работают в паре. Когда поток B выполняет Acquire-load и видит значение, записанное потоком A через Release-store, возникает отношение happens-before («выполняется-до»): всё, что A сделал до Release, гарантированно видно B после Acquire.

Без этой пары два потока могут наблюдать операции с памятью в разном порядке — даже если каждая отдельная операция атомарна. Release на стороне A устанавливает точку «всё до меня зафиксировано»; Acquire на стороне B устанавливает точку «всё после меня видит то, что было до Release». Только если B прочитал именно то значение, которое A записал через Release, — happens-before существует и данные гарантированно согласованы.

use std::sync::atomic::{AtomicBool, AtomicI32, Ordering};
 
static DATA: AtomicI32 = AtomicI32::new(0);
static READY: AtomicBool = AtomicBool::new(false);
 
// Поток A
DATA.store(42, Ordering::Relaxed);       // (1)
READY.store(true, Ordering::Release);    // (2) Release: (1) видно до (2)
 
// Поток B
while !READY.load(Ordering::Acquire) {}  // (3) Acquire: видит (2)=true
let value = DATA.load(Ordering::Relaxed);// (4) гарантированно 42

Почему DATA.store и DATA.load используют Relaxed? Им не нужна собственная упорядоченность — гарантию обеспечивает пара Release/Acquire на READY. Release в точке (2) запрещает записи (1) перепрыгнуть вперёд. Acquire в точке (3) запрещает чтению (4) выполниться раньше. Вместе они дают: если B увидел READY == true, то DATA уже 42.

Это ровно тот паттерн, который используют мьютексы внутри: unlock содержит Release (все записи внутри критической секции зафиксированы до отпускания замка), lock содержит Acquire (все чтения после захвата замка увидят актуальные данные). Acquire/Release — тот же механизм, только без взаимного исключения.

Тот же код на C:

#include <stdatomic.h>
 
atomic_int data = 0;
atomic_bool ready = false;
 
// Поток A
atomic_store_explicit(&data, 42, memory_order_relaxed);
atomic_store_explicit(&ready, true, memory_order_release);
 
// Поток B
while (!atomic_load_explicit(&ready, memory_order_acquire)) {}
int value = atomic_load_explicit(&data, memory_order_relaxed);
// value == 42, гарантировано

Задача: "Relaxed запрещает прерывание потока между двумя инструкциями"

Типичная ошибка: Relaxed гарантирует атомарность всей операции в смысле «поток не будет прерван».

Relaxed гарантирует атомарность одной конкретной операции — load или store не будет разорван. Поток при этом может быть вытеснен планировщиком в любой момент между любыми двумя инструкциями. Relaxed ничего не говорит о порядке видимости между разными операциями и ничего не говорит о прерывании потока.

Если нужно, чтобы два store были видны другим потокам в определённом порядке — это задача для Release, а не для Relaxed.

SeqCst: глобальный порядок

Acquire/Release создают happens-before между двумя потоками: отправителем и получателем. Но когда три и более потока должны договориться о порядке событий, Acquire/Release недостаточно.

Классический пример — два потока устанавливают флаги взаимного исключения и проверяют чужой:

// Поток A                        // Поток B
flag_a = true;                    flag_b = true;
if (!flag_b) {                    if (!flag_a) {
    // критическая секция             // критическая секция
}                                 }

С Acquire/Release оба потока могут войти в критическую секцию. Поток A записывает flag_a (Release) и читает flag_b (Acquire), но Release-store + Acquire-load на разных переменных не создают happens-before между A и B. Каждый поток может увидеть свой флаг поднятым, а чужой — ещё нет.

SeqCst (sequentially consistent) — самая строгая модель. Все SeqCst-операции во всех потоках выстраиваются в единый глобальный порядок, согласованный между всеми наблюдателями. Если поток A выполнил SeqCst-store flag_a = true до SeqCst-load flag_b, и поток B выполнил SeqCst-store flag_b = true до SeqCst-load flag_a, то хотя бы один из них увидит чужой флаг поднятым.

На x86 SeqCst-store требует полного барьера, запрещающего store-load reorder (единственное переупорядочивание, которое TSO допускает). Компиляторы генерируют xchg (атомарный обмен, который неявно содержит full barrier; в некоторых конфигурациях GCC — mov + mfence). Стоимость: 10-40 нс на операцию. На AArch64 (ARMv8) SeqCst-store и SeqCst-load используют те же stlr/ldar, что и Acquire/Release — глобальный порядок обеспечивается моделью RCsc (пара stlr + ldar образует SC-упорядочивание без дополнительного барьера). На ARMv7 компилятор вставляет dmb ish (data memory barrier) — полный барьер, 5-20 нс.

Цена и платформы

x86 работает в модели Total Store Order: записи одного ядра выходят из store buffer строго в порядке программы, чтения не переупорядочиваются относительно друг друга. Единственное разрешённое переупорядочивание — store-load. ARM использует weak ordering: процессор может переупорядочивать любые пары операций, если между ними нет зависимости по данным.

Переупорядочивание      x86 TSO     ARM
────────────────────────────────────────
store-store             нет         да
load-load               нет         да
store-load              да          да
load-store              нет         да

Разница в модели напрямую отражается на цене каждого уровня ordering:

Ordering        Гарантия                x86 (TSO)       ARM (Weak)
─────────────────────────────────────────────────────────────────────
Relaxed         нет torn read/write     ~0 нс           ~0 нс
                нет гарантий порядка    (обычный mov)   (обычный ldr/str)
 
Acquire/        happens-before между    ~0 нс           ~1-3 нс
Release         парой потоков           (компилятор.    (ldar/stlr)
                                         барьер)
 
SeqCst          глобальный порядок      ~10-40 нс       ~1-5 нс (AArch64)
                для всех потоков        (xchg)          (stlr/ldar, RCsc)

На x86 разница между Relaxed и Acquire/Release — ноль наносекунд: TSO и так гарантирует store-store и load-load порядок, Release и Acquire сводятся к запрету оптимизаций компилятора. SeqCst дорогой: xchg содержит full barrier, который сбрасывает store-load reorder — единственное переупорядочивание, допускаемое TSO.

На ARM каждый уровень стоит реальных наносекунд. stlr (Release) ждёт завершения всех предыдущих операций с памятью. ldar (Acquire) запрещает последующим операциям с памятью выполниться раньше неё. На AArch64 SeqCst использует те же инструкции — разница с Acquire/Release в семантике (глобальный порядок), а не в стоимости отдельной операции. Код, который работает на x86 без явных ordering, ломается на ARM — серверы AWS Graviton, Apple Silicon, мобильные устройства. Портативный код пишется под слабейшую модель.

Зная гарантии каждого уровня и их цену на разных архитектурах, можно выбирать ordering осознанно.

Когда какой ordering использовать

Relaxed — когда порядок не важен. Счётчики метрик, статистика, генерация уникальных ID через fetch_add. Поток инкрементирует requests_total — не имеет значения, в каком порядке другие потоки увидят это обновление. Важно только, чтобы значение не было разорвано.

static COUNTER: AtomicU64 = AtomicU64::new(0);
 
// Любой поток
COUNTER.fetch_add(1, Ordering::Relaxed);
 
// Поток мониторинга: значение может отставать, но не разорвано
let total = COUNTER.load(Ordering::Relaxed);

Acquire/Release — когда один поток передаёт данные другому через сигнал. Паттерн «записал данные, поднял флаг» — producer/consumer, инициализация, publish. Мьютексы внутри используют именно Acquire/Release.

SeqCst — когда три и более потока должны согласовать порядок: флаговые алгоритмы взаимного исключения, любые ситуации, где корректность зависит от глобально согласованного порядка. Также разумный выбор по умолчанию, когда нет уверенности в правильности более слабого ordering: лучше заплатить 10-40 нс, чем получить баг, который воспроизводится раз в неделю только на ARM.

На практике подавляющее большинство lock-free кода использует Acquire/Release. Relaxed — для счётчиков. SeqCst — редко, в специфических алгоритмах или как страховка.

От барьеров к lock-free структурам

Модель памяти даёт инструменты для корректной публикации данных между потоками без мьютекса. Но паттерн flag + data — простейший случай. Реальные задачи сложнее: очередь, где несколько producer и consumer одновременно добавляют и извлекают элементы, стек, где push и pop конкурируют за вершину. Мьютекс сериализует доступ и становится узким местом: при 64 потоках и 1M операций в секунду contention на мьютексе убивает пропускную способность. Lock-free структуры данных решают эту задачу: корректность без блокировок, используя только CAS и правильные ordering.

См. также

Ruby memory model — GVL даёт sequential consistency между Ruby-инструкциями, но не между отдельными bytecode: @counter += 1 разбивается на read/compute/write и допускает потерю обновлений

Sources

Herb Sutter, 2012, atomic<> Weapons: The C++ Memory Model and Modern Hardware — https://herbsutter.com/2013/02/11/atomic-weapons-the-c-memory-model-and-modern-hardware/
Paul E. McKenney, 2005, Memory Ordering in Modern Microprocessors — https://www.kernel.org/doc/Documentation/memory-barriers.txt
Intel Corporation, 2024, Intel 64 and IA-32 Architectures Software Developer’s Manual — Vol. 3A, Chapter 9: Memory Ordering — https://www.intel.com/content/www/us/en/developer/articles/technical/intel-sdm.html

← Синхронизация | Lock-free структуры →

CS Notes

Explorer

memory-ordering

Модель памяти

Две проблемы, не одна

Проблема 1: разорванное чтение

Проблема 2: порядок видимости

Переупорядочивание компилятором

Переупорядочивание процессором (store buffer)

Модель памяти: контракт, а не описание железа

Release: гарантия для записи

Acquire: гарантия для чтения

Acquire + Release = happens-before

SeqCst: глобальный порядок

Цена и платформы

Когда какой ordering использовать

От барьеров к lock-free структурам

См. также

Sources

Graph View

Table of Contents

Backlinks