String

Предпосылки

объекты и классы (VALUE, RBasic), GC (VWA, слоты), Array (embedded/heap-паттерн, Copy-on-Write), режимы CPU и системные вызовы (стоимость user→kernel перехода), иерархия памяти (cache lines, локальность).

← Hash | JIT →

Array ввёл паттерн embedded/heap: данные либо в слоте объекта, либо в отдельном буфере через malloc. Строки используют тот же паттерн — RString содержит union, переключающийся между inline-хранением и указателем. Но у строк есть два дополнительных измерения. Байты нужно интерпретировать: одна и та же последовательность [0xC3, 0xA9] — это “e” в UTF-8, но два символа “Ã©” в ISO-8859-1. А неизменяемые строки можно дедуплицировать — хранить в единственном экземпляре на весь процесс.

Поведение строки определяется тремя независимыми осями:

Режим хранения (embedded/heap/shared) — где физически лежат байты. Определяет стоимость доступа к данным: один cache miss или два, malloc или нет.

Кодировка + coderange — как интерпретировать байты и какие оптимизации доступны. Определяет стоимость посимвольных операций: str.length за O(1) или O(n).

Мутабельность (mutable/frozen/fstring) — можно ли модифицировать строку. Определяет возможность дедупликации и безопасность использования как ключа хеша.

Эти оси ортогональны: embedded frozen UTF-8 строка с coderange 7BIT — самый быстрый случай (данные в кеше, без копирования, побайтовые операции). Heap shared строка с невалидной кодировкой — самый медленный (два cache miss, потенциальное копирование при записи, посимвольная обработка невозможна).

Два режима хранения

Рассмотрим веб-приложение, обрабатывающее HTTP-запрос. Путь запроса — короткая строка:

path = request.path  # "/api/v1/users/42" — 16 байт

Как и массив, строка использует union в RString для переключения между embedded и heap:

Embedded (данные в слоте):
┌─────────────────┬─────┬────────────────────────────────────┐
│  RBasic (16 B)  │ len │ символы + null-терминатор           │
│  flags + klass  │ 8 B │ прямо в слоте                       │
└─────────────────┴─────┴────────────────────────────────────┘

Heap (данные в отдельном буфере):
┌─────────────────┬─────┬─────┬─────┐     ┌──────────────────────┐
│  RBasic (16 B)  │ len │ ptr │capa │ --> │ символы + терминатор  │
│  flags + klass  │     │     │     │     └──────────────────────┘
└─────────────────┴─────┴─────┴─────┘

Поле len хранит длину в байтах, не в символах — потому что один символ в UTF-8 может занимать от 1 до 4 байтов. Количество символов вычисляется при вызове str.length исходя из кодировки — об этом позже.

Строка "/api/v1/users/42" — 16 байт. В 40-байтном слоте после заголовка RBasic (16 байт) и поля len остаётся ~23 байта — строка с null-терминатором (17 байт) помещается целиком, embedded-режим. В отличие от массива, строки требуют дополнительное место для null-терминатора (1 байт для UTF-8). То есть embedded-ёмкость — это размер слота за вычетом заголовка, поля длины и терминатора: всё, что осталось под сами байты.

С VWA (Ruby 3.2+):

Слот	Embedded capacity
40 B	~23 байт
80 B	~55 байт
160 B	~135 байт

Большинство строк в типичном приложении — пути, ключи хешей, имена методов, короткие значения — укладываются в 55 байт. С VWA (слот 80 B) они хранятся без malloc.

Null-терминатор

Ruby хранит и длину (len), и null-терминатор. Длина нужна для O(1) доступа к размеру. А терминатор? Строки в Ruby постоянно передаются в C-расширения и системные вызовы — fopen, connect, сетевые библиотеки. Все они ожидают null-terminated строки: в C у строки нет поля длины, конец определяется по первому нулевому байту (\0), которым строка обязана заканчиваться. Без хранимого терминатора каждый такой вызов требовал бы копирования строки с добавлением \0 — лишняя аллокация на каждом системном вызове.

Размер терминатора зависит от кодировки: 1 байт (0x00) для UTF-8, 2 байта (0x0000) для UTF-16, 4 байта для UTF-32. Это учитывается при расчёте embedded-ёмкости.

Стратегия роста

Допустим, приложение собирает тело ответа инкрементально:

body = ""
users.each { |u| body << u.to_json << "\n" }

Пустая строка начинает в embedded-режиме. По мере конкатенации она перерастает слот и переключается на heap — Ruby выделяет буфер через malloc. При дальнейшем росте heap-буфер удваивается (коэффициент 2.0), в отличие от массивов с их 1.5. Причина — строки чаще растут инкрементально (<< в цикле), и более агрессивный рост сокращает число переаллокаций.

Shared-строки: Copy-on-Write

Тело ответа собрано — 10 КБ текста. Приложению нужен превью первых 100 символов для логирования:

preview = body[0..99]

Копировать 100 байт ради превью расточительно, особенно если превью только читается. Ruby не копирует буфер: дочерняя строка получает указатель на буфер родителя (возможно, со смещением) и флаг STR_SHARED. Родитель помечается как STR_SHARED_ROOT.

body (shared root): ptr --> "{"id":1,"name":"Alice"...}\n{"id":2...}\0"
preview (shared):   ptr --------^  len=100

Буфер копируется только при модификации дочерней строки — Copy-on-Write, как у shared-массивов: shared-корень pinned для GC compaction, копирование откладывается до первой записи. Но у строк запись наступает чаще и заметнее — <<, gsub!, любое дописывание дёргают CoW; и копируемый буфер тащит за собой null-терминатор, которого у массивов нет.

Строки в Ruby изменяемые по умолчанию — это принципиальное отличие от Java или Python. Изменяемость даёт удобство (str << "...", str.gsub!(...)), но создаёт проблему: если две переменные ссылаются на одну строку, изменение через одну отразится на другой. CoW решает это: пока строки только читаются, они разделяют память, а копирование откладывается до первой записи.

Кодировка

Запрос содержит параметр с именем пользователя из Японии:

name = params[:name]  # "田中太郎" — 4 символа, 12 байт в UTF-8
name.length           # => 4
name.bytesize         # => 12

length и bytesize возвращают разные числа: один символ кандзи занимает 3 байта в UTF-8. Чтобы вычислить количество символов, Ruby должен пройти все байты и декодировать мультибайтовые последовательности — O(n) от длины в байтах. Для ASCII-строк, где один символ = один байт, length == bytesize и ответ — за O(1). Ruby кеширует информацию о содержимом, чтобы не проверять это каждый раз.

Хранение кодировки

Каждая строка несёт информацию о своей кодировке. Индекс кодировки упакован в несколько свободных бит поля flags заголовка RBasic — этого хватает, чтобы адресовать сотню с лишним кодировок без отдельного поля, и кодировка не увеличивает размер объекта. Одна и та же последовательность байтов [0xC3, 0xA9] — это “e” в UTF-8, но два отдельных символа “Ã©” в ISO-8859-1. Кодировка определяет интерпретацию.

Coderange: кеш свойств содержимого

Помимо индекса кодировки, Ruby хранит coderange — тоже в свободных битах flags — кеш информации о содержимом строки:

7BIT — все байты в диапазоне 0x00–0x7F (чистый ASCII). str.length == str.bytesize, str[i] работает за O(1), строковые операции сводятся к побайтовым.

VALID — содержимое валидно в текущей кодировке (проверено). Для UTF-8 это означает корректные мультибайтовые последовательности. Доступ по индексу символа — O(n) в общем случае: нужно пройти байты с начала.

BROKEN — обнаружены невалидные байты.

UNKNOWN — содержимое ещё не проверено.

Coderange — кеш, и его можно посчитать заранее или отложить. Литералы Ruby размечает сразу при создании: "abc" рождается как 7BIT, "田中太郎" — как VALID. Но если разметки ещё нет (UNKNOWN — «пока не определено»), её вычисляет первая операция, которой важно содержимое (length, сравнение, поиск): она проходит байты один раз и кеширует итог — 7BIT, VALID или BROKEN, — а дальше операции читают готовый ответ без пересканирования. Запись в строку (<<, gsub!) сбрасывает coderange в UNKNOWN: дописанные байты могли изменить картину, и следующая операция пересчитает его.

Разные coderange дают разную цену length. У "/api/v1/users/42" он 7BIT — length == bytesize, ответ за O(1) на каждом вызове. У "田中太郎" — VALID: length проходит 12 байтов, чтобы найти 4 символа, и так на КАЖДОМ вызове — кешируется класс содержимого (coderange), а не само число символов. А если дописать в UTF-8-строку недопустимый байт (например, 0xFF), следующее сканирование выставит BROKEN, и посимвольные операции на ней корректного результата уже не дадут.

Frozen strings и интернирование

Путь запроса используется для роутинга — приложение ищет его в таблице маршрутов. Маршруты — это хеш, где ключи — строковые паттерны. Строка-ключ хеша не должна меняться после вставки: если ключ изменится, его хеш-значение станет другим, и запись в хеше потеряется.

Frozen strings

str.freeze делает строку неизменяемой: любая попытка модификации вызовет FrozenError. Frozen-строки безопасны как ключи хешей — гарантировано, что ключ не изменится после вставки. Ruby автоматически замораживает строковые ключи при вставке в хеш.

С Ruby 2.3 доступен магический комментарий # frozen_string_literal: true — все строковые литералы в файле автоматически frozen. Это не только защита от случайных мутаций, но и возможность для следующей оптимизации.

fstring: интернированные frozen строки

Если строка frozen и неизменна, одинаковые строки можно хранить в единственном экземпляре на весь процесс. Ruby поддерживает глобальную таблицу fstrings (frozen interned strings). Путь от обычной строки к fstring:

Строка становится frozen (через freeze, # frozen_string_literal: true или -"str").
При использовании как ключа хеша или через явный dedup/-"str" Ruby ищет строку в глобальной таблице fstrings.
Если строка с таким содержимым уже есть — возвращает существующий объект. Если нет — регистрирует текущую строку в таблице.

object_id возвращает числовой идентификатор объекта; равенство идентификаторов означает, что обе переменные ссылаются на один и тот же объект в памяти:

a = "hello".freeze
b = "hello".freeze
a.object_id == b.object_id  # => true — один объект в памяти

Для embedded fstrings Ruby хранит предвычисленный хеш после содержимого строки в том же слоте (флаг STR_PRECOMPUTED_HASH). Это ускоряет использование строки как ключа хеша: при поиске не нужно повторно вычислять хеш.

fstrings применяются автоматически для символов (:foo хранит строковое представление как fstring), frozen-литералов и ключей хешей. В типичном Rails-приложении сотни одинаковых строк ("id", "name", "created_at") превращаются в единичные fstring-объекты — экономия памяти пропорциональна числу повторений.

Sources

CRuby source: string.c — String implementation: https://github.com/ruby/ruby/blob/master/string.c
CRuby source: include/ruby/internal/core/rstring.h — RString struct: https://github.com/ruby/ruby/blob/master/include/ruby/internal/core/rstring.h
Ruby docs: String: https://docs.ruby-lang.org/en/master/String.html
Pat Shaughnessy, Ruby Under a Microscope — Ch. 2: How Ruby Stores String Data
Peter Zhu, Variable Width Allocation — RubyKaigi 2022

← Hash | JIT →

CS Notes

Explorer

string

String

Два режима хранения

Null-терминатор

Стратегия роста

Shared-строки: Copy-on-Write

Кодировка

Хранение кодировки

Coderange: кеш свойств содержимого

Frozen strings и интернирование

Frozen strings

fstring: интернированные frozen строки

Sources

Graph View

Table of Contents

Backlinks