В ядре Linux устранена следующая уязвимость:
vsock/virtio: ограничение кредита TX размером локального буфера
Транспорт virtio получает кредит TX непосредственно от Peer_buf_alloc,
который устанавливается из значения SO_VM_SOCKETS_BUFFER_SIZE удаленной конечной точки. На стороне хоста это означает, что объем данных, которые мы готовы
очередь на соединение масштабируется в зависимости от размера буфера, выбранного гостем, а не
чем собственная конфигурация vsock хоста. Злоумышленник может рекламировать
большой буфер и медленно читать, заставляя хост выделять
соответственно большой объем памяти sk_buff.
То же самое произойдет и в гостевой системе с вредоносным хостом, поскольку
Транспорты virtio используют одну и ту же базу кода. Представьте небольшой помощник virtio_transport_tx_buf_size(), который
возвращает min(peer_buf_alloc, buf_alloc) и используйте его везде, где мы потребляем
Peer_buf_alloc. Это гарантирует, что эффективное окно TX ограничено как
объявленный буфер и наш собственный buf_alloc (уже зажатый в
buffer_max_size через SO_VM_SOCKETS_BUFFER_MAX_SIZE), поэтому удаленный узел
не может заставить другого поставить в очередь больше данных, чем разрешено его собственными
настройки всокок.
На непропатченном хосте Ubuntu 22.04 (~64 ГБ ОЗУ) выполняется PoC с
32 гостевых соединения vsock, рекламирующих по 2 ГиБ каждое и медленно читающих
Slab/SUnreclaim увеличился с ~0,5 ГиБ до ~57 ГиБ; только система
восстановлен после завершения процесса QEMU. Тем не менее, если память QEMU
ограничено cgroups, максимальный используемый объем памяти будет ограничен. С применением этого патча:
До:
MemFree: ~61,6 ГиБ
Плита: ~142 МБ
SUnreclaim: ~117 МБ
После 32 высококредитных связей:
MemFree: ~61,5 ГиБ
Плита: ~178 МБ
SUnreclaim: ~152 МБ
Увеличение всего на ~35 МБ в Slab/SUnreclaim, без OOM хоста и гостя
остается отзывчивым.
Совместимость с невиртио транспортами:
- VMCI использует ручки буфера AF_VSOCK для определения размера пар очередей на каждый
сокет на основе локальных значений vsk->buffer_*; удаленная сторона
не может увеличить эти очереди за пределы локальной конечной точки
настроен.
- Транспорт vsock в Hyper-V использует кольцевые буферы VMBus фиксированного размера и
ограничение MTU; не существует сопоставимого кредитного поля, контролируемого коллегами
в Peer_buf_alloc, и удаленная конечная точка не может двигаться в полете
память ядра выше этих размеров кольца.
- Путь обратной связи повторно использует virtio_transport_common.c, поэтому он
естественно, следует той же семантике, что и транспорт virtio. Это изменение ограничено virtio_transport_common.c и, таким образом, затрагивает
virtio-vsock, vhost-vsock и loopback, приводя их в соответствие с
поведение «удаленное окно пересекается с локальной политикой», которое VMCI и
Hyper-V уже эффективно работает.
[Стефано: небольшие изменения после изменения предыдущего патча]
[Стефано: подправить сообщение о коммите]
Показать оригинальное описание (EN)
In the Linux kernel, the following vulnerability has been resolved: vsock/virtio: cap TX credit to local buffer size The virtio transports derives its TX credit directly from peer_buf_alloc, which is set from the remote endpoint's SO_VM_SOCKETS_BUFFER_SIZE value. On the host side this means that the amount of data we are willing to queue for a connection is scaled by a guest-chosen buffer size, rather than the host's own vsock configuration. A malicious guest can advertise a large buffer and read slowly, causing the host to allocate a correspondingly large amount of sk_buff memory. The same thing would happen in the guest with a malicious host, since virtio transports share the same code base. Introduce a small helper, virtio_transport_tx_buf_size(), that returns min(peer_buf_alloc, buf_alloc), and use it wherever we consume peer_buf_alloc. This ensures the effective TX window is bounded by both the peer's advertised buffer and our own buf_alloc (already clamped to buffer_max_size via SO_VM_SOCKETS_BUFFER_MAX_SIZE), so a remote peer cannot force the other to queue more data than allowed by its own vsock settings. On an unpatched Ubuntu 22.04 host (~64 GiB RAM), running a PoC with 32 guest vsock connections advertising 2 GiB each and reading slowly drove Slab/SUnreclaim from ~0.5 GiB to ~57 GiB; the system only recovered after killing the QEMU process. That said, if QEMU memory is limited with cgroups, the maximum memory used will be limited. With this patch applied: Before: MemFree: ~61.6 GiB Slab: ~142 MiB SUnreclaim: ~117 MiB After 32 high-credit connections: MemFree: ~61.5 GiB Slab: ~178 MiB SUnreclaim: ~152 MiB Only ~35 MiB increase in Slab/SUnreclaim, no host OOM, and the guest remains responsive. Compatibility with non-virtio transports: - VMCI uses the AF_VSOCK buffer knobs to size its queue pairs per socket based on the local vsk->buffer_* values; the remote side cannot enlarge those queues beyond what the local endpoint configured. - Hyper-V's vsock transport uses fixed-size VMBus ring buffers and an MTU bound; there is no peer-controlled credit field comparable to peer_buf_alloc, and the remote endpoint cannot drive in-flight kernel memory above those ring sizes. - The loopback path reuses virtio_transport_common.c, so it naturally follows the same semantics as the virtio transport. This change is limited to virtio_transport_common.c and thus affects virtio-vsock, vhost-vsock, and loopback, bringing them in line with the "remote window intersected with local policy" behaviour that VMCI and Hyper-V already effectively have. [Stefano: small adjustments after changing the previous patch] [Stefano: tweak the commit message]