From a7e1690a3feed7c6f55eeae518e7773acb92eb86 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 18 Jun 2026 12:55:21 -0600
Subject: [PATCH 001/114] fix: support non-monotonic CP block masks

---
 .../megatron/context_parallel/block_mask.py   | 236 +++++++++---------
 .../test_shared_prefix_attention_builder.py   | 206 +++++++++++++++
 2 files changed, 322 insertions(+), 120 deletions(-)
 create mode 100644 tests/unit/test_shared_prefix_attention_builder.py

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 91fe2023b..9ef62e6de 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -8,25 +8,27 @@
 
 from .types import AttnMaskKind, FlexMaskSpec
 
-_INVALID_Q_GROUP = -(1 << 63)
-_INVALID_Q_PARENT = _INVALID_Q_GROUP + 1
-_INVALID_K_GROUP = _INVALID_Q_GROUP + 2
+_INVALID_GROUP_INDEX = 0
 
 
 def _build_exact_mask_mod(
     *,
     q_abs: np.ndarray,
     k_abs: np.ndarray,
-    q_group: np.ndarray,
-    q_parent: np.ndarray,
-    k_group: np.ndarray,
+    q_group_index: np.ndarray,
+    k_group_index: np.ndarray,
+    group_can_attend: np.ndarray,
     device: torch.device,
 ):
     q_abs_tensor = torch.as_tensor(q_abs, device=device, dtype=torch.int64)
     k_abs_tensor = torch.as_tensor(k_abs, device=device, dtype=torch.int64)
-    q_group_tensor = torch.as_tensor(q_group, device=device, dtype=torch.int64)
-    q_parent_tensor = torch.as_tensor(q_parent, device=device, dtype=torch.int64)
-    k_group_tensor = torch.as_tensor(k_group, device=device, dtype=torch.int64)
+    q_group_tensor = torch.as_tensor(q_group_index, device=device, dtype=torch.int32)
+    k_group_tensor = torch.as_tensor(k_group_index, device=device, dtype=torch.int32)
+    group_can_attend_tensor = torch.as_tensor(
+        group_can_attend,
+        device=device,
+        dtype=torch.bool,
+    )
 
     def mask_mod(
         batch_idx: torch.Tensor,
@@ -37,9 +39,11 @@ def mask_mod(
         del batch_idx, head_idx
         q_abs_local = q_abs_tensor[query_idx]
         k_abs_local = k_abs_tensor[kv_idx]
-        same_group = q_group_tensor[query_idx] == k_group_tensor[kv_idx]
-        parent_prefix = q_parent_tensor[query_idx] == k_group_tensor[kv_idx]
-        return (q_abs_local >= k_abs_local) & (same_group | parent_prefix)
+        allowed_group = group_can_attend_tensor[
+            q_group_tensor[query_idx],
+            k_group_tensor[kv_idx],
+        ]
+        return (q_abs_local >= k_abs_local) & allowed_group
 
     return mask_mod
 
@@ -72,64 +76,74 @@ def _select_with_invalid_np(
     return selected
 
 
-def _build_q_block_group_state(
-    *,
-    q_abs: np.ndarray,
-    q_group: np.ndarray,
-    q_parent: np.ndarray,
-    q_block: int,
-    block_idx: int,
-) -> tuple[int, dict[int, int], frozenset[int]]:
-    start = int(block_idx) * q_block
-    end = min((int(block_idx) + 1) * q_block, int(q_abs.size))
-    q = q_abs[start:end]
-    q_group_block = q_group[start:end]
-    q_parent_block = q_parent[start:end]
-    q_min = int(q.min()) if int(q.size) else 0
-    max_by_group: dict[int, int] = {}
-    all_groups: list[int] = []
-    for group_value in np.unique(np.concatenate((q_group_block, q_parent_block))):
-        allowed = (q_group_block == group_value) | (q_parent_block == group_value)
-        if bool(allowed.any()):
-            max_by_group[int(group_value)] = int(q[allowed].max())
-        if bool(allowed.all()):
-            all_groups.append(int(group_value))
-    return q_min, max_by_group, frozenset(all_groups)
-
-
-def _build_k_block_group_state(
+def _is_strictly_increasing(values: np.ndarray) -> bool:
+    return int(values.size) <= 1 or bool(np.all(values[1:] > values[:-1]))
+
+
+def _block_min_max(
+    values: np.ndarray,
+    starts: np.ndarray,
+    ends: np.ndarray,
+) -> tuple[np.ndarray, np.ndarray]:
+    mins = np.empty(starts.shape, dtype=values.dtype)
+    maxes = np.empty(starts.shape, dtype=values.dtype)
+    for index, (start, end) in enumerate(zip(starts, ends, strict=True)):
+        block = values[int(start) : int(end)]
+        mins[index] = block.min()
+        maxes[index] = block.max()
+    return mins, maxes
+
+
+def _build_group_can_attend(
     *,
-    k_abs: np.ndarray,
-    k_group: np.ndarray,
-    k_block: int,
-    block_idx: int,
-) -> tuple[int, dict[int, int], tuple[int, ...]]:
-    start = int(block_idx) * k_block
-    end = min((int(block_idx) + 1) * k_block, int(k_abs.size))
-    k = k_abs[start:end]
-    k_group_block = k_group[start:end]
-    k_max = int(k.max()) if int(k.size) else 0
-    min_by_group: dict[int, int] = {}
-    for group_value in np.unique(k_group_block):
-        min_by_group[int(group_value)] = int(k[k_group_block == group_value].min())
-    return k_max, min_by_group, tuple(min_by_group)
-
-
-def _exact_block_state(
+    group_ids: np.ndarray,
+    parent_ids: np.ndarray,
+) -> tuple[np.ndarray, np.ndarray]:
+    valid = group_ids >= 0
+    sorted_group_ids = np.unique(group_ids[valid]).astype(np.int64, copy=False)
+    group_to_index = {
+        int(group_id): index + 1 for index, group_id in enumerate(sorted_group_ids)
+    }
+    group_can_attend = np.zeros(
+        (int(sorted_group_ids.size) + 1, int(sorted_group_ids.size) + 1),
+        dtype=bool,
+    )
+    parent_by_group: dict[int, int | None] = {}
+    for group_id in sorted_group_ids.tolist():
+        positions = np.flatnonzero(group_ids == int(group_id))
+        parent_id = int(parent_ids[int(positions[0])])
+        parent_by_group[int(group_id)] = (
+            None if parent_id < 0 or parent_id == int(group_id) else parent_id
+        )
+
+    for group_id in sorted_group_ids.tolist():
+        query_index = group_to_index[int(group_id)]
+        cursor = int(group_id)
+        seen: set[int] = set()
+        while cursor in group_to_index:
+            group_can_attend[query_index, group_to_index[cursor]] = True
+            parent_id = parent_by_group.get(cursor)
+            if parent_id is None or parent_id in seen:
+                break
+            seen.add(cursor)
+            cursor = parent_id
+    return sorted_group_ids, group_can_attend
+
+
+def _remap_group_values(
+    values: np.ndarray,
     *,
-    q_state: tuple[int, dict[int, int], frozenset[int]],
-    k_state: tuple[int, dict[int, int], tuple[int, ...]],
-) -> tuple[bool, bool]:
-    q_min, q_allowed_max, q_all_allowed = q_state
-    k_max, k_min, k_groups = k_state
-    if not any(
-        q_allowed_max.get(k_group_value, _INVALID_Q_GROUP) >= min_k
-        for k_group_value, min_k in k_min.items()
-    ):
-        return False, False
-    if int(q_min) < int(k_max):
-        return True, False
-    return True, all(k_group_value in q_all_allowed for k_group_value in k_groups)
+    sorted_group_ids: np.ndarray,
+) -> np.ndarray:
+    remapped = np.full(values.shape, _INVALID_GROUP_INDEX, dtype=np.int32)
+    if int(sorted_group_ids.size) == 0:
+        return remapped
+    positions = np.searchsorted(sorted_group_ids, values)
+    in_bounds = positions < int(sorted_group_ids.size)
+    matched = np.zeros(values.shape, dtype=bool)
+    matched[in_bounds] = sorted_group_ids[positions[in_bounds]] == values[in_bounds]
+    remapped[matched] = positions[matched].astype(np.int32, copy=False) + 1
+    return remapped
 
 
 def _build_sparse_block_mask(
@@ -145,7 +159,6 @@ def _build_sparse_block_mask(
     k_blocks = (int(spec.k_len) + k_block - 1) // k_block
     partial_blocks = np.zeros((q_blocks, k_blocks), dtype=bool)
     full_blocks = np.zeros((q_blocks, k_blocks), dtype=bool)
-    touch_counts = np.zeros((q_blocks, k_blocks), dtype=np.int16)
     q_abs_tensor = spec.exact_mask.q_token_indices.detach().to(
         device="cpu",
         dtype=torch.int64,
@@ -156,6 +169,8 @@ def _build_sparse_block_mask(
     )
     q_abs = q_abs_tensor.numpy()
     k_abs = k_abs_tensor.numpy()
+    q_abs_sorted = _is_strictly_increasing(q_abs[q_abs >= 0])
+    k_abs_sorted = _is_strictly_increasing(k_abs[k_abs >= 0])
     flat_group_ids = group_ids.detach().to(device="cpu", dtype=torch.int64).reshape(-1)
     flat_parent_ids = (
         parent_ids.detach().to(device="cpu", dtype=torch.int64).reshape(-1)
@@ -165,24 +180,31 @@ def _build_sparse_block_mask(
     q_group = _select_with_invalid_np(
         flat_group_ids_np,
         q_abs,
-        invalid_value=_INVALID_Q_GROUP,
-    )
-    q_parent = _select_with_invalid_np(
-        flat_parent_ids_np,
-        q_abs,
-        invalid_value=_INVALID_Q_PARENT,
+        invalid_value=-1,
     )
     k_group = _select_with_invalid_np(
         flat_group_ids_np,
         k_abs,
-        invalid_value=_INVALID_K_GROUP,
+        invalid_value=-1,
+    )
+    sorted_group_ids, group_can_attend = _build_group_can_attend(
+        group_ids=flat_group_ids_np,
+        parent_ids=flat_parent_ids_np,
+    )
+    q_group_index = _remap_group_values(
+        q_group,
+        sorted_group_ids=sorted_group_ids,
+    )
+    k_group_index = _remap_group_values(
+        k_group,
+        sorted_group_ids=sorted_group_ids,
     )
     mask_mod = _build_exact_mask_mod(
         q_abs=q_abs,
         k_abs=k_abs,
-        q_group=q_group,
-        q_parent=q_parent,
-        k_group=k_group,
+        q_group_index=q_group_index,
+        k_group_index=k_group_index,
+        group_can_attend=group_can_attend,
         device=device,
     )
     if not spec.slices:
@@ -233,10 +255,16 @@ def _build_sparse_block_mask(
             k_block_end,
             k_end,
         )
-        q_min = q_abs[q_overlap_start]
-        q_max = q_abs[q_overlap_end - 1]
-        k_min = k_abs[k_overlap_start]
-        k_max = k_abs[k_overlap_end - 1]
+        q_min, q_max = (
+            (q_abs[q_overlap_start], q_abs[q_overlap_end - 1])
+            if q_abs_sorted
+            else _block_min_max(q_abs, q_overlap_start, q_overlap_end)
+        )
+        k_min, k_max = (
+            (k_abs[k_overlap_start], k_abs[k_overlap_end - 1])
+            if k_abs_sorted
+            else _block_min_max(k_abs, k_overlap_start, k_overlap_end)
+        )
         q_is_full = (q_overlap_start == q_block_start) & (q_overlap_end == q_block_end)
         k_is_full = (k_overlap_start == k_block_start) & (k_overlap_end == k_block_end)
         covers_block = q_is_full[:, None] & k_is_full[None, :]
@@ -251,43 +279,11 @@ def _build_sparse_block_mask(
 
         q_slice = slice(int(q_block_indices[0]), int(q_block_indices[-1]) + 1)
         k_slice = slice(int(k_block_indices[0]), int(k_block_indices[-1]) + 1)
-        touch_counts[q_slice, k_slice] += has_any.astype(np.int16)
         partial_blocks[q_slice, k_slice] |= has_any
         full_blocks[q_slice, k_slice] |= is_full
 
-    ambiguous = (touch_counts > 1) & partial_blocks & ~full_blocks
-    q_state_cache: dict[int, tuple[int, dict[int, int], frozenset[int]]] = {}
-    k_state_cache: dict[int, tuple[int, dict[int, int], tuple[int, ...]]] = {}
-    for q_idx, k_idx in np.argwhere(ambiguous):
-        q_state = q_state_cache.get(int(q_idx))
-        if q_state is None:
-            q_state = _build_q_block_group_state(
-                q_abs=q_abs,
-                q_group=q_group,
-                q_parent=q_parent,
-                q_block=q_block,
-                block_idx=int(q_idx),
-            )
-            q_state_cache[int(q_idx)] = q_state
-        k_state = k_state_cache.get(int(k_idx))
-        if k_state is None:
-            k_state = _build_k_block_group_state(
-                k_abs=k_abs,
-                k_group=k_group,
-                k_block=k_block,
-                block_idx=int(k_idx),
-            )
-            k_state_cache[int(k_idx)] = k_state
-        has_any, is_full = _exact_block_state(
-            q_state=q_state,
-            k_state=k_state,
-        )
-        partial_blocks[q_idx, k_idx] = False
-        full_blocks[q_idx, k_idx] = False
-        if is_full:
-            full_blocks[q_idx, k_idx] = True
-        elif has_any:
-            partial_blocks[q_idx, k_idx] = True
+    # Overlapping tree slices are left as partial blocks. The block-level program
+    # only decides which blocks to visit; `mask_mod` above is the exact authority.
 
     partial_blocks &= ~full_blocks
     kv_num_blocks, kv_indices = _dense_blocks_to_ordered(
@@ -347,9 +343,9 @@ def _validate_exact_indices(
     valid = _valid_prefix(indices, name=name)
     if int(valid.numel()) == 0:
         return 0
-    if bool((valid[1:] <= valid[:-1]).any().item()):
-        raise RuntimeError(f"{name} exact token indices must be strictly increasing.")
-    max_index = int(valid[-1].item())
+    if int(valid.unique().numel()) != int(valid.numel()):
+        raise RuntimeError(f"{name} exact token indices must not contain duplicates.")
+    max_index = int(valid.max().item())
     if max_index >= int(source_len):
         raise RuntimeError(
             f"{name} exact token index {max_index} exceeds source metadata length {int(source_len)}."
diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
new file mode 100644
index 000000000..cd65a81d4
--- /dev/null
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -0,0 +1,206 @@
+from __future__ import annotations
+
+import torch
+
+from art.megatron.context_parallel.builder import (
+    build_dense_reference_mask,
+    build_shared_prefix_attention_spec,
+)
+from art.megatron.context_parallel.block_mask import build_block_mask
+from art.megatron.context_parallel.runtime import build_context_parallel_token_layout_index
+from art.megatron.context_parallel.types import (
+    AttnMaskKind,
+    AttnSlice,
+    ContextParallelConfig,
+    ExactMaskMetadata,
+    FlexMaskSpec,
+    ParallelTopology,
+    TokenRange,
+)
+from art.megatron.shared_prefix_packing import pack_shared_prefixes
+
+
+def test_shared_prefix_attention_spec_supports_depth_two() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 6, 7]),
+        ),
+        max_depth=2,
+    )
+
+    spec = build_shared_prefix_attention_spec(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    dense = build_dense_reference_mask(row_spec=spec.rows[0])
+
+    assert dense.int().tolist() == [
+        [1, 0, 0, 0, 0, 0, 0],
+        [1, 1, 0, 0, 0, 0, 0],
+        [1, 1, 1, 0, 0, 0, 0],
+        [1, 1, 1, 1, 0, 0, 0],
+        [1, 1, 1, 0, 1, 0, 0],
+        [1, 0, 0, 0, 0, 1, 0],
+        [1, 0, 0, 0, 0, 1, 1],
+    ]
+
+
+def test_shared_prefix_attention_spec_supports_arbitrary_depth() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4, 8]),
+            torch.tensor([1, 2, 3, 4, 9]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 6]),
+        ),
+        max_depth=3,
+    )
+
+    spec = build_shared_prefix_attention_spec(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    dense = build_dense_reference_mask(row_spec=spec.rows[0])
+
+    assert dense.equal(_reference_tree_mask(pack.group_ids[0], pack.parent_ids[0]))
+
+
+def test_depth_two_shared_prefix_can_build_context_parallel_layout() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 6, 7]),
+        ),
+        max_depth=2,
+    )
+
+    layout = build_context_parallel_token_layout_index(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+        topology=ParallelTopology(cp=2),
+        config=ContextParallelConfig(planner_chunk_size=2, planner_max_search_steps=1),
+        original_seq_len=int(pack.tokens.numel()),
+    )
+
+    assert sum(layout.token_counts_by_rank) == int(pack.tokens.numel())
+
+
+def test_depth_two_sparse_block_mask_exact_predicate_matches_dense_reference() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 6, 7]),
+        ),
+        max_depth=2,
+    )
+    spec = build_shared_prefix_attention_spec(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    row = spec.rows[0]
+    token_indices = torch.arange(row.valid_tokens, dtype=torch.long)
+    block_mask = build_block_mask(
+        FlexMaskSpec(
+            q_len=row.valid_tokens,
+            k_len=row.valid_tokens,
+            block_size=(2, 2),
+            slices=row.slices,
+            exact_mask=ExactMaskMetadata(
+                q_token_indices=token_indices,
+                k_token_indices=token_indices,
+                cache_key="depth-two",
+            ),
+        ),
+        group_ids=pack.group_ids[0],
+        parent_ids=pack.parent_ids[0],
+        device=torch.device("cpu"),
+    )
+
+    assert block_mask is not None
+    q_indices = torch.arange(row.valid_tokens)[:, None]
+    k_indices = torch.arange(row.valid_tokens)[None, :]
+    actual = block_mask.mask_mod(
+        torch.zeros_like(q_indices),
+        torch.zeros_like(q_indices),
+        q_indices,
+        k_indices,
+    )
+
+    assert actual.equal(build_dense_reference_mask(row_spec=row))
+
+
+def test_sparse_block_mask_supports_non_monotonic_remote_k_indices() -> None:
+    q_token_indices = torch.tensor([4, 5, 6, 7], dtype=torch.long)
+    k_token_indices = torch.tensor([0, 1, 6, 2, 3, 4], dtype=torch.long)
+    block_mask = build_block_mask(
+        FlexMaskSpec(
+            q_len=int(q_token_indices.numel()),
+            k_len=int(k_token_indices.numel()),
+            block_size=(2, 2),
+            slices=(
+                AttnSlice(
+                    q_range=TokenRange(start=0, end=int(q_token_indices.numel())),
+                    k_range=TokenRange(start=0, end=int(k_token_indices.numel())),
+                    mask_kind=AttnMaskKind.CAUSAL,
+                    row_index=0,
+                ),
+            ),
+            exact_mask=ExactMaskMetadata(
+                q_token_indices=q_token_indices,
+                k_token_indices=k_token_indices,
+                cache_key="non-monotonic-k",
+            ),
+        ),
+        group_ids=torch.ones(8, dtype=torch.long),
+        parent_ids=torch.ones(8, dtype=torch.long),
+        device=torch.device("cpu"),
+    )
+
+    assert block_mask is not None
+    q_indices = torch.arange(q_token_indices.numel())[:, None]
+    k_indices = torch.arange(k_token_indices.numel())[None, :]
+
+    actual = block_mask.mask_mod(
+        torch.zeros_like(q_indices),
+        torch.zeros_like(q_indices),
+        q_indices,
+        k_indices,
+    )
+
+    assert actual.equal(q_token_indices[:, None] >= k_token_indices[None, :])
+
+
+def _reference_tree_mask(group_ids: torch.Tensor, parent_ids: torch.Tensor) -> torch.Tensor:
+    group_list = [int(value) for value in group_ids.tolist()]
+    parent_by_group: dict[int, int | None] = {}
+    for group_id, parent_id in zip(group_list, parent_ids.tolist(), strict=True):
+        group_id = int(group_id)
+        parent_id = int(parent_id)
+        if group_id not in parent_by_group:
+            parent_by_group[group_id] = None if parent_id == group_id else parent_id
+
+    ancestors_by_group = {
+        group_id: _ancestors(group_id, parent_by_group) for group_id in parent_by_group
+    }
+    dense = torch.zeros((len(group_list), len(group_list)), dtype=torch.bool)
+    for q_pos, q_group in enumerate(group_list):
+        allowed_groups = ancestors_by_group[q_group] | {q_group}
+        for k_pos, k_group in enumerate(group_list):
+            dense[q_pos, k_pos] = k_pos <= q_pos and k_group in allowed_groups
+    return dense
+
+
+def _ancestors(
+    group_id: int,
+    parent_by_group: dict[int, int | None],
+) -> set[int]:
+    ancestors: set[int] = set()
+    cursor = parent_by_group[group_id]
+    while cursor is not None and cursor not in ancestors:
+        ancestors.add(cursor)
+        cursor = parent_by_group.get(cursor)
+    return ancestors

From a054d9da422ff3c4e101b3c6cc4bcd2a4280d51a Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 18 Jun 2026 13:06:21 -0600
Subject: [PATCH 002/114] fix: remove uncommitted packing dependency from CP
 tests

---
 .../test_shared_prefix_attention_builder.py   | 89 ++++++++-----------
 1 file changed, 35 insertions(+), 54 deletions(-)

diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
index cd65a81d4..639932faf 100644
--- a/tests/unit/test_shared_prefix_attention_builder.py
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -2,12 +2,14 @@
 
 import torch
 
+from art.megatron.context_parallel.block_mask import build_block_mask
 from art.megatron.context_parallel.builder import (
     build_dense_reference_mask,
     build_shared_prefix_attention_spec,
 )
-from art.megatron.context_parallel.block_mask import build_block_mask
-from art.megatron.context_parallel.runtime import build_context_parallel_token_layout_index
+from art.megatron.context_parallel.runtime import (
+    build_context_parallel_token_layout_index,
+)
 from art.megatron.context_parallel.types import (
     AttnMaskKind,
     AttnSlice,
@@ -17,22 +19,14 @@
     ParallelTopology,
     TokenRange,
 )
-from art.megatron.shared_prefix_packing import pack_shared_prefixes
 
 
-def test_shared_prefix_attention_spec_supports_depth_two() -> None:
-    pack = pack_shared_prefixes(
-        (
-            torch.tensor([1, 2, 3, 4]),
-            torch.tensor([1, 2, 3, 5]),
-            torch.tensor([1, 6, 7]),
-        ),
-        max_depth=2,
-    )
+def test_shared_prefix_attention_spec_supports_branching_completions() -> None:
+    group_ids, parent_ids = _branching_prefix_inputs()
 
     spec = build_shared_prefix_attention_spec(
-        group_ids=pack.group_ids,
-        parent_ids=pack.parent_ids,
+        group_ids=group_ids,
+        parent_ids=parent_ids,
     )
     dense = build_dense_reference_mask(row_spec=spec.rows[0])
 
@@ -47,59 +41,37 @@ def test_shared_prefix_attention_spec_supports_depth_two() -> None:
     ]
 
 
-def test_shared_prefix_attention_spec_supports_arbitrary_depth() -> None:
-    pack = pack_shared_prefixes(
-        (
-            torch.tensor([1, 2, 3, 4, 8]),
-            torch.tensor([1, 2, 3, 4, 9]),
-            torch.tensor([1, 2, 3, 5]),
-            torch.tensor([1, 6]),
-        ),
-        max_depth=3,
-    )
+def test_shared_prefix_attention_spec_matches_tree_reference() -> None:
+    group_ids, parent_ids = _branching_prefix_inputs()
 
     spec = build_shared_prefix_attention_spec(
-        group_ids=pack.group_ids,
-        parent_ids=pack.parent_ids,
+        group_ids=group_ids,
+        parent_ids=parent_ids,
     )
     dense = build_dense_reference_mask(row_spec=spec.rows[0])
 
-    assert dense.equal(_reference_tree_mask(pack.group_ids[0], pack.parent_ids[0]))
+    assert dense.equal(_reference_tree_mask(group_ids[0], parent_ids[0]))
 
 
-def test_depth_two_shared_prefix_can_build_context_parallel_layout() -> None:
-    pack = pack_shared_prefixes(
-        (
-            torch.tensor([1, 2, 3, 4]),
-            torch.tensor([1, 2, 3, 5]),
-            torch.tensor([1, 6, 7]),
-        ),
-        max_depth=2,
-    )
+def test_shared_prefix_can_build_context_parallel_layout() -> None:
+    group_ids, parent_ids = _branching_prefix_inputs()
 
     layout = build_context_parallel_token_layout_index(
-        group_ids=pack.group_ids,
-        parent_ids=pack.parent_ids,
+        group_ids=group_ids,
+        parent_ids=parent_ids,
         topology=ParallelTopology(cp=2),
         config=ContextParallelConfig(planner_chunk_size=2, planner_max_search_steps=1),
-        original_seq_len=int(pack.tokens.numel()),
+        original_seq_len=int(group_ids.numel()),
     )
 
-    assert sum(layout.token_counts_by_rank) == int(pack.tokens.numel())
+    assert sum(layout.token_counts_by_rank) == int(group_ids.numel())
 
 
-def test_depth_two_sparse_block_mask_exact_predicate_matches_dense_reference() -> None:
-    pack = pack_shared_prefixes(
-        (
-            torch.tensor([1, 2, 3, 4]),
-            torch.tensor([1, 2, 3, 5]),
-            torch.tensor([1, 6, 7]),
-        ),
-        max_depth=2,
-    )
+def test_sparse_block_mask_exact_predicate_matches_dense_reference() -> None:
+    group_ids, parent_ids = _branching_prefix_inputs()
     spec = build_shared_prefix_attention_spec(
-        group_ids=pack.group_ids,
-        parent_ids=pack.parent_ids,
+        group_ids=group_ids,
+        parent_ids=parent_ids,
     )
     row = spec.rows[0]
     token_indices = torch.arange(row.valid_tokens, dtype=torch.long)
@@ -115,8 +87,8 @@ def test_depth_two_sparse_block_mask_exact_predicate_matches_dense_reference() -
                 cache_key="depth-two",
             ),
         ),
-        group_ids=pack.group_ids[0],
-        parent_ids=pack.parent_ids[0],
+        group_ids=group_ids[0],
+        parent_ids=parent_ids[0],
         device=torch.device("cpu"),
     )
 
@@ -174,7 +146,16 @@ def test_sparse_block_mask_supports_non_monotonic_remote_k_indices() -> None:
     assert actual.equal(q_token_indices[:, None] >= k_token_indices[None, :])
 
 
-def _reference_tree_mask(group_ids: torch.Tensor, parent_ids: torch.Tensor) -> torch.Tensor:
+def _branching_prefix_inputs() -> tuple[torch.Tensor, torch.Tensor]:
+    return (
+        torch.tensor([[1, 1, 1, 2, 3, 4, 4]], dtype=torch.long),
+        torch.tensor([[1, 1, 1, 1, 1, 1, 1]], dtype=torch.long),
+    )
+
+
+def _reference_tree_mask(
+    group_ids: torch.Tensor, parent_ids: torch.Tensor
+) -> torch.Tensor:
     group_list = [int(value) for value in group_ids.tolist()]
     parent_by_group: dict[int, int | None] = {}
     for group_id, parent_id in zip(group_list, parent_ids.tolist(), strict=True):

From f7aba7ccc9f3a840e45ceccbdabfaa3ed7914b49 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Fri, 19 Jun 2026 19:52:38 -0600
Subject: [PATCH 003/114] feat: add TrainerRank and generic tree GDN

---
 .github/workflows/build-gpu-image.yml         |   14 +
 dev/trainer_rank.py                           |  116 +
 dev/trainer_rank_parity_probe.py              |  525 +++
 dev/trainer_rank_perf.py                      | 1268 ++++++
 dev/trainer_rank_topology_check.py            | 1089 +++++
 scripts/build-gpu-image.sh                    |   59 +-
 src/art/megatron/__init__.py                  |   15 +-
 .../megatron/context_parallel/block_mask.py   |   46 +-
 src/art/megatron/context_parallel/builder.py  |  241 +-
 src/art/megatron/context_parallel/runtime.py  |    4 +-
 src/art/megatron/context_parallel/types.py    |    2 +-
 src/art/megatron/gdn/__init__.py              |    4 -
 src/art/megatron/gdn/gdn_shared_prefix.py     | 3890 +++--------------
 src/art/megatron/gdn/layout.py                |   34 +-
 src/art/megatron/gdn/operator.py              | 1192 ++---
 src/art/megatron/model_support/spec.py        |    1 +
 src/art/megatron/shared_prefix_packing.py     |  213 +
 src/art/megatron/shared_prefix_state.py       |  125 +-
 src/art/megatron/shared_prefix_tree.py        |  318 ++
 src/art/megatron/trainer_rank.py              | 2024 +++++++++
 src/art/megatron/trainer_rank_topk.py         |  449 ++
 .../test_attention_packed_vs_flattened.py     |   75 +-
 .../megatron/gdn_shared_prefix/oracles.py     |   76 +-
 .../gdn_shared_prefix/packed_layout.py        |   44 +-
 .../gdn_shared_prefix/parser_import.py        |    1 -
 .../gdn_shared_prefix/real_gdn_oracle.py      |  165 +-
 .../test_gdn_cp_packed_correctness.py         |  305 ++
 ...en35_full_model_cp1_packed_vs_flattened.py |  245 +-
 .../test_real_gdn_native_fla_cp.py            |   10 +-
 .../test_shared_prefix_attention_builder.py   |  218 +-
 tests/unit/test_shared_prefix_grad_parity.py  |  274 ++
 tests/unit/test_shared_prefix_packing.py      |  127 +
 tests/unit/test_shared_prefix_tree.py         |  490 +++
 tests/unit/test_trainer_rank_validation.py    |   50 +
 34 files changed, 9016 insertions(+), 4693 deletions(-)
 create mode 100644 dev/trainer_rank.py
 create mode 100644 dev/trainer_rank_parity_probe.py
 create mode 100644 dev/trainer_rank_perf.py
 create mode 100644 dev/trainer_rank_topology_check.py
 create mode 100644 src/art/megatron/shared_prefix_packing.py
 create mode 100644 src/art/megatron/shared_prefix_tree.py
 create mode 100644 src/art/megatron/trainer_rank.py
 create mode 100644 src/art/megatron/trainer_rank_topk.py
 create mode 100644 tests/unit/test_shared_prefix_grad_parity.py
 create mode 100644 tests/unit/test_shared_prefix_packing.py
 create mode 100644 tests/unit/test_shared_prefix_tree.py
 create mode 100644 tests/unit/test_trainer_rank_validation.py

diff --git a/.github/workflows/build-gpu-image.yml b/.github/workflows/build-gpu-image.yml
index 02fa7dff6..6e1717119 100644
--- a/.github/workflows/build-gpu-image.yml
+++ b/.github/workflows/build-gpu-image.yml
@@ -30,6 +30,11 @@ on:
         required: true
         default: true
         type: boolean
+      prewarm_modal:
+        description: "Prebuild the pushed image in Modal when auth is configured"
+        required: true
+        default: true
+        type: boolean
       prewarm_timeout:
         description: "Timeout for GPU node prewarm rollout"
         required: true
@@ -155,11 +160,16 @@ jobs:
           PULL_IMAGE_REPO: ${{ inputs.pull_image_repo || 'images.coreweave.com/cluster-images/bradhiltonnw/art-gpu' }}
           IMAGE_TAG: ${{ inputs.tag }}
           NO_CACHE: ${{ inputs.no_cache }}
+          MODAL_TOKEN_ID: ${{ secrets.MODAL_TOKEN_ID }}
+          MODAL_TOKEN_SECRET: ${{ secrets.MODAL_TOKEN_SECRET }}
+          PREWARM_MODAL_INPUT: ${{ inputs.prewarm_modal }}
           PREWARM_NODES: ${{ inputs.prewarm_nodes }}
           PREWARM_TIMEOUT: ${{ inputs.prewarm_timeout }}
         run: |
           IMAGE_TAG="${IMAGE_TAG:-latest}"
           NO_CACHE="${NO_CACHE:-false}"
+          export PREWARM_MODAL="${PREWARM_MODAL:-auto}"
+          PREWARM_MODAL_INPUT="${PREWARM_MODAL_INPUT:-true}"
           PREWARM_NODES="${PREWARM_NODES:-true}"
           PREWARM_TIMEOUT="${PREWARM_TIMEOUT:-30m}"
 
@@ -175,6 +185,10 @@ jobs:
             args+=(--no-cache)
           fi
 
+          if [ "${PREWARM_MODAL_INPUT}" = "false" ]; then
+            args+=(--no-prewarm-modal)
+          fi
+
           if [ "${PREWARM_NODES}" != "true" ]; then
             args+=(--no-prewarm-nodes)
           fi
diff --git a/dev/trainer_rank.py b/dev/trainer_rank.py
new file mode 100644
index 000000000..2b9ee70c3
--- /dev/null
+++ b/dev/trainer_rank.py
@@ -0,0 +1,116 @@
+from __future__ import annotations
+
+import os
+
+import torch
+import torch.distributed as dist
+from transformers import AutoTokenizer
+import typer
+
+from art.megatron.trainer_rank import AdamParams, ForwardInput, TrainerRank
+
+
+def main(
+    model: str = "Qwen/Qwen3-0.6B",
+    dataset: str = "roneneldan/TinyStories",
+    split: str = "train",
+    text_column: str = "text",
+    samples: int = 16,
+    steps: int = 1,
+    micro_batch_size: int = 1,
+    lr: float = 5e-5,
+    layers: int = 2,
+    max_seq_length: int = 256,
+) -> None:
+    os.environ.setdefault("ART_MEGATRON_TENSOR_MODEL_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_CONTEXT_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_PIPELINE_MODEL_PARALLEL_SIZE", "1")
+
+    if not torch.cuda.is_available():
+        raise RuntimeError("dev/trainer_rank.py requires CUDA")
+    torch.cuda.set_device(int(os.environ["LOCAL_RANK"]))
+    dist.init_process_group(backend="nccl")
+
+    try:
+        from datasets import load_dataset
+
+        from art.megatron import train as megatron_train
+
+        tokenizer = AutoTokenizer.from_pretrained(model, trust_remote_code=True)
+        inputs: list[ForwardInput[torch.Tensor, None, None, None]] = []
+        for row in load_dataset(dataset, split=split, streaming=True):
+            text = str(row.get(text_column, "")).strip()  # type: ignore[union-attr]
+            if not text:
+                continue
+            token_ids = tokenizer(
+                text,
+                add_special_tokens=True,
+                truncation=True,
+                max_length=max_seq_length + 1,
+                return_tensors="pt",
+            )["input_ids"].reshape(-1)
+            if int(token_ids.numel()) <= 1:
+                continue
+            inputs.append(
+                ForwardInput(
+                    input_tokens=token_ids[:-1],
+                    target_tokens=token_ids[1:],
+                )
+            )
+            if len(inputs) >= samples:
+                break
+        if not inputs:
+            raise RuntimeError("dataset produced no tokenized training examples")
+
+        runtime = megatron_train.build_training_runtime(
+            model_identifier=model,
+            provider_configure=lambda provider: setattr(
+                provider,
+                "num_layers",
+                layers,
+            ),
+            print_env=dist.get_rank() == 0,
+        )
+        rank = TrainerRank(runtime, micro_batch_size=micro_batch_size)
+        if dist.get_rank() == 0:
+            print(
+                "TrainerRank ready: "
+                f"dp={megatron_train.ps.get_data_parallel_world_size()} "
+                f"device={rank.device}",
+                flush=True,
+            )
+
+        for step in range(steps):
+            loss_sum = torch.tensor(0.0, device=rank.device)
+            token_count = torch.tensor(0.0, device=rank.device)
+            for micro in rank.micro_batches(inputs):
+                outputs = rank.forward(micro.inputs)
+                loss = torch.tensor(0.0, device=rank.device)
+                for output in outputs:
+                    assert output.target_logprobs is not None
+                    loss = loss - output.target_logprobs.sum()
+                    token_count += output.target_logprobs.numel()
+                if loss.requires_grad:
+                    loss.backward()
+                    loss_sum += loss.detach()
+
+            rank.dp_reduce(loss_sum)
+            rank.dp_reduce(token_count)
+            scale = 1.0 / max(float(token_count.item()), 1.0)
+            metrics = rank.optim_step(
+                params=AdamParams(learning_rate=lr),
+                scale_grads=scale,
+            )
+            metrics["loss"] = float(loss_sum.item() * scale)
+            metrics["tokens"] = float(token_count.item())
+            if dist.get_rank() == 0:
+                print(f"step={step} {metrics}", flush=True)
+
+        dist.barrier()
+    finally:
+        if dist.is_initialized():
+            dist.destroy_process_group()
+
+
+if __name__ == "__main__":
+    typer.run(main)
diff --git a/dev/trainer_rank_parity_probe.py b/dev/trainer_rank_parity_probe.py
new file mode 100644
index 000000000..a6c6daf1c
--- /dev/null
+++ b/dev/trainer_rank_parity_probe.py
@@ -0,0 +1,525 @@
+from __future__ import annotations
+
+from collections.abc import Sequence
+from dataclasses import dataclass
+import json
+import os
+import re
+from typing import Any, cast
+
+import torch
+import torch.distributed as dist
+import typer
+
+from art.megatron.trainer_rank import (
+    AnyForwardInput,
+    TrainerRank,
+    _language_model,
+    _pack_forward_items,
+    _PackedForwardBatch,
+)
+
+
+@dataclass(frozen=True)
+class _Capture:
+    values: dict[str, torch.Tensor]
+    positions_by_item: tuple[torch.Tensor, ...]
+    source_positions_by_item: tuple[torch.Tensor, ...]
+
+
+def main(
+    model: str = "Qwen/Qwen3-0.6B",
+    layers: int = 1,
+    sequences: int = 6,
+    sequence_length: int = 7,
+    compare_requests: int = 6,
+    request_shape: str = "varied",
+    oracle: str = "independent",
+    max_depth: int = 1,
+) -> None:
+    os.environ.setdefault("ART_MEGATRON_TENSOR_MODEL_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_CONTEXT_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_PIPELINE_MODEL_PARALLEL_SIZE", "1")
+
+    torch.cuda.set_device(int(os.environ["LOCAL_RANK"]))
+    dist.init_process_group(backend="nccl")
+    try:
+        from megatron.core import parallel_state as ps
+
+        from art.megatron import train as megatron_train
+
+        torch.manual_seed(1234)
+        runtime = megatron_train.build_training_runtime(
+            model_identifier=model,
+            provider_configure=lambda provider: setattr(
+                provider,
+                "num_layers",
+                layers,
+            ),
+            print_env=dist.get_rank() == 0,
+        )
+        if int(ps.get_tensor_model_parallel_world_size()) != 1:
+            raise RuntimeError("trainer_rank_parity_probe currently expects TP=1")
+        for chunk in runtime.model:
+            chunk.eval()
+
+        rank = TrainerRank(runtime, shared_prefix_max_depth=max_depth)
+        requests = _unique_requests(
+            sequences=sequences,
+            sequence_length=sequence_length,
+            request_shape=request_shape,
+        )
+        request_count = min(compare_requests, len(requests))
+
+        with torch.no_grad():
+            packed = _run_capture(rank, requests)
+            records = _records_from_capture(
+                kind="packed",
+                capture=packed,
+                request_indices=range(len(requests)),
+                cp_rank=int(ps.get_context_parallel_rank()),
+                dp_rank=int(ps.get_data_parallel_rank()),
+            )
+            for request_index, request in enumerate(requests):
+                if oracle == "independent":
+                    oracle_capture = _run_capture(rank, [request])
+                    oracle_request_indices = (request_index,)
+                    oracle_local_indices = None
+                elif oracle == "same-layout":
+                    oracle_capture = _run_capture(
+                        rank,
+                        requests,
+                        mutate_except=request_index,
+                    )
+                    oracle_request_indices = range(len(requests))
+                    oracle_local_indices = (request_index,)
+                else:
+                    raise ValueError("oracle must be 'independent' or 'same-layout'")
+                records.extend(
+                    _records_from_capture(
+                        kind="independent",
+                        capture=oracle_capture,
+                        request_indices=oracle_request_indices,
+                        cp_rank=int(ps.get_context_parallel_rank()),
+                        dp_rank=int(ps.get_data_parallel_rank()),
+                        local_indices=oracle_local_indices,
+                    )
+                )
+
+        gathered: list[list[dict[str, object]] | None] = [None] * dist.get_world_size()
+        dist.all_gather_object(gathered, records)
+        if dist.get_rank() == 0:
+            flat_records = [
+                record
+                for rank_records in gathered
+                for record in rank_records or []
+            ]
+            report = _build_report(
+                records=flat_records,
+                requests=requests[:request_count],
+                topology={
+                    "world": dist.get_world_size(),
+                    "dp": int(ps.get_data_parallel_world_size()),
+                    "tp": int(ps.get_tensor_model_parallel_world_size()),
+                    "cp": int(ps.get_context_parallel_world_size()),
+                },
+                oracle=oracle,
+            )
+            print(json.dumps(report, sort_keys=True), flush=True)
+        dist.barrier()
+    finally:
+        if dist.is_initialized():
+            dist.destroy_process_group()
+
+
+def _unique_requests(
+    *,
+    sequences: int,
+    sequence_length: int,
+    request_shape: str,
+) -> list[AnyForwardInput]:
+    from art.megatron.trainer_rank import ForwardInput
+
+    if sequences < 1 or sequence_length < 2:
+        raise ValueError("sequences must be >= 1 and sequence_length must be >= 2")
+    if request_shape == "varied":
+        base_rows = (
+            (11, 12, 13, 14, 15, 16, 17),
+            (11, 12, 13, 14, 24, 25),
+            (11, 12, 13, 14, 24, 26),
+            (11, 12, 13, 27),
+            (31, 32, 33, 34),
+            (31, 32, 33, 35),
+            (11, 12, 13, 14, 15, 16, 17),
+            (41, 42, 43),
+            (41, 42, 44, 45),
+            (51, 52, 53, 54, 55),
+            (61, 62, 63),
+            (61, 62, 64, 65),
+            (71, 72),
+            (81, 82, 83, 84),
+            (91, 92, 93),
+            (101, 102, 103, 104, 105),
+        )
+        return [
+            ForwardInput(
+                input_tokens=torch.tensor(row, dtype=torch.long) + 1000 * index
+            )
+            for index, row in enumerate(base_rows[:sequences])
+        ]
+    if request_shape == "deep":
+        base_rows = (
+            (11, 12, 13, 14, 15, 16, 17),
+            (11, 12, 13, 14, 15, 16, 18),
+            (11, 12, 13, 14, 15, 19),
+            (11, 12, 13, 14, 20),
+            (11, 12, 21),
+            (31, 32, 33, 34, 35),
+            (31, 32, 33, 34, 36),
+            (31, 32, 33, 37),
+            (41, 42, 43),
+            (41, 42, 44),
+            (51, 52, 53, 54),
+            (61, 62),
+            (71, 72, 73, 74, 75),
+            (71, 72, 73, 76),
+            (81,),
+            (91, 92, 93),
+        )
+        return [
+            ForwardInput(input_tokens=torch.tensor(row, dtype=torch.long))
+            for row in base_rows[:sequences]
+        ]
+    if request_shape != "equal":
+        raise ValueError("request_shape must be 'equal', 'varied', or 'deep'")
+    return [
+        ForwardInput(
+            input_tokens=torch.arange(
+                1000 * index + 11,
+                1000 * index + 11 + sequence_length,
+                dtype=torch.long,
+            )
+        )
+        for index in range(sequences)
+    ]
+
+def _run_capture(
+    rank: TrainerRank,
+    requests: Sequence[AnyForwardInput],
+    *,
+    mutate_except: int | None = None,
+) -> _Capture:
+    from art.megatron.train import _placeholder_attention_mask
+
+    model = _language_model(rank.runtime.model[0])
+    items = [rank._forward_item(request) for request in requests]
+    batch = _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+    if mutate_except is not None:
+        batch = _mutated_batch(batch, keep_positions=batch.positions_by_item[mutate_except])
+    prepared = rank._prepare_packed_forward(batch)
+    local_seq_len = int(prepared.tokens.shape[1])
+    values: dict[str, torch.Tensor] = {}
+    handles = _register_hooks(model, values, seq_len=local_seq_len)
+    try:
+        handler = rank._handler()
+        forward_kwargs = handler.get_forward_kwargs(
+            rank.runtime.model[0],
+            attention_bias=prepared.attention_state,
+        )
+        extra_block_kwargs = cast(
+            dict[str, object] | None,
+            forward_kwargs.pop("extra_block_kwargs", None),
+        )
+        preprocessed = model._preprocess(
+            input_ids=prepared.tokens,
+            position_ids=prepared.position_ids,
+            packed_seq_params=prepared.packed_seq_params,
+        )
+        values["00.preprocess.decoder_input"] = _rows(
+            cast(torch.Tensor, preprocessed[0]).detach(),
+            seq_len=local_seq_len,
+        )
+        hidden = cast(
+            torch.Tensor,
+            model.decoder(
+                hidden_states=preprocessed[0],
+                attention_mask=_placeholder_attention_mask(rank.device),
+                rotary_pos_emb=preprocessed[1],
+                rotary_pos_cos=preprocessed[2],
+                rotary_pos_sin=preprocessed[3],
+                rotary_pos_cos_sin=preprocessed[6]
+                if len(preprocessed) == 7
+                else None,
+                packed_seq_params=prepared.packed_seq_params,
+                sequence_len_offset=preprocessed[4],
+                padding_mask=preprocessed[5],
+                **(extra_block_kwargs or {}),
+            ),
+        )
+        gathered_hidden = rank._gather_sequence_parallel_hidden(hidden)
+        values["90.decoder.output"] = gathered_hidden.detach()
+        values["99.lm_head.logits"] = _logits(rank, gathered_hidden).detach()
+        return _Capture(
+            values=values,
+            positions_by_item=prepared.positions_by_item,
+            source_positions_by_item=prepared.source_positions_by_item,
+        )
+    finally:
+        for handle in handles:
+            handle.remove()
+
+
+def _mutated_batch(
+    batch: _PackedForwardBatch,
+    *,
+    keep_positions: torch.Tensor,
+) -> _PackedForwardBatch:
+    tokens = batch.tokens.clone()
+    mask = torch.ones(int(tokens.shape[1]), dtype=torch.bool, device=tokens.device)
+    mask[keep_positions.to(device=tokens.device)] = False
+    replacement = (
+        torch.arange(int(tokens.shape[1]), dtype=tokens.dtype, device=tokens.device)
+        + 50_000
+    )
+    tokens[0, mask] = replacement[mask] % 100_000
+    return _PackedForwardBatch(
+        tokens=tokens,
+        group_ids=batch.group_ids,
+        parent_ids=batch.parent_ids,
+        position_ids=batch.position_ids,
+        positions_by_item=batch.positions_by_item,
+    )
+
+
+def _register_hooks(
+    model: torch.nn.Module,
+    values: dict[str, torch.Tensor],
+    *,
+    seq_len: int,
+) -> list[Any]:
+    handles: list[Any] = []
+    for module_name, module in model.named_modules():
+        label = _capture_label(module_name)
+        if label is None:
+            continue
+
+        def hook(
+            _module: torch.nn.Module,
+            _inputs: tuple[object, ...],
+            output: object,
+            *,
+            label: str = label,
+        ) -> None:
+            tensor = _first_tensor(output)
+            if tensor is not None:
+                try:
+                    values[label] = _rows(tensor.detach(), seq_len=seq_len)
+                except RuntimeError:
+                    pass
+
+        handles.append(module.register_forward_hook(hook))
+    return handles
+
+
+def _capture_label(module_name: str) -> str | None:
+    layer_prefix = r"decoder\.layers\.(\d+)(?:\._orig_mod)?"
+    if re.fullmatch(r"decoder\.layers\.(\d+)\._orig_mod", module_name):
+        return None
+    layer_match = re.fullmatch(r"decoder\.layers\.(\d+)", module_name)
+    if layer_match:
+        return f"30.layer.{int(layer_match.group(1)):03d}.output"
+    input_norm_match = re.fullmatch(rf"{layer_prefix}\.input_layernorm", module_name)
+    if input_norm_match:
+        return f"05.layer.{int(input_norm_match.group(1)):03d}.input_layernorm"
+    qkv_match = re.fullmatch(rf"{layer_prefix}\.self_attention\.linear_qkv", module_name)
+    if qkv_match:
+        return f"08.layer.{int(qkv_match.group(1)):03d}.self_attention.linear_qkv"
+    core_attention_match = re.fullmatch(
+        rf"{layer_prefix}\.self_attention\.core_attention",
+        module_name,
+    )
+    if core_attention_match:
+        return f"10.layer.{int(core_attention_match.group(1)):03d}.self_attention.core_attention"
+    attention_proj_match = re.fullmatch(
+        rf"{layer_prefix}\.self_attention\.linear_proj",
+        module_name,
+    )
+    if attention_proj_match:
+        return f"12.layer.{int(attention_proj_match.group(1)):03d}.self_attention.linear_proj"
+    attention_match = re.fullmatch(
+        rf"{layer_prefix}\.self_attention",
+        module_name,
+    )
+    if attention_match:
+        return f"15.layer.{int(attention_match.group(1)):03d}.self_attention"
+    pre_mlp_norm_match = re.fullmatch(
+        rf"{layer_prefix}\.pre_mlp_layernorm",
+        module_name,
+    )
+    if pre_mlp_norm_match:
+        return f"18.layer.{int(pre_mlp_norm_match.group(1)):03d}.pre_mlp_layernorm"
+    fc1_match = re.fullmatch(rf"{layer_prefix}\.mlp\.linear_fc1", module_name)
+    if fc1_match:
+        return f"20.layer.{int(fc1_match.group(1)):03d}.mlp.linear_fc1"
+    fc2_match = re.fullmatch(rf"{layer_prefix}\.mlp\.linear_fc2", module_name)
+    if fc2_match:
+        return f"22.layer.{int(fc2_match.group(1)):03d}.mlp.linear_fc2"
+    mlp_match = re.fullmatch(rf"{layer_prefix}\.mlp", module_name)
+    if mlp_match:
+        return f"25.layer.{int(mlp_match.group(1)):03d}.mlp"
+    if module_name == "decoder.final_layernorm":
+        return "80.decoder.final_layernorm"
+    return None
+
+
+def _first_tensor(value: object) -> torch.Tensor | None:
+    if isinstance(value, torch.Tensor):
+        return value
+    if isinstance(value, (tuple, list)):
+        for item in value:
+            tensor = _first_tensor(item)
+            if tensor is not None:
+                return tensor
+    return None
+
+
+def _rows(tensor: torch.Tensor, *, seq_len: int) -> torch.Tensor:
+    if tensor.ndim >= 2 and int(tensor.shape[0]) == seq_len:
+        rows = tensor
+        if rows.ndim >= 3 and int(rows.shape[1]) == 1:
+            return rows[:, 0].contiguous()
+        return rows.contiguous()
+    if tensor.ndim >= 2 and int(tensor.shape[1]) == seq_len:
+        rows = tensor[:, :, 0] if tensor.ndim == 4 and int(tensor.shape[2]) == 1 else tensor
+        if int(rows.shape[0]) == 1:
+            return rows[0].contiguous()
+    raise RuntimeError(
+        f"Cannot identify sequence axis for tensor shape={tuple(tensor.shape)} "
+        f"seq_len={seq_len}"
+    )
+
+
+def _logits(rank: TrainerRank, hidden_rows: torch.Tensor) -> torch.Tensor:
+    model = _language_model(rank.runtime.model[0])
+    output_weight = (
+        model.shared_embedding_or_output_weight()
+        if bool(model.share_embeddings_and_output_weights)
+        else None
+    )
+    if int(hidden_rows.shape[0]) == 0:
+        return hidden_rows.new_empty((0, int(model.vocab_size)))
+    return rank._logits_from_hidden_rows(
+        model,
+        hidden_rows,
+        output_weight=output_weight,
+    )
+
+
+def _records_from_capture(
+    *,
+    kind: str,
+    capture: _Capture,
+    request_indices: Sequence[int],
+    cp_rank: int,
+    dp_rank: int,
+    local_indices: Sequence[int] | None = None,
+) -> list[dict[str, object]]:
+    records: list[dict[str, object]] = []
+    local_index_set = None if local_indices is None else frozenset(local_indices)
+    for local_index, request_index in enumerate(request_indices):
+        if local_index_set is not None and local_index not in local_index_set:
+            continue
+        positions = capture.positions_by_item[local_index]
+        source_positions = capture.source_positions_by_item[local_index]
+        if int(positions.numel()) == 0:
+            continue
+        for name, rows in capture.values.items():
+            records.append(
+                {
+                    "kind": kind,
+                    "name": name,
+                    "request_index": int(request_index),
+                    "source_positions": source_positions.cpu(),
+                    "value": rows.index_select(0, positions.to(rows.device)).cpu(),
+                    "cp": int(cp_rank),
+                    "dp": int(dp_rank),
+                }
+            )
+    return records
+
+
+def _build_report(
+    *,
+    records: list[dict[str, object]],
+    requests: Sequence[AnyForwardInput],
+    topology: dict[str, int],
+    oracle: str,
+) -> dict[str, object]:
+    results = []
+    names = sorted(
+        {
+            cast(str, record["name"])
+            for record in records
+            if record.get("kind") == "packed"
+        }
+    )
+    for request_index, request in enumerate(requests):
+        length = int(request.input_tokens.numel())
+        for name in names:
+            packed = _assemble(records, "packed", name, request_index, length)
+            independent = _assemble(records, "independent", name, request_index, length)
+            if packed is None or independent is None:
+                continue
+            diff = (packed.float() - independent.float()).abs()
+            denom = independent.float().abs().max().clamp_min(1e-12)
+            results.append(
+                {
+                    "request": request_index,
+                    "site": name,
+                    "shape": list(packed.shape),
+                    "max_abs": float(diff.max().item()) if int(diff.numel()) else 0.0,
+                    "mean_abs": float(diff.mean().item()) if int(diff.numel()) else 0.0,
+                    "rel_max": float((diff.max() / denom).item())
+                    if int(diff.numel())
+                    else 0.0,
+                }
+            )
+    return {
+        "topology": topology,
+        "oracle": oracle,
+        "requests": len(requests),
+        "results": results,
+    }
+
+
+def _assemble(
+    records: list[dict[str, object]],
+    kind: str,
+    name: str,
+    request_index: int,
+    length: int,
+) -> torch.Tensor | None:
+    matching = [
+        record
+        for record in records
+        if record["kind"] == kind
+        and record["name"] == name
+        and record["request_index"] == request_index
+    ]
+    if not matching:
+        return None
+    first = cast(torch.Tensor, matching[0]["value"])
+    output = torch.empty((length, *first.shape[1:]), dtype=first.dtype)
+    filled = torch.zeros(length, dtype=torch.bool)
+    for record in matching:
+        positions = cast(torch.Tensor, record["source_positions"])
+        value = cast(torch.Tensor, record["value"])
+        output[positions] = value
+        filled[positions] = True
+    if not bool(filled.all().item()):
+        raise RuntimeError(f"Missing positions for {kind} {name} request={request_index}")
+    return output
+
+
+if __name__ == "__main__":
+    typer.run(main)
diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
new file mode 100644
index 000000000..2ce878a3f
--- /dev/null
+++ b/dev/trainer_rank_perf.py
@@ -0,0 +1,1268 @@
+from __future__ import annotations
+
+from collections.abc import Callable, Sequence
+import json
+import os
+
+import torch
+import torch.distributed as dist
+import typer
+
+from art.megatron.trainer_rank import (
+    ForwardInput,
+    TopK,
+    TrainerRank,
+    _batch_seq_logits,
+    _language_model,
+    _pack_forward_items,
+)
+
+
+def main(
+    model: str = "Qwen/Qwen3-0.6B",
+    layers: int = 1,
+    seq_len: int = 2048,
+    prefix_families: int = 0,
+    prefix_len: int = 5000,
+    mid_prefixes_per_family: int = 1,
+    mid_prefix_len: int = 0,
+    branches_per_prefix: int = 16,
+    completion_len: int = 100,
+    warmup: int = 2,
+    repeat: int = 5,
+    head_chunk_tokens: int = 512,
+    shared_prefix_max_depth: int = 1,
+    benchmark: str = "target_builtin_fwd",
+    target_count: int = 4,
+    top_k: int = 5,
+    top_k_values: str = "1,2,5,10,20,50",
+    max_unpacked_output_gb: float = 0.5,
+    mask_prefix_targets: bool = True,
+    workload: str = "regular",
+    tree_depth: int = 3,
+    tree_seed: int = 1,
+    tree_duplicate_factor: int = 1,
+) -> None:
+    os.environ.setdefault("ART_MEGATRON_TENSOR_MODEL_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_CONTEXT_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_PIPELINE_MODEL_PARALLEL_SIZE", "1")
+
+    torch.cuda.set_device(int(os.environ["LOCAL_RANK"]))
+    dist.init_process_group(backend="nccl")
+    try:
+        from megatron.core import parallel_state as ps
+
+        from art.megatron import train as megatron_train
+
+        provider_configure = (
+            (lambda provider: setattr(provider, "num_layers", layers))
+            if layers > 0
+            else None
+        )
+        runtime = megatron_train.build_training_runtime(
+            model_identifier=model,
+            provider_configure=provider_configure,
+            print_env=dist.get_rank() == 0,
+        )
+        for chunk in runtime.model:
+            chunk.eval()
+        rank = TrainerRank(
+            runtime,
+            head_chunk_tokens=head_chunk_tokens,
+            shared_prefix_max_depth=shared_prefix_max_depth,
+        )
+        hidden_size, vocab_size, dtype_size = _runtime_output_shape(runtime)
+        model_config = getattr(_language_model(runtime.model[0]), "config", None)
+
+        benchmarks = {
+            name.strip().replace("-", "_")
+            for name in benchmark.split(",")
+            if name.strip()
+        }
+        if "all" in benchmarks:
+            benchmarks = {
+                "target_builtin_fwd",
+                "target_trainer_fwd",
+                "target_hidden_fwd",
+                "logits_builtin_fwd",
+                "logits_hidden_fwd",
+                "target_builtin_fwd_bwd",
+                "target_builtin_masked_fwd_bwd",
+                "target_trainer_fwd_bwd",
+                "target_hidden_fwd_bwd",
+                "trainer_multi_target_fwd_bwd",
+                "trainer_target",
+                "trainer_multi_target",
+                "trainer_topk",
+                "trainer_topk_head",
+                "trainer_topk_fwd_bwd",
+                "trainer_topk_sweep",
+                "trainer_target_topk",
+                "trainer_hidden",
+                "trainer_all_no_logits",
+                "trainer_logits",
+            }
+        if "trainer_all" in benchmarks:
+            benchmarks.update(
+                {
+                    "trainer_target",
+                    "trainer_multi_target",
+                    "trainer_multi_target_fwd_bwd",
+                    "trainer_topk",
+                    "trainer_topk_head",
+                    "trainer_topk_fwd_bwd",
+                    "trainer_topk_sweep",
+                    "trainer_target_topk",
+                    "trainer_hidden",
+                    "trainer_all_no_logits",
+                    "trainer_logits",
+                }
+            )
+
+        if target_count < 1:
+            raise ValueError("target_count must be >= 1")
+        if top_k < 1:
+            raise ValueError("top_k must be >= 1")
+        requests, multi_target_requests, request_metadata = _requests(
+            seq_len=seq_len,
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=mid_prefixes_per_family,
+            mid_prefix_len=mid_prefix_len,
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len,
+            target_count=target_count,
+            mask_prefix_targets=mask_prefix_targets,
+            workload=workload,
+            tree_depth=tree_depth,
+            tree_seed=tree_seed,
+            tree_duplicate_factor=tree_duplicate_factor,
+        )
+        stats_items = [rank._forward_item(request) for request in requests]
+        stats_batch = _pack_forward_items(
+            stats_items,
+            max_depth=rank.shared_prefix_max_depth,
+        )
+        stats_prepared = rank._prepare_packed_forward(stats_batch)
+        request_stats = _packed_request_stats(
+            requests,
+            stats_items,
+            stats_batch,
+            request_metadata=request_metadata,
+        )
+        planner_metadata = _gather_planner_metadata(stats_prepared)
+        target_items = None
+        target_prepared = None
+        if any(name.startswith("target_") for name in benchmarks):
+            target_items = stats_items
+            target_prepared = stats_prepared
+        logits_items = None
+        logits_prepared = None
+        if any(name.startswith("logits_") for name in benchmarks):
+            logits_items = [
+                rank._forward_item(
+                    ForwardInput(input_tokens=request.input_tokens, logits=True)
+                )
+                for request in requests
+            ]
+            logits_prepared = rank._prepare_packed_forward(
+                _pack_forward_items(
+                    logits_items,
+                    max_depth=rank.shared_prefix_max_depth,
+                )
+            )
+        results: dict[str, float] = {}
+        metadata: dict[str, object] = {}
+        rate_units: dict[str, dict[str, int]] = {}
+
+        def register_case(
+            name: str,
+            case_requests: Sequence[
+                ForwardInput[
+                    torch.Tensor | None,
+                    TopK | None,
+                    torch.Tensor | None,
+                    torch.Tensor | None,
+                ]
+            ],
+            case_stats: dict[str, int | str],
+        ) -> None:
+            units = _rate_units(
+                case_requests,
+                case_stats,
+                hidden_size=hidden_size,
+                vocab_size=vocab_size,
+                dtype_size=dtype_size,
+            )
+            rate_units[name] = units
+            for key, value in units.items():
+                metadata[f"{name}_{key}"] = value
+
+        for name in (
+            "target_builtin_fwd",
+            "target_hidden_fwd",
+            "target_trainer_fwd",
+            "target_builtin_fwd_bwd",
+            "target_builtin_masked_fwd_bwd",
+            "target_trainer_fwd_bwd",
+            "target_hidden_fwd_bwd",
+        ):
+            register_case(name, requests, request_stats)
+
+        torch.cuda.reset_peak_memory_stats()
+        with torch.no_grad():
+            if "target_builtin_fwd" in benchmarks:
+                assert target_items is not None and target_prepared is not None
+                results["target_builtin_fwd_ms"] = _bench(
+                    lambda: _builtin(
+                        rank,
+                        target_prepared,
+                        _packed_labels(target_items, target_prepared),
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+            if "target_hidden_fwd" in benchmarks:
+                assert target_items is not None and target_prepared is not None
+                results["target_hidden_fwd_ms"] = _bench(
+                    lambda: rank._project_head(
+                        target_items,
+                        target_prepared,
+                        rank._gather_sequence_parallel_hidden(
+                            rank._decoder_hidden(target_prepared)
+                        ),
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+            if "target_trainer_fwd" in benchmarks:
+                assert target_items is not None and target_prepared is not None
+                results["target_trainer_fwd_ms"] = _bench(
+                    lambda: rank._forward_packed(target_items, target_prepared),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+            if "logits_builtin_fwd" in benchmarks:
+                assert logits_prepared is not None
+                register_case("logits_builtin_fwd", _logits_requests(requests), request_stats)
+                results["logits_builtin_fwd_ms"] = _bench(
+                    lambda: _full_logits(rank, logits_prepared),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+            if "logits_hidden_fwd" in benchmarks:
+                assert logits_items is not None and logits_prepared is not None
+                register_case("logits_hidden_fwd", _logits_requests(requests), request_stats)
+                results["logits_hidden_fwd_ms"] = _bench(
+                    lambda: rank._project_head(
+                        logits_items,
+                        logits_prepared,
+                        rank._gather_sequence_parallel_hidden(
+                            rank._decoder_hidden(logits_prepared)
+                        ),
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+            trainer_cases = {
+                "trainer_target": requests,
+                "trainer_multi_target": multi_target_requests,
+                "trainer_topk": [
+                    ForwardInput(input_tokens=request.input_tokens, top_k=top_k)
+                    for request in requests
+                ],
+                "trainer_target_topk": [
+                    ForwardInput(
+                        input_tokens=request.input_tokens,
+                        target_tokens=request.target_tokens,
+                        top_k=top_k,
+                    )
+                    for request in requests
+                ],
+                "trainer_hidden": [
+                    ForwardInput(input_tokens=request.input_tokens, hidden_states=True)
+                    for request in requests
+                ],
+                "trainer_all_no_logits": [
+                    ForwardInput(
+                        input_tokens=request.input_tokens,
+                        target_tokens=multi_request.target_tokens,
+                        top_k=top_k,
+                        hidden_states=True,
+                    )
+                    for request, multi_request in zip(
+                        requests, multi_target_requests, strict=True
+                    )
+                ],
+                "trainer_logits": [
+                    ForwardInput(input_tokens=request.input_tokens, logits=True)
+                    for request in requests
+                ],
+            }
+            if "trainer_topk_sweep" in benchmarks:
+                for k in _int_values(top_k_values):
+                    trainer_cases[f"trainer_topk_{k}"] = [
+                        ForwardInput(input_tokens=request.input_tokens, top_k=k)
+                        for request in requests
+                    ]
+            for name, case_requests in trainer_cases.items():
+                if name not in benchmarks and not (
+                    "trainer_topk_sweep" in benchmarks
+                    and name.startswith("trainer_topk_")
+                ):
+                    continue
+                output_gb = _request_output_gb(
+                    case_requests,
+                    hidden_size=hidden_size,
+                    vocab_size=vocab_size,
+                    dtype_size=dtype_size,
+                )
+                metadata[f"{name}_output_gb"] = round(output_gb, 3)
+                if max_unpacked_output_gb > 0 and output_gb > max_unpacked_output_gb:
+                    metadata[f"{name}_skipped"] = "unpacked_output_cap"
+                    continue
+                items = [rank._forward_item(request) for request in case_requests]
+                batch = _pack_forward_items(
+                    items,
+                    max_depth=rank.shared_prefix_max_depth,
+                )
+                register_case(
+                    name,
+                    case_requests,
+                    _packed_request_stats(case_requests, items, batch, request_metadata={}),
+                )
+                prepared = rank._prepare_packed_forward(batch)
+                results[f"{name}_ms"] = _bench(
+                    lambda items=items, prepared=prepared: rank._forward_packed(
+                        items,
+                        prepared,
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+            if "trainer_topk_head" in benchmarks:
+                case_requests = [
+                    ForwardInput(input_tokens=request.input_tokens, top_k=top_k)
+                    for request in requests
+                ]
+                output_gb = _request_output_gb(
+                    case_requests,
+                    hidden_size=hidden_size,
+                    vocab_size=vocab_size,
+                    dtype_size=dtype_size,
+                )
+                metadata["trainer_topk_head_output_gb"] = round(output_gb, 3)
+                items = [rank._forward_item(request) for request in case_requests]
+                batch = _pack_forward_items(
+                    items,
+                    max_depth=rank.shared_prefix_max_depth,
+                )
+                register_case(
+                    "trainer_topk_head",
+                    case_requests,
+                    _packed_request_stats(case_requests, items, batch, request_metadata={}),
+                )
+                prepared = rank._prepare_packed_forward(batch)
+                hidden = rank._gather_sequence_parallel_hidden(
+                    rank._decoder_hidden(prepared)
+                )
+                results["trainer_topk_head_ms"] = _bench(
+                    lambda: rank._project_head(items, prepared, hidden),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+
+        if "target_builtin_fwd_bwd" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            assert target_items is not None and target_prepared is not None
+            results["target_builtin_fwd_bwd_ms"] = _bench(
+                lambda: _target_builtin_loss(
+                    rank,
+                    target_items,
+                    target_prepared,
+                ).backward(),
+                warmup=warmup,
+                repeat=repeat,
+                after=rank.zero_grad,
+            )
+        if "target_builtin_masked_fwd_bwd" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            assert target_items is not None and target_prepared is not None
+            results["target_builtin_masked_fwd_bwd_ms"] = _bench(
+                lambda: _target_builtin_masked_loss(
+                    rank,
+                    target_items,
+                    target_prepared,
+                ).backward(),
+                warmup=warmup,
+                repeat=repeat,
+                after=rank.zero_grad,
+            )
+        if "target_trainer_fwd_bwd" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            assert target_items is not None and target_prepared is not None
+            results["target_trainer_fwd_bwd_ms"] = _bench(
+                lambda: _target_trainer_loss(
+                    rank,
+                    target_items,
+                    target_prepared,
+                ).backward(),
+                warmup=warmup,
+                repeat=repeat,
+                after=rank.zero_grad,
+            )
+        if "target_hidden_fwd_bwd" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            assert target_items is not None and target_prepared is not None
+            results["target_hidden_fwd_bwd_ms"] = _bench(
+                lambda: _target_hidden_loss(
+                    rank,
+                    target_items,
+                    target_prepared,
+                ).backward(),
+                warmup=warmup,
+                repeat=repeat,
+                after=rank.zero_grad,
+            )
+        if "trainer_multi_target_fwd_bwd" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            items = [rank._forward_item(request) for request in multi_target_requests]
+            batch = _pack_forward_items(
+                items,
+                max_depth=rank.shared_prefix_max_depth,
+            )
+            register_case(
+                "trainer_multi_target_fwd_bwd",
+                multi_target_requests,
+                _packed_request_stats(
+                    multi_target_requests,
+                    items,
+                    batch,
+                    request_metadata={},
+                ),
+            )
+            prepared = rank._prepare_packed_forward(batch)
+            results["trainer_multi_target_fwd_bwd_ms"] = _bench(
+                lambda: _target_trainer_loss(rank, items, prepared).backward(),
+                warmup=warmup,
+                repeat=repeat,
+                after=rank.zero_grad,
+            )
+        if "trainer_topk_fwd_bwd" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            topk_requests = [
+                ForwardInput(input_tokens=request.input_tokens, top_k=top_k)
+                for request in requests
+            ]
+            items = [rank._forward_item(request) for request in topk_requests]
+            batch = _pack_forward_items(
+                items,
+                max_depth=rank.shared_prefix_max_depth,
+            )
+            register_case(
+                "trainer_topk_fwd_bwd",
+                topk_requests,
+                _packed_request_stats(topk_requests, items, batch, request_metadata={}),
+            )
+            prepared = rank._prepare_packed_forward(batch)
+            results["trainer_topk_fwd_bwd_ms"] = _bench(
+                lambda: _trainer_topk_loss(rank, items, prepared).backward(),
+                warmup=warmup,
+                repeat=repeat,
+                after=rank.zero_grad,
+            )
+
+        if dist.get_rank() == 0:
+            token_rates = _rate_metrics(results, rate_units)
+            print(
+                json.dumps(
+                    {
+                        "world": dist.get_world_size(),
+                        "tp": int(ps.get_tensor_model_parallel_world_size()),
+                        "cp": int(ps.get_context_parallel_world_size()),
+                        "seq_len": seq_len,
+                        "prefix_families": prefix_families,
+                        "prefix_len": prefix_len,
+                        "mid_prefixes_per_family": mid_prefixes_per_family,
+                        "mid_prefix_len": mid_prefix_len,
+                        "branches_per_prefix": branches_per_prefix,
+                        "completion_len": completion_len,
+                        "head_chunk_tokens": head_chunk_tokens,
+                        "shared_prefix_max_depth": shared_prefix_max_depth,
+                        "warmup": warmup,
+                        "repeat": repeat,
+                        "target_count": target_count,
+                        "top_k": top_k,
+                        "top_k_values": top_k_values,
+                        "max_unpacked_output_gb": max_unpacked_output_gb,
+                        "mask_prefix_targets": mask_prefix_targets,
+                        "workload": workload,
+                        "tree_depth": tree_depth,
+                        "tree_seed": tree_seed,
+                        "tree_duplicate_factor": tree_duplicate_factor,
+                        "mtp_num_layers": getattr(model_config, "mtp_num_layers", None),
+                        "cross_entropy_loss_fusion": getattr(
+                            model_config, "cross_entropy_loss_fusion", None
+                        ),
+                        "cross_entropy_fusion_impl": getattr(
+                            model_config, "cross_entropy_fusion_impl", None
+                        ),
+                        **request_stats,
+                        "peak_memory_gb": round(
+                            torch.cuda.max_memory_allocated() / 1024**3,
+                            3,
+                        ),
+                        **results,
+                        **token_rates,
+                        **metadata,
+                        **planner_metadata,
+                    },
+                    sort_keys=True,
+                ),
+                flush=True,
+            )
+        dist.barrier()
+    finally:
+        if dist.is_initialized():
+            dist.destroy_process_group()
+
+
+def _requests(
+    *,
+    seq_len: int,
+    prefix_families: int,
+    prefix_len: int,
+    mid_prefixes_per_family: int,
+    mid_prefix_len: int,
+    branches_per_prefix: int,
+    completion_len: int,
+    target_count: int,
+    mask_prefix_targets: bool,
+    workload: str,
+    tree_depth: int,
+    tree_seed: int,
+    tree_duplicate_factor: int,
+) -> tuple[
+    list[ForwardInput[torch.Tensor, None, None, None]],
+    list[ForwardInput[torch.Tensor, None, None, None]],
+    dict[str, int | str],
+]:
+    if workload == "regular" and prefix_families <= 0:
+        tokens = torch.arange(seq_len, dtype=torch.long) % 32_000 + 100
+        labels = _labels(tokens, target_count=1)
+        return (
+            [ForwardInput(input_tokens=tokens, target_tokens=labels)],
+            [
+                ForwardInput(
+                    input_tokens=tokens,
+                    target_tokens=_labels(tokens, target_count=target_count),
+                )
+            ],
+            {
+                "request_count": 1,
+                "workload_shape": "single",
+            },
+        )
+
+    if prefix_len < 1 or branches_per_prefix < 1 or completion_len < 1:
+        raise ValueError(
+            "prefix_len, branches_per_prefix, and completion_len must be >= 1"
+        )
+    if mid_prefixes_per_family < 1 or mid_prefix_len < 0:
+        raise ValueError("mid_prefixes_per_family must be >= 1 and mid_prefix_len >= 0")
+
+    sequences, prefix_lengths, workload_shape = _workload_sequences(
+        workload=workload,
+        seq_len=seq_len,
+        prefix_families=max(prefix_families, 1),
+        prefix_len=prefix_len,
+        mid_prefixes_per_family=mid_prefixes_per_family,
+        mid_prefix_len=mid_prefix_len,
+        branches_per_prefix=branches_per_prefix,
+        completion_len=completion_len,
+        tree_depth=tree_depth,
+        tree_seed=tree_seed,
+        tree_duplicate_factor=tree_duplicate_factor,
+    )
+    requests = []
+    multi_requests = []
+    for tokens, shared_length in zip(sequences, prefix_lengths, strict=True):
+        labels = _labels(tokens, target_count=1)
+        multi_labels = _labels(tokens, target_count=target_count)
+        if mask_prefix_targets and shared_length:
+            labels[:shared_length] = -100
+            multi_labels[:shared_length] = -100
+        requests.append(ForwardInput(input_tokens=tokens, target_tokens=labels))
+        multi_requests.append(
+            ForwardInput(input_tokens=tokens, target_tokens=multi_labels)
+        )
+
+    return (
+        requests,
+        multi_requests,
+        {
+            "request_count": len(requests),
+            "workload_shape": workload_shape,
+        },
+    )
+
+
+def _workload_sequences(
+    *,
+    workload: str,
+    seq_len: int,
+    prefix_families: int,
+    prefix_len: int,
+    mid_prefixes_per_family: int,
+    mid_prefix_len: int,
+    branches_per_prefix: int,
+    completion_len: int,
+    tree_depth: int,
+    tree_seed: int,
+    tree_duplicate_factor: int,
+) -> tuple[tuple[torch.Tensor, ...], tuple[int, ...], str]:
+    if workload in {"austin_198k", "austin_5k_16x100"}:
+        return _regular_tree_sequences(
+            prefix_families=30,
+            prefix_len=5000,
+            mid_prefixes_per_family=1,
+            mid_prefix_len=0,
+            branches_per_prefix=16,
+            completion_len=100,
+        )
+    if workload == "regular":
+        return _regular_tree_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=mid_prefixes_per_family,
+            mid_prefix_len=mid_prefix_len,
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len,
+        )
+    if workload == "single":
+        tokens = torch.arange(seq_len, dtype=torch.long) % 32_000 + 100
+        return (tokens,), (0,), "single"
+    if workload == "long_root":
+        return _regular_tree_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=1,
+            mid_prefix_len=0,
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len,
+        )
+    if workload == "long_mid":
+        return _regular_tree_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=max(2, mid_prefixes_per_family),
+            mid_prefix_len=max(1, mid_prefix_len),
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len,
+        )
+    if workload == "many_tiny_leaves":
+        return _regular_tree_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=max(1, mid_prefixes_per_family),
+            mid_prefix_len=max(0, mid_prefix_len),
+            branches_per_prefix=branches_per_prefix,
+            completion_len=max(1, completion_len),
+        )
+    if workload == "uneven":
+        return _uneven_tree_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=max(2, mid_prefixes_per_family),
+            mid_prefix_len=max(1, mid_prefix_len),
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len,
+        )
+    if workload == "duplicates":
+        sequences, shared, shape = _regular_tree_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=max(2, mid_prefixes_per_family),
+            mid_prefix_len=max(1, mid_prefix_len),
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len,
+        )
+        factor = max(1, tree_duplicate_factor)
+        return (
+            tuple(sequence for sequence in sequences for _ in range(factor)),
+            tuple(length for length in shared for _ in range(factor)),
+            f"{shape}:duplicates={factor}",
+        )
+    if workload == "random":
+        return _random_tree_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            branches_per_prefix=max(2, min(branches_per_prefix, 4)),
+            completion_len=completion_len,
+            tree_depth=max(1, tree_depth),
+            seed=tree_seed,
+        )
+    raise ValueError(
+        "workload must be one of: regular, single, long_root, long_mid, "
+        "many_tiny_leaves, uneven, duplicates, random, austin_198k"
+    )
+
+
+def _regular_tree_sequences(
+    *,
+    prefix_families: int,
+    prefix_len: int,
+    mid_prefixes_per_family: int,
+    mid_prefix_len: int,
+    branches_per_prefix: int,
+    completion_len: int,
+) -> tuple[tuple[torch.Tensor, ...], tuple[int, ...], str]:
+    nested = mid_prefixes_per_family > 1 and mid_prefix_len > 0
+    sequences: list[torch.Tensor] = []
+    shared_lengths: list[int] = []
+    for family in range(prefix_families):
+        family_base = family * 10_000_019
+        root = _tokens(family_base, prefix_len)
+        mid_count = mid_prefixes_per_family if nested else 1
+        for mid in range(mid_count):
+            mid_prefix = (
+                _tokens(family_base + 1_000_003 + mid * 100_003, mid_prefix_len)
+                if nested
+                else torch.empty(0, dtype=torch.long)
+            )
+            shared = torch.cat((root, mid_prefix))
+            for branch in range(branches_per_prefix):
+                sequences.append(
+                    torch.cat(
+                        (
+                            shared,
+                            _tokens(
+                                family_base + mid * 100_003 + branch * 1009 + 17,
+                                completion_len,
+                            ),
+                        )
+                    )
+                )
+                shared_lengths.append(int(shared.numel()))
+    shape = (
+        f"families={prefix_families}:mid={mid_prefixes_per_family}:"
+        f"branches={branches_per_prefix}:nested={int(nested)}"
+    )
+    return tuple(sequences), tuple(shared_lengths), shape
+
+
+def _uneven_tree_sequences(
+    *,
+    prefix_families: int,
+    prefix_len: int,
+    mid_prefixes_per_family: int,
+    mid_prefix_len: int,
+    branches_per_prefix: int,
+    completion_len: int,
+) -> tuple[tuple[torch.Tensor, ...], tuple[int, ...], str]:
+    sequences: list[torch.Tensor] = []
+    shared_lengths: list[int] = []
+    for family in range(prefix_families):
+        family_base = family * 10_000_019
+        root_len = max(1, prefix_len // (family + 1))
+        root = _tokens(family_base, root_len)
+        for mid in range(mid_prefixes_per_family):
+            mid_len = max(1, mid_prefix_len // (mid + 1))
+            mid_prefix = _tokens(family_base + 1_000_003 + mid * 100_003, mid_len)
+            branch_count = max(1, branches_per_prefix - mid)
+            for branch in range(branch_count):
+                leaf_len = max(1, completion_len * (branch + 1) // branch_count)
+                shared = torch.cat((root, mid_prefix))
+                sequences.append(
+                    torch.cat(
+                        (
+                            shared,
+                            _tokens(
+                                family_base + mid * 100_003 + branch * 1009 + 17,
+                                leaf_len,
+                            ),
+                        )
+                    )
+                )
+                shared_lengths.append(int(shared.numel()))
+    return tuple(sequences), tuple(shared_lengths), "uneven"
+
+
+def _random_tree_sequences(
+    *,
+    prefix_families: int,
+    prefix_len: int,
+    branches_per_prefix: int,
+    completion_len: int,
+    tree_depth: int,
+    seed: int,
+) -> tuple[tuple[torch.Tensor, ...], tuple[int, ...], str]:
+    generator = torch.Generator().manual_seed(seed)
+    next_offset = 1
+    sequences: list[torch.Tensor] = []
+    shared_lengths: list[int] = []
+
+    def randint(low: int, high: int) -> int:
+        return int(torch.randint(low, high + 1, (), generator=generator).item())
+
+    def segment(length: int) -> torch.Tensor:
+        nonlocal next_offset
+        out = _tokens(next_offset, max(1, length))
+        next_offset += max(1, length) + 10_000
+        return out
+
+    def length_for_depth(depth: int) -> int:
+        if depth == 0:
+            return max(1, prefix_len)
+        choices = (1, 8, 64, max(1, completion_len), max(1, prefix_len // 2))
+        return choices[randint(0, len(choices) - 1)]
+
+    def walk(prefix: torch.Tensor, depth: int) -> None:
+        shared = torch.cat((prefix, segment(length_for_depth(depth))))
+        if depth + 1 >= tree_depth:
+            leaf_count = randint(2, branches_per_prefix)
+            for _ in range(leaf_count):
+                leaf = segment(randint(1, max(1, completion_len)))
+                sequences.append(torch.cat((shared, leaf)))
+                shared_lengths.append(int(shared.numel()))
+            return
+        for _ in range(randint(2, branches_per_prefix)):
+            walk(shared, depth + 1)
+
+    for _ in range(prefix_families):
+        walk(torch.empty(0, dtype=torch.long), 0)
+    return tuple(sequences), tuple(shared_lengths), f"random:depth={tree_depth}"
+
+
+def _packed_request_stats(
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    items: Sequence[object],
+    batch: object,
+    *,
+    request_metadata: dict[str, int | str],
+) -> dict[str, int | str]:
+    from art.megatron.shared_prefix_tree import max_shared_prefix_tree_depth
+
+    trainable_mask = torch.zeros(int(batch.tokens.numel()), dtype=torch.bool)
+    trainable_tokens = 0
+    for item, positions in zip(items, batch.positions_by_item, strict=True):
+        labels = getattr(item, "labels", None)
+        if labels is None:
+            continue
+        mask = labels != -100
+        row_mask = mask.reshape(int(mask.shape[0]), -1).any(dim=1)
+        trainable_tokens += int(mask.sum().item())
+        trainable_mask[positions.reshape(-1).cpu()] |= row_mask.cpu()
+    group_ids = batch.group_ids
+    parent_ids = batch.parent_ids
+    return {
+        **request_metadata,
+        "request_count": len(requests),
+        "packed_tokens": int(batch.tokens.numel()),
+        "logical_tokens": sum(int(request.input_tokens.numel()) for request in requests),
+        "trainable_tokens": trainable_tokens,
+        "packed_trainable_tokens": int(trainable_mask.sum().item()),
+        "packed_group_count": int(group_ids.max().item()) if int(group_ids.numel()) else 0,
+        "nested_prefix_depth": max_shared_prefix_tree_depth(
+            group_ids=group_ids,
+            parent_ids=parent_ids,
+        ),
+    }
+
+
+def _gather_planner_metadata(prepared: object) -> dict[str, object]:
+    local = _local_planner_metadata(prepared)
+    gathered: list[dict[str, object] | None] = [None] * dist.get_world_size()
+    dist.all_gather_object(gathered, local)
+    if dist.get_rank() != 0:
+        return {}
+    ranks = [metrics or {} for metrics in gathered]
+    gdn_tokens = [int(metrics.get("gdn_tokens", 0)) for metrics in ranks]
+    attention_tokens = [int(metrics.get("attention_tokens", 0)) for metrics in ranks]
+    keys = (
+        "tree_local_bucket_count",
+        "tree_chain_bucket_count",
+        "tree_local_segment_count",
+        "tree_chain_segment_count",
+        "tree_local_real_tokens",
+        "tree_chain_real_tokens",
+        "tree_state_transfer_count",
+        "tree_state_transfer_rows",
+        "tree_max_padding_ratio",
+    )
+    merged: dict[str, object] = {
+        "planner_rank_gdn_tokens": gdn_tokens,
+        "planner_rank_attention_tokens": attention_tokens,
+        "planner_gdn_token_imbalance": max(gdn_tokens, default=0)
+        - min(gdn_tokens, default=0),
+    }
+    for key in keys:
+        values = [metrics[key] for metrics in ranks if key in metrics]
+        if not values:
+            continue
+        if key.endswith("_ratio"):
+            merged[f"planner_{key}_max"] = round(max(float(value) for value in values), 3)
+        else:
+            merged[f"planner_{key}_sum"] = int(sum(int(value) for value in values))
+            merged[f"planner_{key}_max"] = int(max(int(value) for value in values))
+    rank0 = ranks[0] if ranks else {}
+    for key in ("tree_depth_count", "tree_family_count", "tree_completion_count"):
+        if key in rank0:
+            merged[f"planner_{key}"] = rank0[key]
+    return merged
+
+
+def _local_planner_metadata(prepared: object) -> dict[str, object]:
+    plan = getattr(getattr(prepared, "attention_state", None), "gdn_execution_plan", None)
+    if plan is None:
+        return {}
+    local_buckets = tuple(
+        bucket
+        for depth in getattr(plan, "tree_segment_buckets_by_depth", ())
+        for bucket in depth
+    )
+    chain_buckets = tuple(
+        bucket
+        for depth in getattr(plan, "tree_chain_buckets_by_depth", ())
+        for bucket in depth
+    )
+    all_buckets = (*local_buckets, *chain_buckets)
+    padding_ratios = [
+        bucket.length * bucket.segment_count / max(1, bucket.real_token_count)
+        for bucket in all_buckets
+    ]
+    transfers_by_depth = getattr(plan, "tree_state_transfers_by_depth", ())
+    return {
+        "attention_tokens": int(getattr(plan, "attention_token_count", 0)),
+        "gdn_tokens": int(getattr(plan, "gdn_token_count", 0)),
+        "tree_depth_count": len(getattr(plan, "tree_segment_buckets_by_depth", ())),
+        "tree_family_count": int(getattr(plan, "family_count", 0)),
+        "tree_completion_count": int(getattr(plan, "completion_count", 0)),
+        "tree_local_bucket_count": len(local_buckets),
+        "tree_chain_bucket_count": len(chain_buckets),
+        "tree_local_segment_count": sum(bucket.segment_count for bucket in local_buckets),
+        "tree_chain_segment_count": sum(bucket.segment_count for bucket in chain_buckets),
+        "tree_local_real_tokens": sum(bucket.real_token_count for bucket in local_buckets),
+        "tree_chain_real_tokens": sum(bucket.real_token_count for bucket in chain_buckets),
+        "tree_state_transfer_count": sum(len(transfers) for transfers in transfers_by_depth),
+        "tree_state_transfer_rows": sum(
+            len(transfer.family_indices)
+            for transfers in transfers_by_depth
+            for transfer in transfers
+        ),
+        "tree_max_padding_ratio": max(padding_ratios, default=1.0),
+    }
+
+
+def _tokens(offset: int, length: int) -> torch.Tensor:
+    return (torch.arange(length, dtype=torch.long) + offset) % 32_000 + 100
+
+
+def _int_values(value: str) -> list[int]:
+    values = [int(part) for part in value.split(",") if part.strip()]
+    if not values or any(item < 1 for item in values):
+        raise ValueError("top_k_values must contain positive integers")
+    return values
+
+
+def _labels(tokens: torch.Tensor, *, target_count: int) -> torch.Tensor:
+    labels = torch.stack(
+        [((tokens * 7 + 3 + index) % 32_000) for index in range(target_count)],
+        dim=1,
+    )
+    if target_count > 1:
+        labels[::17, -1] = -100
+        return labels
+    return labels[:, 0]
+
+
+def _bench(
+    fn: Callable[[], object],
+    *,
+    warmup: int,
+    repeat: int,
+    after: Callable[[], object] | None = None,
+) -> float:
+    for _ in range(warmup):
+        fn()
+        if after is not None:
+            after()
+    torch.cuda.synchronize()
+    start = torch.cuda.Event(enable_timing=True)
+    stop = torch.cuda.Event(enable_timing=True)
+    start.record()
+    for _ in range(repeat):
+        fn()
+        if after is not None:
+            after()
+    stop.record()
+    torch.cuda.synchronize()
+    elapsed = torch.tensor(start.elapsed_time(stop) / repeat, device="cuda")
+    dist.all_reduce(elapsed, op=dist.ReduceOp.MAX)
+    return round(float(elapsed.item()), 3)
+
+
+def _builtin(
+    rank: TrainerRank,
+    prepared: object,
+    labels: torch.Tensor | None,
+) -> torch.Tensor:
+    from art.megatron.train import _placeholder_attention_mask
+
+    return rank.runtime.model[0](
+        input_ids=prepared.tokens,
+        position_ids=prepared.position_ids,
+        attention_mask=_placeholder_attention_mask(rank.device),
+        labels=labels,
+        packed_seq_params=prepared.packed_seq_params,
+        **rank._handler().get_forward_kwargs(
+            rank.runtime.model[0],
+            attention_bias=prepared.attention_state,
+        ),
+    )
+
+
+def _full_logits(rank: TrainerRank, prepared: object) -> torch.Tensor:
+    logits = rank._gather_tensor_parallel_logits(_builtin(rank, prepared, None))
+    return _batch_seq_logits(logits, seq_len=int(prepared.tokens.shape[1]))
+
+
+def _target_builtin_loss(
+    rank: TrainerRank,
+    items: object,
+    prepared: object,
+) -> torch.Tensor:
+    return _builtin(rank, prepared, _packed_labels(items, prepared)).float().sum()
+
+
+def _target_builtin_masked_loss(
+    rank: TrainerRank,
+    items: object,
+    prepared: object,
+) -> torch.Tensor:
+    labels = _packed_labels(items, prepared)
+    per_token_loss = _builtin(rank, prepared, labels).float().reshape(-1)
+    valid = labels.reshape(-1) != -100
+    return per_token_loss[valid].sum() + per_token_loss.sum() * 0.0
+
+
+def _target_hidden_loss(
+    rank: TrainerRank,
+    items: object,
+    prepared: object,
+) -> torch.Tensor:
+    hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
+    outputs = rank._project_head(items, prepared, hidden)
+    losses = [
+        -target_logprobs.sum()
+        for target_logprobs in outputs.target_logprobs
+        if target_logprobs is not None
+    ]
+    if not losses:
+        raise RuntimeError("target logprobs were not produced")
+    return torch.stack(losses).sum()
+
+
+def _target_trainer_loss(
+    rank: TrainerRank,
+    items: object,
+    prepared: object,
+) -> torch.Tensor:
+    outputs = rank._forward_packed(items, prepared)
+    losses = [
+        -output.target_logprobs.sum()
+        for output in outputs
+        if output.target_logprobs is not None
+    ]
+    if not losses:
+        raise RuntimeError("target logprobs were not produced")
+    return torch.stack(losses).sum()
+
+
+def _trainer_topk_loss(
+    rank: TrainerRank,
+    items: object,
+    prepared: object,
+) -> torch.Tensor:
+    outputs = rank._forward_packed(items, prepared)
+    losses = [
+        -output.top_k.logprobs.sum()
+        for output in outputs
+        if output.top_k is not None
+    ]
+    if not losses:
+        raise RuntimeError("top_k logprobs were not produced")
+    return torch.stack(losses).sum()
+
+
+def _runtime_output_shape(runtime: object) -> tuple[int, int, int]:
+    provider = getattr(runtime, "provider")
+    model = _language_model(getattr(runtime, "model")[0])
+    hidden_size = int(
+        getattr(provider, "hidden_size", None)
+        or getattr(getattr(model, "config", None), "hidden_size", 0)
+    )
+    vocab_size = int(
+        getattr(getattr(model, "config", None), "padded_vocab_size", None)
+        or getattr(model, "vocab_size", 0)
+    )
+    dtype_size = next(getattr(runtime, "model")[0].parameters()).element_size()
+    if hidden_size <= 0 or vocab_size <= 0:
+        raise RuntimeError(
+            f"could not infer output shape: hidden_size={hidden_size}, "
+            f"vocab_size={vocab_size}"
+        )
+    return hidden_size, vocab_size, dtype_size
+
+
+def _request_output_gb(
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    hidden_size: int,
+    vocab_size: int,
+    dtype_size: int,
+) -> float:
+    return (
+        sum(
+            _request_output_bytes(
+                request,
+                hidden_size=hidden_size,
+                vocab_size=vocab_size,
+                dtype_size=dtype_size,
+            )
+            for request in requests
+        )
+        / 1024**3
+    )
+
+
+def _request_output_bytes(
+    request: ForwardInput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ],
+    *,
+    hidden_size: int,
+    vocab_size: int,
+    dtype_size: int,
+) -> int:
+    seq_len = int(request.input_tokens.numel())
+    bytes_total = 0
+    if request.target_tokens is not None:
+        bytes_total += int(request.target_tokens.numel()) * 4
+    if request.top_k is not None:
+        bytes_total += seq_len * int(request.top_k) * (4 + 8)
+    if request.logits:
+        bytes_total += seq_len * vocab_size * dtype_size
+    if request.hidden_states:
+        bytes_total += seq_len * hidden_size * dtype_size
+    return bytes_total
+
+
+def _logits_requests(
+    requests: Sequence[ForwardInput[torch.Tensor, None, None, None]],
+) -> list[ForwardInput[None, None, torch.Tensor, None]]:
+    return [
+        ForwardInput(input_tokens=request.input_tokens, logits=True)
+        for request in requests
+    ]
+
+
+def _rate_units(
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    stats: dict[str, int | str],
+    *,
+    hidden_size: int,
+    vocab_size: int,
+    dtype_size: int,
+) -> dict[str, int]:
+    return {
+        "packed_tokens": int(stats.get("packed_tokens", 0)),
+        "logical_tokens": int(stats.get("logical_tokens", 0)),
+        "target_values": _target_value_count(requests),
+        "output_bytes": sum(
+            _request_output_bytes(
+                request,
+                hidden_size=hidden_size,
+                vocab_size=vocab_size,
+                dtype_size=dtype_size,
+            )
+            for request in requests
+        ),
+    }
+
+
+def _target_value_count(
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> int:
+    count = 0
+    for request in requests:
+        if request.target_tokens is not None:
+            count += int((request.target_tokens != -100).sum().item())
+    return count
+
+
+def _rate_metrics(
+    results: dict[str, float],
+    units_by_name: dict[str, dict[str, int]],
+) -> dict[str, float]:
+    suffixes = {
+        "packed_tokens": "packed_tok_s",
+        "logical_tokens": "logical_tok_s",
+        "target_values": "target_logprob_s",
+        "output_bytes": "output_gb_s",
+    }
+    metrics: dict[str, float] = {}
+    for key, ms in results.items():
+        if ms <= 0:
+            continue
+        name = key.removesuffix("_ms")
+        units = units_by_name.get(name, {})
+        for unit_key, suffix in suffixes.items():
+            value = int(units.get(unit_key, 0))
+            if value <= 0:
+                continue
+            scale = 1024**3 if unit_key == "output_bytes" else 1
+            metrics[f"{name}_{suffix}"] = round(value * 1000.0 / ms / scale, 3)
+    return metrics
+
+
+def _packed_labels(items: object, prepared: object) -> torch.Tensor:
+    labels = torch.full_like(prepared.tokens, -100)
+    for item, positions, source_positions in zip(
+        items,
+        prepared.positions_by_item,
+        prepared.source_positions_by_item,
+        strict=True,
+    ):
+        if item.labels is None:
+            continue
+        labels.reshape(-1)[positions.to(device=labels.device)] = item.labels.to(
+            device=labels.device
+        ).index_select(0, source_positions.to(device=labels.device))
+    return labels
+
+
+if __name__ == "__main__":
+    typer.run(main)
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
new file mode 100644
index 000000000..7b8c6e231
--- /dev/null
+++ b/dev/trainer_rank_topology_check.py
@@ -0,0 +1,1089 @@
+from __future__ import annotations
+
+from dataclasses import dataclass
+import json
+import os
+import time
+
+import torch
+import torch.distributed as dist
+import typer
+
+from art.megatron.trainer_rank import (
+    ForwardInput,
+    ForwardOutput,
+    TopK,
+    TrainerRank,
+    _empty_logits_like_positions,
+    _gather_target_logprobs,
+    _language_model,
+    _pack_forward_items,
+    _PackedForwardBatch,
+    _select_positions,
+)
+
+
+@dataclass
+class CheckOutput:
+    source_positions: torch.Tensor
+    target_logprobs: torch.Tensor | None
+    top_k: TopK | None
+    logits: torch.Tensor | None
+    hidden_states: torch.Tensor | None
+
+
+def main(
+    model: str = "Qwen/Qwen3-0.6B",
+    layers: int = 1,
+    head_chunk_a: int = 17,
+    head_chunk_b: int = 512,
+    max_prefix_depth: int = 1,
+    request_case: str = "shared",
+    stress_tokens: int = 0,
+    max_unpacked_output_gb: float = 0.25,
+    debug_output: str = "none",
+    compare_independent: bool = False,
+    compare_same_layout: bool = False,
+) -> None:
+    os.environ.setdefault("ART_MEGATRON_TENSOR_MODEL_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_CONTEXT_PARALLEL_SIZE", "1")
+    os.environ.setdefault("ART_MEGATRON_PIPELINE_MODEL_PARALLEL_SIZE", "1")
+
+    torch.cuda.set_device(int(os.environ["LOCAL_RANK"]))
+    dist.init_process_group(backend="nccl")
+    try:
+        from megatron.core import parallel_state as ps
+
+        from art.megatron import train as megatron_train
+
+        torch.manual_seed(1234)
+        provider_configure = (
+            (lambda provider: setattr(provider, "num_layers", layers))
+            if layers > 0
+            else None
+        )
+        runtime = megatron_train.build_training_runtime(
+            model_identifier=model,
+            provider_configure=provider_configure,
+            print_env=dist.get_rank() == 0,
+        )
+        for chunk in runtime.model:
+            chunk.eval()
+
+        requests = (
+            _stress_requests(stress_tokens)
+            if stress_tokens > 0
+            else _requests(request_case)
+        )
+        requests = _debug_output_requests(requests, debug_output)
+        unpacked_output_gb = _estimate_unpacked_output_gb(requests, runtime)
+        if max_unpacked_output_gb > 0 and unpacked_output_gb > max_unpacked_output_gb:
+            if dist.get_rank() == 0:
+                print(
+                    json.dumps(
+                        {
+                            "world": dist.get_world_size(),
+                            "dp": int(ps.get_data_parallel_world_size()),
+                            "tp": int(ps.get_tensor_model_parallel_world_size()),
+                            "cp": int(ps.get_context_parallel_world_size()),
+                            "stress_tokens": stress_tokens,
+                            "estimated_unpacked_output_gb": round(
+                                unpacked_output_gb, 3
+                            ),
+                            "max_unpacked_output_gb": max_unpacked_output_gb,
+                            "skipped": "unpacked_output_cap",
+                        },
+                        sort_keys=True,
+                    ),
+                    flush=True,
+                )
+            dist.barrier()
+            return
+        dp_rank = int(ps.get_data_parallel_rank())
+        dp_size = int(ps.get_data_parallel_world_size())
+        local_pairs = [
+            (index, request)
+            for index, request in enumerate(requests)
+            if index % dp_size == dp_rank
+        ]
+        local_requests = [request for _, request in local_pairs]
+
+        rank_a = TrainerRank(
+            runtime,
+            head_chunk_tokens=head_chunk_a,
+            shared_prefix_max_depth=max_prefix_depth,
+        )
+        rank_b = TrainerRank(
+            runtime,
+            head_chunk_tokens=head_chunk_b,
+            shared_prefix_max_depth=max_prefix_depth,
+        )
+        independent_outputs: list[CheckOutput] | None = None
+        same_layout_outputs: list[CheckOutput] | None = None
+
+        torch.cuda.reset_peak_memory_stats()
+        max_diff = torch.tensor(0.0, device=rank_a.device)
+        with torch.no_grad():
+            started_at = time.perf_counter()
+            if request_case == "target_only":
+                _debug("forward-target-only")
+                outputs_a = list(rank_a.forward(local_requests))
+                outputs_b = list(rank_b.forward(local_requests))
+                oracle_outputs, actual_source_positions = _packed_oracle(
+                    rank_a, local_requests
+                )
+            elif stress_tokens > 0:
+                _debug("forward-a")
+                outputs_a = list(rank_a.forward(local_requests))
+                outputs_b = outputs_a
+                actual_source_positions = _source_positions(rank_a, local_requests)
+                oracle_outputs = [
+                    _as_check_output(source_positions, output)
+                    for source_positions, output in zip(
+                        actual_source_positions,
+                        outputs_a,
+                        strict=True,
+                    )
+                ]
+            else:
+                _debug("forward-shared")
+                (
+                    outputs_a,
+                    outputs_b,
+                    oracle_outputs,
+                    actual_source_positions,
+                ) = _shared_hidden_check(rank_a, rank_b, local_requests)
+                if compare_independent and request_case in {"shared", "unique", "deep"}:
+                    independent_outputs = _independent_check_outputs(
+                        rank_a, local_requests
+                    )
+                    if int(ps.get_context_parallel_world_size()) <= 1:
+                        for index, (actual, independent) in enumerate(
+                            zip(outputs_a, independent_outputs, strict=True)
+                        ):
+                            max_diff = torch.maximum(
+                                max_diff,
+                                _assert_close(
+                                    actual,
+                                    independent,
+                                    f"independent[{index}]",
+                                ),
+                            )
+                if compare_same_layout and request_case in {"shared", "unique", "deep"}:
+                    same_layout_outputs = _same_layout_check_outputs(
+                        rank_a,
+                        local_requests,
+                    )
+                    for index, (actual, same_layout) in enumerate(
+                        zip(outputs_a, same_layout_outputs, strict=True)
+                    ):
+                        max_diff = torch.maximum(
+                            max_diff,
+                            _assert_close(
+                                actual,
+                                same_layout,
+                                f"same_layout[{index}]",
+                            ),
+                        )
+            _debug("compare")
+            elapsed_s = time.perf_counter() - started_at
+
+        peak_memory_gb = torch.tensor(
+            torch.cuda.max_memory_allocated() / 1024**3,
+            device=rank_a.device,
+        )
+        for index, (actual, chunked, oracle) in enumerate(
+            zip(outputs_a, outputs_b, oracle_outputs, strict=True)
+        ):
+            if int(oracle.source_positions.numel()) == 0:
+                continue
+            max_diff = torch.maximum(
+                max_diff,
+                _assert_close(actual, chunked, f"chunk[{index}]"),
+            )
+            max_diff = torch.maximum(
+                max_diff,
+                _assert_close(actual, oracle, f"oracle[{index}]"),
+            )
+
+        dist.all_reduce(max_diff, op=dist.ReduceOp.MAX)
+        dist.all_reduce(peak_memory_gb, op=dist.ReduceOp.MAX)
+        max_diff_value = float(max_diff.item())
+        records = _records(
+            local_pairs=local_pairs,
+            actual_outputs=outputs_a,
+            actual_source_positions=actual_source_positions,
+            oracle_outputs=oracle_outputs,
+            independent_outputs=independent_outputs,
+            rank=int(dist.get_rank()),
+            dp=dp_rank,
+            tp=int(ps.get_tensor_model_parallel_rank()),
+            cp=int(ps.get_context_parallel_rank()),
+        )
+        gathered: list[list[dict[str, object]] | None] = [None] * dist.get_world_size()
+        _debug("all-gather")
+        dist.all_gather_object(gathered, records)
+        _debug("reconstruct")
+        reconstruction_error: str | None = None
+        if dist.get_rank() == 0:
+            seen = {
+                record["input_index"]
+                for rank_records in gathered
+                for record in rank_records or []
+            }
+            if seen != set(range(len(requests))):
+                reconstruction_error = f"DP reconstruction missed inputs: {seen}"
+            else:
+                try:
+                    max_diff_value = max(
+                        max_diff_value,
+                        _assert_reconstructed(gathered, requests),
+                    )
+                except AssertionError as exc:
+                    reconstruction_error = str(exc)
+            if reconstruction_error is None:
+                print(
+                    json.dumps(
+                        {
+                            "world": dist.get_world_size(),
+                            "dp": dp_size,
+                            "tp": int(ps.get_tensor_model_parallel_world_size()),
+                            "cp": int(ps.get_context_parallel_world_size()),
+                            "max_abs_diff": max_diff_value,
+                            "records": sum(
+                                len(rank_records or []) for rank_records in gathered
+                            ),
+                            "same_layout": compare_same_layout,
+                            "stress_tokens": stress_tokens,
+                            "estimated_unpacked_output_gb": round(unpacked_output_gb, 3),
+                            "elapsed_s": round(elapsed_s, 3),
+                            "peak_memory_gb": round(float(peak_memory_gb.item()), 3),
+                        },
+                        sort_keys=True,
+                    ),
+                    flush=True,
+                )
+        errors = [reconstruction_error]
+        dist.broadcast_object_list(errors, src=0)
+        if errors[0] is not None:
+            raise AssertionError(errors[0])
+        dist.barrier()
+    finally:
+        if dist.is_initialized():
+            dist.destroy_process_group()
+
+
+def _requests(
+    request_case: str = "shared",
+) -> list[
+    ForwardInput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ]
+]:
+    if request_case not in {"shared", "target_only", "unique", "deep"}:
+        raise ValueError(
+            "request_case must be 'shared', 'target_only', 'unique', or 'deep'"
+        )
+    rows = [
+        torch.tensor([11, 12, 13, 14, 15, 16, 17]),
+        torch.tensor([11, 12, 13, 14, 24, 25]),
+        torch.tensor([11, 12, 13, 14, 24, 26]),
+        torch.tensor([11, 12, 13, 27]),
+        torch.tensor([31, 32, 33, 34]),
+        torch.tensor([31, 32, 33, 35]),
+        torch.tensor([11, 12, 13, 14, 15, 16, 17]),
+        torch.tensor([41, 42, 43]),
+        torch.tensor([41, 42, 44, 45]),
+        torch.tensor([51, 52, 53, 54, 55]),
+        torch.tensor([61, 62, 63]),
+        torch.tensor([61, 62, 64, 65]),
+        torch.tensor([71, 72]),
+        torch.tensor([81, 82, 83, 84]),
+        torch.tensor([91, 92, 93]),
+        torch.tensor([101, 102, 103, 104, 105]),
+    ]
+    if request_case == "deep":
+        rows = _deep_rows()
+    if request_case == "unique":
+        rows = [row + 1000 * index for index, row in enumerate(rows)]
+    if request_case == "target_only":
+        target_only_labels = [_labels(row, 0) for row in rows]
+        target_only_labels[0][2] = -100
+        target_only_labels[3][1] = -100
+        target_only_labels[10][0] = -100
+        return [
+            ForwardInput(input_tokens=row, target_tokens=label)
+            for row, label in zip(rows, target_only_labels, strict=True)
+        ]
+
+    labels = [_labels(row, offset) for offset, row in enumerate(rows)]
+    labels[0][2] = -100
+    labels[3][1] = -100
+    labels[10][0] = -100
+    multi_labels = torch.stack((labels[1], (labels[1] + 17) % 1000), dim=1)
+    multi_labels[2, 1] = -100
+    requests = []
+    for mask, row in enumerate(rows):
+        target_tokens = None
+        if mask & 1:
+            target_tokens = multi_labels if mask == 1 else labels[mask]
+        requests.append(
+            ForwardInput(
+                input_tokens=row,
+                target_tokens=target_tokens,
+                top_k=3 if mask & 2 else None,
+                logits=bool(mask & 4),
+                hidden_states=bool(mask & 8),
+            )
+        )
+    return requests
+
+
+def _debug_output_requests(
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    debug_output: str,
+) -> list[
+    ForwardInput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ]
+]:
+    if debug_output == "none":
+        return requests
+    if debug_output == "hidden":
+        return [
+            ForwardInput(input_tokens=request.input_tokens, hidden_states=True)
+            for request in requests
+        ]
+    if debug_output == "logits":
+        return [
+            ForwardInput(input_tokens=request.input_tokens, logits=True)
+            for request in requests
+        ]
+    raise ValueError("debug_output must be 'none', 'hidden', or 'logits'")
+
+
+def _deep_rows() -> list[torch.Tensor]:
+    return [
+        torch.tensor([11, 12, 13, 14, 15, 16, 17]),
+        torch.tensor([11, 12, 13, 14, 15, 16, 18]),
+        torch.tensor([11, 12, 13, 14, 15, 19]),
+        torch.tensor([11, 12, 13, 14, 20]),
+        torch.tensor([11, 12, 21]),
+        torch.tensor([31, 32, 33, 34, 35]),
+        torch.tensor([31, 32, 33, 34, 36]),
+        torch.tensor([31, 32, 33, 37]),
+        torch.tensor([41, 42, 43]),
+        torch.tensor([41, 42, 44]),
+        torch.tensor([51, 52, 53, 54]),
+        torch.tensor([61, 62]),
+        torch.tensor([71, 72, 73, 74, 75]),
+        torch.tensor([71, 72, 73, 76]),
+        torch.tensor([81]),
+        torch.tensor([91, 92, 93]),
+    ]
+
+
+def _stress_requests(
+    token_count: int,
+) -> list[ForwardInput[None, None, None, torch.Tensor]]:
+    if token_count < 8:
+        raise ValueError("stress_tokens must be >= 8")
+    prefix_len = token_count // 2
+    tail_len = max(1, token_count // 4)
+    prefix = _stress_tokens(0, prefix_len)
+    return [
+        ForwardInput(
+            input_tokens=torch.cat((prefix, _stress_tokens(10_000, tail_len))),
+            hidden_states=True,
+        ),
+        ForwardInput(
+            input_tokens=torch.cat((prefix, _stress_tokens(20_000, tail_len))),
+            hidden_states=True,
+        ),
+        ForwardInput(input_tokens=_stress_tokens(30_000, tail_len), hidden_states=True),
+    ]
+
+
+def _stress_tokens(offset: int, length: int) -> torch.Tensor:
+    return (torch.arange(length, dtype=torch.long) + offset) % 32_000 + 100
+
+
+def _estimate_unpacked_output_gb(
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    runtime: object,
+) -> float:
+    provider = getattr(runtime, "provider")
+    model = _language_model(getattr(runtime, "model")[0])
+    hidden_size = int(
+        getattr(provider, "hidden_size", None)
+        or getattr(getattr(model, "config", None), "hidden_size", 0)
+    )
+    vocab_size = int(
+        getattr(getattr(model, "config", None), "padded_vocab_size", None)
+        or getattr(model, "vocab_size", 0)
+    )
+    dtype_size = next(getattr(runtime, "model")[0].parameters()).element_size()
+    bytes_total = sum(
+        _request_output_bytes(
+            request,
+            hidden_size=hidden_size,
+            vocab_size=vocab_size,
+            dtype_size=dtype_size,
+        )
+        for request in requests
+    )
+    return bytes_total / 1024**3
+
+
+def _request_output_bytes(
+    request: ForwardInput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ],
+    *,
+    hidden_size: int,
+    vocab_size: int,
+    dtype_size: int,
+) -> int:
+    seq_len = int(request.input_tokens.numel())
+    bytes_total = 0
+    if request.target_tokens is not None:
+        bytes_total += int(request.target_tokens.numel()) * 4
+    if request.top_k is not None:
+        bytes_total += seq_len * int(request.top_k) * (4 + 8)
+    if request.logits:
+        bytes_total += seq_len * vocab_size * dtype_size
+    if request.hidden_states:
+        bytes_total += seq_len * hidden_size * dtype_size
+    return bytes_total
+
+
+def _debug(label: str) -> None:
+    if os.environ.get("TRAINER_RANK_CHECK_DEBUG") != "1":
+        return
+    print(f"[rank{dist.get_rank()}] {label}", flush=True)
+
+
+def _labels(tokens: torch.Tensor, offset: int) -> torch.Tensor:
+    return ((tokens * 7 + 3 + offset) % 1000).to(dtype=torch.long)
+
+
+def _packed_oracle(
+    rank: TrainerRank,
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> tuple[list[CheckOutput], tuple[torch.Tensor, ...]]:
+    items = [rank._forward_item(request) for request in requests]
+    prepared = rank._prepare_packed_forward(
+        _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+    )
+    hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
+    return (
+        _packed_oracle_from_hidden(rank, items, prepared, hidden),
+        prepared.source_positions_by_item,
+    )
+
+
+def _shared_hidden_check(
+    rank_a: TrainerRank,
+    rank_b: TrainerRank,
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> tuple[
+    list[
+        ForwardOutput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    list[
+        ForwardOutput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    list[CheckOutput],
+    tuple[torch.Tensor, ...],
+]:
+    items = [rank_a._forward_item(request) for request in requests]
+    prepared = rank_a._prepare_packed_forward(
+        _pack_forward_items(items, max_depth=rank_a.shared_prefix_max_depth)
+    )
+    hidden = rank_a._gather_sequence_parallel_hidden(rank_a._decoder_hidden(prepared))
+    outputs_a = _outputs_from_hidden(rank_a, items, prepared, hidden)
+    outputs_b = _outputs_from_hidden(rank_b, items, prepared, hidden)
+    oracle = _packed_oracle_from_hidden(rank_a, items, prepared, hidden)
+    return (
+        outputs_a,
+        outputs_b,
+        oracle,
+        prepared.source_positions_by_item,
+    )
+
+
+def _independent_check_outputs(
+    rank: TrainerRank,
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> list[CheckOutput]:
+    outputs: list[CheckOutput] = []
+    for request in requests:
+        source_positions = _source_positions(rank, [request])[0]
+        outputs.append(_as_check_output(source_positions, rank.forward([request])[0]))
+    return outputs
+
+
+def _same_layout_check_outputs(
+    rank: TrainerRank,
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> list[CheckOutput]:
+    items = [rank._forward_item(request) for request in requests]
+    batch = _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+    outputs = []
+    for index, positions in enumerate(batch.positions_by_item):
+        mutated = _mutated_batch(batch, keep_positions=positions)
+        prepared = rank._prepare_packed_forward(mutated)
+        hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
+        mutated_outputs = _outputs_from_hidden(rank, items, prepared, hidden)
+        outputs.append(
+            _as_check_output(
+                prepared.source_positions_by_item[index],
+                mutated_outputs[index],
+            )
+        )
+    return outputs
+
+
+def _mutated_batch(
+    batch: _PackedForwardBatch,
+    *,
+    keep_positions: torch.Tensor,
+) -> _PackedForwardBatch:
+    tokens = batch.tokens.clone()
+    mutate = torch.ones(int(tokens.shape[1]), dtype=torch.bool, device=tokens.device)
+    mutate[keep_positions.to(device=tokens.device)] = False
+    replacement = (
+        torch.arange(int(tokens.shape[1]), dtype=tokens.dtype, device=tokens.device)
+        + 50_000
+    )
+    tokens[0, mutate] = replacement[mutate] % 100_000
+    return _PackedForwardBatch(
+        tokens=tokens,
+        group_ids=batch.group_ids,
+        parent_ids=batch.parent_ids,
+        position_ids=batch.position_ids,
+        positions_by_item=batch.positions_by_item,
+    )
+
+
+def _outputs_from_hidden(
+    rank: TrainerRank,
+    items: list[object],
+    prepared: object,
+    hidden: torch.Tensor,
+) -> list[
+    ForwardOutput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ]
+]:
+    head_outputs = rank._project_head(items, prepared, hidden)
+    outputs = []
+    for index, (item, positions) in enumerate(
+        zip(items, prepared.positions_by_item, strict=True)
+    ):
+        hidden_states = (
+            _select_positions(hidden, positions) if item.request.hidden_states else None
+        )
+        outputs.append(
+            ForwardOutput(
+                target_logprobs=head_outputs.target_logprobs[index],
+                top_k=head_outputs.top_k[index],
+                logits=head_outputs.logits[index],
+                hidden_states=hidden_states,
+            )
+        )
+    return outputs
+
+
+def _packed_oracle_from_hidden(
+    rank: TrainerRank,
+    items: list[object],
+    prepared: object,
+    hidden: torch.Tensor,
+) -> list[CheckOutput]:
+    model = _language_model(rank.runtime.model[0])
+    output_weight = (
+        model.shared_embedding_or_output_weight()
+        if bool(model.share_embeddings_and_output_weights)
+        else None
+    )
+
+    outputs: list[CheckOutput] = []
+    for item, positions, source_positions in zip(
+        items,
+        prepared.positions_by_item,
+        prepared.source_positions_by_item,
+        strict=True,
+    ):
+        needs_projection = (
+            item.labels is not None or item.request.logits or item.request.top_k
+        )
+        all_logits = None
+        if needs_projection:
+            all_logits = (
+                rank._logits_from_hidden_rows(
+                    model,
+                    _select_positions(hidden, positions),
+                    output_weight=output_weight,
+                )
+                if int(positions.numel())
+                else _empty_logits_like_positions(positions, model, hidden)
+            )
+        logprobs = (
+            None
+            if all_logits is None
+            else torch.log_softmax(all_logits.float(), dim=-1)
+        )
+
+        target_logprobs = None
+        if item.labels is not None:
+            if logprobs is None:
+                raise RuntimeError("target_logprobs oracle requires logprobs")
+            labels = item.labels.to(device=logprobs.device).index_select(
+                0, source_positions.to(device=logprobs.device)
+            )
+            target_logprobs = _gather_target_logprobs(logprobs, labels)
+
+        top_k = None
+        if item.request.top_k is not None:
+            if all_logits is None:
+                raise RuntimeError("top_k oracle requires logits")
+            log_z = torch.logsumexp(all_logits.float(), dim=-1)
+            values, tokens = torch.topk(
+                all_logits.float(), k=item.request.top_k, dim=-1
+            )
+            top_k = TopK(logprobs=values - log_z.unsqueeze(1), tokens=tokens)
+
+        hidden_states = None
+        if item.request.hidden_states:
+            hidden_states = _select_positions(hidden, positions)
+
+        outputs.append(
+            CheckOutput(
+                source_positions=source_positions,
+                target_logprobs=target_logprobs,
+                top_k=top_k,
+                logits=all_logits if item.request.logits else None,
+                hidden_states=hidden_states,
+            )
+        )
+    return outputs
+
+
+def _source_positions(
+    rank: TrainerRank,
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> tuple[torch.Tensor, ...]:
+    items = [rank._forward_item(request) for request in requests]
+    prepared = rank._prepare_packed_forward(
+        _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+    )
+    return prepared.source_positions_by_item
+
+
+def _as_check_output(
+    source_positions: torch.Tensor,
+    output: ForwardOutput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ],
+) -> CheckOutput:
+    return CheckOutput(
+        source_positions=source_positions,
+        target_logprobs=output.target_logprobs,
+        top_k=output.top_k,
+        logits=output.logits,
+        hidden_states=output.hidden_states,
+    )
+
+
+def _records(
+    *,
+    local_pairs: list[
+        tuple[
+            int,
+            ForwardInput[
+                torch.Tensor | None,
+                TopK | None,
+                torch.Tensor | None,
+                torch.Tensor | None,
+            ],
+        ]
+    ],
+    actual_outputs: list[
+        ForwardOutput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    actual_source_positions: tuple[torch.Tensor, ...],
+    oracle_outputs: list[CheckOutput],
+    independent_outputs: list[CheckOutput] | None,
+    rank: int,
+    dp: int,
+    tp: int,
+    cp: int,
+) -> list[dict[str, object]]:
+    records: list[dict[str, object]] = []
+    independent_records: list[CheckOutput | None] = (
+        independent_outputs if independent_outputs is not None else [None] * len(local_pairs)
+    )
+    for local_index, (
+        (input_index, _),
+        actual,
+        actual_sources,
+        oracle,
+        independent,
+    ) in enumerate(
+        zip(
+            local_pairs,
+            actual_outputs,
+            actual_source_positions,
+            oracle_outputs,
+            independent_records,
+            strict=True,
+        )
+    ):
+        records.append(
+            {
+                "input_index": input_index,
+                "local_index": local_index,
+                "rank": rank,
+                "dp": dp,
+                "tp": tp,
+                "cp": cp,
+                "actual": _cpu_record(actual_sources, actual),
+                "oracle": _cpu_record(oracle.source_positions, oracle),
+                "independent": (
+                    None
+                    if independent is None
+                    else _cpu_record(independent.source_positions, independent)
+                ),
+            }
+        )
+    return records
+
+
+def _cpu_record(
+    source_positions: torch.Tensor,
+    output: ForwardOutput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ]
+    | CheckOutput,
+) -> dict[str, torch.Tensor | None]:
+    return {
+        "source_positions": source_positions.cpu(),
+        "target_logprobs": _cpu(output.target_logprobs),
+        "logits": _cpu(output.logits),
+        "hidden_states": _cpu(output.hidden_states),
+        "top_k_logprobs": None if output.top_k is None else _cpu(output.top_k.logprobs),
+        "top_k_tokens": None if output.top_k is None else _cpu(output.top_k.tokens),
+    }
+
+
+def _cpu(tensor: torch.Tensor | None) -> torch.Tensor | None:
+    return None if tensor is None else tensor.detach().cpu()
+
+
+def _assert_reconstructed(
+    gathered: list[list[dict[str, object]] | None],
+    requests: list[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> float:
+    max_diff = 0.0
+    records = [
+        record
+        for rank_records in gathered
+        for record in rank_records or []
+        if record["tp"] == 0
+    ]
+    for input_index, request in enumerate(requests):
+        _debug(f"reconstruct-input-{input_index}")
+        actual = [
+            record["actual"]
+            for record in records
+            if record["input_index"] == input_index
+        ]
+        oracle = [
+            record["oracle"]
+            for record in records
+            if record["input_index"] == input_index
+        ]
+        independent = [
+            record["independent"]
+            for record in records
+            if record["input_index"] == input_index
+            and record.get("independent") is not None
+        ]
+        length = int(request.input_tokens.numel())
+        for key in ("target_logprobs", "logits", "hidden_states", "top_k_logprobs"):
+            _debug(f"reconstruct-input-{input_index}-{key}")
+            _debug(f"reconstruct-input-{input_index}-{key}-assemble-actual")
+            actual_value = _assemble(actual, key, length)
+            _debug(
+                f"reconstruct-input-{input_index}-{key}-actual-"
+                f"{_tensor_summary(actual_value)}"
+            )
+            _debug(f"reconstruct-input-{input_index}-{key}-assemble-oracle")
+            oracle_value = _assemble(oracle, key, length)
+            _debug(
+                f"reconstruct-input-{input_index}-{key}-oracle-"
+                f"{_tensor_summary(oracle_value)}"
+            )
+            _debug(f"reconstruct-input-{input_index}-{key}-diff-oracle")
+            max_diff = max(
+                max_diff,
+                _tensor_diff_value(
+                    actual_value,
+                    oracle_value,
+                    f"reconstructed[{input_index}].{key}",
+                ),
+            )
+            _debug(f"reconstruct-input-{input_index}-{key}-diff-oracle-done")
+            if independent:
+                _debug(f"reconstruct-input-{input_index}-{key}-assemble-independent")
+                independent_value = _assemble(independent, key, length)
+                _debug(
+                    f"reconstruct-input-{input_index}-{key}-independent-"
+                    f"{_tensor_summary(independent_value)}"
+                )
+                _debug(f"reconstruct-input-{input_index}-{key}-diff-independent")
+                max_diff = max(
+                    max_diff,
+                    _tensor_diff_value(
+                        actual_value,
+                        independent_value,
+                        f"independent[{input_index}].{key}",
+                    ),
+                )
+                _debug(f"reconstruct-input-{input_index}-{key}-diff-independent-done")
+            _debug(f"reconstruct-input-{input_index}-{key}-done")
+        actual_tokens = _assemble(actual, "top_k_tokens", length)
+        oracle_tokens = _assemble(oracle, "top_k_tokens", length)
+        if actual_tokens is None or oracle_tokens is None:
+            if actual_tokens is not oracle_tokens:
+                raise AssertionError(
+                    f"reconstructed[{input_index}].top_k None mismatch"
+                )
+        elif not torch.equal(actual_tokens, oracle_tokens):
+            actual_logprobs = _assemble(actual, "top_k_logprobs", length)
+            oracle_logprobs = _assemble(oracle, "top_k_logprobs", length)
+            if (
+                actual_logprobs is None
+                or oracle_logprobs is None
+                or _tensor_diff_value(
+                    actual_logprobs,
+                    oracle_logprobs,
+                    f"reconstructed[{input_index}].top_k.logprobs",
+                )
+                > 5e-6
+            ):
+                raise AssertionError(
+                    f"reconstructed[{input_index}].top_k.tokens mismatch"
+                )
+        if independent:
+            independent_tokens = _assemble(independent, "top_k_tokens", length)
+            if actual_tokens is None or independent_tokens is None:
+                if actual_tokens is not independent_tokens:
+                    raise AssertionError(
+                        f"independent[{input_index}].top_k None mismatch"
+                    )
+            elif not torch.equal(actual_tokens, independent_tokens):
+                actual_logprobs = _assemble(actual, "top_k_logprobs", length)
+                independent_logprobs = _assemble(
+                    independent,
+                    "top_k_logprobs",
+                    length,
+                )
+                if (
+                    actual_logprobs is None
+                    or independent_logprobs is None
+                    or _tensor_diff_value(
+                        actual_logprobs,
+                        independent_logprobs,
+                        f"independent[{input_index}].top_k.logprobs",
+                    )
+                    > 5e-6
+                ):
+                    raise AssertionError(
+                        f"independent[{input_index}].top_k.tokens mismatch"
+                    )
+    return max_diff
+
+
+def _assemble(
+    records: list[object],
+    key: str,
+    length: int,
+) -> torch.Tensor | None:
+    typed_records = [record for record in records if isinstance(record, dict)]
+    values = [record[key] for record in typed_records if record[key] is not None]
+    if not values:
+        return None
+    first = values[0]
+    if not isinstance(first, torch.Tensor):
+        raise TypeError(key)
+    output = torch.empty((length, *first.shape[1:]), dtype=first.dtype)
+    filled = torch.zeros(length, dtype=torch.bool)
+    for record in typed_records:
+        value = record[key]
+        if value is None:
+            continue
+        if not isinstance(value, torch.Tensor):
+            raise TypeError(key)
+        positions = record["source_positions"]
+        if not isinstance(positions, torch.Tensor):
+            raise TypeError("source_positions")
+        output[positions] = value
+        filled[positions] = True
+    if not bool(filled.all().item()):
+        raise AssertionError(f"{key} reconstruction missed positions")
+    return output
+
+
+def _tensor_summary(tensor: torch.Tensor | None) -> str:
+    if tensor is None:
+        return "None"
+    return f"shape={tuple(tensor.shape)} device={tensor.device} dtype={tensor.dtype}"
+
+
+def _assert_close(
+    actual: ForwardOutput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ],
+    expected: ForwardOutput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ]
+    | CheckOutput,
+    label: str,
+) -> torch.Tensor:
+    diffs = [
+        _tensor_diff(
+            actual.target_logprobs, expected.target_logprobs, f"{label}.target_logprobs"
+        )
+    ]
+    diffs.append(_tensor_diff(actual.logits, expected.logits, f"{label}.logits"))
+    diffs.append(
+        _tensor_diff(
+            actual.hidden_states, expected.hidden_states, f"{label}.hidden_states"
+        )
+    )
+    if actual.top_k is None or expected.top_k is None:
+        if actual.top_k is not expected.top_k:
+            raise AssertionError(f"{label}.top_k None mismatch")
+    else:
+        try:
+            top_k_diff = _tensor_diff(
+                actual.top_k.logprobs,
+                expected.top_k.logprobs,
+                f"{label}.top_k.logprobs",
+            )
+        except AssertionError as exc:
+            flat_offset = int(
+                (actual.top_k.logprobs.float() - expected.top_k.logprobs.float())
+                .abs()
+                .flatten()
+                .argmax()
+            )
+            row, _ = divmod(flat_offset, int(actual.top_k.logprobs.shape[1]))
+            raise AssertionError(
+                f"{exc}; actual_row={actual.top_k.logprobs[row].tolist()} "
+                f"expected_row={expected.top_k.logprobs[row].tolist()} "
+                f"actual_tokens={actual.top_k.tokens[row].tolist()} "
+                f"expected_tokens={expected.top_k.tokens[row].tolist()}"
+            ) from exc
+        diffs.append(top_k_diff)
+        if (
+            not torch.equal(actual.top_k.tokens, expected.top_k.tokens)
+            and float(top_k_diff.item()) > 5e-6
+        ):
+            mismatch = torch.nonzero(
+                actual.top_k.tokens != expected.top_k.tokens,
+                as_tuple=False,
+            )[0]
+            row = int(mismatch[0].item())
+            col = int(mismatch[1].item())
+            raise AssertionError(
+                f"{label}.top_k.tokens mismatch at ({row}, {col}): "
+                f"actual={int(actual.top_k.tokens[row, col].item())} "
+                f"expected={int(expected.top_k.tokens[row, col].item())} "
+                f"actual_logprob={float(actual.top_k.logprobs[row, col].item())} "
+                f"expected_logprob={float(expected.top_k.logprobs[row, col].item())}"
+            )
+    return torch.stack(diffs).max()
+
+
+def _tensor_diff(
+    actual: torch.Tensor | None,
+    expected: torch.Tensor | None,
+    label: str,
+) -> torch.Tensor:
+    return torch.tensor(_tensor_diff_value(actual, expected, label), device="cuda")
+
+
+def _tensor_diff_value(
+    actual: torch.Tensor | None,
+    expected: torch.Tensor | None,
+    label: str,
+) -> float:
+    if actual is None or expected is None:
+        if actual is not expected:
+            raise AssertionError(f"{label} None mismatch")
+        return 0.0
+    if actual.shape != expected.shape:
+        raise AssertionError(
+            f"{label} shape mismatch: {actual.shape} != {expected.shape}"
+        )
+    actual_for_diff = actual
+    expected_for_diff = expected
+    if torch.cuda.is_available():
+        actual_for_diff = actual_for_diff.to(device="cuda")
+        expected_for_diff = expected_for_diff.to(device="cuda")
+    diff = (
+        (actual_for_diff.float() - expected_for_diff.float()).abs().max()
+        if actual_for_diff.numel()
+        else actual_for_diff.new_tensor(0.0)
+    )
+    value = float(diff.item())
+    tolerance = 5e-6 if "logprobs" in label else 0.0
+    _debug(f"{label} diff={value} tolerance={tolerance}")
+    if value > tolerance:
+        raise AssertionError(f"{label} max diff {value}")
+    return value
+
+
+if __name__ == "__main__":
+    typer.run(main)
diff --git a/scripts/build-gpu-image.sh b/scripts/build-gpu-image.sh
index 68cd0f0e7..e7e188bd6 100755
--- a/scripts/build-gpu-image.sh
+++ b/scripts/build-gpu-image.sh
@@ -10,10 +10,12 @@ Options:
   --image-repo REPO      Image repository to publish
   --infra INFRA          Kubernetes-backed SkyPilot infra (default: k8s/cks-wb3)
   --no-cache             Disable registry-backed BuildKit cache
+  --no-prewarm-modal     Skip prebuilding the pushed image in Modal
   --no-prewarm-nodes     Skip pre-pulling the pushed image on GPU nodes
   --pull-image-repo REPO Image repository for cluster pulls/prewarm
+  --prewarm-modal        Require prebuilding the pushed image in Modal
   --prewarm-timeout DUR  Timeout for the prewarm DaemonSet rollout (default: 30m)
-  --tag TAG              Image tag to publish
+  --tag TAG              Image tag to publish (default: latest)
   --help                 Show this help
 EOF
 }
@@ -24,12 +26,13 @@ cluster_name=""
 infra="${SKY_INFRA:-k8s/cks-wb3}"
 image_repo="${ART_IMAGE_REPO:-}"
 pull_image_repo="${ART_PULL_IMAGE_REPO:-}"
-image_tag=""
+image_tag="${IMAGE_TAG:-latest}"
 docker_config_path="${DOCKER_CONFIG_PATH:-${HOME}/.docker/config.json}"
 buildkit_image="${BUILDKIT_IMAGE:-moby/buildkit:v0.29.0-rootless}"
 buildkit_namespace="${KUBECTL_NAMESPACE:-default}"
 buildkit_wait_timeout="${BUILDKIT_WAIT_TIMEOUT:-300s}"
 no_cache="${NO_CACHE:-false}"
+prewarm_modal="${PREWARM_MODAL:-auto}"
 prewarm_nodes="${PREWARM_NODES:-true}"
 prewarm_namespace="${PREWARM_NAMESPACE:-default}"
 prewarm_name="${PREWARM_NAME:-art-gpu-image-prewarm}"
@@ -55,6 +58,10 @@ while [[ $# -gt 0 ]]; do
       no_cache=true
       shift
       ;;
+    --no-prewarm-modal)
+      prewarm_modal=false
+      shift
+      ;;
     --no-prewarm-nodes)
       prewarm_nodes=false
       shift
@@ -63,6 +70,10 @@ while [[ $# -gt 0 ]]; do
       pull_image_repo="$2"
       shift 2
       ;;
+    --prewarm-modal)
+      prewarm_modal=true
+      shift
+      ;;
     --prewarm-timeout)
       prewarm_timeout="$2"
       shift 2
@@ -83,6 +94,14 @@ while [[ $# -gt 0 ]]; do
   esac
 done
 
+case "${prewarm_modal}" in
+  auto|true|false) ;;
+  *)
+    echo "PREWARM_MODAL must be one of: auto, true, false" >&2
+    exit 1
+    ;;
+esac
+
 case "${infra}" in
   k8s/*)
     kube_context="${infra#k8s/}"
@@ -108,10 +127,6 @@ art_sha="$(git -C "${repo_root}" rev-parse HEAD)"
 art_short_sha="$(git -C "${repo_root}" rev-parse --short=12 HEAD)"
 timestamp="$(date +%m%d-%H%M%S)"
 
-if [[ -z "${image_tag}" ]]; then
-  image_tag="skypilot-${art_short_sha}"
-fi
-
 if [[ -z "${cluster_name}" ]]; then
   cluster_name="art-gpu-build-${timestamp}"
 fi
@@ -393,6 +408,38 @@ if [[ -n "${image_digest}" ]]; then
   prewarm_image="${pull_image_repo}@${image_digest}"
 fi
 
+modal_auth_available=false
+if [[ "${prewarm_modal}" != "false" ]]; then
+  if uv run --with 'modal>=1.5.0' python - <<'PY' >/dev/null 2>&1; then
+import modal
+
+modal.Workspace.from_context().hydrate()
+PY
+    modal_auth_available=true
+  fi
+fi
+
+if [[ "${prewarm_modal}" == "true" || "${modal_auth_available}" == "true" ]]; then
+  echo "Prewarming ${image_repo}:${image_tag} in Modal image cache"
+  MODAL_FORCE_BUILD=1 uv run --with 'modal>=1.5.0' python - "${image_repo}:${image_tag}" <<'PY'
+import sys
+
+import modal
+
+image = (
+    modal.Image.from_registry(sys.argv[1], add_python="3.12")
+    .apt_install("openssh-server", "sudo", "rsync", "curl", "procps", "patch", "lsof")
+)
+app = modal.App.lookup("skypilot-modal", create_if_missing=True)
+with modal.enable_output():
+    image.build(app)
+PY
+elif [[ "${prewarm_modal}" == "auto" ]]; then
+  echo "Skipping Modal image prewarm: Modal auth unavailable"
+else
+  echo "Skipping Modal image prewarm"
+fi
+
 if [[ "${prewarm_nodes}" == "true" ]]; then
   gpu_node_count="$("${kubectl_cmd[@]}" get nodes -l "${prewarm_node_selector}" --no-headers 2>/dev/null | wc -l | tr -d ' ')"
   if [[ "${gpu_node_count}" == "0" ]]; then
diff --git a/src/art/megatron/__init__.py b/src/art/megatron/__init__.py
index 3c2e5e5b9..a87296507 100644
--- a/src/art/megatron/__init__.py
+++ b/src/art/megatron/__init__.py
@@ -1,6 +1,15 @@
 from typing import Any
 
-__all__ = ["MegatronBackend"]
+_TRAINER_RANK_EXPORTS = (
+    "AdamParams",
+    "ForwardInput",
+    "ForwardOutput",
+    "MicroBatch",
+    "TopK",
+    "TrainerRank",
+)
+
+__all__ = ["MegatronBackend", *_TRAINER_RANK_EXPORTS]
 
 
 def __getattr__(name: str) -> Any:
@@ -8,4 +17,8 @@ def __getattr__(name: str) -> Any:
         from .backend import MegatronBackend
 
         return MegatronBackend
+    if name in _TRAINER_RANK_EXPORTS:
+        from . import trainer_rank
+
+        return getattr(trainer_rank, name)
     raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 9ef62e6de..e4839cf49 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -5,6 +5,7 @@
 from torch.nn.attention.flex_attention import BlockMask
 
 from art.megatron.flex_attn.compiled import normalize_sparse_block_size
+from art.megatron.shared_prefix_tree import parse_shared_prefix_row
 
 from .types import AttnMaskKind, FlexMaskSpec
 
@@ -94,42 +95,6 @@ def _block_min_max(
     return mins, maxes
 
 
-def _build_group_can_attend(
-    *,
-    group_ids: np.ndarray,
-    parent_ids: np.ndarray,
-) -> tuple[np.ndarray, np.ndarray]:
-    valid = group_ids >= 0
-    sorted_group_ids = np.unique(group_ids[valid]).astype(np.int64, copy=False)
-    group_to_index = {
-        int(group_id): index + 1 for index, group_id in enumerate(sorted_group_ids)
-    }
-    group_can_attend = np.zeros(
-        (int(sorted_group_ids.size) + 1, int(sorted_group_ids.size) + 1),
-        dtype=bool,
-    )
-    parent_by_group: dict[int, int | None] = {}
-    for group_id in sorted_group_ids.tolist():
-        positions = np.flatnonzero(group_ids == int(group_id))
-        parent_id = int(parent_ids[int(positions[0])])
-        parent_by_group[int(group_id)] = (
-            None if parent_id < 0 or parent_id == int(group_id) else parent_id
-        )
-
-    for group_id in sorted_group_ids.tolist():
-        query_index = group_to_index[int(group_id)]
-        cursor = int(group_id)
-        seen: set[int] = set()
-        while cursor in group_to_index:
-            group_can_attend[query_index, group_to_index[cursor]] = True
-            parent_id = parent_by_group.get(cursor)
-            if parent_id is None or parent_id in seen:
-                break
-            seen.add(cursor)
-            cursor = parent_id
-    return sorted_group_ids, group_can_attend
-
-
 def _remap_group_values(
     values: np.ndarray,
     *,
@@ -187,10 +152,13 @@ def _build_sparse_block_mask(
         k_abs,
         invalid_value=-1,
     )
-    sorted_group_ids, group_can_attend = _build_group_can_attend(
-        group_ids=flat_group_ids_np,
-        parent_ids=flat_parent_ids_np,
+    row_tree = parse_shared_prefix_row(
+        group_ids=flat_group_ids,
+        parent_ids=flat_parent_ids,
     )
+    group_ids_for_matrix, group_can_attend_values = row_tree.group_can_attend_matrix()
+    sorted_group_ids = np.asarray(group_ids_for_matrix, dtype=np.int64)
+    group_can_attend = np.asarray(group_can_attend_values, dtype=bool)
     q_group_index = _remap_group_values(
         q_group,
         sorted_group_ids=sorted_group_ids,
diff --git a/src/art/megatron/context_parallel/builder.py b/src/art/megatron/context_parallel/builder.py
index 77ac1b623..6dede229b 100644
--- a/src/art/megatron/context_parallel/builder.py
+++ b/src/art/megatron/context_parallel/builder.py
@@ -2,6 +2,8 @@
 
 import torch
 
+from art.megatron.shared_prefix_tree import parse_shared_prefix_tree
+
 from .types import (
     AttnMaskKind,
     AttnSlice,
@@ -12,100 +14,6 @@
 )
 
 
-def _valid_length(
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
-    *,
-    ignore_padding_group_id: int,
-) -> int:
-    valid_mask = group_ids != ignore_padding_group_id
-    valid_count = int(valid_mask.sum().item())
-    if valid_count == 0:
-        return 0
-    if not bool(valid_mask[:valid_count].all().item()):
-        raise RuntimeError("Padding tokens must be a contiguous tail")
-    return _infer_terminal_padding_length(
-        group_ids[:valid_count],
-        parent_ids[:valid_count],
-    )
-
-
-def _infer_terminal_padding_length(
-    group_row: torch.Tensor,
-    parent_row: torch.Tensor,
-) -> int:
-    if group_row.numel() == 0:
-        return 0
-    runs = _scan_runs(group_row, parent_row)
-    if len(runs) < 2:
-        return int(group_row.numel())
-    last_start, _last_end, last_group_id, last_parent_id = runs[-1]
-    if last_parent_id >= 0:
-        return int(group_row.numel())
-    terminal_pair = (last_group_id, last_parent_id)
-    if any(
-        (group_id, parent_id) == terminal_pair
-        for _start, _end, group_id, parent_id in runs[:-1]
-    ):
-        return last_start
-    return int(group_row.numel())
-
-
-def _scan_runs(
-    group_row: torch.Tensor,
-    parent_row: torch.Tensor,
-) -> list[tuple[int, int, int, int]]:
-    length = int(group_row.numel())
-    if length == 0:
-        return []
-
-    group_changes = group_row[1:] != group_row[:-1]
-    parent_changes = parent_row[1:] != parent_row[:-1]
-    inconsistent_parent = torch.nonzero(
-        torch.logical_not(group_changes) & parent_changes,
-        as_tuple=False,
-    ).flatten()
-    if int(inconsistent_parent.numel()) > 0:
-        mismatch_index = int(inconsistent_parent[0].item()) + 1
-        prior_boundaries = torch.nonzero(
-            group_changes[: mismatch_index - 1],
-            as_tuple=False,
-        ).flatten()
-        start = (
-            0
-            if int(prior_boundaries.numel()) == 0
-            else int(prior_boundaries[-1].item()) + 1
-        )
-        group_id = int(group_row[start].item())
-        raise RuntimeError(
-            "Found one group run with inconsistent parent ids: "
-            f"group_id={group_id}, start={start}, end={mismatch_index}"
-        )
-
-    run_starts = torch.cat(
-        (
-            torch.zeros(1, dtype=torch.int64, device=group_row.device),
-            torch.nonzero(group_changes, as_tuple=False).flatten() + 1,
-        )
-    )
-    run_ends = torch.cat(
-        (
-            run_starts[1:],
-            torch.tensor([length], dtype=torch.int64, device=group_row.device),
-        )
-    )
-    starts = run_starts.to(device="cpu").tolist()
-    ends = run_ends.to(device="cpu").tolist()
-    group_ids = group_row.index_select(0, run_starts).to(device="cpu").tolist()
-    parent_ids = parent_row.index_select(0, run_starts).to(device="cpu").tolist()
-    return [
-        (int(start), int(end), int(group_id), int(parent_id))
-        for start, end, group_id, parent_id in zip(
-            starts, ends, group_ids, parent_ids, strict=True
-        )
-    ]
-
-
 def _sort_and_dedupe_slices(slices: list[AttnSlice]) -> tuple[AttnSlice, ...]:
     sorted_slices = sorted(
         slices,
@@ -138,18 +46,6 @@ def _sort_and_dedupe_slices(slices: list[AttnSlice]) -> tuple[AttnSlice, ...]:
     return tuple(deduped)
 
 
-def _is_prompt_run(
-    *,
-    start: int,
-    group_id: int,
-    parent_id: int,
-    ignore_padding_group_id: int,
-) -> bool:
-    return group_id == parent_id or (
-        start == 0 and parent_id == ignore_padding_group_id
-    )
-
-
 def build_shared_prefix_attention_spec(
     *,
     group_ids: torch.Tensor,
@@ -166,127 +62,48 @@ def build_shared_prefix_attention_spec(
             "group_ids and parent_ids must be rank-2 packed tensors, got "
             f"{group_ids.ndim}"
         )
-    if int(group_ids.shape[0]) != 1:
-        raise RuntimeError(
-            "ART shared-prefix attention spec currently supports exactly one packed sequence, "
-            f"got batch={int(group_ids.shape[0])}."
-        )
-
     rows: list[PackedRowAttentionSpec] = []
-    for row_index in range(group_ids.shape[0]):
-        group_row = group_ids[row_index]
-        parent_row = parent_ids[row_index]
-        valid_tokens = _valid_length(
-            group_row,
-            parent_row,
-            ignore_padding_group_id=config.ignore_padding_group_id,
-        )
-        if valid_tokens == 0:
+    for row in parse_shared_prefix_tree(
+        group_ids=group_ids,
+        parent_ids=parent_ids,
+        ignore_padding_group_id=config.ignore_padding_group_id,
+        require_contiguous_group_runs=config.require_contiguous_group_runs,
+    ):
+        if row.valid_tokens == 0:
             rows.append(
-                PackedRowAttentionSpec(row_index=row_index, valid_tokens=0, slices=())
+                PackedRowAttentionSpec(row_index=row.row_index, valid_tokens=0, slices=())
             )
             continue
 
-        group_row = group_row[:valid_tokens]
-        parent_row = parent_row[:valid_tokens]
-        runs = _scan_runs(group_row, parent_row)
-
-        group_run_count: dict[int, int] = {}
-        prompt_by_group_id: dict[int, tuple[tuple[int, int], int]] = {}
-        completion_ranges_by_prompt: dict[int, list[tuple[int, int]]] = {}
-
-        for start, end, group_id, parent_id in runs:
-            group_run_count[group_id] = group_run_count.get(group_id, 0) + 1
-            if _is_prompt_run(
-                start=start,
-                group_id=group_id,
-                parent_id=parent_id,
-                ignore_padding_group_id=config.ignore_padding_group_id,
-            ):
-                if group_id in prompt_by_group_id:
-                    raise RuntimeError(
-                        f"Prompt group_id {group_id} appears more than once in row {row_index}"
-                    )
-                family_index = len(prompt_by_group_id)
-                prompt_by_group_id[group_id] = (
-                    (start, end),
-                    family_index,
-                )
-                completion_ranges_by_prompt[group_id] = []
-
-        if config.require_contiguous_group_runs:
-            repeated_groups = {
-                group_id: count
-                for group_id, count in group_run_count.items()
-                if count > 1 and group_id != config.ignore_padding_group_id
-            }
-            if repeated_groups:
-                raise RuntimeError(
-                    "Shared-prefix builder requires contiguous group runs per row, "
-                    f"found repeats in row {row_index}: {repeated_groups}"
-                )
-
-        for start, end, group_id, parent_id in runs:
-            if _is_prompt_run(
-                start=start,
-                group_id=group_id,
-                parent_id=parent_id,
-                ignore_padding_group_id=config.ignore_padding_group_id,
-            ):
-                continue
-            prompt_entry = prompt_by_group_id.get(parent_id)
-            if prompt_entry is None:
-                raise RuntimeError(
-                    "Completion run points to a missing prompt run: "
-                    f"row={row_index}, group_id={group_id}, parent_id={parent_id}"
-                )
-            completion_ranges_by_prompt[parent_id].append((start, end))
-
+        segment_by_group_id = row.segment_by_group_id()
         row_slices: list[AttnSlice] = []
-        for prompt_group_id, (
-            (prompt_start, prompt_end),
-            family_index,
-        ) in prompt_by_group_id.items():
-            prompt_range = TokenRange(start=prompt_start, end=prompt_end)
-            row_slices.append(
-                AttnSlice(
-                    q_range=prompt_range,
-                    k_range=prompt_range,
-                    mask_kind=AttnMaskKind.CAUSAL,
-                    row_index=row_index,
-                    family_index=family_index,
-                )
-            )
-            for completion_start, completion_end in completion_ranges_by_prompt[
-                prompt_group_id
-            ]:
-                completion_range = TokenRange(
-                    start=completion_start,
-                    end=completion_end,
-                )
+        for segment in row.segments:
+            q_range = TokenRange(start=segment.start, end=segment.end)
+            for ancestor_group_id in segment.ancestors:
+                ancestor = segment_by_group_id[ancestor_group_id]
                 row_slices.append(
                     AttnSlice(
-                        q_range=completion_range,
-                        k_range=prompt_range,
+                        q_range=q_range,
+                        k_range=TokenRange(start=ancestor.start, end=ancestor.end),
                         mask_kind=AttnMaskKind.FULL,
-                        row_index=row_index,
-                        family_index=family_index,
+                        row_index=row.row_index,
+                        family_index=segment.family_index,
                     )
                 )
-                row_slices.append(
-                    AttnSlice(
-                        q_range=completion_range,
-                        k_range=completion_range,
-                        mask_kind=AttnMaskKind.CAUSAL,
-                        row_index=row_index,
-                        family_index=family_index,
-                    )
+            row_slices.append(
+                AttnSlice(
+                    q_range=q_range,
+                    k_range=q_range,
+                    mask_kind=AttnMaskKind.CAUSAL,
+                    row_index=row.row_index,
+                    family_index=segment.family_index,
                 )
+            )
 
         rows.append(
             PackedRowAttentionSpec(
-                row_index=row_index,
-                valid_tokens=valid_tokens,
+                row_index=row.row_index,
+                valid_tokens=row.valid_tokens,
                 slices=_sort_and_dedupe_slices(row_slices),
             )
         )
diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index c6eb9fddd..f8888f0fd 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -2252,9 +2252,7 @@ def prepare_megatron_context_parallel_state(
             )
 
             gdn_execution_spec = parse_gdn_shared_prefix_segments(
-                group_ids_cpu,
-                parent_ids_cpu,
-                min_completions_per_family=0,
+                group_ids_cpu, parent_ids_cpu, min_completions_per_family=0
             )
         bundle = _PlanningBundle(
             spec=spec,
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index 5cc874d09..2bbc0ff4c 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -119,7 +119,7 @@ class ContextParallelConfig(BaseModel):
     planner_remote_stage_underfill_ms: float = 0.287151
     planner_tuned_backend: str | None = "art_context_parallel"
     planner_tuned_hardware: str | None = "NVIDIA H200"
-    planner_tuned_cp_sizes: tuple[int, ...] = (2,)
+    planner_tuned_cp_sizes: tuple[int, ...] = (2, 4)
     planner_cp_overrides: tuple[PlannerCpOverride, ...] = ()
 
 
diff --git a/src/art/megatron/gdn/__init__.py b/src/art/megatron/gdn/__init__.py
index cd3a0873a..1dc629403 100644
--- a/src/art/megatron/gdn/__init__.py
+++ b/src/art/megatron/gdn/__init__.py
@@ -3,12 +3,10 @@
 from .fla_cp import chunk_gated_delta_rule_native_cp
 from .gdn_shared_prefix import (
     GdnPackedExecutionSpec,
-    GdnPackedFamilySpec,
     GdnPlannerConfig,
     GdnRankExecutionPlan,
     GdnSegmentBucketPlan,
     GdnSegmentSpec,
-    build_gdn_cp_segment_schedule,
     build_gdn_rank_execution_plan,
     move_gdn_rank_execution_plan_to_device,
     parse_gdn_shared_prefix_segments,
@@ -19,12 +17,10 @@
 __all__ = [
     "chunk_gated_delta_rule_native_cp",
     "GdnPackedExecutionSpec",
-    "GdnPackedFamilySpec",
     "GdnPlannerConfig",
     "GdnRankExecutionPlan",
     "GdnSegmentSpec",
     "GdnSegmentBucketPlan",
-    "build_gdn_cp_segment_schedule",
     "build_gdn_rank_execution_plan",
     "exchange_rank_tensor_all_to_all",
     "move_gdn_rank_execution_plan_to_device",
diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 3fb693891..cd29a3e3c 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -7,9 +7,9 @@
 import torch
 
 from art.megatron.context_parallel.layout_index import TokenLayoutIndex
+from art.megatron.shared_prefix_tree import parse_shared_prefix_tree
 
 GdnSegmentKind = Literal["prefix", "completion"]
-GdnSegmentDecisionKey = tuple[int, int, int]
 # FLA's public chunk_gated_delta_rule hard-codes 64-token WY chunks.
 FLA_CHUNK_SIZE = 64
 _PydanticModelT = TypeVar("_PydanticModelT", bound=BaseModel)
@@ -38,25 +38,6 @@ def linear_indices(self, sequence_length: int) -> tuple[int, ...]:
         return tuple(range(base + self.start, base + self.end))
 
 
-class GdnPackedFamilySpec(BaseModel):
-    """One shared-prefix family plus child completion segments."""
-
-    model_config = ConfigDict(frozen=True)
-
-    row_index: int = Field(ge=0)
-    family_index: int = Field(ge=0)
-    prefix: GdnSegmentSpec
-    completions: tuple[GdnSegmentSpec, ...]
-
-    @property
-    def completion_count(self) -> int:
-        return len(self.completions)
-
-    @property
-    def token_count(self) -> int:
-        return self.prefix.length + sum(segment.length for segment in self.completions)
-
-
 class GdnPackedExecutionSpec(BaseModel):
     """Parsed shared-prefix GDN execution metadata for a packed batch."""
 
@@ -65,15 +46,17 @@ class GdnPackedExecutionSpec(BaseModel):
     batch_size: int = Field(ge=1)
     sequence_length: int = Field(ge=1)
     valid_lengths: tuple[int, ...]
-    families: tuple[GdnPackedFamilySpec, ...]
+    tree_segments: tuple[GdnSegmentSpec, ...]
+    tree_parent_indices: tuple[int, ...]
+    tree_depths: tuple[int, ...]
 
     @property
     def family_count(self) -> int:
-        return len(self.families)
+        return len(self.tree_segments)
 
     @property
     def completion_count(self) -> int:
-        return sum(family.completion_count for family in self.families)
+        return sum(1 for parent in self.tree_parent_indices if parent >= 0)
 
     @property
     def real_token_count(self) -> int:
@@ -81,19 +64,10 @@ def real_token_count(self) -> int:
 
     @property
     def max_segment_length(self) -> int:
-        lengths = [
-            segment.length
-            for family in self.families
-            for segment in (family.prefix, *family.completions)
-        ]
-        return max(lengths, default=0)
+        return max((segment.length for segment in self.tree_segments), default=0)
 
     def segments(self) -> tuple[GdnSegmentSpec, ...]:
-        return tuple(
-            segment
-            for family in self.families
-            for segment in (family.prefix, *family.completions)
-        )
+        return self.tree_segments
 
 
 _GDN_SEGMENT_SPEC_FIELDS = frozenset(
@@ -108,16 +82,6 @@ def segments(self) -> tuple[GdnSegmentSpec, ...]:
         "child_index",
     }
 )
-_GDN_PACKED_FAMILY_SPEC_FIELDS = frozenset(
-    {
-        "row_index",
-        "family_index",
-        "prefix",
-        "completions",
-    }
-)
-
-
 def _trusted_pydantic_construct(
     model_type: type[_PydanticModelT],
     fields_set: frozenset[str],
@@ -146,6 +110,10 @@ class GdnSegmentBucketPlan(BaseModel):
     row_indices: torch.Tensor
     position_indices: torch.Tensor
     family_indices: torch.Tensor
+    family_indices_cpu: torch.Tensor | None = None
+    parent_indices: torch.Tensor | None = None
+    parent_indices_cpu: torch.Tensor | None = None
+    needs_final_state: bool = True
     real_token_count_static: int = Field(ge=0)
     output_mask: torch.Tensor | None = None
 
@@ -158,17 +126,6 @@ def real_token_count(self) -> int:
         return self.real_token_count_static
 
 
-class GdnParentStateTransferPlan(BaseModel):
-    """Prefix-state rows transferred from one CP rank to another."""
-
-    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
-
-    source_rank: int = Field(ge=0)
-    dest_rank: int = Field(ge=0)
-    family_indices: tuple[int, ...]
-    family_indices_tensor: torch.Tensor | None = None
-
-
 class GdnPlannerConfig(BaseModel):
     """Tunable cost coefficients for one packed-row GDN execution plan."""
 
@@ -179,28 +136,12 @@ class GdnPlannerConfig(BaseModel):
     cp_chain_min_tokens_per_rank: int = Field(default=32, ge=1)
     cp_chain_min_total_tokens: int = Field(default=32768, ge=1)
     cp_chain_min_prefix_only_tokens: int = Field(default=32768, ge=1)
-    local_fork_launch_penalty_tokens: int = Field(default=256, ge=0)
-    cp_collective_latency_tokens: int = Field(default=512, ge=0)
-    parent_state_exchange_penalty_tokens: int = Field(default=16384, ge=0)
-    layout_cross_rank_token_cost: float = Field(default=6.0, ge=0.0)
+    cp_tree_chain_min_total_tokens: int = Field(default=8192, ge=1)
+    cp_tree_chain_min_prefix_only_tokens: int = Field(default=8192, ge=1)
     rank_idle_token_cost: float = Field(default=1.0, ge=0.0)
-    empty_rank_penalty_tokens: int = Field(default=65536, ge=0)
     max_zero_exchange_load_imbalance: float = Field(default=1.5, ge=1.0)
-    local_completion_rebalance_min_imbalance: float = Field(default=1.08, ge=1.0)
-    cp_chain_beam_width: int = Field(default=2, ge=1)
-    cp_chain_beam_branch_factor: int = Field(default=4, ge=1)
-    cp_chain_beam_candidate_limit: int = Field(default=16, ge=1)
-    cp_chain_beam_max_steps: int = Field(default=4, ge=0)
-    cp_chain_beam_min_score_delta_tokens: float = Field(default=512.0, ge=0.0)
-    cp_chain_min_score_delta_ms: float = Field(default=0.25, ge=0.0)
     planner_local_token_ms: float = Field(default=0.00065, ge=0.0)
-    planner_chain_token_ms: float = Field(default=0.00055, ge=0.0)
-    planner_local_bucket_ms: float = Field(default=0.25, ge=0.0)
-    planner_chain_bucket_ms: float = Field(default=22.0, ge=0.0)
-    planner_local_segment_ms: float = Field(default=0.010, ge=0.0)
     planner_layout_cross_rank_token_ms: float = Field(default=0.00008, ge=0.0)
-    planner_parent_state_exchange_base_ms: float = Field(default=40.0, ge=0.0)
-    planner_parent_state_exchange_ms: float = Field(default=0.5, ge=0.0)
     planner_empty_rank_ms: float = Field(default=32.0, ge=0.0)
 
 
@@ -218,29 +159,14 @@ class GdnRankExecutionPlan(BaseModel):
     real_token_mask: torch.Tensor
     family_count: int = Field(ge=0)
     completion_count: int = Field(ge=0)
-    local_prefix_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    local_completion_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    ready_local_completion_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    remote_local_completion_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    chain_prefix_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    chain_completion_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    prefix_table_is_dense_ordered: bool
     attention_to_gdn: Any | None = None
     gdn_to_attention: Any | None = None
     attention_token_ranges: tuple[tuple[int, int, int], ...] = ()
     gdn_token_ranges: tuple[tuple[int, int, int], ...] = ()
     attention_token_count: int = Field(default=0, ge=0)
     gdn_token_count: int = Field(default=0, ge=0)
-    parent_state_exchange_family_indices: tuple[int, ...] = ()
-    parent_state_transfers: tuple[GdnParentStateTransferPlan, ...] = ()
-    prefix_boundary_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    prefix_tail_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    completion_with_prefix_tail_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    remote_prefix_tail_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    remote_completion_with_prefix_tail_buckets: tuple[GdnSegmentBucketPlan, ...] = ()
-    remote_prefix_tail_exchange: Any | None = None
-    remote_prefix_tail_backward_exchange: Any | None = None
-    remote_prefix_tail_state_transfers: tuple[GdnParentStateTransferPlan, ...] = ()
+    tree_segment_buckets_by_depth: tuple[tuple[GdnSegmentBucketPlan, ...], ...] = ()
+    tree_chain_buckets_by_depth: tuple[tuple[GdnSegmentBucketPlan, ...], ...] = ()
 
     @property
     def attention_token_indices(self) -> tuple[int, ...]:
@@ -251,58 +177,6 @@ def gdn_token_indices(self) -> tuple[int, ...]:
         return _tokens_from_rank_ranges(self.gdn_token_ranges)
 
 
-class GdnCpSegmentSchedule(BaseModel):
-    """CPU-side ownership and bucket schedule for one CP GDN plan."""
-
-    model_config = ConfigDict(frozen=True)
-
-    gdn_token_counts_by_rank: tuple[int, ...]
-    gdn_token_ranges_by_rank: tuple[tuple[tuple[int, int, int], ...], ...] = ()
-    cross_rank_token_count: int = Field(ge=0)
-    chain_prefix_buckets: tuple[tuple[GdnSegmentSpec, ...], ...]
-    chain_completion_buckets: tuple[tuple[GdnSegmentSpec, ...], ...]
-    local_prefix_segments_by_rank: tuple[tuple[GdnSegmentSpec, ...], ...]
-    local_completion_segments_by_rank: tuple[tuple[GdnSegmentSpec, ...], ...]
-    parent_state_exchange_family_indices: tuple[int, ...] = ()
-    parent_state_transfers: tuple[GdnParentStateTransferPlan, ...] = ()
-
-
-class _GdnCpSegmentSearchDecision(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
-    chain_segment_keys: frozenset[GdnSegmentDecisionKey]
-    co_locate_local_families: bool
-    score: float
-
-
-class _ExplicitBucketColumn(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
-    row_index: int
-    family_index: int
-    positions: tuple[int, ...]
-    output_mask: tuple[bool, ...]
-
-    @property
-    def length(self) -> int:
-        return len(self.positions)
-
-
-def _explicit_bucket_column(
-    *,
-    row_index: int,
-    family_index: int,
-    positions: tuple[int, ...],
-    output_mask: tuple[bool, ...],
-) -> _ExplicitBucketColumn:
-    return _ExplicitBucketColumn.model_construct(
-        row_index=row_index,
-        family_index=family_index,
-        positions=positions,
-        output_mask=output_mask,
-    )
-
-
 class _AttentionLayoutIndex(BaseModel):
     """Counting index for CP attention token ownership."""
 
@@ -349,7 +223,6 @@ def build_gdn_rank_execution_plan(
     cp_rank: int = 0,
     cp_size: int = 1,
     attention_token_layout_index: TokenLayoutIndex | None = None,
-    cp_segment_schedule: GdnCpSegmentSchedule | None = None,
     planner_config: GdnPlannerConfig | None = None,
 ) -> GdnRankExecutionPlan:
     """Build rank-local tensor metadata from a parsed shared-prefix DAG.
@@ -368,67 +241,228 @@ def build_gdn_rank_execution_plan(
             cp_rank=cp_rank,
             cp_size=cp_size,
             attention_token_layout_index=attention_token_layout_index,
-            cp_segment_schedule=cp_segment_schedule,
             planner_config=planner_config,
         )
         return move_gdn_rank_execution_plan_to_device(cpu_plan, target_device)
-    if cp_size != 1 or cp_rank != 0:
-        return _build_cp_rank_execution_plan(
-            spec,
-            device=device,
-            cp_rank=cp_rank,
-            cp_size=cp_size,
-            attention_token_layout_index=attention_token_layout_index,
-            cp_segment_schedule=cp_segment_schedule,
-            planner_config=planner_config,
-        )
-    (
-        prefix_boundary_buckets,
-        prefix_tail_buckets,
-        completion_with_prefix_tail_buckets,
-    ) = _build_chunk_aligned_cp1_bucket_plans(
+    return _build_tree_rank_execution_plan(
         spec,
         device=device,
+        cp_rank=cp_rank,
+        cp_size=cp_size,
+        attention_token_layout_index=attention_token_layout_index,
+        planner_config=planner_config,
+    )
+
+
+def _build_tree_rank_execution_plan(
+    spec: GdnPackedExecutionSpec,
+    *,
+    device: torch.device | str,
+    cp_rank: int,
+    cp_size: int,
+    attention_token_layout_index: TokenLayoutIndex | None,
+    planner_config: GdnPlannerConfig,
+) -> GdnRankExecutionPlan:
+    if cp_size < 1:
+        raise ValueError(f"cp_size must be >= 1, got {cp_size}")
+    if cp_rank < 0 or cp_rank >= cp_size:
+        raise ValueError(f"cp_rank must be in [0, {cp_size}), got {cp_rank}")
+    if not spec.tree_segments:
+        raise ValueError("tree GDN planning requires tree segments")
+    if len(spec.tree_parent_indices) != len(spec.tree_segments):
+        raise ValueError("tree parent metadata length must match tree segments")
+    if len(spec.tree_depths) != len(spec.tree_segments):
+        raise ValueError("tree depth metadata length must match tree segments")
+
+    from art.megatron.gdn.layout import (
+        _reverse_exchange_plan,
+        build_local_rank_cp_exchange_plan_from_dest_ranges,
+    )
+
+    source_layout = _attention_source_layout(
+        spec,
+        cp_size=cp_size,
+        attention_token_layout_index=attention_token_layout_index,
         planner_config=planner_config,
     )
-    valid_lengths = torch.tensor(
-        spec.valid_lengths,
+    attention_layout_index = _build_attention_layout_index_from_token_layout(
+        source_layout,
+        max_ranges=max(1, 2 * spec.real_token_count // len(spec.tree_segments)),
+    )
+    segment_attention_counts = _segment_attention_rank_counts(
+        spec,
+        cp_size=cp_size,
+        attention_layout_index=attention_layout_index,
+    )
+
+    depth_count = max(spec.tree_depths, default=0) + 1
+    rank_loads = [0] * cp_size
+    owner_by_node = [-1] * len(spec.tree_segments)
+    chained_nodes = [False] * len(spec.tree_segments)
+    tree_has_children = [False] * len(spec.tree_segments)
+    for parent_index in spec.tree_parent_indices:
+        if parent_index >= 0:
+            tree_has_children[parent_index] = True
+    gdn_ranges_by_rank: list[list[tuple[int, int, int]]] = [[] for _ in range(cp_size)]
+    segments_by_rank_depth: list[list[list[GdnSegmentSpec]]] = [
+        [[] for _ in range(depth_count)] for _ in range(cp_size)
+    ]
+    chain_segments_by_depth: list[list[GdnSegmentSpec]] = [
+        [] for _ in range(depth_count)
+    ]
+    cross_rank_token_count = 0
+
+    tree_segments_by_depth: list[list[GdnSegmentSpec]] = [
+        [] for _ in range(depth_count)
+    ]
+    for segment in spec.tree_segments:
+        tree_segments_by_depth[spec.tree_depths[segment.family_index]].append(segment)
+
+    for depth, depth_segments in enumerate(tree_segments_by_depth):
+        local_groups: list[tuple[GdnSegmentSpec, ...]] = []
+        siblings_by_parent: dict[int, list[GdnSegmentSpec]] = {}
+        for segment in depth_segments:
+            parent_index = spec.tree_parent_indices[segment.family_index]
+            if parent_index < 0 and cp_size > 1 and _can_chain_tree_segment(
+                segment,
+                cp_size=cp_size,
+                planner_config=planner_config,
+            ):
+                chained_nodes[segment.family_index] = True
+                chain_segments_by_depth[depth].append(segment)
+                cross_rank_token_count += _append_chain_segment(
+                    gdn_ranges_by_rank,
+                    rank_loads,
+                    segment,
+                    spec,
+                    attention_layout_index=attention_layout_index,
+                )
+                continue
+            if parent_index < 0:
+                local_groups.append((segment,))
+            else:
+                if depth_count <= 2:
+                    siblings_by_parent.setdefault(parent_index, []).append(segment)
+                else:
+                    local_groups.append((segment,))
+        local_groups.extend(tuple(group) for group in siblings_by_parent.values())
+
+        for local_group in local_groups:
+            parent_owner = _tree_group_parent_owner(
+                local_group,
+                tree_parent_indices=spec.tree_parent_indices,
+                owner_by_node=owner_by_node,
+                chained_nodes=chained_nodes,
+            )
+            owner = (
+                parent_owner
+                if parent_owner is not None
+                else _best_segment_owner(
+                    local_group,
+                    rank_loads,
+                    segment_attention_counts=segment_attention_counts,
+                    planner_config=planner_config,
+                )
+            )
+            for segment in local_group:
+                owner_by_node[segment.family_index] = owner
+                segments_by_rank_depth[owner][depth].append(segment)
+                cross_rank_token_count += _append_local_segment(
+                    gdn_ranges_by_rank,
+                    rank_loads,
+                    owner,
+                    segment,
+                    spec,
+                    segment_attention_counts=segment_attention_counts,
+                )
+
+    gdn_ranges_by_rank_by_position = tuple(
+        tuple(ranges) for ranges in gdn_ranges_by_rank
+    )
+    gdn_ranges_by_rank_by_source = tuple(
+        tuple(sorted(ranges)) for ranges in gdn_ranges_by_rank
+    )
+
+    attention_to_gdn = build_local_rank_cp_exchange_plan_from_dest_ranges(
+        source_layout=source_layout,
         device=device,
-        dtype=torch.long,
+        local_rank=cp_rank,
+        dest_ranges_by_rank=gdn_ranges_by_rank_by_position,
+        cross_rank_token_count=cross_rank_token_count,
+    )
+    local_token_ranges = gdn_ranges_by_rank_by_source[cp_rank]
+    tree_segment_buckets_by_depth = tuple(
+        (
+            _build_tree_segment_bucket_plans(
+                tuple(segments_by_rank_depth[cp_rank][depth]),
+                spec.tree_parent_indices,
+                tuple(tree_has_children),
+                device=device,
+                planner_config=planner_config,
+            )
+            if cp_size == 1
+            else _build_tree_position_bucket_plans(
+                tuple(segments_by_rank_depth[cp_rank][depth]),
+                spec.tree_parent_indices,
+                tuple(tree_has_children),
+                local_token_ranges,
+                sequence_length=spec.sequence_length,
+                device=device,
+                planner_config=planner_config,
+            )
+        )
+        for depth in range(depth_count)
+    )
+    tree_chain_buckets_by_depth = (
+        tuple(
+            _build_tree_position_bucket_plans(
+                tuple(chain_segments_by_depth[depth]),
+                spec.tree_parent_indices,
+                tuple(tree_has_children),
+                local_token_ranges,
+                sequence_length=spec.sequence_length,
+                device=device,
+                planner_config=planner_config,
+                token_ranges_by_rank=tuple(
+                    tuple(ranges) for ranges in gdn_ranges_by_rank_by_source
+                ),
+                split_by_final_state=False,
+            )
+            for depth in range(depth_count)
+        )
+        if cp_size > 1
+        else tuple(() for _ in range(depth_count))
     )
-    positions = torch.arange(spec.sequence_length, device=device, dtype=torch.long)
-    local_range_list: list[tuple[int, int, int]] = []
-    local_position = 0
-    for row_index, length in enumerate(spec.valid_lengths):
-        if length:
-            start = row_index * spec.sequence_length
-            local_range_list.append((start, start + length, local_position))
-            local_position += length
-    local_ranges = tuple(local_range_list)
+    if cp_size == 1:
+        valid_lengths = torch.tensor(spec.valid_lengths, device=device, dtype=torch.long)
+        positions = torch.arange(spec.sequence_length, device=device, dtype=torch.long)
+        real_token_mask = positions.unsqueeze(0) < valid_lengths.unsqueeze(1)
+    else:
+        real_token_mask = torch.ones(
+            1,
+            rank_loads[cp_rank],
+            device=device,
+            dtype=torch.bool,
+        )
+
     return GdnRankExecutionPlan.model_construct(
         cp_rank=cp_rank,
         cp_size=cp_size,
-        batch_size=spec.batch_size,
-        sequence_length=spec.sequence_length,
+        batch_size=1 if cp_size > 1 else spec.batch_size,
+        sequence_length=rank_loads[cp_rank] if cp_size > 1 else spec.sequence_length,
         packed_batch_size=spec.batch_size,
         packed_sequence_length=spec.sequence_length,
-        real_token_mask=positions.unsqueeze(0) < valid_lengths.unsqueeze(1),
+        real_token_mask=real_token_mask,
         family_count=spec.family_count,
         completion_count=spec.completion_count,
-        local_prefix_buckets=(),
-        local_completion_buckets=(),
-        ready_local_completion_buckets=(),
-        remote_local_completion_buckets=(),
-        chain_prefix_buckets=(),
-        chain_completion_buckets=(),
-        prefix_table_is_dense_ordered=False,
-        attention_token_ranges=local_ranges,
-        gdn_token_ranges=local_ranges,
-        attention_token_count=spec.real_token_count,
-        gdn_token_count=spec.real_token_count,
-        prefix_boundary_buckets=prefix_boundary_buckets,
-        prefix_tail_buckets=prefix_tail_buckets,
-        completion_with_prefix_tail_buckets=completion_with_prefix_tail_buckets,
+        attention_to_gdn=attention_to_gdn,
+        gdn_to_attention=_reverse_exchange_plan(attention_to_gdn),
+        attention_token_ranges=source_layout.ownership_ranges_by_rank[cp_rank],
+        gdn_token_ranges=gdn_ranges_by_rank_by_position[cp_rank],
+        attention_token_count=source_layout.token_counts_by_rank[cp_rank],
+        gdn_token_count=rank_loads[cp_rank],
+        tree_segment_buckets_by_depth=tree_segment_buckets_by_depth,
+        tree_chain_buckets_by_depth=tree_chain_buckets_by_depth,
     )
 
 
@@ -450,52 +484,19 @@ def move_gdn_rank_execution_plan_to_device(
         real_token_mask=_move_planner_tensor(plan.real_token_mask, device),
         family_count=plan.family_count,
         completion_count=plan.completion_count,
-        local_prefix_buckets=_move_bucket_plans(plan.local_prefix_buckets, device),
-        local_completion_buckets=_move_bucket_plans(
-            plan.local_completion_buckets, device
-        ),
-        ready_local_completion_buckets=_move_bucket_plans(
-            plan.ready_local_completion_buckets, device
-        ),
-        remote_local_completion_buckets=_move_bucket_plans(
-            plan.remote_local_completion_buckets, device
-        ),
-        chain_prefix_buckets=_move_bucket_plans(plan.chain_prefix_buckets, device),
-        chain_completion_buckets=_move_bucket_plans(
-            plan.chain_completion_buckets, device
-        ),
-        prefix_table_is_dense_ordered=plan.prefix_table_is_dense_ordered,
         attention_to_gdn=move_cp_exchange_plan_to_device(plan.attention_to_gdn, device),
         gdn_to_attention=move_cp_exchange_plan_to_device(plan.gdn_to_attention, device),
         attention_token_ranges=plan.attention_token_ranges,
         gdn_token_ranges=plan.gdn_token_ranges,
         attention_token_count=plan.attention_token_count,
         gdn_token_count=plan.gdn_token_count,
-        parent_state_exchange_family_indices=plan.parent_state_exchange_family_indices,
-        parent_state_transfers=_move_parent_state_transfers(
-            plan.parent_state_transfers, device
-        ),
-        prefix_boundary_buckets=_move_bucket_plans(
-            plan.prefix_boundary_buckets, device
-        ),
-        prefix_tail_buckets=_move_bucket_plans(plan.prefix_tail_buckets, device),
-        completion_with_prefix_tail_buckets=_move_bucket_plans(
-            plan.completion_with_prefix_tail_buckets, device
-        ),
-        remote_prefix_tail_buckets=_move_bucket_plans(
-            plan.remote_prefix_tail_buckets, device
-        ),
-        remote_completion_with_prefix_tail_buckets=_move_bucket_plans(
-            plan.remote_completion_with_prefix_tail_buckets, device
-        ),
-        remote_prefix_tail_exchange=move_cp_exchange_plan_to_device(
-            plan.remote_prefix_tail_exchange, device
-        ),
-        remote_prefix_tail_backward_exchange=move_cp_exchange_plan_to_device(
-            plan.remote_prefix_tail_backward_exchange, device
+        tree_segment_buckets_by_depth=tuple(
+            _move_bucket_plans(buckets, device)
+            for buckets in plan.tree_segment_buckets_by_depth
         ),
-        remote_prefix_tail_state_transfers=_move_parent_state_transfers(
-            plan.remote_prefix_tail_state_transfers, device
+        tree_chain_buckets_by_depth=tuple(
+            _move_bucket_plans(buckets, device)
+            for buckets in plan.tree_chain_buckets_by_depth
         ),
     )
 
@@ -516,6 +517,14 @@ def _move_bucket_plans(
             row_indices=_move_planner_tensor(bucket.row_indices, device),
             position_indices=_move_planner_tensor(bucket.position_indices, device),
             family_indices=_move_planner_tensor(bucket.family_indices, device),
+            family_indices_cpu=bucket.family_indices_cpu,
+            parent_indices=(
+                _move_planner_tensor(bucket.parent_indices, device)
+                if bucket.parent_indices is not None
+                else None
+            ),
+            parent_indices_cpu=bucket.parent_indices_cpu,
+            needs_final_state=bucket.needs_final_state,
             real_token_count_static=bucket.real_token_count,
             output_mask=(
                 _move_planner_tensor(bucket.output_mask, device)
@@ -527,2795 +536,175 @@ def _move_bucket_plans(
     )
 
 
-def _move_parent_state_transfers(
-    transfers: tuple[GdnParentStateTransferPlan, ...],
-    device: torch.device | str,
-) -> tuple[GdnParentStateTransferPlan, ...]:
-    return tuple(
-        GdnParentStateTransferPlan.model_construct(
-            source_rank=transfer.source_rank,
-            dest_rank=transfer.dest_rank,
-            family_indices=transfer.family_indices,
-            family_indices_tensor=(
-                _move_planner_tensor(transfer.family_indices_tensor, device)
-                if transfer.family_indices_tensor is not None
-                else None
-            ),
-        )
-        for transfer in transfers
-    )
-
-
-def _build_local_attention_layout_rank_execution_plan(
-    spec: GdnPackedExecutionSpec,
+def parse_gdn_shared_prefix_segments(
+    group_ids: torch.Tensor,
+    parent_ids: torch.Tensor,
     *,
-    device: torch.device | str,
-    cp_rank: int,
-    cp_size: int,
-    attention_token_layout_index: TokenLayoutIndex | None,
-    planner_config: GdnPlannerConfig,
-) -> GdnRankExecutionPlan | None:
-    if cp_size <= 1 or not spec.families:
-        return None
-    if any(
-        _has_chainable_segment(family, cp_size=cp_size, planner_config=planner_config)
-        for family in spec.families
-    ):
-        return None
-
-    from art.megatron.gdn.layout import (
-        _reverse_exchange_plan,
-        build_local_rank_cp_exchange_plan_from_dest_ranges,
-    )
-
-    source_layout = _attention_source_layout(
-        spec,
-        cp_size=cp_size,
-        attention_token_layout_index=attention_token_layout_index,
-        planner_config=planner_config,
-    )
-    attention_layout_index = _build_attention_layout_index_from_token_layout(
-        source_layout,
-        max_ranges=max(1, 2 * spec.real_token_count // len(tuple(spec.segments()))),
-    )
-    segment_attention_counts = _segment_attention_rank_counts(
-        spec,
-        cp_size=cp_size,
-        attention_layout_index=attention_layout_index,
-    )
-    best = _assign_local_attention_segments(
-        spec,
-        cp_size=cp_size,
-        segment_attention_counts=segment_attention_counts,
-        co_locate_local_families=False,
-        planner_config=planner_config,
-    )
-    co_located = _assign_local_attention_segments(
-        spec,
-        cp_size=cp_size,
-        segment_attention_counts=segment_attention_counts,
-        co_locate_local_families=True,
-        planner_config=planner_config,
-    )
-    if co_located[4] < best[4]:
-        best = co_located
-    (
-        prefix_owner_by_family,
-        completion_owners_by_family,
-        _,
-        cross_rank_token_count,
-        _,
-    ) = best
-
-    local_prefix_segments: list[GdnSegmentSpec] = []
-    local_completion_segments: list[GdnSegmentSpec] = []
-    prefix_segments_by_rank: list[list[GdnSegmentSpec]] = [[] for _ in range(cp_size)]
-    completion_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    gdn_ranges_by_rank: list[list[tuple[int, int, int]]] = [[] for _ in range(cp_size)]
-    rank_loads = [0] * cp_size
-    parent_state_exchange_families: set[int] = set()
-    parent_state_transfer_families: dict[tuple[int, int], set[int]] = {}
+    min_completions_per_family: int = 0,
+) -> GdnPackedExecutionSpec:
+    """Parse ART packed shared-prefix metadata into generic GDN tree nodes."""
 
-    def append_segment(rank: int, segment: GdnSegmentSpec) -> None:
-        token_start = _segment_token_start(segment, spec.sequence_length)
-        position_start = rank_loads[rank]
-        gdn_ranges_by_rank[rank].append(
-            (token_start, token_start + segment.length, position_start)
-        )
-        rank_loads[rank] += segment.length
-
-    for family in spec.families:
-        prefix_owner = prefix_owner_by_family[family.family_index]
-        if prefix_owner == cp_rank:
-            local_prefix_segments.append(family.prefix)
-        prefix_segments_by_rank[prefix_owner].append(family.prefix)
-        append_segment(prefix_owner, family.prefix)
-        completion_owners = completion_owners_by_family[family.family_index]
-        for completion, completion_owner in zip(
-            family.completions, completion_owners, strict=True
-        ):
-            if completion_owner == cp_rank:
-                local_completion_segments.append(completion)
-            completion_segments_by_rank[completion_owner].append(completion)
-            append_segment(completion_owner, completion)
-            if completion_owner != prefix_owner:
-                parent_state_exchange_families.add(family.family_index)
-                parent_state_transfer_families.setdefault(
-                    (prefix_owner, completion_owner), set()
-                ).add(family.family_index)
-
-    local_token_ranges = tuple(gdn_ranges_by_rank[cp_rank])
-    local_token_count = rank_loads[cp_rank]
-    schedule = GdnCpSegmentSchedule.model_construct(
-        gdn_token_counts_by_rank=tuple(rank_loads),
-        gdn_token_ranges_by_rank=tuple(tuple(ranges) for ranges in gdn_ranges_by_rank),
-        cross_rank_token_count=cross_rank_token_count,
-        chain_prefix_buckets=(),
-        chain_completion_buckets=(),
-        local_prefix_segments_by_rank=tuple(
-            tuple(segments) for segments in prefix_segments_by_rank
-        ),
-        local_completion_segments_by_rank=tuple(
-            tuple(segments) for segments in completion_segments_by_rank
-        ),
-        parent_state_exchange_family_indices=tuple(
-            sorted(parent_state_exchange_families)
-        ),
-        parent_state_transfers=_build_parent_state_transfer_plans(
-            parent_state_transfer_families
-        ),
-    )
-    if parent_state_transfer_families:
-        (
-            remote_prefix_tail_buckets,
-            remote_completion_with_prefix_tail_buckets,
-            remote_prefix_tail_exchange,
-            remote_prefix_tail_backward_exchange,
-            remote_prefix_tail_state_transfers,
-            remote_prefix_tail_families,
-        ) = _build_remote_prefix_tail_plans(
-            spec,
-            schedule,
-            cp_rank=cp_rank,
-            device=device,
-            planner_config=planner_config,
-        )
-    else:
-        (
-            remote_prefix_tail_buckets,
-            remote_completion_with_prefix_tail_buckets,
-            remote_prefix_tail_exchange,
-            remote_prefix_tail_backward_exchange,
-            remote_prefix_tail_state_transfers,
-            remote_prefix_tail_families,
-        ) = _empty_remote_prefix_tail_plans()
-    attention_to_gdn = build_local_rank_cp_exchange_plan_from_dest_ranges(
-        source_layout=source_layout,
-        device=device,
-        dest_ranges_by_rank=tuple(tuple(ranges) for ranges in gdn_ranges_by_rank),
-        local_rank=cp_rank,
-        cross_rank_token_count=cross_rank_token_count,
-    )
-    gdn_to_attention = _reverse_exchange_plan(attention_to_gdn)
-    local_prefix_family_indices = {
-        segment.family_index for segment in local_prefix_segments
-    }
-    local_prefix_buckets = _batch_segments_by_padded_work(
-        (),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    chunk_local_completion_segments = tuple(
-        segment
-        for segment in local_completion_segments
-        if segment.family_index in local_prefix_family_indices
-    )
-    plain_local_completion_segments = tuple(
-        segment
-        for segment in local_completion_segments
-        if segment.family_index not in local_prefix_family_indices
-        and segment.family_index not in remote_prefix_tail_families
-    )
-    ready_completion_segments, remote_completion_segments = (
-        _split_ready_and_remote_completion_segments(
-            plain_local_completion_segments,
-            local_prefix_segments=(),
-            chain_prefix_buckets=(),
-        )
-    )
-    ready_completion_buckets = _batch_segments_by_padded_work(
-        ready_completion_segments,
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    remote_completion_buckets = _batch_segments_by_padded_work(
-        remote_completion_segments,
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    prefix_family_order = tuple(
-        segment.family_index for bucket in local_prefix_buckets for segment in bucket
-    )
-    ready_completion_bucket_plans = _build_position_bucket_plans(
-        ready_completion_buckets,
-        local_token_ranges,
-        sequence_length=spec.sequence_length,
-        device=device,
-    )
-    remote_completion_bucket_plans = _build_position_bucket_plans(
-        remote_completion_buckets,
-        local_token_ranges,
-        sequence_length=spec.sequence_length,
-        device=device,
-    )
-    (
-        prefix_boundary_buckets,
-        prefix_tail_buckets,
-        completion_with_prefix_tail_buckets,
-    ) = _build_chunk_aligned_position_bucket_plans(
-        tuple(local_prefix_segments),
-        chunk_local_completion_segments,
-        local_token_ranges,
-        sequence_length=spec.sequence_length,
-        device=device,
-        planner_config=planner_config,
-    )
-    return GdnRankExecutionPlan.model_construct(
-        cp_rank=cp_rank,
-        cp_size=cp_size,
-        batch_size=1,
-        sequence_length=local_token_count,
-        packed_batch_size=spec.batch_size,
-        packed_sequence_length=spec.sequence_length,
-        real_token_mask=torch.ones(
-            1, local_token_count, device=device, dtype=torch.bool
-        ),
-        family_count=spec.family_count,
-        completion_count=spec.completion_count,
-        local_prefix_buckets=_build_position_bucket_plans(
-            local_prefix_buckets,
-            local_token_ranges,
-            sequence_length=spec.sequence_length,
-            device=device,
-        ),
-        local_completion_buckets=(
-            ready_completion_bucket_plans + remote_completion_bucket_plans
-        ),
-        ready_local_completion_buckets=ready_completion_bucket_plans,
-        remote_local_completion_buckets=remote_completion_bucket_plans,
-        chain_prefix_buckets=(),
-        chain_completion_buckets=(),
-        prefix_table_is_dense_ordered=(
-            not local_prefix_segments
-            and prefix_family_order == tuple(range(spec.family_count))
-        ),
-        attention_to_gdn=attention_to_gdn,
-        gdn_to_attention=gdn_to_attention,
-        attention_token_ranges=source_layout.ownership_ranges_by_rank[cp_rank],
-        gdn_token_ranges=local_token_ranges,
-        attention_token_count=source_layout.token_counts_by_rank[cp_rank],
-        gdn_token_count=local_token_count,
-        parent_state_exchange_family_indices=tuple(
-            sorted(parent_state_exchange_families - remote_prefix_tail_families)
-        ),
-        parent_state_transfers=_filter_parent_state_transfers(
-            _build_parent_state_transfer_plans(parent_state_transfer_families),
-            excluded_families=remote_prefix_tail_families,
-            device=device,
-        ),
-        prefix_boundary_buckets=prefix_boundary_buckets,
-        prefix_tail_buckets=prefix_tail_buckets,
-        completion_with_prefix_tail_buckets=completion_with_prefix_tail_buckets,
-        remote_prefix_tail_buckets=remote_prefix_tail_buckets,
-        remote_completion_with_prefix_tail_buckets=remote_completion_with_prefix_tail_buckets,
-        remote_prefix_tail_exchange=remote_prefix_tail_exchange,
-        remote_prefix_tail_backward_exchange=remote_prefix_tail_backward_exchange,
-        remote_prefix_tail_state_transfers=remote_prefix_tail_state_transfers,
-    )
-
-
-def _assign_local_attention_segments(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-    co_locate_local_families: bool,
-    planner_config: GdnPlannerConfig,
-) -> tuple[
-    tuple[int, ...],
-    tuple[tuple[int, ...], ...],
-    tuple[int, ...],
-    int,
-    float,
-]:
-    rank_loads = [0] * cp_size
-    has_prefix = [False] * cp_size
-    has_completion = [False] * cp_size
-    prefix_owner_by_family: list[int] = []
-    completion_owners_by_family: list[tuple[int, ...]] = []
-    parent_state_exchange_families: set[int] = set()
-    cross_rank_token_count = 0
-
-    def append_owner(rank: int, segment: GdnSegmentSpec) -> None:
-        nonlocal cross_rank_token_count
-        rank_loads[rank] += segment.length
-        cross_rank_token_count += (
-            segment.length - segment_attention_counts[_segment_key(segment)][rank]
-        )
-
-    for family in spec.families:
-        if co_locate_local_families:
-            owner = _best_segment_owner(
-                (family.prefix, *family.completions),
-                rank_loads,
-                segment_attention_counts=segment_attention_counts,
-                planner_config=planner_config,
-            )
-            prefix_owner_by_family.append(owner)
-            completion_owners = tuple(owner for _ in family.completions)
-            completion_owners_by_family.append(completion_owners)
-            has_prefix[owner] = True
-            for segment in (family.prefix, *family.completions):
-                append_owner(owner, segment)
-            if family.completions:
-                has_completion[owner] = True
-            continue
-
-        prefix_owner = _best_segment_owner(
-            (family.prefix,),
-            rank_loads,
-            segment_attention_counts=segment_attention_counts,
-            planner_config=planner_config,
-        )
-        prefix_owner_by_family.append(prefix_owner)
-        has_prefix[prefix_owner] = True
-        append_owner(prefix_owner, family.prefix)
-        completion_owners = []
-        for completion in family.completions:
-            owner = _best_segment_owner(
-                (completion,),
-                rank_loads,
-                segment_attention_counts=segment_attention_counts,
-                planner_config=planner_config,
-            )
-            completion_owners.append(owner)
-            has_completion[owner] = True
-            append_owner(owner, completion)
-            if owner != prefix_owner:
-                parent_state_exchange_families.add(family.family_index)
-        completion_owners_by_family.append(tuple(completion_owners))
-
-    del has_prefix, has_completion
-    score = _score_local_segment_assignment(
-        spec,
-        cp_size=cp_size,
-        prefix_owner_by_family=tuple(prefix_owner_by_family),
-        completion_owners_by_family=tuple(completion_owners_by_family),
-        rank_loads=tuple(rank_loads),
-        cross_rank_token_count=cross_rank_token_count,
-        parent_state_exchange_family_count=len(parent_state_exchange_families),
-        planner_config=planner_config,
-    )
-    return (
-        tuple(prefix_owner_by_family),
-        tuple(completion_owners_by_family),
-        tuple(sorted(parent_state_exchange_families)),
-        cross_rank_token_count,
-        score,
-    )
-
-
-def _score_local_segment_assignment(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    prefix_owner_by_family: tuple[int, ...],
-    completion_owners_by_family: tuple[tuple[int, ...], ...],
-    rank_loads: tuple[int, ...],
-    cross_rank_token_count: int,
-    parent_state_exchange_family_count: int,
-    planner_config: GdnPlannerConfig,
-) -> float:
-    local_prefix_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    local_completion_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    for family in spec.families:
-        prefix_owner = prefix_owner_by_family[family.family_index]
-        local_prefix_segments_by_rank[prefix_owner].append(family.prefix)
-        completion_owners = completion_owners_by_family[family.family_index]
-        for completion, completion_owner in zip(
-            family.completions, completion_owners, strict=True
-        ):
-            local_completion_segments_by_rank[completion_owner].append(completion)
-    (
-        local_work_by_rank,
-        local_bucket_count,
-        local_segment_count,
-    ) = _estimate_local_rank_kernel_work(
-        tuple(tuple(segments) for segments in local_prefix_segments_by_rank),
-        tuple(tuple(segments) for segments in local_completion_segments_by_rank),
-        planner_config=planner_config,
-    )
-    return _score_cp_segment_stats(
-        rank_local_work=local_work_by_rank,
-        rank_chain_work=tuple(0 for _ in range(cp_size)),
-        rank_real_tokens=rank_loads,
-        cross_rank_token_count=cross_rank_token_count,
-        parent_state_exchange_family_count=parent_state_exchange_family_count,
-        local_bucket_count=local_bucket_count,
-        local_segment_count=local_segment_count,
-        chain_bucket_count=0,
-        planner_config=planner_config,
-    )
-
-
-def _can_zero_exchange_colocate_families(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-) -> bool:
-    for family in spec.families:
-        family_rank_counts = [0] * cp_size
-        for segment in (family.prefix, *family.completions):
-            segment_counts = segment_attention_counts[_segment_key(segment)]
-            for rank in range(cp_size):
-                family_rank_counts[rank] += segment_counts[rank]
-        if max(family_rank_counts, default=0) != family.token_count:
-            return False
-    return True
-
-
-def parse_gdn_shared_prefix_segments(
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
-    *,
-    min_completions_per_family: int = 0,
-) -> GdnPackedExecutionSpec:
-    """Parse ART packed shared-prefix metadata into a GDN segment DAG.
-
-    The parser is intentionally strict: GDN state routing depends on prompt-family
-    boundaries, so malformed metadata should fail before execution can silently
-    leak recurrent or conv state across siblings or independent families.
-    """
-
-    groups = _rank2_long_cpu("group_ids", group_ids)
-    parents = _rank2_long_cpu("parent_ids", parent_ids)
-    if tuple(groups.shape) != tuple(parents.shape):
-        raise ValueError(
-            "group_ids and parent_ids must have the same shape, got "
-            f"{tuple(groups.shape)} and {tuple(parents.shape)}"
+    del min_completions_per_family
+    groups = _rank2_long_cpu("group_ids", group_ids)
+    parents = _rank2_long_cpu("parent_ids", parent_ids)
+    if tuple(groups.shape) != tuple(parents.shape):
+        raise ValueError(
+            "group_ids and parent_ids must have the same shape, got "
+            f"{tuple(groups.shape)} and {tuple(parents.shape)}"
         )
 
     batch_size, sequence_length = (int(groups.shape[0]), int(groups.shape[1]))
-    valid_lengths: list[int] = []
-    families: list[GdnPackedFamilySpec] = []
-    for row_index in range(batch_size):
-        row_group_ids = groups[row_index]
-        row_parent_ids = parents[row_index]
-        valid_length = _validate_padding_tensor(
-            row_index, row_group_ids, row_parent_ids
-        )
-        valid_lengths.append(valid_length)
-        if valid_length == 0:
-            continue
-        families.extend(
-            _parse_row_tensor(
-                row_index=row_index,
-                group_ids=row_group_ids,
-                parent_ids=row_parent_ids,
-                valid_length=valid_length,
-                first_family_index=len(families),
-                min_completions_per_family=min_completions_per_family,
-            )
-        )
-
-    return GdnPackedExecutionSpec(
-        batch_size=batch_size,
-        sequence_length=sequence_length,
-        valid_lengths=tuple(valid_lengths),
-        families=tuple(families),
-    )
-
-
-def _build_segment_bucket_plans(
-    segment_buckets: tuple[tuple[GdnSegmentSpec, ...], ...],
-    *,
-    device: torch.device | str,
-) -> tuple[GdnSegmentBucketPlan, ...]:
-    return tuple(
-        _build_segment_bucket_plan(bucket[0].length, bucket, device=device)
-        for bucket in segment_buckets
-    )
-
-
-def _build_chunk_aligned_cp1_bucket_plans(
-    spec: GdnPackedExecutionSpec,
-    *,
-    device: torch.device | str,
-    planner_config: GdnPlannerConfig,
-) -> tuple[
-    tuple[GdnSegmentBucketPlan, ...],
-    tuple[GdnSegmentBucketPlan, ...],
-    tuple[GdnSegmentBucketPlan, ...],
-]:
-    boundary_segments: list[GdnSegmentSpec] = []
-    tail_segments: list[GdnSegmentSpec] = []
-    completion_columns: list[_ExplicitBucketColumn] = []
-    for family in spec.families:
-        prefix = family.prefix
-        boundary_end = _prefix_chunk_boundary_end(prefix)
-        if boundary_end > prefix.start:
-            boundary_segments.append(
-                _segment_with_bounds(prefix, prefix.start, boundary_end)
-            )
-        prefix_tail_positions = tuple(range(boundary_end, prefix.end))
-        if prefix_tail_positions and not family.completions:
-            tail_segments.append(_segment_with_bounds(prefix, boundary_end, prefix.end))
-        for child_offset, completion in enumerate(family.completions):
-            completion_positions = prefix_tail_positions + tuple(
-                range(completion.start, completion.end)
-            )
-            completion_columns.append(
-                _explicit_bucket_column(
-                    row_index=completion.row_index,
-                    family_index=completion.family_index,
-                    positions=completion_positions,
-                    output_mask=(
-                        ((child_offset == 0),) * len(prefix_tail_positions)
-                        + (True,) * completion.length
-                    ),
-                )
-            )
-    boundary_buckets = _batch_segments_by_padded_work(
-        tuple(boundary_segments),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    tail_buckets = _batch_segments_by_padded_work(
-        tuple(tail_segments),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    completion_column_batches = _batch_explicit_bucket_columns(
-        tuple(completion_columns),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    return (
-        _build_segment_bucket_plans(boundary_buckets, device=device),
-        _build_segment_bucket_plans(tail_buckets, device=device),
-        _build_explicit_bucket_plans(completion_column_batches, device=device),
-    )
-
-
-def _build_chunk_aligned_position_bucket_plans(
-    prefix_segments: tuple[GdnSegmentSpec, ...],
-    completion_segments: tuple[GdnSegmentSpec, ...],
-    local_token_ranges: tuple[tuple[int, int, int], ...],
-    *,
-    sequence_length: int,
-    device: torch.device | str,
-    planner_config: GdnPlannerConfig,
-) -> tuple[
-    tuple[GdnSegmentBucketPlan, ...],
-    tuple[GdnSegmentBucketPlan, ...],
-    tuple[GdnSegmentBucketPlan, ...],
-]:
-    local_range_ends = tuple(token_end for _, token_end, _ in local_token_ranges)
-    local_range_positions = {
-        (token_start, token_end): position_start
-        for token_start, token_end, position_start in local_token_ranges
-    }
-    completions_by_family: dict[int, list[GdnSegmentSpec]] = {}
-    for completion in completion_segments:
-        completions_by_family.setdefault(completion.family_index, []).append(completion)
-    boundary_segments: list[GdnSegmentSpec] = []
-    tail_segments: list[GdnSegmentSpec] = []
-    completion_columns: list[_ExplicitBucketColumn] = []
-    for prefix in prefix_segments:
-        boundary_end = _prefix_chunk_boundary_end(prefix)
-        if boundary_end > prefix.start:
-            boundary_segments.append(
-                _segment_with_bounds(prefix, prefix.start, boundary_end)
-            )
-        family_completions = tuple(completions_by_family.get(prefix.family_index, ()))
-        prefix_tail_positions = _local_positions_for_span(
-            prefix.row_index,
-            boundary_end,
-            prefix.end,
-            sequence_length=sequence_length,
-            local_token_ranges=local_token_ranges,
-            local_range_ends=local_range_ends,
-            local_range_positions=local_range_positions,
-        )
-        if prefix_tail_positions and not family_completions:
-            tail_segments.append(_segment_with_bounds(prefix, boundary_end, prefix.end))
-        for child_offset, completion in enumerate(family_completions):
-            completion_positions = _local_positions_for_span(
-                completion.row_index,
-                completion.start,
-                completion.end,
-                sequence_length=sequence_length,
-                local_token_ranges=local_token_ranges,
-                local_range_ends=local_range_ends,
-                local_range_positions=local_range_positions,
-            )
-            positions = prefix_tail_positions + completion_positions
-            completion_columns.append(
-                _explicit_bucket_column(
-                    row_index=0,
-                    family_index=completion.family_index,
-                    positions=positions,
-                    output_mask=(
-                        ((child_offset == 0),) * len(prefix_tail_positions)
-                        + (True,) * len(completion_positions)
-                    ),
-                )
-            )
-    boundary_buckets = _batch_segments_by_padded_work(
-        tuple(boundary_segments),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    tail_buckets = _batch_segments_by_padded_work(
-        tuple(tail_segments),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    completion_column_batches = _batch_explicit_bucket_columns(
-        tuple(completion_columns),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    return (
-        _build_position_bucket_plans(
-            boundary_buckets,
-            local_token_ranges,
-            sequence_length=sequence_length,
-            device=device,
-        ),
-        _build_position_bucket_plans(
-            tail_buckets,
-            local_token_ranges,
-            sequence_length=sequence_length,
-            device=device,
-        ),
-        _build_explicit_bucket_plans(completion_column_batches, device=device),
-    )
-
-
-def _build_remote_prefix_tail_plans(
-    spec: GdnPackedExecutionSpec,
-    schedule: GdnCpSegmentSchedule,
-    *,
-    cp_rank: int,
-    device: torch.device | str,
-    planner_config: GdnPlannerConfig,
-) -> tuple[
-    tuple[GdnSegmentBucketPlan, ...],
-    tuple[GdnSegmentBucketPlan, ...],
-    Any | None,
-    Any | None,
-    tuple[GdnParentStateTransferPlan, ...],
-    frozenset[int],
-]:
-    from art.megatron.gdn.layout import (
-        GdnCpExchangePlan,
-        GdnCpPeerTransfer,
-        _reverse_exchange_plan,
-    )
-
-    family_by_index = {family.family_index: family for family in spec.families}
-    prefix_owner_by_family = _prefix_owner_by_family(schedule)
-    source_positions_by_pair: dict[tuple[int, int], list[int]] = {}
-    dest_positions_by_pair: dict[tuple[int, int], list[int]] = {}
-    dest_counts = [0 for _ in schedule.gdn_token_counts_by_rank]
-    state_transfer_families: dict[tuple[int, int], set[int]] = {}
-    remote_tail_family_indices: set[int] = set()
-    local_tail_columns: list[_ExplicitBucketColumn] = []
-    local_completion_columns: list[_ExplicitBucketColumn] = []
-    tail_positions_by_dest_family: dict[tuple[int, int], tuple[int, ...]] = {}
-    local_tail_column_families: set[int] = set()
-    rank_ranges = schedule.gdn_token_ranges_by_rank
-    rank_range_ends = tuple(
-        tuple(end for _, end, _ in ranges) for ranges in rank_ranges
-    )
-    rank_range_positions = tuple(
-        {
-            (token_start, token_end): position_start
-            for token_start, token_end, position_start in ranges
-        }
-        for ranges in rank_ranges
-    )
-
-    for dest_rank, completions in enumerate(schedule.local_completion_segments_by_rank):
-        for completion in completions:
-            source_rank = prefix_owner_by_family.get(completion.family_index)
-            if source_rank is None or source_rank == dest_rank:
-                continue
-            family = family_by_index[completion.family_index]
-            boundary_end = _prefix_chunk_boundary_end(family.prefix)
-            if boundary_end == family.prefix.end:
-                continue
-            dest_family = (dest_rank, family.family_index)
-            dest_positions = tail_positions_by_dest_family.get(dest_family)
-            if dest_positions is None:
-                source_positions = _local_positions_for_span(
-                    family.prefix.row_index,
-                    boundary_end,
-                    family.prefix.end,
-                    sequence_length=spec.sequence_length,
-                    local_token_ranges=rank_ranges[source_rank],
-                    local_range_ends=rank_range_ends[source_rank],
-                    local_range_positions=rank_range_positions[source_rank],
-                )
-                if len(source_positions) != family.prefix.end - boundary_end:
-                    raise ValueError(
-                        "remote prefix-tail exchange could not locate all source tokens "
-                        f"for family {family.family_index}"
-                    )
-                dest_start = dest_counts[dest_rank]
-                dest_positions = tuple(
-                    range(dest_start, dest_start + len(source_positions))
-                )
-                tail_positions_by_dest_family[dest_family] = dest_positions
-                dest_counts[dest_rank] += len(source_positions)
-                pair = (source_rank, dest_rank)
-                source_positions_by_pair.setdefault(pair, []).extend(source_positions)
-                dest_positions_by_pair.setdefault(pair, []).extend(dest_positions)
-                state_transfer_families.setdefault(pair, set()).add(family.family_index)
-                remote_tail_family_indices.add(family.family_index)
-
-            if dest_rank != cp_rank:
-                continue
-            completion_positions = _local_positions_for_span(
-                completion.row_index,
-                completion.start,
-                completion.end,
-                sequence_length=spec.sequence_length,
-                local_token_ranges=rank_ranges[dest_rank],
-                local_range_ends=rank_range_ends[dest_rank],
-                local_range_positions=rank_range_positions[dest_rank],
-            )
-            if len(completion_positions) != completion.length:
-                raise ValueError(
-                    "remote prefix-tail bucket could not locate all completion tokens "
-                    f"for family {family.family_index}"
-                )
-            remote_base = int(schedule.gdn_token_counts_by_rank[dest_rank])
-            if (
-                len(dest_positions) > 0
-                and family.family_index not in local_tail_column_families
-            ):
-                local_tail_column_families.add(family.family_index)
-                local_tail_columns.append(
-                    _explicit_bucket_column(
-                        row_index=0,
-                        family_index=family.family_index,
-                        positions=tuple(remote_base + pos for pos in dest_positions),
-                        output_mask=(False,) * len(dest_positions),
-                    )
-                )
-            local_completion_columns.append(
-                _explicit_bucket_column(
-                    row_index=0,
-                    family_index=family.family_index,
-                    positions=completion_positions,
-                    output_mask=(True,) * len(completion_positions),
-                )
-            )
-
-    if not source_positions_by_pair:
-        return (), (), None, None, (), frozenset()
-
-    transfers = tuple(
-        GdnCpPeerTransfer.model_construct(
-            source_rank=source_rank,
-            dest_rank=dest_rank,
-            token_count=len(source_positions),
-            source_positions_tensor=_move_planner_tensor(
-                torch.tensor(source_positions, dtype=torch.long), device
-            ),
-            dest_positions_tensor=_move_planner_tensor(
-                torch.tensor(
-                    dest_positions_by_pair[(source_rank, dest_rank)],
-                    dtype=torch.long,
-                ),
-                device,
-            ),
-        )
-        for (source_rank, dest_rank), source_positions in sorted(
-            source_positions_by_pair.items()
-        )
-    )
-    exchange = GdnCpExchangePlan.model_construct(
-        cp_size=len(schedule.gdn_token_counts_by_rank),
-        source_token_counts_by_rank=schedule.gdn_token_counts_by_rank,
-        dest_token_counts_by_rank=tuple(dest_counts),
-        transfers=transfers,
-        cross_rank_token_count_override=sum(dest_counts),
-    )
-    tail_column_batches = _batch_explicit_bucket_columns(
-        tuple(local_tail_columns),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    completion_column_batches = _batch_explicit_bucket_columns(
-        tuple(local_completion_columns),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    return (
-        _build_explicit_bucket_plans(tail_column_batches, device=device),
-        _build_explicit_bucket_plans(completion_column_batches, device=device),
-        exchange,
-        _reverse_exchange_plan(exchange),
-        _transfer_plans_to_device(
-            _build_parent_state_transfer_plans(state_transfer_families),
-            device=device,
-        ),
-        frozenset(remote_tail_family_indices),
-    )
-
-
-def _empty_remote_prefix_tail_plans() -> tuple[
-    tuple[GdnSegmentBucketPlan, ...],
-    tuple[GdnSegmentBucketPlan, ...],
-    Any | None,
-    Any | None,
-    tuple[GdnParentStateTransferPlan, ...],
-    frozenset[int],
-]:
-    return (), (), None, None, (), frozenset()
-
-
-def _prefix_owner_by_family(schedule: GdnCpSegmentSchedule) -> dict[int, int]:
-    owners: dict[int, int] = {}
-    for rank, segments in enumerate(schedule.local_prefix_segments_by_rank):
-        for segment in segments:
-            owners[segment.family_index] = rank
-    return owners
-
-
-def _filter_parent_state_transfers(
-    transfers: tuple[GdnParentStateTransferPlan, ...],
-    *,
-    excluded_families: frozenset[int],
-    device: torch.device | str,
-) -> tuple[GdnParentStateTransferPlan, ...]:
-    if not excluded_families:
-        return _transfer_plans_to_device(transfers, device=device)
-    kept: dict[tuple[int, int], set[int]] = {}
-    for transfer in transfers:
-        families = set(transfer.family_indices) - excluded_families
-        if families:
-            kept.setdefault((transfer.source_rank, transfer.dest_rank), set()).update(
-                families
-            )
-    return _transfer_plans_to_device(
-        _build_parent_state_transfer_plans(kept), device=device
-    )
-
-
-def _local_positions_for_span(
-    row_index: int,
-    start: int,
-    end: int,
-    *,
-    sequence_length: int,
-    local_token_ranges: tuple[tuple[int, int, int], ...],
-    local_range_ends: tuple[int, ...],
-    local_range_positions: dict[tuple[int, int], int] | None = None,
-) -> tuple[int, ...]:
-    if start == end:
-        return ()
-    token_start = row_index * sequence_length + start
-    token_end = row_index * sequence_length + end
-    if local_range_positions is not None:
-        position_start = local_range_positions.get((token_start, token_end))
-        if position_start is not None:
-            return tuple(range(position_start, position_start + end - start))
-    range_index = bisect_left(local_range_ends, token_start + 1)
-    if range_index < len(local_token_ranges):
-        range_start, range_end, position_start = local_token_ranges[range_index]
-        if range_start <= token_start and token_end <= range_end:
-            local_start = position_start + token_start - range_start
-            return tuple(range(local_start, local_start + end - start))
-    segment = _trusted_pydantic_construct(
-        GdnSegmentSpec,
-        _GDN_SEGMENT_SPEC_FIELDS,
-        row_index=row_index,
-        family_index=0,
-        group_id=0,
-        parent_id=0,
-        start=start,
-        end=end,
-        kind="prefix",
-        child_index=None,
-    )
-    return tuple(
-        int(position)
-        for position in _local_positions_for_segment(
-            segment,
-            sequence_length=sequence_length,
-            local_token_ranges=local_token_ranges,
-            local_range_ends=local_range_ends,
-        ).tolist()
-    )
-
-
-def _prefix_chunk_boundary_end(prefix: GdnSegmentSpec) -> int:
-    aligned_length = (prefix.length // FLA_CHUNK_SIZE) * FLA_CHUNK_SIZE
-    return prefix.start + aligned_length
-
-
-def _segment_with_bounds(
-    segment: GdnSegmentSpec, start: int, end: int
-) -> GdnSegmentSpec:
-    return _trusted_pydantic_construct(
-        GdnSegmentSpec,
-        _GDN_SEGMENT_SPEC_FIELDS,
-        row_index=segment.row_index,
-        family_index=segment.family_index,
-        group_id=segment.group_id,
-        parent_id=segment.parent_id,
-        start=start,
-        end=end,
-        kind=segment.kind,
-        child_index=segment.child_index,
-    )
-
-
-def _batch_explicit_bucket_columns(
-    columns: tuple[_ExplicitBucketColumn, ...],
-    *,
-    max_padding_ratio: float = 1.25,
-    max_segments_per_batch: int = 128,
-) -> tuple[tuple[_ExplicitBucketColumn, ...], ...]:
-    if not columns:
-        return ()
-    ordered = sorted(
-        columns,
-        key=lambda column: (column.length, column.family_index, column.row_index),
-    )
-    batches: list[list[_ExplicitBucketColumn]] = []
-    current: list[_ExplicitBucketColumn] = []
-    current_tokens = 0
-    current_max = 0
-    for column in ordered:
-        next_count = len(current) + 1
-        next_tokens = current_tokens + column.length
-        next_max = max(current_max, column.length)
-        padded = next_max * next_count
-        can_extend = not current or (
-            next_count <= max_segments_per_batch
-            and padded <= max_padding_ratio * next_tokens
-        )
-        if not can_extend:
-            batches.append(current)
-            current = []
-            current_tokens = 0
-            current_max = 0
-        current.append(column)
-        current_tokens += column.length
-        current_max = max(current_max, column.length)
-    if current:
-        batches.append(current)
-    return tuple(tuple(batch) for batch in batches)
-
-
-def _build_explicit_bucket_plans(
-    bucket_columns: tuple[tuple[_ExplicitBucketColumn, ...], ...],
-    *,
-    device: torch.device | str,
-) -> tuple[GdnSegmentBucketPlan, ...]:
-    return tuple(
-        _build_explicit_bucket_plan(columns, device=device)
-        for columns in bucket_columns
-    )
-
-
-def _build_explicit_bucket_plan(
-    columns: tuple[_ExplicitBucketColumn, ...],
-    *,
-    device: torch.device | str,
-) -> GdnSegmentBucketPlan:
-    max_length = max(column.length for column in columns)
-    column_count = len(columns)
-    lengths = [column.length for column in columns]
-    lengths_cpu = torch.tensor(lengths, dtype=torch.long)
-    offsets_cpu = torch.arange(max_length, dtype=torch.long).unsqueeze(1)
-    real_mask_cpu = offsets_cpu < lengths_cpu.unsqueeze(0)
-    padded_element_count = max_length * column_count
-    row_indices = [0] * padded_element_count
-    position_indices = [0] * padded_element_count
-    output_mask = [False] * padded_element_count
-    for column_index, column in enumerate(columns):
-        length = column.length
-        column_slice = slice(column_index, length * column_count, column_count)
-        row_indices[column_slice] = [column.row_index] * length
-        position_indices[column_slice] = column.positions
-        output_mask[column_slice] = column.output_mask
-    row_indices_cpu = torch.tensor(row_indices, dtype=torch.long).reshape(
-        max_length, column_count
-    )
-    position_indices_cpu = torch.tensor(position_indices, dtype=torch.long).reshape(
-        max_length, column_count
-    )
-    output_mask_cpu = torch.tensor(output_mask, dtype=torch.bool).reshape(
-        max_length, column_count
-    )
-    family_indices_cpu = torch.tensor(
-        [column.family_index for column in columns], dtype=torch.long
-    )
-    cu_seqlens_cpu = torch.cat(
-        [lengths_cpu.new_zeros(1), torch.cumsum(lengths_cpu, dim=0)]
-    )
-    return GdnSegmentBucketPlan.model_construct(
-        length=max_length,
-        lengths=_move_planner_tensor(lengths_cpu, device),
-        lengths_cpu=lengths_cpu,
-        lengths_by_rank_cpu=None,
-        real_mask=_move_planner_tensor(real_mask_cpu, device),
-        cu_seqlens=_move_planner_tensor(cu_seqlens_cpu, device),
-        cu_seqlens_cpu=cu_seqlens_cpu,
-        row_indices=_move_planner_tensor(row_indices_cpu, device),
-        position_indices=_move_planner_tensor(position_indices_cpu, device),
-        family_indices=_move_planner_tensor(family_indices_cpu, device),
-        real_token_count_static=int(lengths_cpu.sum().item()),
-        output_mask=_move_planner_tensor(output_mask_cpu, device),
-    )
-
-
-def _attention_source_layout(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    attention_token_layout_index: TokenLayoutIndex | None,
-    planner_config: GdnPlannerConfig,
-) -> TokenLayoutIndex:
-    if attention_token_layout_index is not None:
-        if _layout_cp_size(attention_token_layout_index) != cp_size:
-            raise ValueError(
-                "attention token layout index cp_size must match GDN cp_size, got "
-                f"{_layout_cp_size(attention_token_layout_index)} and {cp_size}"
-            )
-        if _layout_token_count(attention_token_layout_index) != spec.real_token_count:
-            raise ValueError(
-                "attention token layout index token count must match GDN real token "
-                f"count, got {_layout_token_count(attention_token_layout_index)} and "
-                f"{spec.real_token_count}"
-            )
-        return attention_token_layout_index
-    return _token_layout_from_rank_ranges(
-        _default_attention_layout_ranges(
-            spec,
-            cp_size=cp_size,
-            planner_config=planner_config,
-        )
-    )
-
-
-def _build_cp_rank_execution_plan(
-    spec: GdnPackedExecutionSpec,
-    *,
-    device: torch.device | str,
-    cp_rank: int,
-    cp_size: int,
-    attention_token_layout_index: TokenLayoutIndex | None,
-    cp_segment_schedule: GdnCpSegmentSchedule | None,
-    planner_config: GdnPlannerConfig,
-) -> GdnRankExecutionPlan:
-    if cp_size < 1:
-        raise ValueError(f"cp_size must be >= 1, got {cp_size}")
-    if cp_rank < 0 or cp_rank >= cp_size:
-        raise ValueError(f"cp_rank must be in [0, {cp_size}), got {cp_rank}")
-    if (
-        attention_token_layout_index is not None
-        and _layout_cp_size(attention_token_layout_index) != cp_size
-    ):
-        raise ValueError(
-            "attention token layout index cp_size must match GDN cp_size, got "
-            f"{_layout_cp_size(attention_token_layout_index)} and {cp_size}"
-        )
-
-    from art.megatron.gdn.layout import (
-        _reverse_exchange_plan,
-        build_local_rank_cp_exchange_plan_from_dest_ranges,
-    )
-
-    has_explicit_attention_layout = attention_token_layout_index is not None
-    if cp_segment_schedule is None and not has_explicit_attention_layout:
-        local_family_plan = _build_local_family_rank_execution_plan(
-            spec,
-            device=device,
-            cp_rank=cp_rank,
-            cp_size=cp_size,
-            planner_config=planner_config,
-        )
-        if local_family_plan is not None:
-            return local_family_plan
-    if cp_segment_schedule is None and has_explicit_attention_layout:
-        local_layout_plan = _build_local_attention_layout_rank_execution_plan(
-            spec,
-            device=device,
-            cp_rank=cp_rank,
-            cp_size=cp_size,
-            attention_token_layout_index=attention_token_layout_index,
-            planner_config=planner_config,
-        )
-        if local_layout_plan is not None:
-            return local_layout_plan
-
-    source_layout = _attention_source_layout(
-        spec,
-        cp_size=cp_size,
-        attention_token_layout_index=attention_token_layout_index,
-        planner_config=planner_config,
-    )
-    if cp_segment_schedule is None:
-        schedule = _build_cp_segment_schedule(
-            spec,
-            cp_size=cp_size,
-            attention_layout_index=_build_attention_layout_index_from_token_layout(
-                source_layout,
-                max_ranges=max(
-                    1,
-                    (2 * spec.real_token_count) // max(1, len(spec.segments())),
-                ),
-            ),
-            planner_config=planner_config,
-        )
-    else:
-        schedule = cp_segment_schedule
-    if len(schedule.gdn_token_counts_by_rank) != cp_size:
-        raise ValueError(f"CP GDN schedule must contain {cp_size} ranks")
-    attention_to_gdn = build_local_rank_cp_exchange_plan_from_dest_ranges(
-        source_layout=source_layout,
-        device=device,
-        local_rank=cp_rank,
-        dest_ranges_by_rank=schedule.gdn_token_ranges_by_rank,
-        cross_rank_token_count=schedule.cross_rank_token_count,
-    )
-    gdn_to_attention = _reverse_exchange_plan(attention_to_gdn)
-    local_token_ranges = schedule.gdn_token_ranges_by_rank[cp_rank]
-    local_gdn_token_count = schedule.gdn_token_counts_by_rank[cp_rank]
-    if schedule.parent_state_exchange_family_indices:
-        (
-            remote_prefix_tail_buckets,
-            remote_completion_with_prefix_tail_buckets,
-            remote_prefix_tail_exchange,
-            remote_prefix_tail_backward_exchange,
-            remote_prefix_tail_state_transfers,
-            remote_prefix_tail_families,
-        ) = _build_remote_prefix_tail_plans(
-            spec,
-            schedule,
-            cp_rank=cp_rank,
-            device=device,
-            planner_config=planner_config,
-        )
-    else:
-        (
-            remote_prefix_tail_buckets,
-            remote_completion_with_prefix_tail_buckets,
-            remote_prefix_tail_exchange,
-            remote_prefix_tail_backward_exchange,
-            remote_prefix_tail_state_transfers,
-            remote_prefix_tail_families,
-        ) = _empty_remote_prefix_tail_plans()
-
-    chain_prefix_buckets = tuple(
-        bucket for bucket in schedule.chain_prefix_buckets if bucket
-    )
-    chain_completion_buckets = tuple(
-        bucket for bucket in schedule.chain_completion_buckets if bucket
-    )
-    local_prefix_segments = tuple(schedule.local_prefix_segments_by_rank[cp_rank])
-    local_prefix_family_indices = {
-        segment.family_index for segment in local_prefix_segments
-    }
-    local_prefix_buckets = _batch_segments_by_padded_work(
-        () if local_prefix_segments else (),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    local_completion_segments = tuple(
-        schedule.local_completion_segments_by_rank[cp_rank]
-    )
-    chunk_local_completion_segments = tuple(
-        segment
-        for segment in local_completion_segments
-        if segment.family_index in local_prefix_family_indices
-    )
-    plain_local_completion_segments = tuple(
-        segment
-        for segment in local_completion_segments
-        if segment.family_index not in local_prefix_family_indices
-        and segment.family_index not in remote_prefix_tail_families
-    )
-    ready_completion_segments, remote_completion_segments = (
-        _split_ready_and_remote_completion_segments(
-            plain_local_completion_segments,
-            local_prefix_segments=(),
-            chain_prefix_buckets=chain_prefix_buckets,
-        )
-    )
-    ready_local_completion_buckets = _batch_segments_by_padded_work(
-        ready_completion_segments,
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    remote_local_completion_buckets = _batch_segments_by_padded_work(
-        remote_completion_segments,
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    local_completion_buckets = (
-        ready_local_completion_buckets + remote_local_completion_buckets
-    )
-    prefix_family_order = tuple(
-        segment.family_index
-        for bucket in (
-            *chain_prefix_buckets,
-            *local_prefix_buckets,
-        )
-        for segment in bucket
-    )
-    (
-        prefix_boundary_buckets,
-        prefix_tail_buckets,
-        completion_with_prefix_tail_buckets,
-    ) = _build_chunk_aligned_position_bucket_plans(
-        local_prefix_segments,
-        chunk_local_completion_segments,
-        local_token_ranges,
-        sequence_length=spec.sequence_length,
-        device=device,
-        planner_config=planner_config,
-    )
-    return GdnRankExecutionPlan.model_construct(
-        cp_rank=cp_rank,
-        cp_size=cp_size,
-        batch_size=1,
-        sequence_length=local_gdn_token_count,
-        packed_batch_size=spec.batch_size,
-        packed_sequence_length=spec.sequence_length,
-        real_token_mask=torch.ones(
-            1, local_gdn_token_count, device=device, dtype=torch.bool
-        ),
-        family_count=spec.family_count,
-        completion_count=spec.completion_count,
-        local_prefix_buckets=_build_position_bucket_plans(
-            local_prefix_buckets,
-            local_token_ranges,
-            sequence_length=spec.sequence_length,
-            device=device,
-        ),
-        local_completion_buckets=_build_position_bucket_plans(
-            local_completion_buckets,
-            local_token_ranges,
-            sequence_length=spec.sequence_length,
-            device=device,
-        ),
-        ready_local_completion_buckets=_build_position_bucket_plans(
-            ready_local_completion_buckets,
-            local_token_ranges,
-            sequence_length=spec.sequence_length,
-            device=device,
-        ),
-        remote_local_completion_buckets=_build_position_bucket_plans(
-            remote_local_completion_buckets,
-            local_token_ranges,
-            sequence_length=spec.sequence_length,
-            device=device,
-        ),
-        chain_prefix_buckets=_build_position_bucket_plans(
-            chain_prefix_buckets,
-            local_token_ranges,
-            sequence_length=spec.sequence_length,
-            device=device,
-            token_ranges_by_rank=schedule.gdn_token_ranges_by_rank,
-        ),
-        chain_completion_buckets=_build_position_bucket_plans(
-            chain_completion_buckets,
-            local_token_ranges,
-            sequence_length=spec.sequence_length,
-            device=device,
-            token_ranges_by_rank=schedule.gdn_token_ranges_by_rank,
-        ),
-        prefix_table_is_dense_ordered=(
-            not local_prefix_segments
-            and prefix_family_order == tuple(range(spec.family_count))
-        ),
-        attention_to_gdn=attention_to_gdn,
-        gdn_to_attention=gdn_to_attention,
-        attention_token_ranges=source_layout.ownership_ranges_by_rank[cp_rank],
-        gdn_token_ranges=local_token_ranges,
-        attention_token_count=source_layout.token_counts_by_rank[cp_rank],
-        gdn_token_count=local_gdn_token_count,
-        parent_state_exchange_family_indices=(
-            tuple(
-                family_index
-                for family_index in schedule.parent_state_exchange_family_indices
-                if family_index not in remote_prefix_tail_families
-            )
-        ),
-        parent_state_transfers=_filter_parent_state_transfers(
-            schedule.parent_state_transfers,
-            excluded_families=remote_prefix_tail_families,
-            device=device,
-        ),
-        prefix_boundary_buckets=prefix_boundary_buckets,
-        prefix_tail_buckets=prefix_tail_buckets,
-        completion_with_prefix_tail_buckets=completion_with_prefix_tail_buckets,
-        remote_prefix_tail_buckets=remote_prefix_tail_buckets,
-        remote_completion_with_prefix_tail_buckets=remote_completion_with_prefix_tail_buckets,
-        remote_prefix_tail_exchange=remote_prefix_tail_exchange,
-        remote_prefix_tail_backward_exchange=remote_prefix_tail_backward_exchange,
-        remote_prefix_tail_state_transfers=remote_prefix_tail_state_transfers,
-    )
-
-
-def build_gdn_cp_segment_schedule(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    attention_token_layout_index: TokenLayoutIndex | None = None,
-    planner_config: GdnPlannerConfig | None = None,
-) -> GdnCpSegmentSchedule:
-    planner_config = planner_config or GdnPlannerConfig()
-    source_layout = _attention_source_layout(
-        spec,
-        cp_size=cp_size,
-        attention_token_layout_index=attention_token_layout_index,
-        planner_config=planner_config,
-    )
-    return _build_cp_segment_schedule(
-        spec,
-        cp_size=cp_size,
-        attention_layout_index=_build_attention_layout_index_from_token_layout(
-            source_layout,
-            max_ranges=max(
-                1, (2 * spec.real_token_count) // max(1, len(spec.segments()))
-            ),
-        ),
-        planner_config=planner_config,
-    )
-
-
-def _build_cp_segment_schedule(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    attention_layout_index: _AttentionLayoutIndex,
-    planner_config: GdnPlannerConfig,
-) -> GdnCpSegmentSchedule:
-    segment_attention_counts = _segment_attention_rank_counts(
-        spec,
-        cp_size=cp_size,
-        attention_layout_index=attention_layout_index,
-    )
-    legal_chain_segments = tuple(
-        segment
-        for family in spec.families
-        for segment in (family.prefix, *family.completions)
-        if (
-            _can_chain_prefix_segment(
-                segment, cp_size=cp_size, planner_config=planner_config
-            )
-            if segment.kind == "prefix"
-            else _can_chain_segment(
-                segment, cp_size=cp_size, planner_config=planner_config
-            )
-        )
-    )
-    decision = _beam_search_cp_segment_schedule_decision(
-        spec,
-        cp_size=cp_size,
-        attention_layout_index=attention_layout_index,
-        segment_attention_counts=segment_attention_counts,
-        legal_chain_segments=legal_chain_segments,
-        planner_config=planner_config,
-    )
-    return _materialize_cp_segment_schedule(
-        spec,
-        cp_size=cp_size,
-        attention_layout_index=attention_layout_index,
-        segment_attention_counts=segment_attention_counts,
-        chain_segment_keys=decision.chain_segment_keys,
-        co_locate_local_families=decision.co_locate_local_families,
-        planner_config=planner_config,
-    )
-
-
-def _beam_search_cp_segment_schedule_decision(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    attention_layout_index: _AttentionLayoutIndex,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-    legal_chain_segments: tuple[GdnSegmentSpec, ...],
-    planner_config: GdnPlannerConfig,
-) -> _GdnCpSegmentSearchDecision:
-    legal_chain_keys = frozenset(
-        _segment_key(segment) for segment in legal_chain_segments
-    )
-    chain_rank_counts_by_key: dict[GdnSegmentDecisionKey, tuple[int, ...]] = {}
-    chain_cross_rank_tokens_by_key: dict[GdnSegmentDecisionKey, int] = {}
-    for segment in legal_chain_segments:
-        key = _segment_key(segment)
-        (
-            chain_rank_counts_by_key[key],
-            chain_cross_rank_tokens_by_key[key],
-        ) = _chain_segment_rank_counts_and_cross_rank_tokens(
-            segment,
-            spec,
-            cp_size=cp_size,
-            attention_layout_index=attention_layout_index,
-        )
-
-    score_cache: dict[
-        frozenset[GdnSegmentDecisionKey], _GdnCpSegmentSearchDecision
-    ] = {}
-
-    def decision_for(
-        chain_segment_keys: frozenset[GdnSegmentDecisionKey],
-    ) -> _GdnCpSegmentSearchDecision:
-        cached = score_cache.get(chain_segment_keys)
-        if cached is not None:
-            return cached
-        non_colocated_score = _score_cp_segment_decisions(
-            spec,
-            cp_size=cp_size,
-            segment_attention_counts=segment_attention_counts,
-            chain_rank_counts_by_key=chain_rank_counts_by_key,
-            chain_cross_rank_tokens_by_key=chain_cross_rank_tokens_by_key,
-            chain_segment_keys=chain_segment_keys,
-            co_locate_local_families=False,
-            planner_config=planner_config,
-        )
-        colocated_score = _score_cp_segment_decisions(
-            spec,
-            cp_size=cp_size,
-            segment_attention_counts=segment_attention_counts,
-            chain_rank_counts_by_key=chain_rank_counts_by_key,
-            chain_cross_rank_tokens_by_key=chain_cross_rank_tokens_by_key,
-            chain_segment_keys=chain_segment_keys,
-            co_locate_local_families=True,
-            planner_config=planner_config,
-        )
-        co_locate = colocated_score < non_colocated_score
-        decision = _GdnCpSegmentSearchDecision.model_construct(
-            chain_segment_keys=chain_segment_keys,
-            co_locate_local_families=co_locate,
-            score=colocated_score if co_locate else non_colocated_score,
-        )
-        score_cache[chain_segment_keys] = decision
-        return decision
-
-    best = decision_for(frozenset())
-    beam_by_keys = {best.chain_segment_keys: best}
-    if legal_chain_keys:
-        all_chain = decision_for(legal_chain_keys)
-        beam_by_keys[all_chain.chain_segment_keys] = all_chain
-        if best.score - all_chain.score > planner_config.cp_chain_min_score_delta_ms:
-            best = all_chain
-    candidate_groups = _bounded_chain_candidate_groups(
-        spec,
-        legal_chain_segments,
-        segment_attention_counts=segment_attention_counts,
-        chain_rank_counts_by_key=chain_rank_counts_by_key,
-        planner_config=planner_config,
-    )
-    beam = _best_cp_segment_search_decisions(
-        beam_by_keys.values(),
-        limit=planner_config.cp_chain_beam_width,
-    )
-    stale_steps = 0
-    for _ in range(planner_config.cp_chain_beam_max_steps):
-        if not candidate_groups:
-            break
-        expanded: dict[
-            frozenset[GdnSegmentDecisionKey], _GdnCpSegmentSearchDecision
-        ] = {}
-        for decision in beam:
-            neighbors = []
-            for segment_keys in _chain_beam_neighbor_groups(
-                decision.chain_segment_keys,
-                candidate_groups=candidate_groups,
-                branch_factor=planner_config.cp_chain_beam_branch_factor,
-            ):
-                if segment_keys.issubset(decision.chain_segment_keys):
-                    next_keys = decision.chain_segment_keys - segment_keys
-                else:
-                    next_keys = decision.chain_segment_keys | segment_keys
-                neighbors.append(decision_for(frozenset(next_keys)))
-            for neighbor in _best_cp_segment_search_decisions(
-                neighbors,
-                limit=planner_config.cp_chain_beam_branch_factor,
-            ):
-                expanded[neighbor.chain_segment_keys] = neighbor
-        if not expanded:
-            break
-        beam = _best_cp_segment_search_decisions(
-            (*beam, *expanded.values()),
-            limit=planner_config.cp_chain_beam_width,
-        )
-        step_best = beam[0]
-        if best.score - step_best.score > planner_config.cp_chain_min_score_delta_ms:
-            best = step_best
-            stale_steps = 0
-        else:
-            stale_steps += 1
-            if stale_steps >= 2:
-                break
-    return best
-
-
-def _chain_beam_neighbor_groups(
-    chain_segment_keys: frozenset[GdnSegmentDecisionKey],
-    *,
-    candidate_groups: tuple[frozenset[GdnSegmentDecisionKey], ...],
-    branch_factor: int,
-) -> tuple[frozenset[GdnSegmentDecisionKey], ...]:
-    selected: list[frozenset[GdnSegmentDecisionKey]] = []
-    for group in candidate_groups:
-        if group and not group.issubset(chain_segment_keys):
-            selected.append(group)
-            if len(selected) >= branch_factor:
-                return tuple(selected)
-    for group in reversed(candidate_groups):
-        if group and group.intersection(chain_segment_keys) and group not in selected:
-            selected.append(group)
-            if len(selected) >= branch_factor:
-                break
-    return tuple(selected)
-
-
-def _best_cp_segment_search_decisions(
-    decisions: Any,
-    *,
-    limit: int,
-) -> tuple[_GdnCpSegmentSearchDecision, ...]:
-    return tuple(
-        sorted(
-            decisions,
-            key=lambda decision: (
-                decision.score,
-                len(decision.chain_segment_keys),
-                tuple(sorted(decision.chain_segment_keys)),
-            ),
-        )[:limit]
-    )
-
-
-def _bounded_chain_candidate_groups(
-    spec: GdnPackedExecutionSpec,
-    legal_chain_segments: tuple[GdnSegmentSpec, ...],
-    *,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-    chain_rank_counts_by_key: dict[GdnSegmentDecisionKey, tuple[int, ...]],
-    planner_config: GdnPlannerConfig,
-) -> tuple[frozenset[GdnSegmentDecisionKey], ...]:
-    legal_key_set = frozenset(_segment_key(segment) for segment in legal_chain_segments)
-    if not legal_key_set:
-        return ()
-    prefix_keys = frozenset(
-        _segment_key(family.prefix)
-        for family in spec.families
-        if _segment_key(family.prefix) in legal_key_set
-    )
-    completion_keys = legal_key_set - prefix_keys
-    groups: list[frozenset[GdnSegmentDecisionKey]] = []
-    for group in (legal_key_set, prefix_keys, completion_keys):
-        if group and group not in groups:
-            groups.append(group)
-    for group in _ranked_chain_beam_groups(
-        spec,
-        legal_chain_segments,
-        segment_attention_counts=segment_attention_counts,
-        chain_rank_counts_by_key=chain_rank_counts_by_key,
-        planner_config=planner_config,
-    ):
-        if group and group not in groups:
-            groups.append(group)
-    return tuple(groups[: planner_config.cp_chain_beam_candidate_limit])
-
-
-def _ranked_chain_beam_groups(
-    spec: GdnPackedExecutionSpec,
-    legal_chain_segments: tuple[GdnSegmentSpec, ...],
-    *,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-    chain_rank_counts_by_key: dict[GdnSegmentDecisionKey, tuple[int, ...]],
-    planner_config: GdnPlannerConfig,
-) -> tuple[frozenset[GdnSegmentDecisionKey], ...]:
-    if not legal_chain_segments:
-        return ()
-    priority_by_key = {
-        _segment_key(segment): _chain_beam_segment_priority(
-            segment,
-            segment_attention_counts=segment_attention_counts,
-            chain_rank_counts_by_key=chain_rank_counts_by_key,
-        )
-        for segment in legal_chain_segments
-    }
-    legal_key_set = frozenset(priority_by_key)
-    groups: set[frozenset[GdnSegmentDecisionKey]] = {
-        frozenset((key,)) for key in legal_key_set
-    }
-    for family in spec.families:
-        completion_keys = frozenset(
-            _segment_key(completion)
-            for completion in family.completions
-            if _segment_key(completion) in legal_key_set
-        )
-        if len(completion_keys) > 1:
-            groups.add(completion_keys)
-        family_keys = completion_keys
-        prefix_key = _segment_key(family.prefix)
-        if prefix_key in legal_key_set:
-            family_keys = family_keys | frozenset((prefix_key,))
-        if len(family_keys) > 1:
-            groups.add(family_keys)
-    ranked = tuple(
-        sorted(
-            groups,
-            key=lambda group: _chain_beam_group_priority(
-                group, priority_by_key=priority_by_key
-            ),
-            reverse=True,
-        )
-    )
-    limit = planner_config.cp_chain_beam_candidate_limit
-    if len(ranked) <= limit:
-        return ranked
-    high_count = (limit + 1) // 2
-    low_count = limit - high_count
-    selected = [*ranked[:high_count]]
-    for group in ranked[-low_count:]:
-        if group not in selected:
-            selected.append(group)
-    return tuple(selected)
-
-
-def _chain_beam_group_priority(
-    group: frozenset[GdnSegmentDecisionKey],
-    *,
-    priority_by_key: dict[GdnSegmentDecisionKey, tuple[int, int, int, int]],
-) -> tuple[int, int, int, int, int]:
-    priorities = tuple(priority_by_key[key] for key in group)
-    return (
-        sum(priority[0] for priority in priorities),
-        sum(priority[1] for priority in priorities),
-        max((priority[2] for priority in priorities), default=0),
-        sum(priority[3] for priority in priorities),
-        len(group),
-    )
-
-
-def _chain_beam_segment_priority(
-    segment: GdnSegmentSpec,
-    *,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-    chain_rank_counts_by_key: dict[GdnSegmentDecisionKey, tuple[int, ...]],
-) -> tuple[int, int, int, int]:
-    key = _segment_key(segment)
-    chain_max_load = max(chain_rank_counts_by_key[key], default=0)
-    best_attention_locality = max(segment_attention_counts[key], default=0)
-    chain_load_relief = segment.length - chain_max_load
-    minimum_local_exchange = segment.length - best_attention_locality
-    return (
-        chain_load_relief,
-        segment.length,
-        best_attention_locality,
-        -minimum_local_exchange,
-    )
-
-
-def _score_cp_segment_decisions(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-    chain_rank_counts_by_key: dict[GdnSegmentDecisionKey, tuple[int, ...]],
-    chain_cross_rank_tokens_by_key: dict[GdnSegmentDecisionKey, int],
-    chain_segment_keys: frozenset[GdnSegmentDecisionKey],
-    co_locate_local_families: bool,
-    planner_config: GdnPlannerConfig,
-) -> float:
-    rank_loads = [0] * cp_size
-    local_prefix_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    local_completion_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    chain_prefix_segments: list[GdnSegmentSpec] = []
-    chain_completion_segments: list[GdnSegmentSpec] = []
-    parent_state_exchange_families: set[int] = set()
-    cross_rank_token_count = 0
-
-    for family in spec.families:
-        prefix_key = _segment_key(family.prefix)
-        chain_prefix = prefix_key in chain_segment_keys
-        local_completions = tuple(
-            completion
-            for completion in family.completions
-            if _segment_key(completion) not in chain_segment_keys
-        )
-        prefix_owner: int | None = None
-        if chain_prefix:
-            chain_prefix_segments.append(family.prefix)
-            cross_rank_token_count += _add_chain_search_load(
-                rank_loads,
-                family.prefix,
-                chain_rank_counts_by_key=chain_rank_counts_by_key,
-                chain_cross_rank_tokens_by_key=chain_cross_rank_tokens_by_key,
-            )
-        else:
-            owner_segments = (
-                (family.prefix, *local_completions)
-                if co_locate_local_families
-                else (family.prefix,)
-            )
-            prefix_owner = _best_segment_owner(
-                owner_segments,
-                rank_loads,
-                segment_attention_counts=segment_attention_counts,
-                planner_config=planner_config,
-            )
-            local_prefix_segments_by_rank[prefix_owner].append(family.prefix)
-            cross_rank_token_count += _add_local_search_load(
-                rank_loads,
-                prefix_owner,
-                family.prefix,
-                segment_attention_counts=segment_attention_counts,
-            )
-        for completion in family.completions:
-            completion_key = _segment_key(completion)
-            if completion_key in chain_segment_keys:
-                chain_completion_segments.append(completion)
-                cross_rank_token_count += _add_chain_search_load(
-                    rank_loads,
-                    completion,
-                    chain_rank_counts_by_key=chain_rank_counts_by_key,
-                    chain_cross_rank_tokens_by_key=chain_cross_rank_tokens_by_key,
-                )
-                if not chain_prefix:
-                    parent_state_exchange_families.add(family.family_index)
-                continue
-            if co_locate_local_families and not chain_prefix:
-                if prefix_owner is None:
-                    raise RuntimeError(
-                        "co-located local completion planning lost the prefix owner"
-                    )
-                owner = prefix_owner
-            else:
-                owner = _best_segment_owner(
-                    (completion,),
-                    rank_loads,
-                    segment_attention_counts=segment_attention_counts,
-                    planner_config=planner_config,
-                )
-            if not chain_prefix:
-                if prefix_owner is None:
-                    raise RuntimeError(
-                        "local completion planning lost the prefix owner"
-                    )
-                if owner != prefix_owner:
-                    parent_state_exchange_families.add(family.family_index)
-            local_completion_segments_by_rank[owner].append(completion)
-            cross_rank_token_count += _add_local_search_load(
-                rank_loads,
-                owner,
-                completion,
-                segment_attention_counts=segment_attention_counts,
-            )
-    (
-        local_work_by_rank,
-        local_bucket_count,
-        local_segment_count,
-    ) = _estimate_local_rank_kernel_work(
-        tuple(tuple(segments) for segments in local_prefix_segments_by_rank),
-        tuple(tuple(segments) for segments in local_completion_segments_by_rank),
-        planner_config=planner_config,
-    )
-    chain_work_by_rank, chain_bucket_count = _estimate_chain_rank_kernel_work(
-        cp_size=cp_size,
-        chain_prefix_segments=tuple(chain_prefix_segments),
-        chain_completion_segments=tuple(chain_completion_segments),
-        chain_rank_counts_by_key=chain_rank_counts_by_key,
-        planner_config=planner_config,
-    )
-    return _score_cp_segment_stats(
-        rank_local_work=local_work_by_rank,
-        rank_chain_work=chain_work_by_rank,
-        rank_real_tokens=tuple(rank_loads),
-        cross_rank_token_count=cross_rank_token_count,
-        parent_state_exchange_family_count=len(parent_state_exchange_families),
-        local_bucket_count=local_bucket_count,
-        local_segment_count=local_segment_count,
-        chain_bucket_count=chain_bucket_count,
-        planner_config=planner_config,
-    )
-
-
-def _estimate_local_rank_kernel_work(
-    local_prefix_segments_by_rank: tuple[tuple[GdnSegmentSpec, ...], ...],
-    local_completion_segments_by_rank: tuple[tuple[GdnSegmentSpec, ...], ...],
-    *,
-    planner_config: GdnPlannerConfig,
-) -> tuple[tuple[int, ...], int, int]:
-    rank_work: list[int] = []
-    rank_bucket_counts: list[int] = []
-    rank_segment_counts: list[int] = []
-    for prefix_segments, completion_segments in zip(
-        local_prefix_segments_by_rank,
-        local_completion_segments_by_rank,
-        strict=True,
-    ):
-        prefix_family_indices = {segment.family_index for segment in prefix_segments}
-        chunk_local_completion_segments = tuple(
-            segment
-            for segment in completion_segments
-            if segment.family_index in prefix_family_indices
-        )
-        plain_local_completion_segments = tuple(
-            segment
-            for segment in completion_segments
-            if segment.family_index not in prefix_family_indices
-        )
-        chunk_work, chunk_bucket_count = _estimate_chunk_aligned_local_work(
-            prefix_segments,
-            chunk_local_completion_segments,
-            planner_config=planner_config,
-        )
-        completion_work, completion_bucket_count = _padded_work_from_lengths(
-            tuple(segment.length for segment in plain_local_completion_segments),
-            max_padding_ratio=planner_config.max_padding_ratio,
-            max_segments_per_batch=planner_config.max_segments_per_batch,
-        )
-        rank_work.append(chunk_work + completion_work)
-        rank_bucket_counts.append(chunk_bucket_count + completion_bucket_count)
-        rank_segment_counts.append(len(prefix_segments) + len(completion_segments))
-    return (
-        tuple(rank_work),
-        max(rank_bucket_counts, default=0),
-        max(rank_segment_counts, default=0),
-    )
-
-
-def _estimate_chunk_aligned_local_work(
-    prefix_segments: tuple[GdnSegmentSpec, ...],
-    completion_segments: tuple[GdnSegmentSpec, ...],
-    *,
-    planner_config: GdnPlannerConfig,
-) -> tuple[int, int]:
-    completions_by_family: dict[int, list[GdnSegmentSpec]] = {}
-    for completion in completion_segments:
-        completions_by_family.setdefault(completion.family_index, []).append(completion)
-    boundary_lengths: list[int] = []
-    tail_lengths: list[int] = []
-    completion_column_lengths: list[int] = []
-    for prefix in prefix_segments:
-        boundary_end = _prefix_chunk_boundary_end(prefix)
-        boundary_length = boundary_end - prefix.start
-        if boundary_length > 0:
-            boundary_lengths.append(boundary_length)
-        tail_length = prefix.end - boundary_end
-        family_completions = tuple(completions_by_family.get(prefix.family_index, ()))
-        if tail_length > 0 and not family_completions:
-            tail_lengths.append(tail_length)
-        for completion in family_completions:
-            completion_column_lengths.append(tail_length + completion.length)
-    boundary_work, boundary_bucket_count = _padded_work_from_lengths(
-        tuple(boundary_lengths),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    tail_work, tail_bucket_count = _padded_work_from_lengths(
-        tuple(tail_lengths),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    completion_work, completion_bucket_count = _padded_work_from_lengths(
-        tuple(completion_column_lengths),
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    return (
-        boundary_work + tail_work + completion_work,
-        boundary_bucket_count + tail_bucket_count + completion_bucket_count,
-    )
-
-
-def _estimate_chain_rank_kernel_work(
-    *,
-    cp_size: int,
-    chain_prefix_segments: tuple[GdnSegmentSpec, ...],
-    chain_completion_segments: tuple[GdnSegmentSpec, ...],
-    chain_rank_counts_by_key: dict[GdnSegmentDecisionKey, tuple[int, ...]],
-    planner_config: GdnPlannerConfig,
-) -> tuple[tuple[int, ...], int]:
-    rank_work = [0] * cp_size
-    bucket_count = 0
-    for segments in (chain_prefix_segments, chain_completion_segments):
-        buckets = _batch_segments_by_padded_work(
-            segments,
-            max_padding_ratio=planner_config.max_padding_ratio,
-            max_segments_per_batch=planner_config.max_segments_per_batch,
-        )
-        bucket_count += len(buckets)
-        for bucket in buckets:
-            for rank in range(cp_size):
-                lengths = tuple(
-                    chain_rank_counts_by_key[_segment_key(segment)][rank]
-                    for segment in bucket
-                )
-                rank_work[rank] += max(lengths, default=0) * len(lengths)
-    return tuple(rank_work), bucket_count
-
-
-def _padded_work_from_lengths(
-    lengths: tuple[int, ...],
-    *,
-    max_padding_ratio: float,
-    max_segments_per_batch: int,
-) -> tuple[int, int]:
-    if not lengths:
-        return 0, 0
-    ordered = sorted(length for length in lengths if length > 0)
-    if not ordered:
-        return 0, 0
-    bucket_count = 0
-    padded_work = 0
-    current_count = 0
-    current_tokens = 0
-    current_max = 0
-    for length in ordered:
-        next_count = current_count + 1
-        next_tokens = current_tokens + length
-        next_max = max(current_max, length)
-        next_padded = next_max * next_count
-        can_extend = current_count == 0 or (
-            next_count <= max_segments_per_batch
-            and next_padded <= max_padding_ratio * next_tokens
-        )
-        if not can_extend:
-            bucket_count += 1
-            padded_work += current_max * current_count
-            current_count = 0
-            current_tokens = 0
-            current_max = 0
-        current_count += 1
-        current_tokens += length
-        current_max = max(current_max, length)
-    if current_count:
-        bucket_count += 1
-        padded_work += current_max * current_count
-    return padded_work, bucket_count
-
-
-def _add_chain_search_load(
-    rank_loads: list[int],
-    segment: GdnSegmentSpec,
-    *,
-    chain_rank_counts_by_key: dict[GdnSegmentDecisionKey, tuple[int, ...]],
-    chain_cross_rank_tokens_by_key: dict[GdnSegmentDecisionKey, int],
-) -> int:
-    key = _segment_key(segment)
-    for rank, token_count in enumerate(chain_rank_counts_by_key[key]):
-        rank_loads[rank] += token_count
-    return chain_cross_rank_tokens_by_key[key]
-
-
-def _add_local_search_load(
-    rank_loads: list[int],
-    rank: int,
-    segment: GdnSegmentSpec,
-    *,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-) -> int:
-    rank_loads[rank] += segment.length
-    return segment.length - segment_attention_counts[_segment_key(segment)][rank]
-
-
-def _chain_segment_rank_counts_and_cross_rank_tokens(
-    segment: GdnSegmentSpec,
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    attention_layout_index: _AttentionLayoutIndex,
-) -> tuple[tuple[int, ...], int]:
-    token_start = _segment_token_start(segment, spec.sequence_length)
-    attention_shards = _attention_contiguous_chain_shards(
-        token_start,
-        segment.length,
-        cp_size=cp_size,
-        attention_layout_index=attention_layout_index,
-    )
-    if attention_shards is not None:
-        return tuple(len(shard) for shard in attention_shards), 0
-    shard_lengths = _fla_aligned_chain_shard_lengths(segment.length, cp_size=cp_size)
-    cross_rank_tokens = 0
-    start = 0
-    for rank, shard_length in enumerate(shard_lengths):
-        end = start + shard_length
-        shard_start = token_start + start
-        cross_rank_tokens += shard_length - _attention_overlap_count(
-            attention_layout_index,
-            rank,
-            shard_start,
-            shard_start + shard_length,
-        )
-        start = end
-    return shard_lengths, cross_rank_tokens
-
-
-def _materialize_cp_segment_schedule(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    attention_layout_index: _AttentionLayoutIndex,
-    segment_attention_counts: dict[tuple[int, int, int], tuple[int, ...]],
-    chain_segment_keys: frozenset[GdnSegmentDecisionKey],
-    co_locate_local_families: bool,
-    planner_config: GdnPlannerConfig,
-) -> GdnCpSegmentSchedule:
-    gdn_ranges_by_rank: list[list[tuple[int, int, int]]] = [[] for _ in range(cp_size)]
-    rank_loads = [0] * cp_size
-    local_prefix_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    local_completion_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    chain_prefix_segments: list[GdnSegmentSpec] = []
-    chain_completion_segments: list[GdnSegmentSpec] = []
-    parent_state_exchange_families: set[int] = set()
-    parent_state_transfer_families: dict[tuple[int, int], set[int]] = {}
-    cross_rank_token_count = 0
-
-    for family in spec.families:
-        prefix_key = _segment_key(family.prefix)
-        chain_prefix = prefix_key in chain_segment_keys
-        local_completions = tuple(
-            completion
-            for completion in family.completions
-            if _segment_key(completion) not in chain_segment_keys
-        )
-        prefix_owner: int | None = None
-        if chain_prefix:
-            chain_prefix_segments.append(family.prefix)
-            cross_rank_token_count += _append_chain_segment(
-                gdn_ranges_by_rank,
-                rank_loads,
-                family.prefix,
-                spec,
-                attention_layout_index=attention_layout_index,
-            )
-        else:
-            owner_segments = (
-                (family.prefix, *local_completions)
-                if co_locate_local_families
-                else (family.prefix,)
-            )
-            prefix_owner = _best_segment_owner(
-                owner_segments,
-                rank_loads,
-                segment_attention_counts=segment_attention_counts,
-                planner_config=planner_config,
-            )
-            local_prefix_segments_by_rank[prefix_owner].append(family.prefix)
-            cross_rank_token_count += _append_local_segment(
-                gdn_ranges_by_rank,
-                rank_loads,
-                prefix_owner,
-                family.prefix,
-                spec,
-                segment_attention_counts=segment_attention_counts,
-            )
-        for completion in family.completions:
-            if _segment_key(completion) in chain_segment_keys:
-                chain_completion_segments.append(completion)
-                cross_rank_token_count += _append_chain_segment(
-                    gdn_ranges_by_rank,
-                    rank_loads,
-                    completion,
-                    spec,
-                    attention_layout_index=attention_layout_index,
-                )
-                if not chain_prefix:
-                    if prefix_owner is None:
-                        raise RuntimeError(
-                            "local-prefix/chained-completion planning lost the prefix owner"
-                        )
-                    parent_state_exchange_families.add(family.family_index)
-                    for dest_rank in range(cp_size):
-                        if dest_rank == prefix_owner:
-                            continue
-                        parent_state_transfer_families.setdefault(
-                            (prefix_owner, dest_rank), set()
-                        ).add(family.family_index)
-                continue
-            if co_locate_local_families and not chain_prefix:
-                if prefix_owner is None:
-                    raise RuntimeError(
-                        "co-located local completion planning lost the prefix owner"
-                    )
-                owner = prefix_owner
-            else:
-                owner = _best_segment_owner(
-                    (completion,),
-                    rank_loads,
-                    segment_attention_counts=segment_attention_counts,
-                    planner_config=planner_config,
-                )
-            if not chain_prefix:
-                if prefix_owner is None:
-                    raise RuntimeError(
-                        "local completion planning lost the prefix owner"
-                    )
-                if owner != prefix_owner:
-                    parent_state_exchange_families.add(family.family_index)
-                    parent_state_transfer_families.setdefault(
-                        (prefix_owner, owner), set()
-                    ).add(family.family_index)
-            local_completion_segments_by_rank[owner].append(completion)
-            cross_rank_token_count += _append_local_segment(
-                gdn_ranges_by_rank,
-                rank_loads,
-                owner,
-                completion,
-                spec,
-                segment_attention_counts=segment_attention_counts,
-            )
-
-    return GdnCpSegmentSchedule.model_construct(
-        gdn_token_counts_by_rank=tuple(rank_loads),
-        gdn_token_ranges_by_rank=tuple(tuple(ranges) for ranges in gdn_ranges_by_rank),
-        cross_rank_token_count=cross_rank_token_count,
-        chain_prefix_buckets=_batch_segments_by_padded_work(
-            tuple(chain_prefix_segments),
-            max_padding_ratio=planner_config.max_padding_ratio,
-            max_segments_per_batch=planner_config.max_segments_per_batch,
-        ),
-        chain_completion_buckets=_batch_segments_by_padded_work(
-            tuple(chain_completion_segments),
-            max_padding_ratio=planner_config.max_padding_ratio,
-            max_segments_per_batch=planner_config.max_segments_per_batch,
-        ),
-        local_prefix_segments_by_rank=tuple(
-            tuple(segments) for segments in local_prefix_segments_by_rank
-        ),
-        local_completion_segments_by_rank=tuple(
-            tuple(segments) for segments in local_completion_segments_by_rank
-        ),
-        parent_state_exchange_family_indices=tuple(
-            sorted(parent_state_exchange_families)
-        ),
-        parent_state_transfers=_build_parent_state_transfer_plans(
-            parent_state_transfer_families
-        ),
-    )
-
-
-def _build_local_family_rank_execution_plan(
-    spec: GdnPackedExecutionSpec,
-    *,
-    device: torch.device | str,
-    cp_rank: int,
-    cp_size: int,
-    planner_config: GdnPlannerConfig,
-) -> GdnRankExecutionPlan | None:
-    if cp_size <= 1 or not spec.families:
-        return None
-    target_rank_load = spec.real_token_count / cp_size
-    loads = [0] * cp_size
-    prefix_owner_by_family: list[int] = []
-    completion_owners_by_family: list[tuple[int, ...]] = []
-    for family in spec.families:
-        if _has_chainable_segment(
-            family, cp_size=cp_size, planner_config=planner_config
-        ):
-            return None
-        prefix_locality_limit = max(
-            planner_config.max_zero_exchange_load_imbalance * target_rank_load,
-            min(64.0, float(spec.real_token_count)),
-        )
-        if family.prefix.length > prefix_locality_limit:
-            return None
-        owner = _least_loaded_rank(loads)
-        prefix_owner_by_family.append(owner)
-        completion_owners_by_family.append(tuple(owner for _ in family.completions))
-        loads[owner] += family.token_count
-
-    if max(loads, default=0) > (
-        planner_config.local_completion_rebalance_min_imbalance * target_rank_load
-    ):
-        completion_owners_by_family = list(
-            _rebalance_local_completion_segments(
-                spec,
-                prefix_owner_by_family=tuple(prefix_owner_by_family),
-                completion_owners_by_family=tuple(completion_owners_by_family),
-                initial_loads=tuple(loads),
-                planner_config=planner_config,
-            )
-        )
-    rank_assignments = _materialize_local_family_rank_assignments(
-        spec,
-        cp_size=cp_size,
-        prefix_owner_by_family=tuple(prefix_owner_by_family),
-        completion_owners_by_family=tuple(completion_owners_by_family),
-    )
-    local_token_count, local_token_ranges, prefix_segments, completion_segments = (
-        rank_assignments[cp_rank]
-    )
-    parent_state_transfer_families: dict[tuple[int, int], set[int]] = {}
-    for family in spec.families:
-        prefix_owner = prefix_owner_by_family[family.family_index]
-        completion_owners = completion_owners_by_family[family.family_index]
-        for completion_owner in sorted(set(completion_owners)):
-            if completion_owner == prefix_owner:
-                continue
-            parent_state_transfer_families.setdefault(
-                (prefix_owner, completion_owner), set()
-            ).add(family.family_index)
-
-    from art.megatron.gdn.layout import GdnCpExchangePlan, GdnCpPeerTransfer
-
-    token_counts_by_rank = tuple(assignment[0] for assignment in rank_assignments)
-    identity_exchange = GdnCpExchangePlan.model_construct(
-        cp_size=cp_size,
-        source_token_counts_by_rank=token_counts_by_rank,
-        dest_token_counts_by_rank=token_counts_by_rank,
-        transfers=tuple(
-            GdnCpPeerTransfer.model_construct(
-                source_rank=rank,
-                dest_rank=rank,
-                token_count=token_count,
-                source_positions_tensor=None,
-                dest_positions_tensor=None,
-            )
-            for rank, token_count in enumerate(token_counts_by_rank)
-            if token_count
-        ),
-    )
-    parent_state_exchange_family_indices = tuple(
-        sorted(
-            family_index
-            for family_indices in parent_state_transfer_families.values()
-            for family_index in family_indices
-        )
-    )
-    schedule = GdnCpSegmentSchedule.model_construct(
-        gdn_token_counts_by_rank=token_counts_by_rank,
-        gdn_token_ranges_by_rank=tuple(
-            assignment[1] for assignment in rank_assignments
-        ),
-        cross_rank_token_count=0,
-        chain_prefix_buckets=(),
-        chain_completion_buckets=(),
-        local_prefix_segments_by_rank=tuple(
-            assignment[2] for assignment in rank_assignments
-        ),
-        local_completion_segments_by_rank=tuple(
-            assignment[3] for assignment in rank_assignments
-        ),
-        parent_state_exchange_family_indices=parent_state_exchange_family_indices,
-        parent_state_transfers=_build_parent_state_transfer_plans(
-            parent_state_transfer_families
-        ),
-    )
-    if parent_state_exchange_family_indices:
-        (
-            remote_prefix_tail_buckets,
-            remote_completion_with_prefix_tail_buckets,
-            remote_prefix_tail_exchange,
-            remote_prefix_tail_backward_exchange,
-            remote_prefix_tail_state_transfers,
-            remote_prefix_tail_families,
-        ) = _build_remote_prefix_tail_plans(
-            spec,
-            schedule,
-            cp_rank=cp_rank,
-            device=device,
-            planner_config=planner_config,
-        )
-    else:
-        (
-            remote_prefix_tail_buckets,
-            remote_completion_with_prefix_tail_buckets,
-            remote_prefix_tail_exchange,
-            remote_prefix_tail_backward_exchange,
-            remote_prefix_tail_state_transfers,
-            remote_prefix_tail_families,
-        ) = _empty_remote_prefix_tail_plans()
-    local_prefix_family_indices = {segment.family_index for segment in prefix_segments}
-    chunk_local_completion_segments = tuple(
-        segment
-        for segment in completion_segments
-        if segment.family_index in local_prefix_family_indices
-    )
-    suffix_only_completion_segments = tuple(
-        segment
-        for segment in completion_segments
-        if segment.family_index not in local_prefix_family_indices
-        and segment.family_index not in remote_prefix_tail_families
-    )
-    ready_completion_segments, remote_completion_segments = (
-        _split_ready_and_remote_completion_segments(
-            suffix_only_completion_segments,
-            local_prefix_segments=(),
-            chain_prefix_buckets=(),
-        )
-    )
-    ready_completion_buckets = _batch_segments_by_padded_work(
-        ready_completion_segments,
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    remote_completion_buckets = _batch_segments_by_padded_work(
-        remote_completion_segments,
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    ready_completion_bucket_plans = _build_position_bucket_plans(
-        ready_completion_buckets,
-        local_token_ranges,
-        sequence_length=spec.sequence_length,
-        device=device,
-    )
-    remote_completion_bucket_plans = _build_position_bucket_plans(
-        remote_completion_buckets,
-        local_token_ranges,
-        sequence_length=spec.sequence_length,
-        device=device,
-    )
-    local_completion_bucket_plans = (
-        ready_completion_bucket_plans + remote_completion_bucket_plans
-    )
-    (
-        prefix_boundary_buckets,
-        prefix_tail_buckets,
-        completion_with_prefix_tail_buckets,
-    ) = _build_chunk_aligned_position_bucket_plans(
-        prefix_segments,
-        chunk_local_completion_segments,
-        local_token_ranges,
-        sequence_length=spec.sequence_length,
-        device=device,
-        planner_config=planner_config,
-    )
-    return GdnRankExecutionPlan.model_construct(
-        cp_rank=cp_rank,
-        cp_size=cp_size,
-        batch_size=1,
-        sequence_length=local_token_count,
-        packed_batch_size=spec.batch_size,
-        packed_sequence_length=spec.sequence_length,
-        real_token_mask=torch.ones(
-            1, local_token_count, device=device, dtype=torch.bool
-        ),
-        family_count=spec.family_count,
-        completion_count=spec.completion_count,
-        local_prefix_buckets=(),
-        local_completion_buckets=local_completion_bucket_plans,
-        ready_local_completion_buckets=ready_completion_bucket_plans,
-        remote_local_completion_buckets=remote_completion_bucket_plans,
-        chain_prefix_buckets=(),
-        chain_completion_buckets=(),
-        prefix_table_is_dense_ordered=(
-            tuple(segment.family_index for segment in prefix_segments)
-            == tuple(range(spec.family_count))
-        ),
-        attention_to_gdn=identity_exchange,
-        gdn_to_attention=identity_exchange,
-        attention_token_ranges=local_token_ranges,
-        gdn_token_ranges=local_token_ranges,
-        attention_token_count=local_token_count,
-        gdn_token_count=local_token_count,
-        parent_state_exchange_family_indices=tuple(
-            family_index
-            for family_index in parent_state_exchange_family_indices
-            if family_index not in remote_prefix_tail_families
-        ),
-        parent_state_transfers=_filter_parent_state_transfers(
-            _build_parent_state_transfer_plans(parent_state_transfer_families),
-            excluded_families=remote_prefix_tail_families,
-            device=device,
-        ),
-        prefix_boundary_buckets=prefix_boundary_buckets,
-        prefix_tail_buckets=prefix_tail_buckets,
-        completion_with_prefix_tail_buckets=completion_with_prefix_tail_buckets,
-        remote_prefix_tail_buckets=remote_prefix_tail_buckets,
-        remote_completion_with_prefix_tail_buckets=remote_completion_with_prefix_tail_buckets,
-        remote_prefix_tail_exchange=remote_prefix_tail_exchange,
-        remote_prefix_tail_backward_exchange=remote_prefix_tail_backward_exchange,
-        remote_prefix_tail_state_transfers=remote_prefix_tail_state_transfers,
-    )
-
-
-def _rebalance_local_completion_segments(
-    spec: GdnPackedExecutionSpec,
-    *,
-    prefix_owner_by_family: tuple[int, ...],
-    completion_owners_by_family: tuple[tuple[int, ...], ...],
-    initial_loads: tuple[int, ...],
-    planner_config: GdnPlannerConfig,
-) -> tuple[tuple[int, ...], ...]:
-    owners = [list(family_owners) for family_owners in completion_owners_by_family]
-    loads = list(initial_loads)
-    remote_owners_by_family = [
-        {
-            owner
-            for owner in family_owners
-            if owner != prefix_owner_by_family[family_index]
-        }
-        for family_index, family_owners in enumerate(owners)
-    ]
-    transfer_count = sum(
-        len(remote_owners) for remote_owners in remote_owners_by_family
-    )
-
-    def score(candidate_loads: list[int], candidate_transfer_count: int) -> float:
-        max_load = max(candidate_loads, default=0)
-        idle_tokens = sum(max_load - load for load in candidate_loads)
-        return (
-            max_load
-            + planner_config.rank_idle_token_cost * idle_tokens
-            + planner_config.parent_state_exchange_penalty_tokens
-            * candidate_transfer_count
-        )
-
-    best_score = score(loads, transfer_count)
-    while True:
-        best_move: (
-            tuple[int, int, int, tuple[int, ...], list[int], int, float] | None
-        ) = None
-        for family in spec.families:
-            family_owners = owners[family.family_index]
-            prefix_owner = prefix_owner_by_family[family.family_index]
-            original_remote_owners = remote_owners_by_family[family.family_index]
-            for source in sorted(set(family_owners)):
-                source_children = [
-                    child_index
-                    for child_index, owner in enumerate(family_owners)
-                    if owner == source
-                ]
-                ordered_children = sorted(
-                    source_children,
-                    key=lambda child_index: family.completions[child_index].length,
-                    reverse=True,
-                )
-                for dest in range(len(loads)):
-                    if dest == source:
-                        continue
-                    moved_tokens = 0
-                    moved_children = []
-                    for child_index in ordered_children:
-                        moved_tokens += family.completions[child_index].length
-                        moved_children.append(child_index)
-                        candidate_loads = list(loads)
-                        candidate_loads[source] -= moved_tokens
-                        candidate_loads[dest] += moved_tokens
-                        candidate_remote_owners = set(original_remote_owners)
-                        if source != prefix_owner and len(moved_children) == len(
-                            source_children
-                        ):
-                            candidate_remote_owners.discard(source)
-                        if dest != prefix_owner:
-                            candidate_remote_owners.add(dest)
-                        candidate_transfer_count = (
-                            transfer_count
-                            - len(original_remote_owners)
-                            + len(candidate_remote_owners)
-                        )
-                        candidate_score = score(
-                            candidate_loads, candidate_transfer_count
-                        )
-                        if candidate_score >= best_score:
-                            continue
-                        if best_move is None or candidate_score < best_move[-1]:
-                            best_move = (
-                                family.family_index,
-                                source,
-                                dest,
-                                tuple(moved_children),
-                                candidate_loads,
-                                candidate_transfer_count,
-                                candidate_score,
-                            )
-        if best_move is None:
-            return tuple(tuple(item) for item in owners)
-        (
-            family_index,
-            _source,
-            dest,
-            moved_children,
-            loads,
-            transfer_count,
-            best_score,
-        ) = best_move
-        for child_index in moved_children:
-            owners[family_index][child_index] = dest
-        prefix_owner = prefix_owner_by_family[family_index]
-        remote_owners_by_family[family_index] = {
-            owner for owner in set(owners[family_index]) if owner != prefix_owner
-        }
-
-
-def _materialize_local_family_rank_assignments(
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_size: int,
-    prefix_owner_by_family: tuple[int, ...],
-    completion_owners_by_family: tuple[tuple[int, ...], ...],
-) -> tuple[
-    tuple[
-        int,
-        tuple[tuple[int, int, int], ...],
-        tuple[GdnSegmentSpec, ...],
-        tuple[GdnSegmentSpec, ...],
-    ],
-    ...,
-]:
-    token_ranges_by_rank: list[list[tuple[int, int, int]]] = [
-        [] for _ in range(cp_size)
-    ]
-    token_counts_by_rank = [0] * cp_size
-    prefix_segments_by_rank: list[list[GdnSegmentSpec]] = [[] for _ in range(cp_size)]
-    completion_segments_by_rank: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(cp_size)
-    ]
-    sequence_length = spec.sequence_length
-    for family in spec.families:
-        prefix_owner = prefix_owner_by_family[family.family_index]
-        prefix_segments_by_rank[prefix_owner].append(family.prefix)
-        prefix_token_start = (
-            family.prefix.row_index * sequence_length + family.prefix.start
-        )
-        prefix_position_start = token_counts_by_rank[prefix_owner]
-        token_ranges_by_rank[prefix_owner].append(
-            (
-                prefix_token_start,
-                prefix_token_start + family.prefix.length,
-                prefix_position_start,
-            )
-        )
-        token_counts_by_rank[prefix_owner] = (
-            prefix_position_start + family.prefix.length
-        )
-        for completion, completion_owner in zip(
-            family.completions,
-            completion_owners_by_family[family.family_index],
-            strict=True,
-        ):
-            completion_segments_by_rank[completion_owner].append(completion)
-            completion_token_start = (
-                completion.row_index * sequence_length + completion.start
-            )
-            completion_position_start = token_counts_by_rank[completion_owner]
-            token_ranges_by_rank[completion_owner].append(
-                (
-                    completion_token_start,
-                    completion_token_start + completion.length,
-                    completion_position_start,
-                )
-            )
-            token_counts_by_rank[completion_owner] = (
-                completion_position_start + completion.length
-            )
-    return tuple(
-        (
-            token_counts_by_rank[rank],
-            tuple(token_ranges_by_rank[rank]),
-            tuple(prefix_segments_by_rank[rank]),
-            tuple(completion_segments_by_rank[rank]),
-        )
-        for rank in range(cp_size)
-    )
-
-
-def _empty_local_family_rank_execution_plan(
-    spec: GdnPackedExecutionSpec,
-    *,
-    device: torch.device | str,
-    cp_rank: int,
-    cp_size: int,
-) -> GdnRankExecutionPlan:
-    from art.megatron.gdn.layout import GdnCpExchangePlan
-
-    identity_exchange = GdnCpExchangePlan.model_construct(
-        cp_size=cp_size,
-        source_token_counts_by_rank=tuple(0 for _ in range(cp_size)),
-        dest_token_counts_by_rank=tuple(0 for _ in range(cp_size)),
-        transfers=(),
-    )
-    return GdnRankExecutionPlan.model_construct(
-        cp_rank=cp_rank,
-        cp_size=cp_size,
-        batch_size=1,
-        sequence_length=0,
-        packed_batch_size=spec.batch_size,
-        packed_sequence_length=spec.sequence_length,
-        real_token_mask=torch.ones(1, 0, device=device, dtype=torch.bool),
-        family_count=spec.family_count,
-        completion_count=spec.completion_count,
-        local_prefix_buckets=(),
-        local_completion_buckets=(),
-        ready_local_completion_buckets=(),
-        remote_local_completion_buckets=(),
-        chain_prefix_buckets=(),
-        chain_completion_buckets=(),
-        prefix_table_is_dense_ordered=False,
-        attention_to_gdn=identity_exchange,
-        gdn_to_attention=identity_exchange,
-        attention_token_ranges=(),
-        gdn_token_ranges=(),
-        attention_token_count=0,
-        gdn_token_count=0,
-        parent_state_exchange_family_indices=(),
-        parent_state_transfers=(),
-    )
-
-
-def _can_chain_segment(
-    segment: GdnSegmentSpec,
-    *,
-    cp_size: int,
-    planner_config: GdnPlannerConfig,
-) -> bool:
-    min_tokens = (
-        planner_config.cp_chain_min_prefix_only_tokens
-        if segment.kind == "prefix"
-        else planner_config.cp_chain_min_total_tokens
-    )
-    if segment.length < min_tokens:
-        return False
-    if segment.length < cp_size:
-        return False
-    if segment.length // FLA_CHUNK_SIZE < cp_size:
-        return False
-    per_rank = segment.length / cp_size
-    if per_rank < planner_config.cp_chain_min_tokens_per_rank:
-        return False
-    return True
-
+    rows = parse_shared_prefix_tree(group_ids=groups, parent_ids=parents)
+    tree_segments: list[GdnSegmentSpec] = []
+    tree_parent_indices: list[int] = []
+    tree_depths: list[int] = []
+    valid_lengths: list[int] = []
+    node_by_row_group: dict[tuple[int, int], int] = {}
+    child_counts_by_parent: dict[int, int] = {}
+
+    for row in rows:
+        valid_lengths.append(row.valid_tokens)
+        for segment in row.segments:
+            node_index = len(tree_segments)
+            is_root = segment.depth == 0
+            parent_node_index = (
+                -1
+                if is_root
+                else node_by_row_group[(segment.row_index, segment.parent_id)]
+            )
+            child_index = None
+            if not is_root:
+                child_index = child_counts_by_parent.get(parent_node_index, 0)
+                child_counts_by_parent[parent_node_index] = child_index + 1
+            tree_segments.append(
+                _trusted_pydantic_construct(
+                    GdnSegmentSpec,
+                    _GDN_SEGMENT_SPEC_FIELDS,
+                    row_index=segment.row_index,
+                    family_index=node_index,
+                    group_id=segment.group_id,
+                    parent_id=segment.parent_id,
+                    start=segment.start,
+                    end=segment.end,
+                    kind="prefix" if is_root else "completion",
+                    child_index=child_index,
+                )
+            )
+            tree_parent_indices.append(parent_node_index)
+            tree_depths.append(segment.depth)
+            node_by_row_group[(segment.row_index, segment.group_id)] = node_index
 
-def _build_parent_state_transfer_plans(
-    families_by_peer: dict[tuple[int, int], set[int]],
-) -> tuple[GdnParentStateTransferPlan, ...]:
-    return tuple(
-        GdnParentStateTransferPlan(
-            source_rank=source_rank,
-            dest_rank=dest_rank,
-            family_indices=tuple(sorted(family_indices)),
-        )
-        for (source_rank, dest_rank), family_indices in sorted(families_by_peer.items())
-        if source_rank != dest_rank and family_indices
+    return GdnPackedExecutionSpec(
+        batch_size=batch_size,
+        sequence_length=sequence_length,
+        valid_lengths=tuple(valid_lengths),
+        tree_segments=tuple(tree_segments),
+        tree_parent_indices=tuple(tree_parent_indices),
+        tree_depths=tuple(tree_depths),
     )
 
 
-def _split_ready_and_remote_completion_segments(
-    completion_segments: tuple[GdnSegmentSpec, ...],
-    *,
-    local_prefix_segments: tuple[GdnSegmentSpec, ...],
-    chain_prefix_buckets: tuple[tuple[GdnSegmentSpec, ...], ...],
-) -> tuple[tuple[GdnSegmentSpec, ...], tuple[GdnSegmentSpec, ...]]:
-    ready_family_indices = {
-        segment.family_index for segment in local_prefix_segments
-    } | {segment.family_index for bucket in chain_prefix_buckets for segment in bucket}
-    ready = []
-    remote = []
-    for segment in completion_segments:
-        if segment.family_index in ready_family_indices:
-            ready.append(segment)
-        else:
-            remote.append(segment)
-    return tuple(ready), tuple(remote)
-
-
-def _transfer_plans_to_device(
-    transfers: tuple[GdnParentStateTransferPlan, ...],
+def _build_segment_bucket_plans(
+    segment_buckets: tuple[tuple[GdnSegmentSpec, ...], ...],
     *,
     device: torch.device | str,
-) -> tuple[GdnParentStateTransferPlan, ...]:
+) -> tuple[GdnSegmentBucketPlan, ...]:
     return tuple(
-        transfer.model_copy(
-            update={
-                "family_indices_tensor": _move_planner_tensor(
-                    torch.tensor(transfer.family_indices, dtype=torch.long),
-                    device,
-                )
-            }
-        )
-        for transfer in transfers
+        _build_segment_bucket_plan(bucket[0].length, bucket, device=device)
+        for bucket in segment_buckets
     )
 
 
-def _has_chainable_segment(
-    family: GdnPackedFamilySpec,
+def _attention_source_layout(
+    spec: GdnPackedExecutionSpec,
     *,
     cp_size: int,
+    attention_token_layout_index: TokenLayoutIndex | None,
     planner_config: GdnPlannerConfig,
-) -> bool:
-    return _can_chain_prefix_segment(
-        family.prefix, cp_size=cp_size, planner_config=planner_config
-    ) or any(
-        _can_chain_segment(completion, cp_size=cp_size, planner_config=planner_config)
-        for completion in family.completions
+) -> TokenLayoutIndex:
+    if attention_token_layout_index is not None:
+        if _layout_cp_size(attention_token_layout_index) != cp_size:
+            raise ValueError(
+                "attention token layout index cp_size must match GDN cp_size, got "
+                f"{_layout_cp_size(attention_token_layout_index)} and {cp_size}"
+            )
+        if _layout_token_count(attention_token_layout_index) != spec.real_token_count:
+            raise ValueError(
+                "attention token layout index token count must match GDN real token "
+                f"count, got {_layout_token_count(attention_token_layout_index)} and "
+                f"{spec.real_token_count}"
+            )
+        return attention_token_layout_index
+    return _token_layout_from_rank_ranges(
+        _default_attention_layout_ranges(
+            spec,
+            cp_size=cp_size,
+            planner_config=planner_config,
+        )
     )
 
 
-def _can_chain_prefix_segment(
+def _can_chain_segment(
     segment: GdnSegmentSpec,
     *,
     cp_size: int,
     planner_config: GdnPlannerConfig,
 ) -> bool:
-    return _can_chain_segment(segment, cp_size=cp_size, planner_config=planner_config)
+    min_tokens = (
+        planner_config.cp_chain_min_prefix_only_tokens
+        if segment.kind == "prefix"
+        else planner_config.cp_chain_min_total_tokens
+    )
+    return _can_chain_segment_with_min_tokens(
+        segment,
+        cp_size=cp_size,
+        min_tokens=min_tokens,
+        planner_config=planner_config,
+    )
 
 
-def _score_cp_segment_stats(
+def _can_chain_tree_segment(
+    segment: GdnSegmentSpec,
     *,
-    rank_local_work: tuple[int, ...],
-    rank_chain_work: tuple[int, ...],
-    rank_real_tokens: tuple[int, ...],
-    cross_rank_token_count: int,
-    parent_state_exchange_family_count: int,
-    local_bucket_count: int,
-    local_segment_count: int,
-    chain_bucket_count: int,
+    cp_size: int,
     planner_config: GdnPlannerConfig,
-) -> float:
-    empty_rank_count = sum(1 for token_count in rank_real_tokens if token_count == 0)
-    return (
-        _rank_kernel_ms(
-            rank_local_work,
-            rank_chain_work,
-            local_token_ms=planner_config.planner_local_token_ms,
-            chain_token_ms=planner_config.planner_chain_token_ms,
+) -> bool:
+    min_tokens = (
+        min(
+            planner_config.cp_tree_chain_min_prefix_only_tokens,
+            planner_config.cp_chain_min_prefix_only_tokens,
         )
-        + planner_config.planner_local_bucket_ms * local_bucket_count
-        + planner_config.planner_chain_bucket_ms * chain_bucket_count
-        + planner_config.planner_local_segment_ms * local_segment_count
-        + planner_config.planner_layout_cross_rank_token_ms * cross_rank_token_count
-        + (
-            planner_config.planner_parent_state_exchange_base_ms
-            + planner_config.planner_parent_state_exchange_ms
-            * parent_state_exchange_family_count
-            if parent_state_exchange_family_count
-            else 0.0
+        if segment.kind == "prefix"
+        else min(
+            planner_config.cp_tree_chain_min_total_tokens,
+            planner_config.cp_chain_min_total_tokens,
         )
-        + planner_config.planner_empty_rank_ms * empty_rank_count
+    )
+    return _can_chain_segment_with_min_tokens(
+        segment,
+        cp_size=cp_size,
+        min_tokens=min_tokens,
+        planner_config=planner_config,
     )
 
 
-def _rank_kernel_ms(
-    rank_local_work: tuple[int, ...],
-    rank_chain_work: tuple[int, ...],
+def _can_chain_segment_with_min_tokens(
+    segment: GdnSegmentSpec,
     *,
-    local_token_ms: float,
-    chain_token_ms: float,
-) -> float:
-    return max(
-        (
-            local_work * local_token_ms + chain_work * chain_token_ms
-            for local_work, chain_work in zip(
-                rank_local_work, rank_chain_work, strict=True
-            )
-        ),
-        default=0.0,
-    )
+    cp_size: int,
+    min_tokens: int,
+    planner_config: GdnPlannerConfig,
+) -> bool:
+    if segment.length < min_tokens:
+        return False
+    if segment.length < cp_size:
+        return False
+    if segment.length // FLA_CHUNK_SIZE < cp_size:
+        return False
+    per_rank = segment.length / cp_size
+    if per_rank < planner_config.cp_chain_min_tokens_per_rank:
+        return False
+    return True
 
 
 def _best_segment_owner(
@@ -3336,11 +725,17 @@ def _best_segment_owner(
             for rank in range(rank_count):
                 counts_by_rank[rank] += segment_counts[rank]
         on_rank_tokens = tuple(counts_by_rank)
-    best: tuple[float, int, int, int, int] | None = None
+    best: tuple[float, float, int, int, int, int] | None = None
     for rank, tokens in enumerate(on_rank_tokens):
         projected_loads = list(rank_loads)
         projected_loads[rank] += segment_length
         max_load = max(projected_loads, default=0)
+        target_load = sum(projected_loads) / max(1, len(projected_loads))
+        overload = max(
+            0.0,
+            max_load
+            - planner_config.max_zero_exchange_load_imbalance * target_load,
+        )
         idle_tokens = sum(max_load - load for load in projected_loads)
         cross_rank_tokens = segment_length - int(tokens)
         empty_rank_count = sum(1 for load in projected_loads if load == 0)
@@ -3353,6 +748,7 @@ def _best_segment_owner(
             + empty_rank_count * planner_config.planner_empty_rank_ms
         )
         candidate = (
+            overload,
             score,
             max_load,
             cross_rank_tokens,
@@ -3366,6 +762,23 @@ def _best_segment_owner(
     return best[-1]
 
 
+def _tree_group_parent_owner(
+    segments: tuple[GdnSegmentSpec, ...],
+    *,
+    tree_parent_indices: tuple[int, ...],
+    owner_by_node: list[int],
+    chained_nodes: list[bool],
+) -> int | None:
+    if not segments:
+        return None
+    segment = segments[0]
+    parent_index = tree_parent_indices[segment.family_index]
+    if parent_index < 0 or chained_nodes[parent_index]:
+        return None
+    parent_owner = owner_by_node[parent_index]
+    return parent_owner if parent_owner >= 0 else None
+
+
 def _build_attention_layout_index_from_token_layout(
     layout: TokenLayoutIndex,
     *,
@@ -3472,61 +885,22 @@ def should_split_segment(segment: GdnSegmentSpec) -> bool:
             target_rank_load
         ):
             return False
-        if segment.kind == "prefix":
-            return _can_chain_prefix_segment(
-                segment, cp_size=cp_size, planner_config=planner_config
-            )
-        return _can_chain_segment(
+        return _can_chain_tree_segment(
             segment, cp_size=cp_size, planner_config=planner_config
         )
 
-    for family in spec.families:
-        has_split_segment = any(
-            should_split_segment(segment)
-            for segment in (family.prefix, *family.completions)
-        )
-        if not has_split_segment:
-            if _should_co_locate_non_chain_family(
-                family,
-                total_real_tokens=spec.real_token_count,
-                cp_size=cp_size,
-                planner_config=planner_config,
-            ):
-                owner = _least_loaded_rank(loads)
-                for segment in (family.prefix, *family.completions):
-                    token_start = _segment_token_start(segment, spec.sequence_length)
-                    append_segment(owner, token_start, segment.length)
-                continue
-            for segment in (family.prefix, *family.completions):
-                token_start = _segment_token_start(segment, spec.sequence_length)
-                owner = _least_loaded_rank(loads)
-                append_segment(owner, token_start, segment.length)
+    for segment in spec.tree_segments:
+        token_start = _segment_token_start(segment, spec.sequence_length)
+        if should_split_segment(segment):
+            _append_split_default_attention_segment(
+                ranks, loads, token_start, segment.length
+            )
             continue
-        for segment in (family.prefix, *family.completions):
-            token_start = _segment_token_start(segment, spec.sequence_length)
-            if should_split_segment(segment):
-                _append_split_default_attention_segment(
-                    ranks, loads, token_start, segment.length
-                )
-                continue
-            owner = _least_loaded_rank(loads)
-            append_segment(owner, token_start, segment.length)
+        owner = _least_loaded_rank(loads)
+        append_segment(owner, token_start, segment.length)
     return tuple(tuple(ranges) for ranges in ranks)
 
 
-def _should_co_locate_non_chain_family(
-    family: GdnPackedFamilySpec,
-    *,
-    total_real_tokens: int,
-    cp_size: int,
-    planner_config: GdnPlannerConfig,
-) -> bool:
-    target_rank_load = total_real_tokens / cp_size
-    return family.token_count <= (
-        planner_config.max_zero_exchange_load_imbalance * target_rank_load
-    )
-
-
 def _append_split_default_attention_segment(
     ranks: list[list[tuple[int, int, int]]],
     loads: list[int],
@@ -3591,26 +965,6 @@ def _append_chain_segment(
     return cross_rank_tokens
 
 
-def _chain_rank_token_indices(
-    segment: GdnSegmentSpec,
-    spec: GdnPackedExecutionSpec,
-    *,
-    cp_rank: int,
-    cp_size: int,
-) -> range:
-    token_start = _segment_token_start(segment, spec.sequence_length)
-    lengths = _fla_aligned_chain_shard_lengths(segment.length, cp_size=cp_size)
-    start = sum(lengths[:cp_rank])
-    end = start + lengths[cp_rank]
-    if start >= end:
-        raise ValueError(
-            "CP chain planning requires non-empty shards; "
-            f"segment={segment.kind}:{segment.family_index} "
-            f"length={segment.length} cp_size={cp_size}"
-        )
-    return range(token_start + start, token_start + end)
-
-
 def _fla_aligned_chain_shard_lengths(length: int, *, cp_size: int) -> tuple[int, ...]:
     full_chunks = int(length) // FLA_CHUNK_SIZE
     if full_chunks < int(cp_size):
@@ -3695,14 +1049,99 @@ def _least_loaded_rank(rank_loads: list[int]) -> int:
     return min(range(len(rank_loads)), key=lambda rank: (rank_loads[rank], rank))
 
 
-def _owner_rank(
-    local_prefix_segments_by_rank: list[list[GdnSegmentSpec]],
-    prefix: GdnSegmentSpec,
-) -> int:
-    for rank, segments in enumerate(local_prefix_segments_by_rank):
-        if prefix in segments:
-            return rank
-    raise RuntimeError("local prefix owner was not recorded")
+def _build_tree_segment_bucket_plans(
+    segments: tuple[GdnSegmentSpec, ...],
+    tree_parent_indices: tuple[int, ...],
+    tree_has_children: tuple[bool, ...],
+    *,
+    device: torch.device | str,
+    planner_config: GdnPlannerConfig,
+) -> tuple[GdnSegmentBucketPlan, ...]:
+    segment_buckets = _batch_tree_segments_by_padded_work(
+        segments,
+        tree_has_children,
+        max_padding_ratio=planner_config.max_padding_ratio,
+        max_segments_per_batch=planner_config.max_segments_per_batch,
+    )
+    plans = _build_segment_bucket_plans(segment_buckets, device=device)
+    return tuple(
+        _bucket_with_tree_parent_indices(
+            plan,
+            bucket,
+            tree_parent_indices,
+            tree_has_children,
+            device=device,
+        )
+        for plan, bucket in zip(plans, segment_buckets, strict=True)
+    )
+
+
+def _build_tree_position_bucket_plans(
+    segments: tuple[GdnSegmentSpec, ...],
+    tree_parent_indices: tuple[int, ...],
+    tree_has_children: tuple[bool, ...],
+    local_token_ranges: tuple[tuple[int, int, int], ...],
+    *,
+    sequence_length: int,
+    device: torch.device | str,
+    planner_config: GdnPlannerConfig,
+    token_ranges_by_rank: tuple[tuple[tuple[int, int, int], ...], ...] | None = None,
+    split_by_final_state: bool = True,
+) -> tuple[GdnSegmentBucketPlan, ...]:
+    segment_buckets = (
+        _batch_tree_segments_by_padded_work(
+            segments,
+            tree_has_children,
+            max_padding_ratio=planner_config.max_padding_ratio,
+            max_segments_per_batch=planner_config.max_segments_per_batch,
+        )
+        if split_by_final_state
+        else _batch_segments_by_padded_work(
+            segments,
+            max_padding_ratio=planner_config.max_padding_ratio,
+            max_segments_per_batch=planner_config.max_segments_per_batch,
+        )
+    )
+    plans = _build_position_bucket_plans(
+        segment_buckets,
+        local_token_ranges,
+        sequence_length=sequence_length,
+        device=device,
+        token_ranges_by_rank=token_ranges_by_rank,
+    )
+    return tuple(
+        _bucket_with_tree_parent_indices(
+            plan,
+            bucket,
+            tree_parent_indices,
+            tree_has_children,
+            device=device,
+        )
+        for plan, bucket in zip(plans, segment_buckets, strict=True)
+    )
+
+
+def _bucket_with_tree_parent_indices(
+    plan: GdnSegmentBucketPlan,
+    segments: tuple[GdnSegmentSpec, ...],
+    tree_parent_indices: tuple[int, ...],
+    tree_has_children: tuple[bool, ...],
+    *,
+    device: torch.device | str,
+) -> GdnSegmentBucketPlan:
+    parent_indices = torch.tensor(
+        [tree_parent_indices[segment.family_index] for segment in segments],
+        dtype=torch.long,
+    )
+    return plan.model_copy(
+        update={
+            "parent_indices": _move_planner_tensor(parent_indices, device),
+            "parent_indices_cpu": parent_indices,
+            "needs_final_state": any(
+                tree_has_children[segment.family_index] for segment in segments
+            ),
+        }
+    )
 
 
 def _build_position_bucket_plans(
@@ -3791,6 +1230,7 @@ def _build_position_bucket_plan(
         row_indices=_move_planner_tensor(row_indices_cpu, device),
         position_indices=_move_planner_tensor(position_indices_cpu, device),
         family_indices=_move_planner_tensor(family_indices_cpu, device),
+        family_indices_cpu=family_indices_cpu,
         real_token_count_static=sum(lengths),
     )
 
@@ -3850,6 +1290,7 @@ def _build_exact_range_position_bucket_plan(
         row_indices=_move_planner_tensor(row_indices_cpu, device),
         position_indices=_move_planner_tensor(position_indices_cpu, device),
         family_indices=_move_planner_tensor(family_indices_cpu, device),
+        family_indices_cpu=family_indices_cpu,
         real_token_count_static=sum(lengths),
     )
 
@@ -3927,6 +1368,37 @@ def _batch_segments_by_padded_work(
     return tuple(tuple(batch) for batch in batches)
 
 
+def _batch_tree_segments_by_padded_work(
+    segments: tuple[GdnSegmentSpec, ...],
+    tree_has_children: tuple[bool, ...],
+    *,
+    max_padding_ratio: float = 1.25,
+    max_segments_per_batch: int = 128,
+) -> tuple[tuple[GdnSegmentSpec, ...], ...]:
+    stateful = tuple(
+        segment
+        for segment in segments
+        if tree_has_children[segment.family_index]
+    )
+    stateless = tuple(
+        segment
+        for segment in segments
+        if not tree_has_children[segment.family_index]
+    )
+    return (
+        *_batch_segments_by_padded_work(
+            stateful,
+            max_padding_ratio=max_padding_ratio,
+            max_segments_per_batch=max_segments_per_batch,
+        ),
+        *_batch_segments_by_padded_work(
+            stateless,
+            max_padding_ratio=max_padding_ratio,
+            max_segments_per_batch=max_segments_per_batch,
+        ),
+    )
+
+
 def _build_segment_bucket_plan(
     length: int, segments: tuple[GdnSegmentSpec, ...], *, device: torch.device | str
 ) -> GdnSegmentBucketPlan:
@@ -3961,6 +1433,7 @@ def _build_segment_bucket_plan(
         ),
         position_indices=_move_planner_tensor(positions_cpu, device),
         family_indices=_move_planner_tensor(family_indices_cpu, device),
+        family_indices_cpu=family_indices_cpu,
         real_token_count_static=sum(segment.length for segment in segments),
     )
 
@@ -4012,27 +1485,6 @@ def _range_overlaps(
     return overlaps
 
 
-def _local_token_ranges(
-    local_gdn_tokens: tuple[int, ...],
-) -> tuple[tuple[int, int, int], ...]:
-    if not local_gdn_tokens:
-        return ()
-    ranges = []
-    token_start = local_gdn_tokens[0]
-    token_end = token_start + 1
-    position_start = 0
-    for position, token in enumerate(local_gdn_tokens[1:], start=1):
-        if token == token_end:
-            token_end += 1
-            continue
-        ranges.append((token_start, token_end, position_start))
-        token_start = token
-        token_end = token + 1
-        position_start = position
-    ranges.append((token_start, token_end, position_start))
-    return tuple(ranges)
-
-
 def _local_positions_for_segment(
     segment: GdnSegmentSpec,
     *,
@@ -4079,285 +1531,3 @@ def _rank2_long_cpu(name: str, tensor: torch.Tensor) -> torch.Tensor:
     ):
         raise TypeError(f"{name} must contain integer ids, got dtype={tensor.dtype}")
     return tensor.detach().to(device="cpu", dtype=torch.long)
-
-
-def _validate_padding_tensor(
-    row_index: int,
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
-) -> int:
-    padding_positions = torch.nonzero(group_ids == -1, as_tuple=False)
-    valid_length = (
-        int(padding_positions[0].item())
-        if int(padding_positions.numel()) > 0
-        else int(group_ids.numel())
-    )
-    if valid_length == 0:
-        if bool(torch.any(parent_ids != -1).item()):
-            raise ValueError(f"row {row_index}: padding parent_ids must be -1")
-        return 0
-    if bool(torch.any(group_ids[valid_length:] != -1).item()):
-        raise ValueError(
-            f"row {row_index}: valid tokens must be contiguous before padding"
-        )
-    if bool(torch.any(parent_ids[:valid_length] == -1).item()):
-        raise ValueError(
-            f"row {row_index}: valid tokens must have non-padding parent_ids"
-        )
-    if bool(torch.any(parent_ids[valid_length:] != -1).item()):
-        raise ValueError(f"row {row_index}: padding parent_ids must be -1")
-    return valid_length
-
-
-def _validate_padding(
-    row_index: int,
-    group_ids: list[int],
-    parent_ids: list[int],
-) -> int:
-    valid_length = 0
-    for group_id in group_ids:
-        if group_id == -1:
-            break
-        valid_length += 1
-    if valid_length == 0:
-        if any(parent_id != -1 for parent_id in parent_ids):
-            raise ValueError(f"row {row_index}: padding parent_ids must be -1")
-        return 0
-    if any(group_id != -1 for group_id in group_ids[valid_length:]):
-        raise ValueError(
-            f"row {row_index}: valid tokens must be contiguous before padding"
-        )
-    if any(parent_id == -1 for parent_id in parent_ids[:valid_length]):
-        raise ValueError(
-            f"row {row_index}: valid tokens must have non-padding parent_ids"
-        )
-    if any(parent_id != -1 for parent_id in parent_ids[valid_length:]):
-        raise ValueError(f"row {row_index}: padding parent_ids must be -1")
-    return valid_length
-
-
-def _parse_row_tensor(
-    *,
-    row_index: int,
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
-    valid_length: int,
-    first_family_index: int,
-    min_completions_per_family: int,
-) -> list[GdnPackedFamilySpec]:
-    valid_groups = group_ids[:valid_length]
-    valid_parents = parent_ids[:valid_length]
-    if valid_length > 1:
-        same_group = valid_groups[1:] == valid_groups[:-1]
-        parent_changed = same_group & (valid_parents[1:] != valid_parents[:-1])
-        if bool(torch.any(parent_changed).item()):
-            position = int(torch.nonzero(parent_changed, as_tuple=False)[0].item()) + 1
-            group_id = int(valid_groups[position].item())
-            previous_parent = int(valid_parents[position - 1].item())
-            current_parent = int(valid_parents[position].item())
-            raise ValueError(
-                f"row {row_index}: group {group_id} changes parent from "
-                f"{previous_parent} to {current_parent}"
-            )
-        boundaries = torch.nonzero(~same_group, as_tuple=False).flatten() + 1
-        starts_tensor = torch.cat(
-            (valid_groups.new_zeros(1), boundaries.to(valid_groups.dtype))
-        )
-        ends_tensor = torch.cat(
-            (
-                boundaries.to(valid_groups.dtype),
-                valid_groups.new_tensor([valid_length]),
-            )
-        )
-    else:
-        starts_tensor = valid_groups.new_zeros(1)
-        ends_tensor = valid_groups.new_tensor([valid_length])
-
-    starts = tuple(int(value) for value in starts_tensor.tolist())
-    ends = tuple(int(value) for value in ends_tensor.tolist())
-    segment_group_ids = tuple(int(valid_groups[start].item()) for start in starts)
-    segment_parent_ids = tuple(int(valid_parents[start].item()) for start in starts)
-    families: list[GdnPackedFamilySpec] = []
-    seen_groups: set[int] = set()
-    segment_cursor = 0
-    while segment_cursor < len(starts):
-        group_id = segment_group_ids[segment_cursor]
-        parent_id = segment_parent_ids[segment_cursor]
-        start = starts[segment_cursor]
-        end = ends[segment_cursor]
-        if group_id in seen_groups:
-            raise ValueError(f"row {row_index}: group_id {group_id} is non-contiguous")
-        if group_id != parent_id:
-            raise ValueError(
-                f"row {row_index}: completion group {group_id} appears before "
-                f"its prefix parent {parent_id}"
-            )
-        seen_groups.add(group_id)
-        family_index = first_family_index + len(families)
-        prefix = _trusted_pydantic_construct(
-            GdnSegmentSpec,
-            _GDN_SEGMENT_SPEC_FIELDS,
-            row_index=row_index,
-            family_index=family_index,
-            group_id=group_id,
-            parent_id=parent_id,
-            start=start,
-            end=end,
-            kind="prefix",
-            child_index=None,
-        )
-        segment_cursor += 1
-        completions: list[GdnSegmentSpec] = []
-        while segment_cursor < len(starts):
-            child_group_id = segment_group_ids[segment_cursor]
-            child_parent_id = segment_parent_ids[segment_cursor]
-            child_start = starts[segment_cursor]
-            child_end = ends[segment_cursor]
-            if child_group_id == child_parent_id:
-                break
-            if child_parent_id != group_id:
-                raise ValueError(
-                    f"row {row_index}: completion group {child_group_id} has "
-                    f"parent {child_parent_id}, expected active prefix {group_id}"
-                )
-            if child_group_id in seen_groups:
-                raise ValueError(
-                    f"row {row_index}: group_id {child_group_id} is non-contiguous"
-                )
-            seen_groups.add(child_group_id)
-            completions.append(
-                _trusted_pydantic_construct(
-                    GdnSegmentSpec,
-                    _GDN_SEGMENT_SPEC_FIELDS,
-                    row_index=row_index,
-                    family_index=family_index,
-                    group_id=child_group_id,
-                    parent_id=child_parent_id,
-                    start=child_start,
-                    end=child_end,
-                    kind="completion",
-                    child_index=len(completions),
-                )
-            )
-            segment_cursor += 1
-        if len(completions) < min_completions_per_family:
-            raise ValueError(
-                f"row {row_index}: prefix group {group_id} has {len(completions)} "
-                f"completion(s), expected at least {min_completions_per_family}"
-            )
-        families.append(
-            _trusted_pydantic_construct(
-                GdnPackedFamilySpec,
-                _GDN_PACKED_FAMILY_SPEC_FIELDS,
-                row_index=row_index,
-                family_index=family_index,
-                prefix=prefix,
-                completions=tuple(completions),
-            )
-        )
-    return families
-
-
-def _parse_row(
-    *,
-    row_index: int,
-    group_ids: list[int],
-    parent_ids: list[int],
-    valid_length: int,
-    first_family_index: int,
-    min_completions_per_family: int,
-) -> list[GdnPackedFamilySpec]:
-    families: list[GdnPackedFamilySpec] = []
-    seen_groups: set[int] = set()
-    cursor = 0
-    while cursor < valid_length:
-        group_id, parent_id, start, end = _read_segment(
-            row_index, group_ids, parent_ids, valid_length, cursor
-        )
-        if group_id in seen_groups:
-            raise ValueError(f"row {row_index}: group_id {group_id} is non-contiguous")
-        if group_id != parent_id:
-            raise ValueError(
-                f"row {row_index}: completion group {group_id} appears before "
-                f"its prefix parent {parent_id}"
-            )
-        seen_groups.add(group_id)
-        family_index = first_family_index + len(families)
-        prefix = GdnSegmentSpec(
-            row_index=row_index,
-            family_index=family_index,
-            group_id=group_id,
-            parent_id=parent_id,
-            start=start,
-            end=end,
-            kind="prefix",
-        )
-        cursor = end
-        completions: list[GdnSegmentSpec] = []
-        while cursor < valid_length:
-            child_group_id, child_parent_id, child_start, child_end = _read_segment(
-                row_index, group_ids, parent_ids, valid_length, cursor
-            )
-            if child_group_id == child_parent_id:
-                break
-            if child_parent_id != group_id:
-                raise ValueError(
-                    f"row {row_index}: completion group {child_group_id} has "
-                    f"parent {child_parent_id}, expected active prefix {group_id}"
-                )
-            if child_group_id in seen_groups:
-                raise ValueError(
-                    f"row {row_index}: group_id {child_group_id} is non-contiguous"
-                )
-            seen_groups.add(child_group_id)
-            completions.append(
-                GdnSegmentSpec(
-                    row_index=row_index,
-                    family_index=family_index,
-                    group_id=child_group_id,
-                    parent_id=child_parent_id,
-                    start=child_start,
-                    end=child_end,
-                    kind="completion",
-                    child_index=len(completions),
-                )
-            )
-            cursor = child_end
-        if len(completions) < min_completions_per_family:
-            raise ValueError(
-                f"row {row_index}: prefix group {group_id} has {len(completions)} "
-                f"completion(s), expected at least {min_completions_per_family}"
-            )
-        families.append(
-            GdnPackedFamilySpec(
-                row_index=row_index,
-                family_index=family_index,
-                prefix=prefix,
-                completions=tuple(completions),
-            )
-        )
-    return families
-
-
-def _read_segment(
-    row_index: int,
-    group_ids: list[int],
-    parent_ids: list[int],
-    valid_length: int,
-    cursor: int,
-) -> tuple[int, int, int, int]:
-    group_id = int(group_ids[cursor])
-    parent_id = int(parent_ids[cursor])
-    if group_id < 0 or parent_id < 0:
-        raise ValueError(f"row {row_index}: segment ids must be non-negative")
-    start = cursor
-    cursor += 1
-    while cursor < valid_length and int(group_ids[cursor]) == group_id:
-        current_parent = int(parent_ids[cursor])
-        if current_parent != parent_id:
-            raise ValueError(
-                f"row {row_index}: group {group_id} changes parent from "
-                f"{parent_id} to {current_parent}"
-            )
-        cursor += 1
-    return group_id, parent_id, start, cursor
diff --git a/src/art/megatron/gdn/layout.py b/src/art/megatron/gdn/layout.py
index c3469a451..bd2ece79e 100644
--- a/src/art/megatron/gdn/layout.py
+++ b/src/art/megatron/gdn/layout.py
@@ -28,12 +28,18 @@ class GdnCpPeerTransfer(BaseModel):
     source_rank: int = Field(ge=0)
     dest_rank: int = Field(ge=0)
     token_count: int = Field(ge=0)
+    source_positions_cpu: tuple[int, ...] | None = None
+    dest_positions_cpu: tuple[int, ...] | None = None
     source_positions_tensor: Tensor | None = None
     dest_positions_tensor: Tensor | None = None
 
     @model_validator(mode="after")
     def _same_lengths(self) -> "GdnCpPeerTransfer":
         lengths = {int(self.token_count)}
+        if self.source_positions_cpu is not None:
+            lengths.add(len(self.source_positions_cpu))
+        if self.dest_positions_cpu is not None:
+            lengths.add(len(self.dest_positions_cpu))
         if self.source_positions_tensor is not None:
             lengths.add(int(self.source_positions_tensor.numel()))
         if self.dest_positions_tensor is not None:
@@ -238,9 +244,13 @@ def _make_peer_transfer(
         source_count=source_count,
         dest_count=dest_count,
     ):
+        source_cpu = None
+        dest_cpu = None
         source_tensor = None
         dest_tensor = None
     else:
+        source_cpu = _tensor_positions_tuple(source_positions)
+        dest_cpu = _tensor_positions_tuple(dest_positions)
         target = torch.device(device) if device is not None else torch.device("cpu")
         source_tensor = source_positions.to(
             device=target, dtype=torch.long
@@ -250,11 +260,17 @@ def _make_peer_transfer(
         source_rank=source_rank,
         dest_rank=dest_rank,
         token_count=token_count,
+        source_positions_cpu=source_cpu,
+        dest_positions_cpu=dest_cpu,
         source_positions_tensor=source_tensor,
         dest_positions_tensor=dest_tensor,
     )
 
 
+def _tensor_positions_tuple(tensor: Tensor) -> tuple[int, ...]:
+    return tuple(int(value) for value in tensor.detach().cpu().tolist())
+
+
 def _is_full_identity_transfer(
     *,
     source_rank: int,
@@ -287,6 +303,8 @@ def _reverse_exchange_plan(plan: GdnCpExchangePlan) -> GdnCpExchangePlan:
                 source_rank=transfer.dest_rank,
                 dest_rank=transfer.source_rank,
                 token_count=_transfer_token_count(transfer),
+                source_positions_cpu=transfer.dest_positions_cpu,
+                dest_positions_cpu=transfer.source_positions_cpu,
                 source_positions_tensor=transfer.dest_positions_tensor,
                 dest_positions_tensor=transfer.source_positions_tensor,
             )
@@ -494,6 +512,8 @@ def move_cp_exchange_plan_to_device(
                 source_rank=transfer.source_rank,
                 dest_rank=transfer.dest_rank,
                 token_count=transfer.token_count,
+                source_positions_cpu=transfer.source_positions_cpu,
+                dest_positions_cpu=transfer.dest_positions_cpu,
                 source_positions_tensor=_move_optional_index_tensor(
                     transfer.source_positions_tensor, target
                 ),
@@ -750,10 +770,15 @@ def _is_implicit_full_identity_transfer(
     )
 
 
-def _transfer_positions_tuple(tensor: Tensor | None) -> tuple[int, ...]:
+def _transfer_positions_tuple(
+    positions: tuple[int, ...] | None,
+    tensor: Tensor | None,
+) -> tuple[int, ...]:
+    if positions is not None:
+        return positions
     if tensor is None:
         return ()
-    return tuple(int(value) for value in tensor.detach().cpu().tolist())
+    return _tensor_positions_tuple(tensor)
 
 
 def _transfer_index_tensor(
@@ -1028,7 +1053,10 @@ def _transfer_dest_positions_for_duplicate_check(
         dest_count=_dest_count_for_rank(plan, transfer.dest_rank),
     ):
         return tuple(range(token_count))
-    positions = _transfer_positions_tuple(transfer.dest_positions_tensor)
+    positions = _transfer_positions_tuple(
+        transfer.dest_positions_cpu,
+        transfer.dest_positions_tensor,
+    )
     if len(positions) != token_count:
         raise ValueError("GDN CP transfer destination positions must match token_count")
     return positions
diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index e8a122f5c..98736e7b9 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 
 from types import MethodType
-from typing import Any, Callable, Literal, NamedTuple, Sequence, cast
+from typing import Any, Callable, Iterable, Literal, NamedTuple, Sequence, cast
 
 import torch
 from torch import Tensor
@@ -12,7 +12,6 @@
 from .fla_cp import chunk_gated_delta_rule_native_cp
 from .gdn_shared_prefix import (
     GdnPackedExecutionSpec,
-    GdnParentStateTransferPlan,
     GdnRankExecutionPlan,
     GdnSegmentBucketPlan,
     build_gdn_rank_execution_plan,
@@ -518,23 +517,10 @@ def _run_planned_prefixes_and_completions(
     hidden_states: Tensor,
     plan: GdnRankExecutionPlan,
 ) -> tuple[Tensor, Tensor | None]:
-    if _has_chunk_aligned_local_plan(plan):
-        return _run_chunk_aligned_prefixes_and_completions(gdn, hidden_states, plan)
-    raise ValueError(
-        "shared-prefix GDN requires a chunk-aligned execution plan; "
-        "prefix/completion bucket execution has been removed"
-    )
-
-
-def _has_chunk_aligned_local_plan(plan: GdnRankExecutionPlan) -> bool:
-    return bool(
-        plan.prefix_boundary_buckets
-        or plan.prefix_tail_buckets
-        or plan.completion_with_prefix_tail_buckets
-    )
+    return _run_tree_prefixes(gdn, hidden_states, plan)
 
 
-def _run_chunk_aligned_prefixes_and_completions(
+def _run_tree_prefixes(
     gdn: Any,
     hidden_states: Tensor,
     plan: GdnRankExecutionPlan,
@@ -542,104 +528,303 @@ def _run_chunk_aligned_prefixes_and_completions(
     qkv, gate, beta, recurrent_g = _project_gdn_inputs(gdn, hidden_states)
     gate = gate.clone()
     recurrent_output = torch.zeros_like(gate)
-    boundary_family_chunks: list[Tensor] = []
-    boundary_conv_chunks: list[Tensor] = []
-    boundary_rec_chunks: list[Tensor] = []
+    recurrent_output, _cp_dependency = _run_tree_depth_buckets(
+        gdn,
+        qkv,
+        beta,
+        recurrent_g,
+        recurrent_output,
+        plan,
+        state_reference=hidden_states,
+    )
+    return _project_gdn_output(gdn, recurrent_output, gate, plan)
 
-    for bucket in plan.prefix_boundary_buckets:
-        prefix_qkv, prefix_beta, prefix_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        zero_conv = _zero_conv_state(
-            gdn, hidden_states, batch_size=bucket.segment_count
-        )
-        zero_rec = _zero_recurrent_state(
-            gdn, hidden_states, batch_size=bucket.segment_count
-        )
-        prefix_out, prefix_conv, prefix_rec = run_gdn_bucket(
-            bucket,
-            (prefix_qkv, prefix_beta, prefix_g),
-            (zero_conv, zero_rec),
-            gdn=gdn,
-            output_final_state=True,
-        )
-        if prefix_conv is None or prefix_rec is None:
-            raise RuntimeError("prefix boundary GDN execution must return final states")
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, prefix_out
-        )
-        boundary_family_chunks.append(bucket.family_indices)
-        boundary_conv_chunks.append(prefix_conv)
-        boundary_rec_chunks.append(prefix_rec)
-
-    boundary_conv_table = _materialize_indexed_family_state_table(
-        plan=plan,
-        family_chunks=boundary_family_chunks,
-        state_chunks=boundary_conv_chunks,
-        zero_state=_zero_conv_state(gdn, hidden_states, batch_size=plan.family_count),
-    )
-    boundary_rec_table = _materialize_indexed_family_state_table(
-        plan=plan,
-        family_chunks=boundary_family_chunks,
-        state_chunks=boundary_rec_chunks,
-        zero_state=_zero_recurrent_state(
-            gdn, hidden_states, batch_size=plan.family_count
-        ),
-    )
-
-    tail_family_chunks: list[Tensor] = []
-    tail_conv_chunks: list[Tensor] = []
-    tail_rec_chunks: list[Tensor] = []
-    for bucket in plan.prefix_tail_buckets:
-        tail_qkv, tail_beta, tail_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        tail_conv = boundary_conv_table.index_select(0, bucket.family_indices)
-        tail_rec = boundary_rec_table.index_select(0, bucket.family_indices)
-        tail_out, tail_conv, tail_rec = run_gdn_bucket(
-            bucket,
-            (tail_qkv, tail_beta, tail_g),
-            (tail_conv, tail_rec),
-            gdn=gdn,
-            output_final_state=True,
-        )
-        if tail_conv is None or tail_rec is None:
-            raise RuntimeError("prefix tail GDN execution must return final states")
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, tail_out
-        )
-        tail_family_chunks.append(bucket.family_indices)
-        tail_conv_chunks.append(tail_conv)
-        tail_rec_chunks.append(tail_rec)
 
-    prefix_conv_table = _replace_indexed_family_states(
-        boundary_conv_table,
-        family_chunks=tail_family_chunks,
-        state_chunks=tail_conv_chunks,
+def _run_tree_depth_buckets(
+    gdn: Any,
+    qkv: Tensor,
+    beta: Tensor,
+    recurrent_g: Tensor,
+    recurrent_output: Tensor,
+    plan: GdnRankExecutionPlan,
+    *,
+    state_reference: Tensor,
+    group: Any | None = None,
+    cp_dependency: Tensor | None = None,
+) -> tuple[Tensor, Tensor | None]:
+    state_cache = _TreeStateChunkCache(
+        device=state_reference.device,
+    )
+
+    for depth, buckets in enumerate(plan.tree_segment_buckets_by_depth):
+        if depth < len(plan.tree_chain_buckets_by_depth):
+            for bucket in plan.tree_chain_buckets_by_depth[depth]:
+                recurrent_output, cp_dependency = _run_tree_bucket(
+                    gdn,
+                    qkv,
+                    beta,
+                    recurrent_g,
+                    recurrent_output,
+                    state_cache,
+                    bucket,
+                    state_reference=state_reference,
+                    group=group,
+                    cp_dependency=cp_dependency,
+                    recurrent_cp=True,
+                    scale_parent_state_gradient=1.0 / plan.cp_size,
+                )
+
+        for bucket in buckets:
+            recurrent_output, cp_dependency = _run_tree_bucket(
+                gdn,
+                qkv,
+                beta,
+                recurrent_g,
+                recurrent_output,
+                state_cache,
+                bucket,
+                state_reference=state_reference,
+                cp_dependency=cp_dependency,
+            )
+
+    return recurrent_output, cp_dependency
+
+
+def _run_tree_bucket(
+    gdn: Any,
+    qkv: Tensor,
+    beta: Tensor,
+    recurrent_g: Tensor,
+    recurrent_output: Tensor,
+    state_cache: "_TreeStateChunkCache",
+    bucket: GdnSegmentBucketPlan,
+    *,
+    state_reference: Tensor,
+    group: Any | None = None,
+    cp_dependency: Tensor | None = None,
+    recurrent_cp: bool = False,
+    scale_parent_state_gradient: float | None = None,
+) -> tuple[Tensor, Tensor | None]:
+    parent_conv, parent_rec = state_cache.parent_states(
+        gdn,
+        bucket,
+        state_reference=state_reference,
+    )
+    if _bucket_has_parent_state(bucket):
+        parent_conv, parent_rec = _couple_parent_states(parent_conv, parent_rec)
+        if scale_parent_state_gradient is not None:
+            parent_conv = _scale_state_gradient(
+                parent_conv,
+                scale_parent_state_gradient,
+            )
+            parent_rec = _scale_state_gradient(parent_rec, scale_parent_state_gradient)
+    segment_qkv, segment_beta, segment_g = _gather_bucket_streams(
+        qkv,
+        beta,
+        recurrent_g,
+        bucket,
+    )
+    if cp_dependency is not None:
+        segment_qkv = _add_autograd_dependency(segment_qkv, cp_dependency)
+        segment_beta = _add_autograd_dependency(segment_beta, cp_dependency)
+        segment_g = _add_autograd_dependency(segment_g, cp_dependency)
+        parent_conv = _add_autograd_dependency(parent_conv, cp_dependency)
+        parent_rec = _add_autograd_dependency(parent_rec, cp_dependency)
+    segment_out, segment_conv, segment_rec = run_gdn_bucket(
+        bucket,
+        (segment_qkv, segment_beta, segment_g),
+        (parent_conv, parent_rec),
+        gdn=gdn,
+        group=group,
+        recurrent_cp=recurrent_cp,
+        output_final_state=bucket.needs_final_state or recurrent_cp,
     )
-    prefix_rec_table = _replace_indexed_family_states(
-        boundary_rec_table,
-        family_chunks=tail_family_chunks,
-        state_chunks=tail_rec_chunks,
+    if bucket.needs_final_state and (segment_conv is None or segment_rec is None):
+        raise RuntimeError("tree GDN execution must return final states")
+    if bucket.needs_final_state and segment_conv is not None and segment_rec is not None:
+        cp_dependency = _make_autograd_dependency(segment_out, segment_conv, segment_rec)
+    else:
+        cp_dependency = _make_autograd_dependency(segment_out)
+    recurrent_output = _scatter_bucket_recurrent_output(
+        recurrent_output,
+        bucket,
+        segment_out,
     )
-
-    for bucket in plan.completion_with_prefix_tail_buckets:
-        completion_conv = prefix_conv_table.index_select(0, bucket.family_indices)
-        completion_rec = prefix_rec_table.index_select(0, bucket.family_indices)
-        completion_qkv, completion_beta, completion_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        completion_out, _, _ = run_gdn_bucket(
+    if bucket.needs_final_state:
+        state_cache.append(
             bucket,
-            (completion_qkv, completion_beta, completion_g),
-            (completion_conv, completion_rec),
-            gdn=gdn,
-            output_final_state=False,
+            cast(Tensor, segment_conv),
+            cast(Tensor, segment_rec),
+        )
+    return recurrent_output, cp_dependency
+
+
+class _TreeStateChunkCache:
+    def __init__(self, *, device: torch.device) -> None:
+        self._device = device
+        self._conv_chunks: list[Tensor] = []
+        self._rec_chunks: list[Tensor] = []
+        self._source_by_family: dict[int, tuple[int, int]] = {}
+
+    def append(self, bucket: GdnSegmentBucketPlan, conv: Tensor, rec: Tensor) -> None:
+        self.append_families(_bucket_family_indices_cpu(bucket), conv, rec)
+
+    def append_families(
+        self, family_indices: Sequence[int], conv: Tensor, rec: Tensor
+    ) -> None:
+        if len(family_indices) == 0:
+            return
+        if int(conv.shape[0]) != len(family_indices):
+            raise ValueError(
+                "tree GDN state cache conv batch must match family count, got "
+                f"{tuple(conv.shape)} and {len(family_indices)} families"
+            )
+        if int(rec.shape[0]) != len(family_indices):
+            raise ValueError(
+                "tree GDN state cache recurrent batch must match family count, got "
+                f"{tuple(rec.shape)} and {len(family_indices)} families"
+            )
+        chunk_index = len(self._conv_chunks)
+        self._conv_chunks.append(conv)
+        self._rec_chunks.append(rec)
+        for source_row, family_index in enumerate(family_indices):
+            self._source_by_family[int(family_index)] = (chunk_index, source_row)
+
+    def parent_states(
+        self,
+        gdn: Any,
+        bucket: GdnSegmentBucketPlan,
+        *,
+        state_reference: Tensor,
+    ) -> tuple[Tensor, Tensor, Tensor]:
+        parent_indices = bucket.parent_indices
+        if parent_indices is None:
+            raise RuntimeError("tree GDN bucket is missing parent indices")
+        parent_indices_cpu = _bucket_parent_indices_cpu(bucket)
+        batch_size = bucket.segment_count
+        if all(parent_index < 0 for parent_index in parent_indices_cpu):
+            return (
+                _zero_conv_state(gdn, state_reference, batch_size=batch_size),
+                _zero_recurrent_state(gdn, state_reference, batch_size=batch_size),
+            )
+
+        return self._mixed_parent_states(
+            gdn,
+            parent_indices_cpu,
+            state_reference=state_reference,
+            batch_size=batch_size,
         )
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, completion_out
+
+    def _mixed_parent_states(
+        self,
+        gdn: Any,
+        parent_indices_cpu: tuple[int, ...],
+        *,
+        state_reference: Tensor,
+        batch_size: int,
+        roots_allowed: bool = True,
+    ) -> tuple[Tensor, Tensor]:
+        sources_by_chunk: dict[int, list[tuple[int, int]]] = {}
+        missing_parents: list[int] = []
+        for dest_row, parent_index in enumerate(parent_indices_cpu):
+            if parent_index < 0:
+                if roots_allowed:
+                    continue
+                missing_parents.append(parent_index)
+                continue
+            source = self._source_by_family.get(parent_index)
+            if source is None:
+                missing_parents.append(parent_index)
+                continue
+            chunk_index, source_row = source
+            sources_by_chunk.setdefault(chunk_index, []).append((dest_row, source_row))
+        if missing_parents:
+            raise RuntimeError(
+                "tree GDN append-only execution is missing parent state for "
+                f"families {tuple(missing_parents)}"
+            )
+
+        single_source_chunk = next(iter(sources_by_chunk.values()))
+        if len(sources_by_chunk) == 1 and len(single_source_chunk) == batch_size:
+            chunk_index, pairs = next(iter(sources_by_chunk.items()))
+            return (
+                _select_state_rows(self._conv_chunks[chunk_index], pairs),
+                _select_state_rows(self._rec_chunks[chunk_index], pairs),
+            )
+
+        conv = _zero_conv_state(gdn, state_reference, batch_size=batch_size)
+        rec = _zero_recurrent_state(gdn, state_reference, batch_size=batch_size)
+        for chunk_index, pairs in sources_by_chunk.items():
+            dest_rows = _long_tensor(
+                (dest_row for dest_row, _ in pairs),
+                device=self._device,
+            )
+            source_rows = _long_tensor(
+                (source_row for _, source_row in pairs),
+                device=self._device,
+            )
+            conv = conv.index_copy(
+                0,
+                dest_rows,
+                self._conv_chunks[chunk_index].index_select(0, source_rows),
+            )
+            rec = rec.index_copy(
+                0,
+                dest_rows,
+                self._rec_chunks[chunk_index].index_select(0, source_rows),
+            )
+        return conv, rec
+
+
+def _select_state_rows(chunk: Tensor, pairs: Sequence[tuple[int, int]]) -> Tensor:
+    source_rows = tuple(source_row for _, source_row in pairs)
+    if len(set(source_rows)) == 1:
+        return chunk.narrow(0, source_rows[0], 1).expand(
+            len(source_rows),
+            *tuple(chunk.shape[1:]),
         )
-    return _project_gdn_output(gdn, recurrent_output, gate, plan)
+    first_row = source_rows[0]
+    if source_rows == tuple(range(first_row, first_row + len(source_rows))):
+        return chunk.narrow(0, first_row, len(source_rows))
+    return chunk.index_select(
+        0,
+        _long_tensor(source_rows, device=chunk.device),
+    )
+
+
+def _bucket_family_indices_cpu(bucket: GdnSegmentBucketPlan) -> tuple[int, ...]:
+    family_indices = bucket.family_indices_cpu
+    if family_indices is None:
+        family_indices = bucket.family_indices.detach().cpu()
+    return tuple(int(index) for index in family_indices.tolist())
+
+
+def _bucket_parent_indices_cpu(bucket: GdnSegmentBucketPlan) -> tuple[int, ...]:
+    parent_indices = bucket.parent_indices
+    if parent_indices is None:
+        raise RuntimeError("tree GDN bucket is missing parent indices")
+    parent_indices_cpu = bucket.parent_indices_cpu
+    if parent_indices_cpu is None:
+        parent_indices_cpu = parent_indices.detach().cpu()
+    return tuple(int(index) for index in parent_indices_cpu.tolist())
+
+
+def _long_tensor(values: Iterable[int], *, device: torch.device) -> Tensor:
+    return torch.tensor(tuple(values), dtype=torch.long, device=device)
+
+
+def _bucket_has_parent_state(bucket: GdnSegmentBucketPlan) -> bool:
+    parent_indices_cpu = bucket.parent_indices_cpu
+    if parent_indices_cpu is None:
+        parent_indices_cpu = bucket.parent_indices.detach().cpu()
+    return any(int(parent_index) >= 0 for parent_index in parent_indices_cpu.tolist())
+
+
+def _bucket_has_uniform_lengths(bucket: GdnSegmentBucketPlan) -> bool:
+    lengths_cpu = bucket.lengths_cpu
+    if lengths_cpu is None:
+        lengths_cpu = bucket.lengths.detach().cpu()
+    return all(int(length) == int(bucket.length) for length in lengths_cpu.tolist())
 
 
 def _run_cp_planned_prefixes_and_completions(
@@ -679,385 +864,21 @@ def _run_cp_planned_prefixes_and_completions(
         if empty_gdn_rank
         else _empty_autograd_dependency(qkv)
     )
-    qkv_with_remote_tail = qkv
-    beta_with_remote_tail = beta
-    recurrent_g_with_remote_tail = recurrent_g
-    if plan.remote_prefix_tail_exchange is not None:
-        remote_qkv, remote_beta, remote_g = _exchange_remote_prefix_tail_streams(
-            qkv,
-            beta,
-            recurrent_g,
-            plan=plan,
-            group=group,
-        )
-        qkv_with_remote_tail = torch.cat([qkv, remote_qkv.unsqueeze(0)], dim=1)
-        beta_with_remote_tail = torch.cat([beta, remote_beta.unsqueeze(0)], dim=1)
-        recurrent_g_with_remote_tail = torch.cat(
-            [recurrent_g, remote_g.unsqueeze(0)], dim=1
-        )
-        cp_dependency = cp_dependency + _make_zero_autograd_dependency(
-            remote_qkv, remote_beta, remote_g
-        )
+    if not plan.tree_segment_buckets_by_depth:
+        raise ValueError("CP shared-prefix GDN requires a tree execution plan")
     gate = gate.clone()
     recurrent_output = torch.zeros_like(gate)
-    prefix_family_chunks: list[Tensor] = []
-    prefix_conv_chunks: list[Tensor] = []
-    prefix_rec_chunks: list[Tensor] = []
-
-    for bucket in plan.chain_prefix_buckets:
-        prefix_qkv, prefix_beta, prefix_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        zero_conv = _zero_conv_state(gdn, qkv, batch_size=bucket.segment_count)
-        zero_rec = _zero_recurrent_state(gdn, qkv, batch_size=bucket.segment_count)
-        prefix_out, prefix_conv, prefix_rec = run_gdn_bucket(
-            bucket,
-            (prefix_qkv, prefix_beta, prefix_g),
-            (zero_conv, zero_rec),
-            gdn=gdn,
-            group=group,
-            recurrent_cp=True,
-            output_final_state=True,
-        )
-        if prefix_conv is None or prefix_rec is None:
-            raise RuntimeError("CP prefix GDN execution must return final states")
-        prefix_out = _add_autograd_dependency(prefix_out, cp_dependency)
-        prefix_conv = _add_autograd_dependency(prefix_conv, cp_dependency)
-        prefix_rec = _add_autograd_dependency(prefix_rec, cp_dependency)
-        cp_dependency = _make_autograd_dependency(prefix_out, prefix_conv, prefix_rec)
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, prefix_out
-        )
-        prefix_family_chunks.append(bucket.family_indices)
-        prefix_conv_chunks.append(prefix_conv)
-        prefix_rec_chunks.append(prefix_rec)
-
-    boundary_family_chunks: list[Tensor] = []
-    boundary_conv_chunks: list[Tensor] = []
-    boundary_rec_chunks: list[Tensor] = []
-    for bucket in plan.prefix_boundary_buckets:
-        prefix_qkv, prefix_beta, prefix_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        zero_conv = _zero_conv_state(gdn, qkv, batch_size=bucket.segment_count)
-        zero_rec = _zero_recurrent_state(gdn, qkv, batch_size=bucket.segment_count)
-        prefix_out, prefix_conv, prefix_rec = run_gdn_bucket(
-            bucket,
-            (prefix_qkv, prefix_beta, prefix_g),
-            (zero_conv, zero_rec),
-            gdn=gdn,
-            output_final_state=True,
-        )
-        if prefix_conv is None or prefix_rec is None:
-            raise RuntimeError("local prefix GDN execution must return final states")
-        prefix_out = _add_autograd_dependency(prefix_out, cp_dependency)
-        prefix_conv = _add_autograd_dependency(prefix_conv, cp_dependency)
-        prefix_rec = _add_autograd_dependency(prefix_rec, cp_dependency)
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, prefix_out
-        )
-        boundary_family_chunks.append(bucket.family_indices)
-        boundary_conv_chunks.append(prefix_conv)
-        boundary_rec_chunks.append(prefix_rec)
-        prefix_family_chunks.append(bucket.family_indices)
-        prefix_conv_chunks.append(prefix_conv)
-        prefix_rec_chunks.append(prefix_rec)
-
-    if (
-        plan.prefix_tail_buckets
-        or plan.remote_prefix_tail_buckets
-        or plan.completion_with_prefix_tail_buckets
-        or plan.remote_completion_with_prefix_tail_buckets
-        or plan.remote_prefix_tail_state_transfers
-    ):
-        boundary_conv_table = _materialize_indexed_family_state_table(
-            plan=plan,
-            family_chunks=boundary_family_chunks,
-            state_chunks=boundary_conv_chunks,
-            zero_state=_zero_conv_state(gdn, qkv, batch_size=plan.family_count),
-        )
-        boundary_rec_table = _materialize_indexed_family_state_table(
-            plan=plan,
-            family_chunks=boundary_family_chunks,
-            state_chunks=boundary_rec_chunks,
-            zero_state=_zero_recurrent_state(gdn, qkv, batch_size=plan.family_count),
-        )
-        remote_boundary_conv_table = boundary_conv_table
-        remote_boundary_rec_table = boundary_rec_table
-        if plan.remote_prefix_tail_state_transfers:
-            (
-                remote_boundary_conv_table,
-                remote_boundary_rec_table,
-                remote_boundary_dependency,
-            ) = _exchange_parent_state_rows(
-                boundary_conv_table,
-                boundary_rec_table,
-                transfers=plan.remote_prefix_tail_state_transfers,
-                group=group,
-            )
-            cp_dependency = cp_dependency + remote_boundary_dependency
-        tail_family_chunks: list[Tensor] = []
-        tail_conv_chunks: list[Tensor] = []
-        tail_rec_chunks: list[Tensor] = []
-        for bucket in plan.prefix_tail_buckets:
-            tail_qkv, tail_beta, tail_g = _gather_bucket_streams(
-                qkv, beta, recurrent_g, bucket
-            )
-            tail_conv = boundary_conv_table.index_select(0, bucket.family_indices)
-            tail_rec = boundary_rec_table.index_select(0, bucket.family_indices)
-            tail_out, tail_conv, tail_rec = run_gdn_bucket(
-                bucket,
-                (tail_qkv, tail_beta, tail_g),
-                (tail_conv, tail_rec),
-                gdn=gdn,
-                output_final_state=True,
-            )
-            if tail_conv is None or tail_rec is None:
-                raise RuntimeError("local prefix tail GDN execution must return states")
-            tail_out = _add_autograd_dependency(tail_out, cp_dependency)
-            tail_conv = _add_autograd_dependency(tail_conv, cp_dependency)
-            tail_rec = _add_autograd_dependency(tail_rec, cp_dependency)
-            recurrent_output = _scatter_bucket_recurrent_output(
-                recurrent_output, bucket, tail_out
-            )
-            tail_family_chunks.append(bucket.family_indices)
-            tail_conv_chunks.append(tail_conv)
-            tail_rec_chunks.append(tail_rec)
-            prefix_family_chunks.append(bucket.family_indices)
-            prefix_conv_chunks.append(tail_conv)
-            prefix_rec_chunks.append(tail_rec)
-        for bucket in plan.remote_prefix_tail_buckets:
-            tail_qkv, tail_beta, tail_g = _gather_bucket_streams(
-                qkv_with_remote_tail,
-                beta_with_remote_tail,
-                recurrent_g_with_remote_tail,
-                bucket,
-            )
-            tail_conv = remote_boundary_conv_table.index_select(
-                0, bucket.family_indices
-            )
-            tail_rec = remote_boundary_rec_table.index_select(0, bucket.family_indices)
-            tail_out, tail_conv, tail_rec = run_gdn_bucket(
-                bucket,
-                (tail_qkv, tail_beta, tail_g),
-                (tail_conv, tail_rec),
-                gdn=gdn,
-                output_final_state=True,
-            )
-            if tail_conv is None or tail_rec is None:
-                raise RuntimeError(
-                    "remote prefix tail GDN execution must return states"
-                )
-            tail_out = _add_autograd_dependency(tail_out, cp_dependency)
-            tail_conv = _add_autograd_dependency(tail_conv, cp_dependency)
-            tail_rec = _add_autograd_dependency(tail_rec, cp_dependency)
-            tail_family_chunks.append(bucket.family_indices)
-            tail_conv_chunks.append(tail_conv)
-            tail_rec_chunks.append(tail_rec)
-            prefix_family_chunks.append(bucket.family_indices)
-            prefix_conv_chunks.append(tail_conv)
-            prefix_rec_chunks.append(tail_rec)
-        prefix_conv_table = _replace_indexed_family_states(
-            boundary_conv_table,
-            family_chunks=tail_family_chunks,
-            state_chunks=tail_conv_chunks,
-        )
-        prefix_rec_table = _replace_indexed_family_states(
-            boundary_rec_table,
-            family_chunks=tail_family_chunks,
-            state_chunks=tail_rec_chunks,
-        )
-        for bucket in plan.completion_with_prefix_tail_buckets:
-            completion_conv = prefix_conv_table.index_select(0, bucket.family_indices)
-            completion_rec = prefix_rec_table.index_select(0, bucket.family_indices)
-            completion_conv, completion_rec = _couple_parent_states(
-                completion_conv, completion_rec
-            )
-            completion_qkv, completion_beta, completion_g = _gather_bucket_streams(
-                qkv, beta, recurrent_g, bucket
-            )
-            completion_out, _, _ = run_gdn_bucket(
-                bucket,
-                (completion_qkv, completion_beta, completion_g),
-                (completion_conv, completion_rec),
-                gdn=gdn,
-                output_final_state=False,
-            )
-            completion_out = _add_autograd_dependency(completion_out, cp_dependency)
-            recurrent_output = _scatter_bucket_recurrent_output(
-                recurrent_output, bucket, completion_out
-            )
-        for bucket in plan.remote_completion_with_prefix_tail_buckets:
-            completion_conv = prefix_conv_table.index_select(0, bucket.family_indices)
-            completion_rec = prefix_rec_table.index_select(0, bucket.family_indices)
-            completion_conv, completion_rec = _couple_parent_states(
-                completion_conv, completion_rec
-            )
-            completion_qkv, completion_beta, completion_g = _gather_bucket_streams(
-                qkv,
-                beta,
-                recurrent_g,
-                bucket,
-            )
-            completion_out, _, _ = run_gdn_bucket(
-                bucket,
-                (completion_qkv, completion_beta, completion_g),
-                (completion_conv, completion_rec),
-                gdn=gdn,
-                output_final_state=False,
-            )
-            completion_out = _add_autograd_dependency(completion_out, cp_dependency)
-            recurrent_output = _scatter_bucket_recurrent_output(
-                recurrent_output, bucket, completion_out
-            )
-
-    for bucket in plan.local_prefix_buckets:
-        prefix_qkv, prefix_beta, prefix_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        zero_conv = _zero_conv_state(gdn, qkv, batch_size=bucket.segment_count)
-        zero_rec = _zero_recurrent_state(gdn, qkv, batch_size=bucket.segment_count)
-        prefix_out, prefix_conv, prefix_rec = run_gdn_bucket(
-            bucket,
-            (prefix_qkv, prefix_beta, prefix_g),
-            (zero_conv, zero_rec),
-            gdn=gdn,
-            output_final_state=True,
-        )
-        if prefix_conv is None or prefix_rec is None:
-            raise RuntimeError("local prefix GDN execution must return final states")
-        prefix_out = _add_autograd_dependency(prefix_out, cp_dependency)
-        prefix_conv = _add_autograd_dependency(prefix_conv, cp_dependency)
-        prefix_rec = _add_autograd_dependency(prefix_rec, cp_dependency)
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, prefix_out
-        )
-        prefix_family_chunks.append(bucket.family_indices)
-        prefix_conv_chunks.append(prefix_conv)
-        prefix_rec_chunks.append(prefix_rec)
-
-    if not prefix_conv_chunks and not plan.parent_state_exchange_family_indices:
-        projected, out_bias = _project_cp_gdn_output(
-            gdn,
-            recurrent_output,
-            gate,
-            plan,
-            group=group,
-            output_layout=output_layout,
-        )
-        projected = _add_autograd_dependency(projected, cp_dependency)
-        return projected, out_bias
-
-    prefix_conv_table = _materialize_ordered_family_state_table(
-        family_chunks=prefix_family_chunks,
-        state_chunks=prefix_conv_chunks,
-        zero_state=_zero_conv_state(gdn, qkv, batch_size=plan.family_count),
-    )
-    prefix_rec_table = _materialize_ordered_family_state_table(
-        family_chunks=prefix_family_chunks,
-        state_chunks=prefix_rec_chunks,
-        zero_state=_zero_recurrent_state(gdn, qkv, batch_size=plan.family_count),
-    )
-    parent_state_exchanged = False
-    if plan.chain_completion_buckets and plan.parent_state_exchange_family_indices:
-        if not plan.parent_state_transfers:
-            raise ValueError("CP parent-state exchange requires planned transfers")
-        prefix_conv_table, prefix_rec_table, exchange_dependency = (
-            _exchange_parent_state_rows(
-                prefix_conv_table,
-                prefix_rec_table,
-                transfers=plan.parent_state_transfers,
-                group=group,
-            )
-        )
-        cp_dependency = cp_dependency + exchange_dependency
-        parent_state_exchanged = True
-    for bucket in plan.chain_completion_buckets:
-        completion_qkv, completion_beta, completion_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        completion_conv = prefix_conv_table.index_select(0, bucket.family_indices)
-        completion_rec = prefix_rec_table.index_select(0, bucket.family_indices)
-        completion_conv, completion_rec = _couple_parent_states(
-            completion_conv, completion_rec
-        )
-        completion_conv = _scale_state_gradient(completion_conv, 1.0 / plan.cp_size)
-        completion_rec = _scale_state_gradient(completion_rec, 1.0 / plan.cp_size)
-        completion_out, _, _ = run_gdn_bucket(
-            bucket,
-            (completion_qkv, completion_beta, completion_g),
-            (completion_conv, completion_rec),
-            gdn=gdn,
-            group=group,
-            recurrent_cp=True,
-            output_final_state=False,
-        )
-        completion_out = _add_autograd_dependency(completion_out, cp_dependency)
-        cp_dependency = _make_autograd_dependency(completion_out)
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, completion_out
-        )
-
-    ready_completion_buckets = (
-        plan.ready_local_completion_buckets
-        if plan.ready_local_completion_buckets or plan.remote_local_completion_buckets
-        else plan.local_completion_buckets
+    recurrent_output, cp_dependency = _run_tree_depth_buckets(
+        gdn,
+        qkv,
+        beta,
+        recurrent_g,
+        recurrent_output,
+        plan,
+        state_reference=qkv,
+        group=group,
+        cp_dependency=cp_dependency,
     )
-    for bucket in ready_completion_buckets:
-        completion_qkv, completion_beta, completion_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        completion_conv = prefix_conv_table.index_select(0, bucket.family_indices)
-        completion_rec = prefix_rec_table.index_select(0, bucket.family_indices)
-        completion_conv, completion_rec = _couple_parent_states(
-            completion_conv, completion_rec
-        )
-        completion_out, _, _ = run_gdn_bucket(
-            bucket,
-            (completion_qkv, completion_beta, completion_g),
-            (completion_conv, completion_rec),
-            gdn=gdn,
-            output_final_state=False,
-        )
-        completion_out = _add_autograd_dependency(completion_out, cp_dependency)
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, completion_out
-        )
-
-    if plan.parent_state_exchange_family_indices and not parent_state_exchanged:
-        if not plan.parent_state_transfers:
-            raise ValueError("CP parent-state exchange requires planned transfers")
-        prefix_conv_table, prefix_rec_table, exchange_dependency = (
-            _exchange_parent_state_rows(
-                prefix_conv_table,
-                prefix_rec_table,
-                transfers=plan.parent_state_transfers,
-                group=group,
-            )
-        )
-        cp_dependency = cp_dependency + exchange_dependency
-
-    for bucket in plan.remote_local_completion_buckets:
-        completion_qkv, completion_beta, completion_g = _gather_bucket_streams(
-            qkv, beta, recurrent_g, bucket
-        )
-        completion_conv = prefix_conv_table.index_select(0, bucket.family_indices)
-        completion_rec = prefix_rec_table.index_select(0, bucket.family_indices)
-        completion_conv, completion_rec = _couple_parent_states(
-            completion_conv, completion_rec
-        )
-        completion_out, _, _ = run_gdn_bucket(
-            bucket,
-            (completion_qkv, completion_beta, completion_g),
-            (completion_conv, completion_rec),
-            gdn=gdn,
-            output_final_state=False,
-        )
-        completion_out = _add_autograd_dependency(completion_out, cp_dependency)
-        recurrent_output = _scatter_bucket_recurrent_output(
-            recurrent_output, bucket, completion_out
-        )
-
     projected, out_bias = _project_cp_gdn_output(
         gdn,
         recurrent_output,
@@ -1065,8 +886,8 @@ def _run_cp_planned_prefixes_and_completions(
         plan,
         group=group,
         output_layout=output_layout,
+        dependency=cp_dependency,
     )
-    projected = _add_autograd_dependency(projected, cp_dependency)
     return projected, out_bias
 
 
@@ -1922,6 +1743,7 @@ def _project_cp_gdn_output(
     *,
     group: Any,
     output_layout: Literal["attention", "gdn"],
+    dependency: Tensor | None = None,
 ) -> tuple[Tensor, Tensor | None]:
     batch_size, seq_len, _, _ = recurrent_output.shape
     token_uids = (
@@ -1933,6 +1755,8 @@ def _project_cp_gdn_output(
     norm_out = _apply_gated_rms_norm(gdn, recurrent_output, gate)
     norm_out = norm_out.reshape(batch_size, seq_len, _local_value_dim(gdn))
     norm_out = norm_out.transpose(0, 1).contiguous()
+    if dependency is not None:
+        norm_out = _add_autograd_dependency(norm_out, dependency)
     if token_uids is not None:
         token_uids = _replicated_layout_token_uids(plan, "gdn", hidden_states=norm_out)
     _attach_trace_token_uids(norm_out, token_uids)
@@ -2271,6 +2095,36 @@ def _local_value_dim(gdn: Any) -> int:
     return _local_value_heads(gdn) * int(gdn.value_head_dim)
 
 
+def _prepare_dense_recurrent_inputs(
+    qkv: Tensor,
+    beta: Tensor,
+    recurrent_g: Tensor,
+    *,
+    key_heads: int,
+    value_heads: int,
+    key_dim: int,
+    value_dim: int,
+) -> tuple[Tensor, Tensor, Tensor, Tensor, Tensor]:
+    key_channels = int(key_heads) * int(key_dim)
+    value_channels = int(value_heads) * int(value_dim)
+    query = qkv[..., :key_channels].reshape(*qkv.shape[:2], key_heads, key_dim)
+    key = qkv[..., key_channels : 2 * key_channels].reshape(
+        *qkv.shape[:2],
+        key_heads,
+        key_dim,
+    )
+    value = qkv[..., 2 * key_channels : 2 * key_channels + value_channels].reshape(
+        *qkv.shape[:2],
+        value_heads,
+        value_dim,
+    )
+    repeat = int(value_heads) // int(key_heads)
+    if repeat != 1:
+        query = query.repeat_interleave(repeat, dim=2)
+        key = key.repeat_interleave(repeat, dim=2)
+    return query, key, value, beta, recurrent_g
+
+
 def _scatter_bucket_recurrent_output(
     output: Tensor, bucket: GdnSegmentBucketPlan, bucket_output: Tensor
 ) -> Tensor:
@@ -2289,269 +2143,6 @@ def _bucket_output_mask(bucket: GdnSegmentBucketPlan) -> Tensor:
     return bucket.real_mask if output_mask is None else output_mask
 
 
-def _materialize_indexed_family_state_table(
-    *,
-    plan: GdnRankExecutionPlan,
-    family_chunks: list[Tensor],
-    state_chunks: list[Tensor],
-    zero_state: Tensor,
-) -> Tensor:
-    table = zero_state.detach()
-    if not state_chunks:
-        return table.requires_grad_(True)
-    values = torch.cat(state_chunks, dim=0)
-    family_indices = torch.cat(family_chunks, dim=0)
-    return table.index_copy(0, family_indices, values)
-
-
-def _materialize_ordered_family_state_table(
-    *,
-    family_chunks: list[Tensor],
-    state_chunks: list[Tensor],
-    zero_state: Tensor,
-) -> Tensor:
-    if len(family_chunks) != len(state_chunks):
-        raise RuntimeError("family and state chunk counts must match")
-    table = zero_state.detach().requires_grad_(True)
-    for family_indices, states in zip(family_chunks, state_chunks, strict=True):
-        table = table.index_copy(0, family_indices, states)
-    return table
-
-
-def _replace_indexed_family_states(
-    table: Tensor,
-    *,
-    family_chunks: list[Tensor],
-    state_chunks: list[Tensor],
-) -> Tensor:
-    if not state_chunks:
-        return table
-    return table.index_copy(
-        0,
-        torch.cat(family_chunks, dim=0),
-        torch.cat(state_chunks, dim=0),
-    )
-
-
-def _exchange_parent_state_rows(
-    conv_table: Tensor,
-    rec_table: Tensor,
-    *,
-    transfers: tuple[GdnParentStateTransferPlan, ...],
-    group: Any,
-) -> tuple[Tensor, Tensor, Tensor]:
-    if not transfers:
-        return conv_table, rec_table, _empty_autograd_dependency(conv_table)
-    conv_table, rec_table = _ParentStateExchange.apply(
-        conv_table, rec_table, transfers, group
-    )
-    return conv_table, rec_table, _make_autograd_dependency(conv_table, rec_table)
-
-
-def _exchange_remote_prefix_tail_streams(
-    qkv: Tensor,
-    beta: Tensor,
-    recurrent_g: Tensor,
-    *,
-    plan: GdnRankExecutionPlan,
-    group: Any,
-) -> tuple[Tensor, Tensor, Tensor]:
-    from .layout import exchange_rank_tensor_all_to_all
-
-    if plan.remote_prefix_tail_exchange is None:
-        return (
-            qkv.new_empty((0, int(qkv.shape[-1]))),
-            beta.new_empty((0, int(beta.shape[-1]))),
-            recurrent_g.new_empty((0, int(recurrent_g.shape[-1]))),
-        )
-    if plan.remote_prefix_tail_backward_exchange is None:
-        raise ValueError("remote prefix-tail exchange requires a backward plan")
-    qkv_flat = qkv.reshape(-1, int(qkv.shape[-1]))
-    beta_flat = beta.reshape(-1, int(beta.shape[-1]))
-    g_flat = recurrent_g.reshape(-1, int(recurrent_g.shape[-1]))
-    kwargs = {
-        "plan": plan.remote_prefix_tail_exchange,
-        "rank": plan.cp_rank,
-        "group": group,
-        "backward_plan": plan.remote_prefix_tail_backward_exchange,
-    }
-    return (
-        exchange_rank_tensor_all_to_all(qkv_flat, **kwargs),
-        exchange_rank_tensor_all_to_all(beta_flat, **kwargs),
-        exchange_rank_tensor_all_to_all(g_flat, **kwargs),
-    )
-
-
-class _ParentStateExchange(torch.autograd.Function):
-    @staticmethod
-    def forward(
-        ctx: Any,
-        conv_table: Tensor,
-        rec_table: Tensor,
-        transfers: tuple[GdnParentStateTransferPlan, ...],
-        group: Any,
-    ) -> tuple[Tensor, Tensor]:
-        ctx.group = group
-        ctx.transfers = transfers
-        ctx.save_for_backward(conv_table, rec_table)
-        return (
-            _exchange_parent_state_tensor_forward(
-                conv_table,
-                transfers,
-                group=group,
-            ),
-            _exchange_parent_state_tensor_forward(
-                rec_table,
-                transfers,
-                group=group,
-            ),
-        )
-
-    @staticmethod
-    def backward(
-        ctx: Any, *grad_outputs: Tensor | None
-    ) -> tuple[Tensor | None, Tensor | None, None, None]:
-        grad_conv, grad_rec = grad_outputs
-        conv_ref, rec_ref = ctx.saved_tensors
-        return (
-            _exchange_parent_state_tensor_backward(
-                _zero_if_none(grad_conv, conv_ref),
-                ctx.transfers,
-                group=ctx.group,
-            ),
-            _exchange_parent_state_tensor_backward(
-                _zero_if_none(grad_rec, rec_ref),
-                ctx.transfers,
-                group=ctx.group,
-            ),
-            None,
-            None,
-        )
-
-
-def _exchange_parent_state_tensor_forward(
-    table: Tensor,
-    transfers: tuple[GdnParentStateTransferPlan, ...],
-    *,
-    group: Any,
-) -> Tensor:
-    rank = torch.distributed.get_rank(group)  # ty: ignore[possibly-missing-attribute]
-    output = table.clone()
-    recvs = _exchange_parent_state_rows_all_to_all(
-        table, transfers, rank=rank, reverse=False, group=group
-    )
-    for transfer, rows in recvs:
-        index = _parent_state_index_tensor(transfer, device=table.device)
-        output.index_copy_(0, index, rows)
-    return output
-
-
-def _exchange_parent_state_tensor_backward(
-    grad_output: Tensor,
-    transfers: tuple[GdnParentStateTransferPlan, ...],
-    *,
-    group: Any,
-) -> Tensor:
-    rank = torch.distributed.get_rank(group)  # ty: ignore[possibly-missing-attribute]
-    grad_input = grad_output.clone()
-    for transfer in transfers:
-        if transfer.dest_rank != rank:
-            continue
-        index = _parent_state_index_tensor(transfer, device=grad_output.device)
-        grad_input.index_fill_(0, index, 0)
-    recvs = _exchange_parent_state_rows_all_to_all(
-        grad_output, transfers, rank=rank, reverse=True, group=group
-    )
-    for transfer, rows in recvs:
-        index = _parent_state_index_tensor(transfer, device=grad_output.device)
-        grad_input.index_add_(0, index, rows)
-    return grad_input
-
-
-def _zero_if_none(grad: Tensor | None, reference: Tensor) -> Tensor:
-    if grad is None:
-        return reference.new_zeros(reference.shape)
-    return grad.contiguous()
-
-
-def _exchange_parent_state_rows_all_to_all(
-    table: Tensor,
-    transfers: tuple[GdnParentStateTransferPlan, ...],
-    *,
-    rank: int,
-    reverse: bool,
-    group: Any,
-) -> list[tuple[GdnParentStateTransferPlan, Tensor]]:
-    world_size = torch.distributed.get_world_size(group)  # ty: ignore[possibly-missing-attribute]
-    send_counts = [0 for _ in range(world_size)]
-    recv_counts = [0 for _ in range(world_size)]
-    send_pieces: list[Tensor] = []
-    for peer_rank in range(world_size):
-        for transfer in transfers:
-            send_rank = transfer.dest_rank if reverse else transfer.source_rank
-            recv_rank = transfer.source_rank if reverse else transfer.dest_rank
-            if send_rank == recv_rank:
-                continue
-            row_count = len(transfer.family_indices)
-            if rank == send_rank and peer_rank == recv_rank:
-                index = _parent_state_index_tensor(transfer, device=table.device)
-                send_pieces.append(table.index_select(0, index).contiguous())
-                send_counts[peer_rank] += row_count
-            if rank == recv_rank and peer_rank == send_rank:
-                recv_counts[peer_rank] += row_count
-
-    trailing_shape = tuple(table.shape[1:])
-    send_buffer = (
-        torch.cat(send_pieces, dim=0)
-        if send_pieces
-        else table.new_empty((0, *trailing_shape))
-    )
-    recv_buffer = table.new_empty((sum(recv_counts), *trailing_shape))
-    work = torch.distributed.all_to_all_single(  # ty: ignore[possibly-missing-attribute]
-        recv_buffer,
-        send_buffer,
-        output_split_sizes=recv_counts,
-        input_split_sizes=send_counts,
-        group=group,
-        async_op=True,
-    )
-    work.wait()
-
-    recvs: list[tuple[GdnParentStateTransferPlan, Tensor]] = []
-    offset = 0
-    for peer_rank, count in enumerate(recv_counts):
-        peer_end = offset + count
-        for transfer in transfers:
-            send_rank = transfer.dest_rank if reverse else transfer.source_rank
-            recv_rank = transfer.source_rank if reverse else transfer.dest_rank
-            if send_rank == recv_rank:
-                continue
-            if rank != recv_rank or peer_rank != send_rank:
-                continue
-            rows = len(transfer.family_indices)
-            recvs.append((transfer, recv_buffer[offset : offset + rows]))
-            offset += rows
-        if offset != peer_end:
-            raise RuntimeError(
-                "parent-state exchange unpack mismatch: "
-                f"rank={rank} peer={peer_rank} consumed={offset} expected={peer_end}"
-            )
-    return recvs
-
-
-def _parent_state_index_tensor(
-    transfer: GdnParentStateTransferPlan,
-    *,
-    device: torch.device,
-) -> Tensor:
-    if (
-        transfer.family_indices_tensor is not None
-        and transfer.family_indices_tensor.device == device
-    ):
-        return transfer.family_indices_tensor
-    return torch.tensor(transfer.family_indices, device=device, dtype=torch.long)
-
-
 def run_gdn_bucket(
     bucket: GdnSegmentBucketPlan,
     projected_streams: tuple[Tensor, Tensor, Tensor],
@@ -2597,14 +2188,17 @@ def run_gdn_bucket(
 
     conv_output_final_state = output_final_state
     chain_conv_final: Tensor | None = None
+    chain_gradient_dependency: Tensor | None = None
     if recurrent_cp:
-        conv_initial, chain_conv_final = _chain_conv_initial_and_final(
-            qkv,
-            bucket.cu_seqlens_cpu,
-            bucket.lengths_by_rank_cpu,
-            conv_initial,
-            group=group,
-            output_final_state=output_final_state,
+        conv_initial, chain_conv_final, chain_gradient_dependency = (
+            _chain_conv_initial_and_final(
+                qkv,
+                bucket.cu_seqlens_cpu,
+                bucket.lengths_by_rank_cpu,
+                conv_initial,
+                group=group,
+                output_final_state=output_final_state,
+            )
         )
         conv_output_final_state = False
 
@@ -2618,15 +2212,31 @@ def run_gdn_bucket(
     if recurrent_cp:
         conv_final = chain_conv_final
 
-    query, key, value, beta, recurrent_g = _prepare_packed_recurrent_inputs_fused(
-        qkv,
-        beta,
-        recurrent_g,
-        key_heads=_local_key_heads(gdn),
-        value_heads=_local_value_heads(gdn),
-        key_dim=int(gdn.key_head_dim),
-        value_dim=int(gdn.value_head_dim),
-    )
+    dense_local_bucket = not recurrent_cp and _bucket_has_uniform_lengths(bucket)
+    if dense_local_bucket:
+        query, key, value, beta, recurrent_g = _prepare_dense_recurrent_inputs(
+            qkv.reshape(batch_size, int(bucket.length), int(qkv.shape[-1])),
+            beta.reshape(batch_size, int(bucket.length), int(beta.shape[-1])),
+            recurrent_g.reshape(
+                batch_size,
+                int(bucket.length),
+                int(recurrent_g.shape[-1]),
+            ),
+            key_heads=_local_key_heads(gdn),
+            value_heads=_local_value_heads(gdn),
+            key_dim=int(gdn.key_head_dim),
+            value_dim=int(gdn.value_head_dim),
+        )
+    else:
+        query, key, value, beta, recurrent_g = _prepare_packed_recurrent_inputs_fused(
+            qkv,
+            beta,
+            recurrent_g,
+            key_heads=_local_key_heads(gdn),
+            value_heads=_local_value_heads(gdn),
+            key_dim=int(gdn.key_head_dim),
+            value_dim=int(gdn.value_head_dim),
+        )
     if gdn.use_qk_l2norm:
         query = _l2norm(query.contiguous())
         key = _l2norm(key.contiguous())
@@ -2657,8 +2267,27 @@ def run_gdn_bucket(
             initial_state=recurrent_initial,
             output_final_state=output_final_state,
             use_qk_l2norm_in_kernel=False,
-            cu_seqlens=bucket.cu_seqlens,
-        )
+            cu_seqlens=None if dense_local_bucket else bucket.cu_seqlens,
+        )
+        if dense_local_bucket:
+            recurrent_out = recurrent_out.reshape(
+                1,
+                token_count,
+                int(recurrent_out.shape[-2]),
+                int(recurrent_out.shape[-1]),
+            )
+    if chain_gradient_dependency is not None:
+        recurrent_out = _add_autograd_dependency(
+            recurrent_out,
+            chain_gradient_dependency,
+        )
+        if conv_final is not None:
+            conv_final = _add_autograd_dependency(conv_final, chain_gradient_dependency)
+        if recurrent_final is not None:
+            recurrent_final = _add_autograd_dependency(
+                recurrent_final,
+                chain_gradient_dependency,
+            )
     return recurrent_out, conv_final, recurrent_final
 
 
@@ -2670,15 +2299,22 @@ def _chain_conv_initial_and_final(
     *,
     group: Any,
     output_final_state: bool,
-) -> tuple[Tensor, Tensor | None]:
+) -> tuple[Tensor, Tensor | None, Tensor]:
     if group is None:
         raise ValueError("CP chain conv state requires a process group")
     if not dist.is_available() or not dist.is_initialized():  # ty: ignore[possibly-missing-attribute]
         raise RuntimeError("torch.distributed must be initialized for CP chain conv")
-    parent_initial = _AllReduceGradient.apply(parent_initial, group)
+    parent_initial, gradient_dependency = _AllReduceGradient.apply(
+        parent_initial,
+        group,
+    )
     tail_width = int(parent_initial.shape[-1])
     if tail_width <= 0:
-        return parent_initial, parent_initial if output_final_state else None
+        return (
+            parent_initial,
+            parent_initial if output_final_state else None,
+            gradient_dependency,
+        )
     if lengths_by_rank_cpu is None:
         raise ValueError("CP chain conv requires static all-rank bucket lengths")
     if cu_seqlens_cpu.device.type != "cpu" or lengths_by_rank_cpu.device.type != "cpu":
@@ -2705,7 +2341,7 @@ def _chain_conv_initial_and_final(
         if output_final_state
         else None
     )
-    return conv_initial, conv_final
+    return conv_initial, conv_final, gradient_dependency
 
 
 def _local_packed_conv_tail(
@@ -2782,14 +2418,20 @@ def backward(ctx: Any, *grad_outputs: Tensor) -> tuple[Tensor, None]:
 
 class _AllReduceGradient(torch.autograd.Function):
     @staticmethod
-    def forward(ctx: Any, tensor: Tensor, group: Any) -> Tensor:
+    def forward(ctx: Any, tensor: Tensor, group: Any) -> tuple[Tensor, Tensor]:
         ctx.group = group
-        return tensor
+        ctx.save_for_backward(tensor)
+        return tensor, tensor.new_zeros(())
 
     @staticmethod
-    def backward(ctx: Any, *grad_outputs: Tensor) -> tuple[Tensor, None]:
-        (grad_output,) = grad_outputs
-        grad_input = grad_output.contiguous()
+    def backward(ctx: Any, *grad_outputs: Tensor | None) -> tuple[Tensor, None]:
+        grad_output, _grad_dependency = grad_outputs
+        (reference,) = ctx.saved_tensors
+        grad_input = (
+            reference.new_zeros(reference.shape)
+            if grad_output is None
+            else grad_output.contiguous()
+        )
         dist.all_reduce(  # ty: ignore[possibly-missing-attribute]
             grad_input,
             op=dist.ReduceOp.SUM,  # ty: ignore[possibly-missing-attribute]
diff --git a/src/art/megatron/model_support/spec.py b/src/art/megatron/model_support/spec.py
index 15c6f8d96..92c1368a2 100644
--- a/src/art/megatron/model_support/spec.py
+++ b/src/art/megatron/model_support/spec.py
@@ -75,6 +75,7 @@ class ModelSupportSpec(BaseModel):
 class ModelSupportHandler(Protocol):
     key: str
     is_moe: bool
+    build_gdn_execution_spec: bool
     native_vllm_lora_status: NativeVllmLoraStatus
 
     def identity_lora_model_config(self, base_config: Any) -> Any: ...
diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
new file mode 100644
index 000000000..a4e41de0b
--- /dev/null
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -0,0 +1,213 @@
+from __future__ import annotations
+
+from collections.abc import Iterable
+from dataclasses import dataclass
+
+import torch
+
+
+@dataclass(frozen=True)
+class SharedPrefixPack:
+    tokens: torch.Tensor
+    group_ids: torch.Tensor
+    parent_ids: torch.Tensor
+    position_ids: torch.Tensor
+    positions_by_sequence: tuple[torch.Tensor, ...]
+
+
+def pack_shared_prefixes(
+    sequences: Iterable[torch.Tensor],
+    *,
+    max_depth: int,
+) -> SharedPrefixPack:
+    """Pack token sequences by storing shared prefixes once.
+
+    This is the small packing step that lets `TrainerRank.forward()` run one
+    model pass over a compact prefix tree instead of replaying the same prompt
+    tokens for every request. Think of each input sequence as a path through a
+    tree: when several paths start with the same tokens, this function writes
+    that shared segment once, then writes each branch after it.
+
+    Args:
+        sequences: 1-D token tensors to pack.
+        max_depth: How many nested shared-prefix levels to emit. `0` disables
+            prefix sharing and writes each sequence as its own root segment. `1`
+            shares the first common segment in each branch; larger values allow
+            branches to contain shared sub-branches.
+
+    Returns:
+        `tokens` is the compact model input, shaped `[1, packed_length]`.
+        `group_ids` and `parent_ids` describe the prefix tree to shared-prefix
+        attention. Positions in the same emitted segment share a group, and each
+        group points at the parent segment it continues from. Root groups point
+        to themselves.
+        `position_ids` keeps each token's original sequence position for
+        positional embeddings/rotary attention.
+        `positions_by_sequence` is the reverse index used after the model call
+        to unpack logits, logprobs, or hidden states back into one tensor per
+        original request.
+
+    The implementation is a tiny radix-tree walk. It finds the longest prefix
+    shared by the active sequences, emits that segment once, then partitions the
+    remaining sequences by their next token while preserving first-seen order.
+    Single sequences, empty branches, and branches past `max_depth` are emitted
+    as ordinary unshared tails.
+    """
+    if max_depth < 0:
+        raise ValueError("max_depth must be >= 0")
+
+    tensors = tuple(_sequence_tensor(sequence) for sequence in sequences)
+    if not tensors:
+        return _empty_pack()
+
+    device = tensors[0].device
+    lengths = torch.tensor([len(tensor) for tensor in tensors], device=device)
+    if int(lengths.max().item()) == 0:
+        return _empty_pack(len(tensors), device=device)
+
+    padded = torch.nn.utils.rnn.pad_sequence(list(tensors), batch_first=True)
+    token_chunks: list[torch.Tensor] = []
+    group_chunks: list[torch.Tensor] = []
+    parent_chunks: list[torch.Tensor] = []
+    position_chunks: list[torch.Tensor] = []
+    positions_by_sequence: list[list[torch.Tensor]] = [[] for _ in tensors]
+    cursor = 0
+    next_group_id = 1
+
+    def emit(
+        indices: torch.Tensor,
+        start: int,
+        end: int,
+        parent_group_id: int | None,
+    ) -> int:
+        nonlocal cursor, next_group_id
+        segment = tensors[int(indices[0].item())][start:end]
+        group_id = next_group_id
+        next_group_id += 1
+        parent_id = group_id if parent_group_id is None else parent_group_id
+        packed_positions = torch.arange(cursor, cursor + len(segment), device=device)
+
+        token_chunks.append(segment)
+        group_chunks.append(torch.full_like(segment, group_id))
+        parent_chunks.append(torch.full_like(segment, parent_id))
+        position_chunks.append(torch.arange(start, end, device=device))
+        for sequence_index in indices.tolist():
+            positions_by_sequence[sequence_index].append(packed_positions)
+        cursor += len(segment)
+        return group_id
+
+    def shared_end(indices: torch.Tensor, start: int) -> int:
+        end = int(lengths.index_select(0, indices).min().item())
+        if start >= end:
+            return start
+        shared = (
+            padded.index_select(0, indices)[:, start:end]
+            == padded[indices[0], start:end]
+        ).all(dim=0)
+        return (
+            end
+            if bool(shared.all().item())
+            else start + int(shared.logical_not().nonzero()[0])
+        )
+
+    def branch_groups(indices: torch.Tensor, start: int) -> list[torch.Tensor]:
+        groups: dict[int, list[int]] = {}
+        order: list[int] = []
+        symbols = padded.index_select(0, indices)[:, start].tolist()
+        for symbol, index in zip(symbols, indices.tolist(), strict=True):
+            if symbol not in groups:
+                groups[symbol] = []
+                order.append(symbol)
+            groups[symbol].append(index)
+        return [
+            torch.tensor(groups[symbol], dtype=torch.long, device=device)
+            for symbol in order
+        ]
+
+    def walk(
+        indices: torch.Tensor,
+        start: int,
+        parent_group_id: int | None,
+        depth: int,
+    ) -> None:
+        active = indices[lengths.index_select(0, indices) > start]
+        if int(active.numel()) == 0:
+            return
+        if max_depth == 0 or int(active.numel()) == 1 or (
+            parent_group_id is not None and depth >= max_depth
+        ):
+            for sequence_index in active:
+                emit(
+                    sequence_index[None],
+                    start,
+                    int(lengths[sequence_index].item()),
+                    parent_group_id,
+                )
+            return
+
+        end = shared_end(active, start)
+        if end > start:
+            group_id = emit(active, start, end, parent_group_id)
+            walk(active, end, group_id, depth + 1)
+            return
+
+        for group in branch_groups(active, start):
+            walk(group, start, parent_group_id, depth)
+
+    walk(torch.arange(len(tensors), device=device), 0, None, 0)
+
+    return SharedPrefixPack(
+        tokens=torch.cat(token_chunks).unsqueeze(0),
+        group_ids=torch.cat(group_chunks).unsqueeze(0),
+        parent_ids=torch.cat(parent_chunks).unsqueeze(0),
+        position_ids=torch.cat(position_chunks).unsqueeze(0),
+        positions_by_sequence=tuple(
+            torch.cat(chunks)
+            if chunks
+            else torch.empty(0, dtype=torch.long, device=device)
+            for chunks in positions_by_sequence
+        ),
+    )
+
+
+def visualize_shared_prefix_pack(pack: SharedPrefixPack) -> str:
+    rows = ["pos token group parent source_pos"]
+    for position, (token, group, parent, source_pos) in enumerate(
+        zip(
+            pack.tokens.reshape(-1).detach().cpu().tolist(),
+            pack.group_ids.reshape(-1).detach().cpu().tolist(),
+            pack.parent_ids.reshape(-1).detach().cpu().tolist(),
+            pack.position_ids.reshape(-1).detach().cpu().tolist(),
+            strict=True,
+        )
+    ):
+        rows.append(
+            f"{position:>3} {token:>5} {group:>5} {parent:>6} {source_pos:>10}"
+        )
+    for index, positions in enumerate(pack.positions_by_sequence):
+        rows.append(f"seq {index}: {positions.detach().cpu().tolist()}")
+    return "\n".join(rows)
+
+
+def _empty_pack(
+    sequence_count: int = 0,
+    *,
+    device: torch.device | None = None,
+) -> SharedPrefixPack:
+    flat = torch.empty(0, dtype=torch.long, device=device)
+    row = flat.unsqueeze(0)
+    return SharedPrefixPack(
+        tokens=row,
+        group_ids=row,
+        parent_ids=row,
+        position_ids=row,
+        positions_by_sequence=tuple(flat for _ in range(sequence_count)),
+    )
+
+
+def _sequence_tensor(tensor: torch.Tensor) -> torch.Tensor:
+    if tensor.ndim != 1:
+        raise ValueError(
+            f"pack_shared_prefixes expects 1-D tensors, got {tuple(tensor.shape)}"
+        )
+    return tensor.detach().to(dtype=torch.long).contiguous()
diff --git a/src/art/megatron/shared_prefix_state.py b/src/art/megatron/shared_prefix_state.py
index 7bbda4624..1f5a152ae 100644
--- a/src/art/megatron/shared_prefix_state.py
+++ b/src/art/megatron/shared_prefix_state.py
@@ -118,30 +118,101 @@ def _build_sparse_shared_prefix_block_mask(
         group_ids=group_ids_cpu,
         parent_ids=parent_ids_cpu,
     )
-    row_spec = batch_spec.rows[0]
     seq_len = int(group_ids_cpu.shape[1])
-    slices = _full_row_slices_with_padding(
-        row_slices=row_spec.slices,
-        valid_tokens=int(row_spec.valid_tokens),
+    row_masks = []
+    token_indices = torch.arange(seq_len, dtype=torch.int64)
+    for row_spec in batch_spec.rows:
+        row_index = int(row_spec.row_index)
+        slices = _row_local_slices(
+            _full_row_slices_with_padding(
+                row_slices=row_spec.slices,
+                valid_tokens=int(row_spec.valid_tokens),
+                seq_len=seq_len,
+            )
+        )
+        if not slices:
+            row_masks.append(
+                _empty_block_mask(seq_len=seq_len, block_size=block_size, device=device)
+            )
+            continue
+        row_masks.append(
+            build_block_mask(
+                FlexMaskSpec(
+                    q_len=seq_len,
+                    k_len=seq_len,
+                    block_size=block_size,
+                    slices=slices,
+                    exact_mask=ExactMaskMetadata(
+                        q_token_indices=token_indices,
+                        k_token_indices=token_indices,
+                        cache_key=f"identity:{seq_len}",
+                    ),
+                ),
+                group_ids=group_ids_cpu[row_index],
+                parent_ids=parent_ids_cpu[row_index],
+                device=device,
+            )
+        )
+    if not row_masks:
+        return _empty_block_mask(seq_len=seq_len, block_size=block_size, device=device)
+    return _stack_row_block_masks(
+        row_masks,
         seq_len=seq_len,
+        block_size=block_size,
     )
-    if not slices:
-        return _empty_block_mask(seq_len=seq_len, block_size=block_size, device=device)
-    return build_block_mask(
-        FlexMaskSpec(
-            q_len=seq_len,
-            k_len=seq_len,
-            block_size=block_size,
-            slices=slices,
-            exact_mask=ExactMaskMetadata(
-                q_token_indices=torch.arange(seq_len, dtype=torch.int64),
-                k_token_indices=torch.arange(seq_len, dtype=torch.int64),
-                cache_key=f"identity:{seq_len}",
-            ),
-        ),
-        group_ids=group_ids_cpu[0],
-        parent_ids=parent_ids_cpu[0],
-        device=device,
+
+
+def _row_local_slices(slices: tuple[AttnSlice, ...]) -> tuple[AttnSlice, ...]:
+    return tuple(slice_.model_copy(update={"row_index": 0}) for slice_ in slices)
+
+
+def _stack_optional_block_tensors(
+    masks: list[BlockMask],
+    name: str,
+) -> Tensor | None:
+    tensors = [getattr(mask, name) for mask in masks]
+    if any(tensor is None for tensor in tensors):
+        return None
+    return torch.cat(tensors, dim=0)
+
+
+def _stack_row_block_masks(
+    masks: list[BlockMask],
+    *,
+    seq_len: int,
+    block_size: tuple[int, int],
+) -> BlockMask:
+    if len(masks) == 1:
+        return masks[0]
+    row_mask_mods = tuple(mask.mask_mod for mask in masks)
+
+    def mask_mod(
+        batch_idx: Tensor,
+        head_idx: Tensor,
+        query_idx: Tensor,
+        kv_idx: Tensor,
+    ) -> Tensor:
+        result = torch.zeros_like(query_idx, dtype=torch.bool)
+        for row_index, row_mask_mod in enumerate(row_mask_mods):
+            result = torch.where(
+                batch_idx == row_index,
+                row_mask_mod(batch_idx, head_idx, query_idx, kv_idx),
+                result,
+            )
+        return result
+
+    return BlockMask(
+        seq_lengths=(int(seq_len), int(seq_len)),
+        kv_num_blocks=torch.cat([mask.kv_num_blocks for mask in masks], dim=0),
+        kv_indices=torch.cat([mask.kv_indices for mask in masks], dim=0),
+        full_kv_num_blocks=_stack_optional_block_tensors(masks, "full_kv_num_blocks"),
+        full_kv_indices=_stack_optional_block_tensors(masks, "full_kv_indices"),
+        q_num_blocks=_stack_optional_block_tensors(masks, "q_num_blocks"),
+        q_indices=_stack_optional_block_tensors(masks, "q_indices"),
+        full_q_num_blocks=_stack_optional_block_tensors(masks, "full_q_num_blocks"),
+        full_q_indices=_stack_optional_block_tensors(masks, "full_q_indices"),
+        BLOCK_SIZE=block_size,
+        mask_mod=mask_mod,
     )
 
 
@@ -232,23 +303,13 @@ def _build_gdn_execution_spec_once(
     cp_size: int,
     cp_group: Any | None,
 ) -> GdnPackedExecutionSpec | None:
+    del cp_rank, cp_size, cp_group
     if not build:
         return None
-    if cp_size == 1:
-        return parse_gdn_shared_prefix_segments(
-            group_ids, parent_ids, min_completions_per_family=0
-        )
-    if (
-        not torch.distributed.is_available() or not torch.distributed.is_initialized()  # ty: ignore[possibly-missing-attribute]
-    ):
-        return parse_gdn_shared_prefix_segments(
-            group_ids, parent_ids, min_completions_per_family=0
-        )
     return parse_gdn_shared_prefix_segments(
         group_ids, parent_ids, min_completions_per_family=0
     )
 
-
 def _build_gdn_execution_plan_once(
     spec: GdnPackedExecutionSpec | None,
     *,
diff --git a/src/art/megatron/shared_prefix_tree.py b/src/art/megatron/shared_prefix_tree.py
new file mode 100644
index 000000000..48ad77ecc
--- /dev/null
+++ b/src/art/megatron/shared_prefix_tree.py
@@ -0,0 +1,318 @@
+from __future__ import annotations
+
+from dataclasses import dataclass
+
+import torch
+
+
+@dataclass(frozen=True, slots=True)
+class SharedPrefixSegment:
+    row_index: int
+    run_index: int
+    group_id: int
+    parent_id: int
+    start: int
+    end: int
+    family_index: int
+    root_group_id: int
+    ancestors: tuple[int, ...]
+
+    @property
+    def depth(self) -> int:
+        return len(self.ancestors)
+
+    @property
+    def length(self) -> int:
+        return self.end - self.start
+
+
+@dataclass(frozen=True, slots=True)
+class SharedPrefixRowTree:
+    row_index: int
+    valid_tokens: int
+    segments: tuple[SharedPrefixSegment, ...]
+
+    @property
+    def max_depth(self) -> int:
+        return max((segment.depth for segment in self.segments), default=0)
+
+    @property
+    def is_flat_family_tree(self) -> bool:
+        return self.max_depth <= 1
+
+    def segment_by_group_id(self) -> dict[int, SharedPrefixSegment]:
+        segments: dict[int, SharedPrefixSegment] = {}
+        for segment in self.segments:
+            segments.setdefault(segment.group_id, segment)
+        return segments
+
+    def group_can_attend_matrix(self) -> tuple[tuple[int, ...], tuple[tuple[bool, ...], ...]]:
+        group_ids = tuple(sorted({segment.group_id for segment in self.segments}))
+        group_index = {group_id: index + 1 for index, group_id in enumerate(group_ids)}
+        matrix = [
+            [False for _ in range(len(group_ids) + 1)] for _ in range(len(group_ids) + 1)
+        ]
+        for segment in self.segments:
+            query_index = group_index[segment.group_id]
+            for group_id in (*segment.ancestors, segment.group_id):
+                key_index = group_index.get(group_id)
+                if key_index is not None:
+                    matrix[query_index][key_index] = True
+        return group_ids, tuple(tuple(row) for row in matrix)
+
+
+def parse_shared_prefix_tree(
+    *,
+    group_ids: torch.Tensor,
+    parent_ids: torch.Tensor,
+    ignore_padding_group_id: int = -1,
+    require_contiguous_group_runs: bool = True,
+) -> tuple[SharedPrefixRowTree, ...]:
+    if group_ids.shape != parent_ids.shape:
+        raise RuntimeError(
+            "group_ids and parent_ids must share shape, got "
+            f"{tuple(group_ids.shape)} vs {tuple(parent_ids.shape)}"
+        )
+    if group_ids.ndim != 2:
+        raise RuntimeError(
+            "group_ids and parent_ids must be rank-2 packed tensors, got "
+            f"{group_ids.ndim}"
+        )
+    return tuple(
+        parse_shared_prefix_row(
+            group_ids=group_ids[row_index],
+            parent_ids=parent_ids[row_index],
+            row_index=row_index,
+            ignore_padding_group_id=ignore_padding_group_id,
+            require_contiguous_group_runs=require_contiguous_group_runs,
+        )
+        for row_index in range(int(group_ids.shape[0]))
+    )
+
+
+def parse_shared_prefix_row(
+    *,
+    group_ids: torch.Tensor,
+    parent_ids: torch.Tensor,
+    row_index: int = 0,
+    ignore_padding_group_id: int = -1,
+    require_contiguous_group_runs: bool = True,
+) -> SharedPrefixRowTree:
+    if group_ids.shape != parent_ids.shape:
+        raise RuntimeError(
+            "group_ids and parent_ids must share shape, got "
+            f"{tuple(group_ids.shape)} vs {tuple(parent_ids.shape)}"
+        )
+    if group_ids.ndim != 1:
+        raise RuntimeError(
+            "group_ids and parent_ids must be rank-1 row tensors, got "
+            f"{group_ids.ndim}"
+        )
+
+    valid_tokens = _valid_length(
+        group_ids,
+        parent_ids,
+        ignore_padding_group_id=ignore_padding_group_id,
+    )
+    if valid_tokens == 0:
+        return SharedPrefixRowTree(row_index=row_index, valid_tokens=0, segments=())
+
+    runs = _scan_runs(group_ids[:valid_tokens], parent_ids[:valid_tokens])
+    group_run_count: dict[int, int] = {}
+    first_segment_by_group: dict[int, SharedPrefixSegment] = {}
+    family_by_group: dict[int, int] = {}
+    root_by_group: dict[int, int] = {}
+    ancestors_by_group: dict[int, tuple[int, ...]] = {}
+    segments: list[SharedPrefixSegment] = []
+    next_family_index = 0
+
+    for _start, _end, group_id, _parent_id in runs:
+        group_run_count[group_id] = group_run_count.get(group_id, 0) + 1
+    if require_contiguous_group_runs:
+        repeated_groups = {
+            group_id: count
+            for group_id, count in group_run_count.items()
+            if count > 1 and group_id != ignore_padding_group_id
+        }
+        if repeated_groups:
+            raise RuntimeError(
+                "Shared-prefix metadata requires contiguous group runs per row, "
+                f"found repeats in row {row_index}: {repeated_groups}"
+            )
+
+    for run_index, (start, end, group_id, parent_id) in enumerate(runs):
+        prior_segment = first_segment_by_group.get(group_id)
+        if prior_segment is not None:
+            segment = SharedPrefixSegment(
+                row_index=row_index,
+                run_index=run_index,
+                group_id=group_id,
+                parent_id=parent_id,
+                start=start,
+                end=end,
+                family_index=prior_segment.family_index,
+                root_group_id=prior_segment.root_group_id,
+                ancestors=prior_segment.ancestors,
+            )
+            segments.append(segment)
+            continue
+
+        is_root = group_id == parent_id or (
+            start == 0 and parent_id == ignore_padding_group_id
+        )
+        if is_root:
+            family_index = next_family_index
+            next_family_index += 1
+            root_group_id = group_id
+            ancestors: tuple[int, ...] = ()
+        else:
+            parent_segment = first_segment_by_group.get(parent_id)
+            if parent_segment is None:
+                raise RuntimeError(
+                    "Shared-prefix run points to a missing parent run: "
+                    f"row={row_index}, group_id={group_id}, parent_id={parent_id}"
+                )
+            if int(parent_segment.end) > int(start):
+                raise RuntimeError(
+                    "Shared-prefix parent run must end before its child starts: "
+                    f"row={row_index}, group_id={group_id}, parent_id={parent_id}"
+                )
+            family_index = family_by_group[parent_id]
+            root_group_id = root_by_group[parent_id]
+            ancestors = (*ancestors_by_group[parent_id], parent_id)
+
+        segment = SharedPrefixSegment(
+            row_index=row_index,
+            run_index=run_index,
+            group_id=group_id,
+            parent_id=parent_id,
+            start=start,
+            end=end,
+            family_index=family_index,
+            root_group_id=root_group_id,
+            ancestors=ancestors,
+        )
+        first_segment_by_group[group_id] = segment
+        family_by_group[group_id] = family_index
+        root_by_group[group_id] = root_group_id
+        ancestors_by_group[group_id] = ancestors
+        segments.append(segment)
+
+    return SharedPrefixRowTree(
+        row_index=row_index,
+        valid_tokens=valid_tokens,
+        segments=tuple(segments),
+    )
+
+
+def max_shared_prefix_tree_depth(
+    *,
+    group_ids: torch.Tensor,
+    parent_ids: torch.Tensor,
+    ignore_padding_group_id: int = -1,
+) -> int:
+    return max(
+        (
+            row.max_depth
+            for row in parse_shared_prefix_tree(
+                group_ids=group_ids,
+                parent_ids=parent_ids,
+                ignore_padding_group_id=ignore_padding_group_id,
+            )
+        ),
+        default=0,
+    )
+
+
+def _valid_length(
+    group_ids: torch.Tensor,
+    parent_ids: torch.Tensor,
+    *,
+    ignore_padding_group_id: int,
+) -> int:
+    valid_mask = group_ids != ignore_padding_group_id
+    valid_count = int(valid_mask.sum().item())
+    if valid_count == 0:
+        return 0
+    if not bool(valid_mask[:valid_count].all().item()):
+        raise RuntimeError("Padding tokens must be a contiguous tail")
+    return _infer_terminal_padding_length(
+        group_ids[:valid_count],
+        parent_ids[:valid_count],
+    )
+
+
+def _infer_terminal_padding_length(
+    group_row: torch.Tensor,
+    parent_row: torch.Tensor,
+) -> int:
+    if group_row.numel() == 0:
+        return 0
+    runs = _scan_runs(group_row, parent_row)
+    if len(runs) < 2:
+        return int(group_row.numel())
+    last_start, _last_end, last_group_id, last_parent_id = runs[-1]
+    if last_parent_id >= 0:
+        return int(group_row.numel())
+    terminal_pair = (last_group_id, last_parent_id)
+    if any(
+        (group_id, parent_id) == terminal_pair
+        for _start, _end, group_id, parent_id in runs[:-1]
+    ):
+        return last_start
+    return int(group_row.numel())
+
+
+def _scan_runs(
+    group_row: torch.Tensor,
+    parent_row: torch.Tensor,
+) -> list[tuple[int, int, int, int]]:
+    length = int(group_row.numel())
+    if length == 0:
+        return []
+
+    group_changes = group_row[1:] != group_row[:-1]
+    parent_changes = parent_row[1:] != parent_row[:-1]
+    inconsistent_parent = torch.nonzero(
+        torch.logical_not(group_changes) & parent_changes,
+        as_tuple=False,
+    ).flatten()
+    if int(inconsistent_parent.numel()) > 0:
+        mismatch_index = int(inconsistent_parent[0].item()) + 1
+        prior_boundaries = torch.nonzero(
+            group_changes[: mismatch_index - 1],
+            as_tuple=False,
+        ).flatten()
+        start = (
+            0
+            if int(prior_boundaries.numel()) == 0
+            else int(prior_boundaries[-1].item()) + 1
+        )
+        group_id = int(group_row[start].item())
+        raise RuntimeError(
+            "Found one group run with inconsistent parent ids: "
+            f"group_id={group_id}, start={start}, end={mismatch_index}"
+        )
+
+    run_starts = torch.cat(
+        (
+            torch.zeros(1, dtype=torch.int64, device=group_row.device),
+            torch.nonzero(group_changes, as_tuple=False).flatten() + 1,
+        )
+    )
+    run_ends = torch.cat(
+        (
+            run_starts[1:],
+            torch.tensor([length], dtype=torch.int64, device=group_row.device),
+        )
+    )
+    starts = run_starts.to(device="cpu").tolist()
+    ends = run_ends.to(device="cpu").tolist()
+    group_ids = group_row.index_select(0, run_starts).to(device="cpu").tolist()
+    parent_ids = parent_row.index_select(0, run_starts).to(device="cpu").tolist()
+    return [
+        (int(start), int(end), int(group_id), int(parent_id))
+        for start, end, group_id, parent_id in zip(
+            starts, ends, group_ids, parent_ids, strict=True
+        )
+    ]
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
new file mode 100644
index 000000000..a4cfd897a
--- /dev/null
+++ b/src/art/megatron/trainer_rank.py
@@ -0,0 +1,2024 @@
+from __future__ import annotations
+
+from collections.abc import Callable, Iterable, Iterator, MutableMapping, Sequence
+from dataclasses import dataclass
+import os
+from typing import TYPE_CHECKING, Generic, Literal, ParamSpec, TypeVar, cast, overload
+
+import torch
+import torch.distributed as dist
+
+from art.megatron.shared_prefix_packing import pack_shared_prefixes
+
+if TYPE_CHECKING:
+    from megatron.bridge.models.gpt_provider import GPTModelProvider
+    from megatron.core.models.gpt.gpt_model import GPTModel
+    from megatron.core.optimizer import MegatronOptimizer, OptimizerConfig
+
+    from art.megatron.context_parallel.types import (
+        ArtContextParallelState,
+        ParallelTopology,
+    )
+    from art.megatron.model_support import ModelSupportHandler
+    from art.megatron.shared_prefix_state import SharedPrefixAttentionState
+    from art.megatron.train import TrainingRuntime
+
+
+@dataclass(frozen=True)
+class AdamParams:
+    learning_rate: float
+    beta1: float = 0.9
+    beta2: float = 0.99
+    weight_decay: float = 0.1
+    grad_clip_norm: float = 0.1
+
+
+@dataclass(frozen=True)
+class TopK:
+    logprobs: torch.Tensor
+    tokens: torch.Tensor
+
+
+LogprobsT = TypeVar("LogprobsT", bound=torch.Tensor | None, covariant=True)
+TopKT = TypeVar("TopKT", bound=TopK | None, covariant=True)
+LogitsT = TypeVar("LogitsT", bound=torch.Tensor | None, covariant=True)
+HiddenStatesT = TypeVar("HiddenStatesT", bound=torch.Tensor | None, covariant=True)
+T = TypeVar("T")
+P = ParamSpec("P")
+R = TypeVar("R")
+
+_COMPILED_FUNCTIONS: dict[Callable[..., object], Callable[..., object]] = {}
+
+
+@dataclass(frozen=True)
+class ForwardOutput(Generic[LogprobsT, TopKT, LogitsT, HiddenStatesT]):
+    target_logprobs: LogprobsT
+    top_k: TopKT
+    logits: LogitsT
+    hidden_states: HiddenStatesT
+
+
+class ForwardInput(Generic[LogprobsT, TopKT, LogitsT, HiddenStatesT]):
+    def __init__(
+        self,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor | None = None,
+        top_k: int | None = None,
+        logits: bool = False,
+        hidden_states: bool = False,
+    ) -> None:
+        if top_k is not None and top_k < 1:
+            raise ValueError("top_k must be >= 1")
+        self.input_tokens = input_tokens
+        self.target_tokens = target_tokens
+        self.top_k = top_k
+        self.logits = logits
+        self.hidden_states = hidden_states
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: None = None,
+        logits: Literal[False] = False,
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[None, None, None, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: None = None,
+        logits: Literal[False] = False,
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[torch.Tensor, None, None, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: int,
+        logits: Literal[False] = False,
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[None, TopK, None, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: None = None,
+        logits: Literal[True],
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[None, None, torch.Tensor, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: None = None,
+        logits: Literal[False] = False,
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[None, None, None, torch.Tensor]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: int,
+        logits: Literal[False] = False,
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[torch.Tensor, TopK, None, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: None = None,
+        logits: Literal[True],
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[torch.Tensor, None, torch.Tensor, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: None = None,
+        logits: Literal[False] = False,
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[torch.Tensor, None, None, torch.Tensor]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: int,
+        logits: Literal[True],
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[None, TopK, torch.Tensor, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: int,
+        logits: Literal[False] = False,
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[None, TopK, None, torch.Tensor]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: None = None,
+        logits: Literal[True],
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[None, None, torch.Tensor, torch.Tensor]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: int,
+        logits: Literal[True],
+        hidden_states: Literal[False] = False,
+    ) -> "ForwardInput[torch.Tensor, TopK, torch.Tensor, None]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: int,
+        logits: Literal[False] = False,
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[torch.Tensor, TopK, None, torch.Tensor]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: None = None,
+        logits: Literal[True],
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[torch.Tensor, None, torch.Tensor, torch.Tensor]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: None = None,
+        top_k: int,
+        logits: Literal[True],
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[None, TopK, torch.Tensor, torch.Tensor]": ...
+
+    @overload
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor,
+        top_k: int,
+        logits: Literal[True],
+        hidden_states: Literal[True],
+    ) -> "ForwardInput[torch.Tensor, TopK, torch.Tensor, torch.Tensor]": ...
+
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor | None = None,
+        top_k: int | None = None,
+        logits: bool = False,
+        hidden_states: bool = False,
+    ) -> "AnyForwardInput":
+        return super().__new__(cls)
+
+
+type AnyForwardInput = ForwardInput[
+    torch.Tensor | None,
+    TopK | None,
+    torch.Tensor | None,
+    torch.Tensor | None,
+]
+type AnyForwardOutput = ForwardOutput[
+    torch.Tensor | None,
+    TopK | None,
+    torch.Tensor | None,
+    torch.Tensor | None,
+]
+type ForwardInputs = AnyForwardInput | Iterable["ForwardInputs"]
+type ForwardOutputs = AnyForwardOutput | Sequence["ForwardOutputs"]
+ForwardInputsT = TypeVar("ForwardInputsT", bound=ForwardInputs)
+
+
+@dataclass(frozen=True)
+class MicroBatch(Generic[ForwardInputsT]):
+    inputs: Sequence[ForwardInputsT]
+    indices: Sequence[int]
+
+    def select(self, xs: Sequence[T]) -> Sequence[T]:
+        return [xs[i] for i in self.indices]
+
+
+@dataclass(frozen=True)
+class _ForwardItem:
+    request: AnyForwardInput
+    input_ids: torch.Tensor
+    labels: torch.Tensor | None
+
+
+@dataclass(frozen=True)
+class _PackedForwardBatch:
+    tokens: torch.Tensor
+    group_ids: torch.Tensor
+    parent_ids: torch.Tensor
+    position_ids: torch.Tensor
+    positions_by_item: tuple[torch.Tensor, ...]
+
+
+@dataclass(frozen=True)
+class _PreparedPackedForward:
+    tokens: torch.Tensor
+    position_ids: torch.Tensor
+    attention_state: "SharedPrefixAttentionState | ArtContextParallelState"
+    packed_seq_params: object | None
+    positions_by_item: tuple[torch.Tensor, ...]
+    source_positions_by_item: tuple[torch.Tensor, ...]
+
+
+@dataclass(frozen=True)
+class _HeadOutputs:
+    target_logprobs: list[torch.Tensor | None]
+    top_k: list[TopK | None]
+    logits: list[torch.Tensor | None]
+
+
+@dataclass(frozen=True)
+class _RowMatch:
+    source_offsets: torch.Tensor
+    row_offsets: torch.Tensor
+
+
+class TrainerRank:
+    def __init__(
+        self,
+        runtime: TrainingRuntime,
+        *,
+        micro_batch_size: int = 1,
+        head_chunk_tokens: int = 512,
+        shared_prefix_max_depth: int = 1,
+    ) -> None:
+        if micro_batch_size < 1:
+            raise ValueError("micro_batch_size must be >= 1")
+        if head_chunk_tokens < 1:
+            raise ValueError("head_chunk_tokens must be >= 1")
+        if shared_prefix_max_depth < 0:
+            raise ValueError("shared_prefix_max_depth must be >= 0")
+        self.runtime: TrainingRuntime = runtime
+        self.micro_batch_size = micro_batch_size
+        self.head_chunk_tokens = head_chunk_tokens
+        self.shared_prefix_max_depth = shared_prefix_max_depth
+        self.device = next(runtime.model[0].parameters()).device
+        self.zero_grad()
+
+    def zero_grad(self) -> None:
+        for chunk in self.runtime.model:
+            zero_grad_buffer = getattr(chunk, "zero_grad_buffer", None)
+            if callable(zero_grad_buffer):
+                zero_grad_buffer()
+        optimizer = cast("MegatronOptimizer | None", self.runtime.optimizer)
+        if optimizer is not None:
+            optimizer.zero_grad()
+
+    def _optimizer(self) -> "MegatronOptimizer":
+        optimizer = cast("MegatronOptimizer | None", self.runtime.optimizer)
+        if optimizer is None:
+            raise RuntimeError("TrainerRank requires a runtime with an optimizer")
+        return optimizer
+
+    def _handler(self) -> "ModelSupportHandler":
+        return cast("ModelSupportHandler", self.runtime.model_support_handler)
+
+    def _provider(self) -> "GPTModelProvider":
+        return cast("GPTModelProvider", self.runtime.provider)
+
+    def micro_batches(
+        self,
+        inputs: Iterable[ForwardInputsT],
+    ) -> Sequence[MicroBatch[ForwardInputsT]]:
+        items = list(inputs)
+        from megatron.core import parallel_state as ps
+
+        dp_rank = int(ps.get_data_parallel_rank())
+        dp_size = int(ps.get_data_parallel_world_size())
+        global_micro_size = self.micro_batch_size * dp_size
+        batches: list[MicroBatch[ForwardInputsT]] = []
+        for start in range(0, len(items), global_micro_size):
+            stop = min(start + global_micro_size, len(items))
+            indices = list(range(start + dp_rank, stop, dp_size))
+            batches.append(MicroBatch([items[i] for i in indices], indices))
+        return batches
+
+    @overload
+    def forward(
+        self,
+        inputs: Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]],
+    ) -> Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]: ...
+
+    @overload
+    def forward(
+        self,
+        inputs: Iterable[
+            Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]
+        ],
+    ) -> Sequence[
+        Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]
+    ]: ...
+
+    @overload
+    def forward(
+        self,
+        inputs: Iterable[
+            Iterable[Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]]
+        ],
+    ) -> Sequence[
+        Sequence[Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]]
+    ]: ...
+
+    @overload
+    def forward(
+        self,
+        inputs: Iterable[
+            Iterable[
+                Iterable[
+                    Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]
+                ]
+            ]
+        ],
+    ) -> Sequence[
+        Sequence[
+            Sequence[Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]]
+        ]
+    ]: ...
+
+    def forward(self, inputs: ForwardInputs) -> ForwardOutputs:
+        materialized = _materialize(inputs)
+        outputs = iter(self._forward_flat(list(_flatten(materialized))))
+        return _unflatten(materialized, outputs)
+
+    def dp_reduce(
+        self,
+        tensor: torch.Tensor,
+        *,
+        op: dist.ReduceOp.RedOpType = dist.ReduceOp.SUM,
+    ) -> None:
+        from megatron.core import parallel_state as ps
+
+        dist.all_reduce(
+            tensor,
+            op=op,
+            group=ps.get_data_parallel_group(with_context_parallel=True),
+        )
+
+    def optim_step(
+        self,
+        *,
+        params: AdamParams,
+        scale_grads: float = 1.0,
+    ) -> dict[str, float]:
+        from art.megatron.training.finalize_grads import (
+            finalize_model_grads_extended,
+            flush_param_grads_to_main_grads,
+        )
+        from art.megatron.training.model_chunks import as_megatron_api_chunks
+
+        optimizer = self._optimizer()
+        flush_param_grads_to_main_grads(self.runtime.model)
+        finalize_model_grads_extended(
+            as_megatron_api_chunks(self.runtime.model),
+            num_tokens=None,
+        )
+        self._scale_main_grads(scale_grads)
+        self._configure_optimizer(params)
+        update_successful, grad_norm, num_zeros = optimizer.step()
+        optimizer.zero_grad()
+        self.zero_grad()
+        return {
+            "learning_rate": float(params.learning_rate),
+            "grad_norm": float(grad_norm),
+            "update_successful": float(bool(update_successful)),
+            "num_zeros_in_grad": float(num_zeros or 0),
+        }
+
+    def _forward_flat(
+        self, requests: Sequence[AnyForwardInput]
+    ) -> list[AnyForwardOutput]:
+        outputs = [
+            ForwardOutput(
+                target_logprobs=None,
+                top_k=None,
+                logits=None,
+                hidden_states=None,
+            )
+            for _ in requests
+        ]
+        active_indices = [
+            index
+            for index, request in enumerate(requests)
+            if request.target_tokens is not None
+            or request.logits
+            or request.top_k is not None
+            or request.hidden_states
+        ]
+        if not active_indices:
+            return outputs
+
+        items = [self._forward_item(requests[index]) for index in active_indices]
+        packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
+        prepared = self._prepare_packed_forward(packed)
+        item_outputs = self._forward_packed(items, prepared)
+        for index, output in zip(active_indices, item_outputs, strict=True):
+            outputs[index] = output
+        return outputs
+
+    def _forward_item(self, request: AnyForwardInput) -> _ForwardItem:
+        _validate_top_k(request.top_k, _language_model(self.runtime.model[0]))
+        input_ids = _as_1d_long(request.input_tokens, name="input_tokens")
+        labels = (
+            _as_target_tokens(request.target_tokens, request.input_tokens, input_ids)
+            if request.target_tokens is not None
+            else None
+        )
+        return _ForwardItem(request=request, input_ids=input_ids, labels=labels)
+
+    def _forward_packed(
+        self,
+        items: Sequence[_ForwardItem],
+        prepared: _PreparedPackedForward,
+    ) -> list[AnyForwardOutput]:
+        if _is_native_target_only(items):
+            labels = self._consistent_packed_labels(items, prepared)
+            if labels is not None:
+                return self._forward_native_target_logprobs(items, prepared, labels)
+
+        hidden_by_row = self._gather_sequence_parallel_hidden(
+            self._decoder_hidden(prepared)
+        )
+        head_outputs = self._project_head(items, prepared, hidden_by_row)
+        outputs: list[AnyForwardOutput] = []
+        for index, (item, positions) in enumerate(
+            zip(items, prepared.positions_by_item, strict=True)
+        ):
+            hidden_states = (
+                _select_positions(hidden_by_row, positions)
+                if item.request.hidden_states
+                else None
+            )
+            outputs.append(
+                ForwardOutput(
+                    target_logprobs=head_outputs.target_logprobs[index],
+                    top_k=head_outputs.top_k[index],
+                    logits=head_outputs.logits[index],
+                    hidden_states=hidden_states,
+                )
+            )
+        return outputs
+
+    def _forward_native_target_logprobs(
+        self,
+        items: Sequence[_ForwardItem],
+        prepared: _PreparedPackedForward,
+        labels: torch.Tensor,
+    ) -> list[AnyForwardOutput]:
+        from art.megatron.train import _placeholder_attention_mask
+
+        per_token_loss = self.runtime.model[0](
+            input_ids=prepared.tokens,
+            position_ids=prepared.position_ids,
+            attention_mask=_placeholder_attention_mask(self.device),
+            labels=labels,
+            packed_seq_params=prepared.packed_seq_params,
+            **self._handler().get_forward_kwargs(
+                self.runtime.model[0],
+                attention_bias=prepared.attention_state,
+            ),
+        )
+        flat_logprobs = -per_token_loss.reshape(-1)
+        outputs: list[AnyForwardOutput] = []
+        for item, positions, source_positions in zip(
+            items,
+            prepared.positions_by_item,
+            prepared.source_positions_by_item,
+            strict=True,
+        ):
+            if item.labels is None:
+                raise RuntimeError("native target path requires labels")
+            item_labels = item.labels.to(device=self.device).index_select(
+                0,
+                source_positions.to(device=self.device),
+            )
+            target_logprobs = _select_positions(flat_logprobs, positions).masked_fill(
+                item_labels == -100,
+                0.0,
+            )
+            outputs.append(
+                ForwardOutput(
+                    target_logprobs=target_logprobs,
+                    top_k=None,
+                    logits=None,
+                    hidden_states=None,
+                )
+            )
+        return outputs
+
+    def _consistent_packed_labels(
+        self,
+        items: Sequence[_ForwardItem],
+        prepared: _PreparedPackedForward,
+    ) -> torch.Tensor | None:
+        labels = torch.full_like(prepared.tokens, -100)
+        flat_labels = labels.reshape(-1)
+        has_label = torch.zeros_like(flat_labels, dtype=torch.bool)
+        for item, positions, source_positions in zip(
+            items,
+            prepared.positions_by_item,
+            prepared.source_positions_by_item,
+            strict=True,
+        ):
+            if item.labels is None:
+                continue
+            item_positions = positions.to(device=labels.device)
+            item_labels = item.labels.to(device=labels.device).index_select(
+                0,
+                source_positions.to(device=labels.device),
+            )
+            keep = item_labels != -100
+            if not bool(keep.any().item()):
+                continue
+            kept_positions = item_positions[keep]
+            kept_labels = item_labels[keep]
+            existing = flat_labels.index_select(0, kept_positions)
+            seen = has_label.index_select(0, kept_positions)
+            if bool(((existing != kept_labels) & seen).any().item()):
+                return None
+            flat_labels.index_copy_(0, kept_positions, kept_labels)
+            has_label.index_fill_(0, kept_positions, True)
+        return labels
+
+    def _decoder_hidden(
+        self,
+        prepared: _PreparedPackedForward,
+    ) -> torch.Tensor:
+        from art.megatron.train import _placeholder_attention_mask
+
+        handler = self._handler()
+        model = _language_model(self.runtime.model[0])
+        attention_mask = _placeholder_attention_mask(self.device)
+        forward_kwargs = handler.get_forward_kwargs(
+            self.runtime.model[0],
+            attention_bias=prepared.attention_state,
+        )
+        extra_block_kwargs = cast(
+            dict[str, object] | None,
+            forward_kwargs.pop("extra_block_kwargs", None),
+        )
+        preprocessed = model._preprocess(
+            input_ids=prepared.tokens,
+            position_ids=prepared.position_ids,
+            packed_seq_params=prepared.packed_seq_params,
+        )
+        (
+            decoder_input,
+            rotary_pos_emb,
+            rotary_pos_cos,
+            rotary_pos_sin,
+            sequence_len_offset,
+            padding_mask,
+        ) = preprocessed[:6]
+        rotary_pos_cos_sin = preprocessed[6] if len(preprocessed) == 7 else None
+        return cast(
+            torch.Tensor,
+            model.decoder(
+                hidden_states=decoder_input,
+                attention_mask=attention_mask,
+                rotary_pos_emb=rotary_pos_emb,
+                rotary_pos_cos=rotary_pos_cos,
+                rotary_pos_sin=rotary_pos_sin,
+                rotary_pos_cos_sin=rotary_pos_cos_sin,
+                packed_seq_params=prepared.packed_seq_params,
+                sequence_len_offset=sequence_len_offset,
+                padding_mask=padding_mask,
+                **(extra_block_kwargs or {}),
+            ),
+        )
+
+    def _project_head(
+        self,
+        items: Sequence[_ForwardItem],
+        prepared: _PreparedPackedForward,
+        hidden_by_row: torch.Tensor,
+    ) -> "_HeadOutputs":
+        model = _language_model(self.runtime.model[0])
+        output_weight = (
+            model.shared_embedding_or_output_weight()
+            if bool(model.share_embeddings_and_output_weights)
+            else None
+        )
+        device = hidden_by_row.device
+        target_logprobs = [None for _ in items]
+        logits: list[torch.Tensor | None] = [None for _ in items]
+        top_k: list[TopK | None] = [None for _ in items]
+        label_rows: list[torch.Tensor | None] = [None for _ in items]
+        full_rows: list[torch.Tensor] = []
+        local_rows: list[torch.Tensor] = []
+
+        for index, (item, positions_cpu) in enumerate(
+            zip(items, prepared.positions_by_item, strict=True)
+        ):
+            positions = positions_cpu.to(device=device)
+            if item.request.logits:
+                full_rows.append(positions)
+            elif item.request.top_k is not None:
+                local_rows.append(positions)
+            if item.labels is not None:
+                source_positions = prepared.source_positions_by_item[index].to(device)
+                labels = item.labels.to(device=device).index_select(0, source_positions)
+                label_rows[index] = labels
+                target_logprobs[index] = torch.zeros(
+                    tuple(labels.shape),
+                    device=device,
+                    dtype=torch.float32,
+                )
+                if item.request.top_k is None and not item.request.logits:
+                    valid_offsets = _valid_target_offsets(labels)
+                    if int(valid_offsets.numel()):
+                        local_rows.append(positions.index_select(0, valid_offsets))
+            if item.request.logits:
+                logits[index] = _empty_logits_like_positions(
+                    positions,
+                    model,
+                    hidden_by_row,
+                )
+
+        full_row_tensor = (
+            torch.cat(full_rows).unique(sorted=True)
+            if full_rows
+            else torch.empty(0, dtype=torch.long, device=device)
+        )
+        local_row_tensor = (
+            torch.cat(local_rows).unique(sorted=True)
+            if local_rows
+            else torch.empty(0, dtype=torch.long, device=device)
+        )
+        if int(full_row_tensor.numel()) and int(local_row_tensor.numel()):
+            local_row_tensor = local_row_tensor[
+                ~torch.isin(local_row_tensor, full_row_tensor)
+            ]
+
+        if int(full_row_tensor.numel()):
+            self._project_full_logits(
+                items,
+                prepared,
+                hidden_by_row,
+                full_row_tensor,
+                output_weight=output_weight,
+                target_logprobs=target_logprobs,
+                top_k=top_k,
+                logits=logits,
+                label_rows=label_rows,
+            )
+
+        if int(local_row_tensor.numel()):
+            local_row_matches = _row_matches_by_item(
+                prepared.positions_by_item,
+                local_row_tensor,
+                device=device,
+            )
+            self._project_vocab_parallel(
+                items,
+                hidden_by_row,
+                local_row_tensor,
+                row_matches=local_row_matches,
+                item_lengths=tuple(
+                    int(positions.numel()) for positions in prepared.positions_by_item
+                ),
+                output_weight=output_weight,
+                target_logprobs=target_logprobs,
+                top_k=top_k,
+                label_rows=label_rows,
+            )
+
+        return _HeadOutputs(target_logprobs, top_k, logits)
+
+    def _project_full_logits(
+        self,
+        items: Sequence[_ForwardItem],
+        prepared: _PreparedPackedForward,
+        hidden_by_row: torch.Tensor,
+        rows: torch.Tensor,
+        *,
+        output_weight: torch.Tensor | None,
+        target_logprobs: list[torch.Tensor | None],
+        top_k: list[TopK | None],
+        logits: list[torch.Tensor | None],
+        label_rows: list[torch.Tensor | None],
+    ) -> None:
+        model = _language_model(self.runtime.model[0])
+        for start in range(0, int(rows.numel()), self.head_chunk_tokens):
+            chunk_rows = rows[start : start + self.head_chunk_tokens]
+            chunk_logits = self._logits_from_hidden_rows(
+                model,
+                _select_positions(hidden_by_row, chunk_rows),
+                output_weight=output_weight,
+            )
+            log_z = None
+            if any(
+                item.labels is not None or item.request.top_k is not None
+                for item in items
+            ):
+                log_z = torch.logsumexp(chunk_logits.float(), dim=-1)
+
+            for index, item in enumerate(items):
+                positions = prepared.positions_by_item[index].to(device=rows.device)
+                offsets, chunk_offsets = _matching_offsets(positions, chunk_rows)
+                if int(offsets.numel()) == 0:
+                    continue
+                selected_logits = chunk_logits.index_select(0, chunk_offsets)
+                item_logits = logits[index]
+                if item_logits is not None:
+                    item_logits[offsets] = selected_logits
+                labels = label_rows[index]
+                item_logprobs = target_logprobs[index]
+                if item_logprobs is not None and labels is not None:
+                    if log_z is None:
+                        raise RuntimeError("target logprobs require logsumexp")
+                    item_logprobs[offsets] = _target_logprobs_from_full_logits(
+                        selected_logits,
+                        labels.index_select(0, offsets),
+                        log_z.index_select(0, chunk_offsets),
+                    )
+                k = item.request.top_k
+                if k is not None:
+                    if log_z is None:
+                        raise RuntimeError("top_k requires logsumexp")
+                    top_k[index] = _merge_topk(
+                        top_k[index],
+                        offsets,
+                        _topk_from_full_logits(
+                            selected_logits,
+                            k=k,
+                            log_z=log_z.index_select(0, chunk_offsets),
+                        ),
+                        length=int(positions.numel()),
+                    )
+
+    def _project_vocab_parallel(
+        self,
+        items: Sequence[_ForwardItem],
+        hidden_by_row: torch.Tensor,
+        rows: torch.Tensor,
+        *,
+        row_matches: Sequence[_RowMatch],
+        item_lengths: Sequence[int],
+        output_weight: torch.Tensor | None,
+        target_logprobs: list[torch.Tensor | None],
+        top_k: list[TopK | None],
+        label_rows: list[torch.Tensor | None],
+    ) -> None:
+        model = _language_model(self.runtime.model[0])
+        use_fused_target_ce = _can_use_fused_target_ce(items, label_rows)
+        fused_target_labels = (
+            _consistent_row_labels(
+                label_rows,
+                row_matches,
+                row_count=int(rows.numel()),
+                device=rows.device,
+            )
+            if use_fused_target_ce
+            else None
+        )
+        if fused_target_labels is not None:
+            row_target_logprobs = torch.empty(
+                int(rows.numel()),
+                device=rows.device,
+                dtype=torch.float32,
+            )
+            for start in range(0, int(rows.numel()), self.head_chunk_tokens):
+                chunk_rows = rows[start : start + self.head_chunk_tokens]
+                local_logits = self._local_logits_from_hidden_rows(
+                    model,
+                    _select_positions(hidden_by_row, chunk_rows),
+                    output_weight=output_weight,
+                )
+                row_target_logprobs[
+                    start : start + int(chunk_rows.numel())
+                ] = -model.compute_language_model_loss(
+                    fused_target_labels[
+                        start : start + int(chunk_rows.numel())
+                    ].unsqueeze(0),
+                    local_logits.unsqueeze(1),
+                ).reshape(-1)
+            _scatter_row_target_logprobs(
+                row_target_logprobs,
+                row_matches,
+                label_rows,
+                target_logprobs,
+            )
+            return
+
+        reference_target_labels = (
+            _reference_row_labels(
+                label_rows,
+                row_matches,
+                row_count=int(rows.numel()),
+                device=rows.device,
+            )
+            if _can_use_reference_target_ce(items, label_rows)
+            else None
+        )
+        if reference_target_labels is not None:
+            for start in range(0, int(rows.numel()), self.head_chunk_tokens):
+                chunk_rows = rows[start : start + self.head_chunk_tokens]
+                local_logits = self._local_logits_from_hidden_rows(
+                    model,
+                    _select_positions(hidden_by_row, chunk_rows),
+                    output_weight=output_weight,
+                )
+                chunk_reference_labels = reference_target_labels[
+                    start : start + int(chunk_rows.numel())
+                ]
+                reference_loss = model.compute_language_model_loss(
+                    chunk_reference_labels.unsqueeze(0),
+                    local_logits.unsqueeze(1),
+                ).reshape(-1)
+                reference_logits = _vocab_parallel_target_logits(
+                    local_logits,
+                    chunk_reference_labels,
+                )
+                log_z = reference_logits + reference_loss
+                for index, item_logprobs in enumerate(target_logprobs):
+                    labels = label_rows[index]
+                    if item_logprobs is None or labels is None:
+                        continue
+                    offsets, chunk_offsets = _match_chunk_offsets(
+                        row_matches[index],
+                        start=start,
+                        end=start + int(chunk_rows.numel()),
+                    )
+                    if int(offsets.numel()) == 0:
+                        continue
+                    item_logprobs[offsets] = _vocab_parallel_target_logprobs(
+                        local_logits,
+                        labels.index_select(0, offsets),
+                        log_z.index_select(0, chunk_offsets),
+                        row_offsets=chunk_offsets,
+                    )
+            return
+
+        max_top_k = max(
+            (int(item.request.top_k or 0) for item in items if not item.request.logits),
+            default=0,
+        )
+        for start in range(0, int(rows.numel()), self.head_chunk_tokens):
+            chunk_rows = rows[start : start + self.head_chunk_tokens]
+            local_logits = self._local_logits_from_hidden_rows(
+                model,
+                _select_positions(hidden_by_row, chunk_rows),
+                output_weight=output_weight,
+            )
+            topk_stats = _try_triton_local_topk_stats(local_logits, k=max_top_k)
+            logsumexp_stats = (
+                _try_triton_local_logsumexp_stats(local_logits)
+                if topk_stats is None
+                else None
+            )
+            if topk_stats is not None:
+                local_max, local_sum, _, _ = topk_stats
+                local_max = local_max.detach()
+                global_max = _all_reduce_tensor_parallel_max(local_max)
+                global_sum = _all_reduce_tensor_parallel_sum(
+                    local_sum * torch.exp(local_max - global_max)
+                )
+                log_z = global_max + torch.log(global_sum)
+            elif logsumexp_stats is not None:
+                local_max, local_sum = logsumexp_stats
+                local_max = local_max.detach()
+                global_max = _all_reduce_tensor_parallel_max(local_max)
+                global_sum = _all_reduce_tensor_parallel_sum(
+                    local_sum * torch.exp(local_max - global_max)
+                )
+                log_z = global_max + torch.log(global_sum)
+            else:
+                log_z = _vocab_parallel_log_z(local_logits)
+
+            logits_topk: tuple[torch.Tensor, torch.Tensor] | None = None
+            if logsumexp_stats is not None and max_top_k > 0:
+                local_k = min(max_top_k, int(local_logits.shape[1]))
+                local_values, local_tokens = torch.topk(local_logits, k=local_k, dim=-1)
+                logits_topk = (local_values.float(), local_tokens)
+
+            for index, item in enumerate(items):
+                if item.request.logits:
+                    continue
+                offsets, chunk_offsets = _match_chunk_offsets(
+                    row_matches[index],
+                    start=start,
+                    end=start + int(chunk_rows.numel()),
+                )
+                if int(offsets.numel()) == 0:
+                    continue
+                selected_log_z = log_z.index_select(0, chunk_offsets)
+                labels = label_rows[index]
+                item_logprobs = target_logprobs[index]
+                if item_logprobs is not None and labels is not None:
+                    item_logprobs[offsets] = _vocab_parallel_target_logprobs(
+                        local_logits,
+                        labels.index_select(0, offsets),
+                        selected_log_z,
+                        row_offsets=chunk_offsets,
+                    )
+                k = item.request.top_k
+                if k is not None:
+                    if topk_stats is not None:
+                        _, _, local_values, local_tokens = topk_stats
+                        top_k[index] = _merge_topk(
+                            top_k[index],
+                            offsets,
+                            _vocab_parallel_topk_from_local(
+                                local_values.index_select(0, chunk_offsets),
+                                local_tokens.index_select(0, chunk_offsets),
+                                k=k,
+                                log_z=selected_log_z,
+                                vocab_start=_vocab_range(local_logits)[0],
+                            ),
+                            length=item_lengths[index],
+                        )
+                        continue
+                    if logits_topk is not None:
+                        local_values, local_tokens = logits_topk
+                        top_k[index] = _merge_topk(
+                            top_k[index],
+                            offsets,
+                            _vocab_parallel_topk_from_local(
+                                local_values.index_select(0, chunk_offsets),
+                                local_tokens.index_select(0, chunk_offsets),
+                                k=k,
+                                log_z=selected_log_z,
+                                vocab_start=_vocab_range(local_logits)[0],
+                            ),
+                            length=item_lengths[index],
+                        )
+                        continue
+                    selected_logits = local_logits.index_select(0, chunk_offsets)
+                    top_k[index] = _merge_topk(
+                        top_k[index],
+                        offsets,
+                        _vocab_parallel_topk(
+                            selected_logits,
+                            k=k,
+                            log_z=selected_log_z,
+                        ),
+                        length=item_lengths[index],
+                    )
+
+    def _logits_from_hidden_rows(
+        self,
+        model: "GPTModel",
+        hidden: torch.Tensor,
+        *,
+        output_weight: torch.Tensor | None,
+    ) -> torch.Tensor:
+        local_logits = self._local_logits_from_hidden_rows(
+            model,
+            hidden,
+            output_weight=output_weight,
+        )
+        return _batch_seq_logits(
+            self._gather_tensor_parallel_logits(local_logits.unsqueeze(1)),
+            seq_len=int(hidden.shape[0]),
+        ).squeeze(0)
+
+    def _local_logits_from_hidden_rows(
+        self,
+        model: "GPTModel",
+        hidden: torch.Tensor,
+        *,
+        output_weight: torch.Tensor | None,
+    ) -> torch.Tensor:
+        output_layer = model.output_layer
+        sequence_parallel = bool(getattr(output_layer, "sequence_parallel", False))
+        if sequence_parallel:
+            output_layer.sequence_parallel = False
+        try:
+            logits, _ = output_layer(
+                hidden.unsqueeze(1),
+                weight=output_weight,
+                runtime_gather_output=None,
+            )
+        finally:
+            if sequence_parallel:
+                output_layer.sequence_parallel = True
+        return _batch_seq_logits(
+            model._scale_logits(logits),
+            seq_len=int(hidden.shape[0]),
+        ).squeeze(0)
+
+    def _gather_sequence_parallel_hidden(self, hidden: torch.Tensor) -> torch.Tensor:
+        from megatron.core import parallel_state as ps
+
+        if int(ps.get_tensor_model_parallel_world_size()) <= 1:
+            return hidden.squeeze(1)
+        from megatron.core import tensor_parallel
+
+        gathered = tensor_parallel.gather_from_sequence_parallel_region(
+            hidden,
+            tensor_parallel_output_grad=True,
+            group=ps.get_tensor_model_parallel_group(check_initialized=False),
+        )
+        return cast(torch.Tensor, gathered).squeeze(1)
+
+    def _prepare_packed_forward(
+        self,
+        batch: _PackedForwardBatch,
+    ) -> _PreparedPackedForward:
+        topology = self._topology()
+        batch = _pad_packed_batch(batch, multiple=int(topology.tp))
+        if int(topology.cp) > 1:
+            return self._prepare_context_parallel_forward(batch, topology=topology)
+        from art.megatron.shared_prefix_state import create_shared_prefix_state
+
+        handler = self._handler()
+        provider = self._provider()
+        return _PreparedPackedForward(
+            tokens=batch.tokens.to(self.device),
+            position_ids=batch.position_ids.to(self.device),
+            attention_state=create_shared_prefix_state(
+                group_ids=batch.group_ids,
+                parent_ids=batch.parent_ids,
+                target_device=self.device,
+                build_gdn_execution_spec=handler.build_gdn_execution_spec,
+                attention_head_dim=provider.kv_channels,
+                attention_value_head_dim=provider.kv_channels,
+            ),
+            packed_seq_params=None,
+            positions_by_item=batch.positions_by_item,
+            source_positions_by_item=tuple(
+                torch.arange(
+                    int(positions.numel()),
+                    dtype=torch.long,
+                    device=positions.device,
+                )
+                for positions in batch.positions_by_item
+            ),
+        )
+
+    def _prepare_context_parallel_forward(
+        self,
+        batch: _PackedForwardBatch,
+        *,
+        topology: "ParallelTopology",
+    ) -> _PreparedPackedForward:
+        from megatron.core import parallel_state as ps
+
+        from art.megatron.context_parallel.runtime import (
+            _dispatch_tensor,
+            prepare_cp_micro,
+        )
+        from art.megatron.training.microbatches import (
+            _context_parallel_config_for_provider,
+        )
+        from art.preprocessing.pack import PackedTensors
+
+        assistant_mask = torch.ones_like(batch.tokens, dtype=torch.bool)
+        sparse_micro: PackedTensors = {
+            "tokens": batch.tokens,
+            "group_ids": batch.group_ids,
+            "parent_ids": batch.parent_ids,
+            "input_pos": batch.position_ids,
+            "assistant_mask": assistant_mask,
+            "logprobs": torch.full_like(
+                batch.tokens, float("nan"), dtype=torch.float32
+            ),
+            "advantages": torch.zeros_like(batch.tokens, dtype=torch.float32),
+            "weights": assistant_mask.to(dtype=torch.float32),
+            "pixel_values": [None],
+            "image_grid_thw": [None],
+            "moe_routing_replay": None,
+        }
+        handler = self._handler()
+        prepared = prepare_cp_micro(
+            micro=sparse_micro,
+            topology=topology,
+            config=_context_parallel_config_for_provider(self._provider(), self.device),
+            cp_group=ps.get_context_parallel_group(check_initialized=False),
+            cp_rank=ps.get_context_parallel_rank(),
+            build_gdn_execution_spec=handler.build_gdn_execution_spec,
+            target_device=self.device,
+        )
+        if prepared.rank_plan is None:
+            raise RuntimeError("CP forward preparation did not return a rank plan")
+        local_positions = _dispatch_tensor(
+            torch.arange(
+                int(batch.tokens.shape[1]),
+                dtype=torch.long,
+            ).unsqueeze(0),
+            rank_plan=prepared.rank_plan,
+            pad_value=-1,
+            pad_multiple=prepared.pad_multiple,
+        )
+        local_position_pairs = tuple(
+            _local_position_pairs(local_positions, positions)
+            for positions in batch.positions_by_item
+        )
+        return _PreparedPackedForward(
+            tokens=prepared.tensors.tokens,
+            position_ids=prepared.tensors.input_pos,
+            attention_state=cast("ArtContextParallelState", prepared.attention_state),
+            packed_seq_params=prepared.packed_seq_params,
+            positions_by_item=tuple(pair[0] for pair in local_position_pairs),
+            source_positions_by_item=tuple(pair[1] for pair in local_position_pairs),
+        )
+
+    def _topology(self) -> "ParallelTopology":
+        from art.megatron.train import _infer_parallel_topology
+
+        return _infer_parallel_topology(self.runtime.model)
+
+    def _gather_tensor_parallel_logits(self, logits: torch.Tensor) -> torch.Tensor:
+        from megatron.core import parallel_state as ps
+
+        if int(ps.get_tensor_model_parallel_world_size()) <= 1:
+            return logits
+        from megatron.core import tensor_parallel
+
+        return cast(
+            torch.Tensor,
+            tensor_parallel.gather_from_tensor_model_parallel_region(logits),
+        )
+
+    def _configure_optimizer(self, params: AdamParams) -> None:
+        optimizer = self._optimizer()
+        config = cast("OptimizerConfig | None", optimizer.config)
+        if config is not None:
+            config.lr = params.learning_rate
+            config.adam_beta1 = params.beta1
+            config.adam_beta2 = params.beta2
+            config.weight_decay = params.weight_decay
+            config.clip_grad = params.grad_clip_norm
+        for group in optimizer.param_groups:
+            param_group = cast(MutableMapping[str, object], group)
+            param_group["lr"] = params.learning_rate
+            param_group["weight_decay"] = params.weight_decay
+            if "betas" in param_group:
+                param_group["betas"] = (params.beta1, params.beta2)
+
+    def _scale_main_grads(self, scale: float) -> None:
+        if scale == 1.0:
+            return
+        for chunk in self.runtime.model:
+            for param in chunk.parameters():
+                grad = getattr(param, "main_grad", None)
+                if isinstance(grad, torch.Tensor):
+                    grad.mul_(scale)
+                elif param.grad is not None:
+                    param.grad.mul_(scale)
+
+
+def _as_1d_long(tensor: torch.Tensor, *, name: str) -> torch.Tensor:
+    tensor = tensor.reshape(-1)
+    if int(tensor.numel()) == 0:
+        raise ValueError(f"{name} must not be empty")
+    return tensor.to(dtype=torch.long)
+
+
+def _as_target_tokens(
+    tensor: torch.Tensor,
+    input_tokens: torch.Tensor,
+    input_ids: torch.Tensor,
+) -> torch.Tensor:
+    labels = tensor.to(dtype=torch.long)
+    if int(labels.numel()) == 0:
+        raise ValueError("target_tokens must not be empty")
+    if tuple(labels.shape) == tuple(input_tokens.shape):
+        return labels.reshape(-1)
+
+    input_shape = tuple(input_tokens.shape)
+    if (
+        labels.ndim > input_tokens.ndim
+        and tuple(labels.shape[: input_tokens.ndim]) == input_shape
+    ):
+        return labels.reshape(
+            int(input_ids.numel()), *labels.shape[input_tokens.ndim :]
+        )
+    if labels.ndim >= 1 and int(labels.shape[0]) == int(input_ids.numel()):
+        return labels
+    raise ValueError(
+        "target_tokens must match input_tokens or add trailing target dimensions: "
+        f"input_tokens={tuple(input_tokens.shape)} target_tokens={tuple(labels.shape)}"
+    )
+
+
+def _validate_top_k(top_k: int | None, model: "GPTModel") -> None:
+    if top_k is None:
+        return
+    if top_k < 1:
+        raise ValueError("top_k must be >= 1")
+    vocab_size = _padded_vocab_size(model)
+    if top_k > vocab_size:
+        raise ValueError(f"top_k={top_k} exceeds vocabulary size {vocab_size}")
+
+
+def _is_native_target_only(items: Sequence[_ForwardItem]) -> bool:
+    return all(
+        item.labels is not None
+        and item.labels.ndim == 1
+        and item.request.top_k is None
+        and not item.request.logits
+        and not item.request.hidden_states
+        for item in items
+    )
+
+
+def _pack_forward_items(
+    items: Sequence[_ForwardItem],
+    *,
+    max_depth: int,
+) -> _PackedForwardBatch:
+    input_tensors = tuple(item.input_ids for item in items)
+    pack = pack_shared_prefixes(input_tensors, max_depth=max_depth)
+
+    return _PackedForwardBatch(
+        tokens=pack.tokens,
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+        position_ids=pack.position_ids,
+        positions_by_item=pack.positions_by_sequence,
+    )
+
+
+def _pad_packed_batch(
+    batch: _PackedForwardBatch,
+    *,
+    multiple: int,
+) -> _PackedForwardBatch:
+    if multiple <= 1:
+        return batch
+    seq_len = int(batch.tokens.shape[1])
+    pad = -seq_len % multiple
+    if pad == 0:
+        return batch
+
+    device = batch.tokens.device
+    next_group = (
+        int(batch.group_ids.max().item()) + 1 if int(batch.group_ids.numel()) else 1
+    )
+    pad_group_ids = torch.arange(
+        next_group,
+        next_group + pad,
+        dtype=batch.group_ids.dtype,
+        device=device,
+    ).unsqueeze(0)
+    return _PackedForwardBatch(
+        tokens=torch.cat(
+            (
+                batch.tokens,
+                torch.zeros((1, pad), dtype=batch.tokens.dtype, device=device),
+            ),
+            dim=1,
+        ),
+        group_ids=torch.cat((batch.group_ids, pad_group_ids), dim=1),
+        parent_ids=torch.cat((batch.parent_ids, pad_group_ids), dim=1),
+        position_ids=torch.cat(
+            (
+                batch.position_ids,
+                torch.zeros((1, pad), dtype=batch.position_ids.dtype, device=device),
+            ),
+            dim=1,
+        ),
+        positions_by_item=batch.positions_by_item,
+    )
+
+
+def _language_model(model: torch.nn.Module) -> "GPTModel":
+    module: object = model
+    while hasattr(module, "module"):
+        module = getattr(module, "module")
+    if hasattr(module, "_preprocess") and hasattr(module, "decoder"):
+        return cast("GPTModel", module)
+    language_model = getattr(module, "language_model", None)
+    if language_model is not None:
+        return cast("GPTModel", language_model)
+    raise RuntimeError("expected a Megatron GPT model")
+
+
+def _empty_logits_like_positions(
+    positions: torch.Tensor,
+    model: "GPTModel",
+    like: torch.Tensor,
+) -> torch.Tensor:
+    return torch.empty(
+        (int(positions.numel()), _padded_vocab_size(model)),
+        device=like.device,
+        dtype=like.dtype,
+    )
+
+
+def _padded_vocab_size(model: "GPTModel") -> int:
+    vocab_size = getattr(getattr(model, "config", None), "padded_vocab_size", None)
+    if vocab_size is None:
+        vocab_size = getattr(model, "vocab_size", None)
+    if vocab_size is None:
+        raise RuntimeError("could not determine full padded vocabulary size")
+    return int(vocab_size)
+
+
+def _target_logprobs_from_full_logits(
+    logits: torch.Tensor,
+    labels: torch.Tensor,
+    log_z: torch.Tensor,
+) -> torch.Tensor:
+    return _call_compiled(_target_logprobs_from_full_logits_impl, logits, labels, log_z)
+
+
+def _target_logprobs_from_full_logits_impl(
+    logits: torch.Tensor,
+    labels: torch.Tensor,
+    log_z: torch.Tensor,
+) -> torch.Tensor:
+    flat_labels = labels.clamp_min(0).reshape(int(labels.shape[0]), -1)
+    target_logits = logits.gather(1, flat_labels).float().reshape(labels.shape)
+    return _finish_target_logprobs(target_logits, labels, log_z)
+
+
+def _vocab_parallel_target_logprobs(
+    local_logits: torch.Tensor,
+    labels: torch.Tensor,
+    log_z: torch.Tensor,
+    *,
+    row_offsets: torch.Tensor | None = None,
+) -> torch.Tensor:
+    target_logits = _vocab_parallel_target_logits(
+        local_logits,
+        labels,
+        row_offsets=row_offsets,
+    )
+    return _call_compiled(_finish_target_logprobs, target_logits, labels, log_z)
+
+
+def _vocab_parallel_target_logits(
+    local_logits: torch.Tensor,
+    labels: torch.Tensor,
+    *,
+    row_offsets: torch.Tensor | None = None,
+) -> torch.Tensor:
+    start, _ = _vocab_range(local_logits)
+    if row_offsets is None:
+        local_target_logits = _call_compiled(
+            _owned_target_logits,
+            local_logits,
+            labels,
+            start,
+        )
+    else:
+        local_target_logits = _call_compiled(
+            _owned_target_logits_for_rows,
+            local_logits,
+            labels,
+            start,
+            row_offsets,
+        )
+    return _all_reduce_tensor_parallel_sum(local_target_logits)
+
+
+def _owned_target_logits(
+    local_logits: torch.Tensor,
+    labels: torch.Tensor,
+    vocab_start: int,
+) -> torch.Tensor:
+    flat_labels = labels.reshape(int(labels.shape[0]), -1)
+    local_labels = flat_labels - vocab_start
+    owns_label = (
+        (flat_labels != -100)
+        & (local_labels >= 0)
+        & (local_labels < int(local_logits.shape[1]))
+    )
+    selected = local_logits.gather(
+        1,
+        local_labels.clamp(0, int(local_logits.shape[1]) - 1),
+    ).float()
+    return selected.masked_fill(~owns_label, 0.0).reshape(labels.shape)
+
+
+def _owned_target_logits_for_rows(
+    local_logits: torch.Tensor,
+    labels: torch.Tensor,
+    vocab_start: int,
+    row_offsets: torch.Tensor,
+) -> torch.Tensor:
+    flat_labels = labels.reshape(int(labels.shape[0]), -1)
+    local_labels = flat_labels - vocab_start
+    owns_label = (
+        (flat_labels != -100)
+        & (local_labels >= 0)
+        & (local_labels < int(local_logits.shape[1]))
+    )
+    rows = row_offsets.reshape(int(row_offsets.shape[0]), 1).expand_as(flat_labels)
+    selected = local_logits[
+        rows,
+        local_labels.clamp(0, int(local_logits.shape[1]) - 1),
+    ].float()
+    return selected.masked_fill(~owns_label, 0.0).reshape(labels.shape)
+
+
+def _finish_target_logprobs(
+    target_logits: torch.Tensor,
+    labels: torch.Tensor,
+    log_z: torch.Tensor,
+) -> torch.Tensor:
+    log_z = log_z.reshape(int(log_z.shape[0]), *((1,) * (int(labels.ndim) - 1)))
+    return (target_logits.float() - log_z).masked_fill(labels == -100, 0.0)
+
+
+def _valid_target_offsets(labels: torch.Tensor) -> torch.Tensor:
+    if int(labels.shape[0]) == 0:
+        return torch.empty(0, dtype=torch.long, device=labels.device)
+    valid = labels != -100
+    if labels.ndim > 1:
+        valid = valid.reshape(int(labels.shape[0]), -1).any(dim=1)
+    return torch.nonzero(valid, as_tuple=False).reshape(-1)
+
+
+def _can_use_fused_target_ce(
+    items: Sequence[_ForwardItem],
+    label_rows: Sequence[torch.Tensor | None],
+) -> bool:
+    return all(item.request.top_k is None for item in items) and all(
+        labels is None or labels.ndim == 1 for labels in label_rows
+    )
+
+
+def _can_use_reference_target_ce(
+    items: Sequence[_ForwardItem],
+    label_rows: Sequence[torch.Tensor | None],
+) -> bool:
+    return (
+        os.environ.get("ART_TRAINER_RANK_REFERENCE_TARGET_CE", "0").lower()
+        not in {"0", "false"}
+        and all(item.request.top_k is None and not item.request.logits for item in items)
+        and any(labels is not None and labels.ndim > 1 for labels in label_rows)
+    )
+
+
+def _reference_row_labels(
+    label_rows: Sequence[torch.Tensor | None],
+    row_matches: Sequence[_RowMatch],
+    *,
+    row_count: int,
+    device: torch.device,
+) -> torch.Tensor | None:
+    references = torch.full((row_count,), -100, dtype=torch.long, device=device)
+    for labels, match in zip(label_rows, row_matches, strict=True):
+        if labels is None or int(match.source_offsets.numel()) == 0:
+            continue
+        selected = labels.index_select(0, match.source_offsets).reshape(
+            int(match.source_offsets.numel()),
+            -1,
+        )
+        valid = selected != -100
+        has_label = valid.any(dim=1)
+        if not bool(has_label.any()):
+            continue
+        candidates = selected.gather(
+            1,
+            valid.to(torch.int64).argmax(dim=1, keepdim=True),
+        ).squeeze(1)
+        row_offsets = match.row_offsets.index_select(
+            0,
+            torch.nonzero(has_label, as_tuple=False).reshape(-1),
+        )
+        candidates = candidates.masked_select(has_label)
+        unset = references.index_select(0, row_offsets) == -100
+        if bool(unset.any()):
+            references[row_offsets.masked_select(unset)] = candidates.masked_select(unset)
+    if bool((references == -100).any()):
+        return None
+    return references
+
+
+def _consistent_row_labels(
+    label_rows: Sequence[torch.Tensor | None],
+    row_matches: Sequence[_RowMatch],
+    *,
+    row_count: int,
+    device: torch.device,
+) -> torch.Tensor | None:
+    labels = torch.full(
+        (row_count,),
+        -100,
+        dtype=torch.long,
+        device=device,
+    )
+    has_label = torch.zeros_like(labels, dtype=torch.bool)
+    for item_labels, match in zip(label_rows, row_matches, strict=True):
+        if item_labels is None:
+            continue
+        if int(match.source_offsets.numel()) == 0:
+            continue
+        selected_labels = item_labels.index_select(0, match.source_offsets)
+        keep = selected_labels != -100
+        if not bool(keep.any().item()):
+            continue
+        kept_row_offsets = match.row_offsets[keep]
+        kept_labels = selected_labels[keep]
+        existing = labels.index_select(0, kept_row_offsets)
+        seen = has_label.index_select(0, kept_row_offsets)
+        if bool(((existing != kept_labels) & seen).any().item()):
+            return None
+        labels.index_copy_(0, kept_row_offsets, kept_labels)
+        has_label.index_fill_(0, kept_row_offsets, True)
+    return labels
+
+
+def _scatter_row_target_logprobs(
+    row_target_logprobs: torch.Tensor,
+    row_matches: Sequence[_RowMatch],
+    label_rows: Sequence[torch.Tensor | None],
+    target_logprobs: list[torch.Tensor | None],
+) -> None:
+    for match, labels, item_logprobs in zip(
+        row_matches,
+        label_rows,
+        target_logprobs,
+        strict=True,
+    ):
+        if labels is None or item_logprobs is None:
+            continue
+        if int(match.source_offsets.numel()) == 0:
+            continue
+        item_logprobs[match.source_offsets] = row_target_logprobs.index_select(
+            0,
+            match.row_offsets,
+        )
+
+
+def _topk_from_full_logits(
+    logits: torch.Tensor,
+    *,
+    k: int,
+    log_z: torch.Tensor,
+) -> TopK:
+    if k > int(logits.shape[1]):
+        raise ValueError(f"top_k={k} exceeds vocabulary size {int(logits.shape[1])}")
+    values, tokens = torch.topk(logits.float(), k=k, dim=-1)
+    return TopK(logprobs=values - log_z.unsqueeze(1), tokens=tokens)
+
+
+def _vocab_parallel_topk(
+    local_logits: torch.Tensor,
+    *,
+    k: int,
+    log_z: torch.Tensor,
+) -> TopK:
+    start, _ = _vocab_range(local_logits)
+    local_k = min(k, int(local_logits.shape[1]))
+    local_values, local_tokens = torch.topk(local_logits.float(), k=local_k, dim=-1)
+    local_values = local_values - log_z.unsqueeze(1)
+    local_tokens = local_tokens + start
+
+    from megatron.core import parallel_state as ps
+
+    tp_size = int(ps.get_tensor_model_parallel_world_size())
+    if tp_size <= 1:
+        return TopK(logprobs=local_values, tokens=local_tokens)
+
+    from torch.distributed.nn.functional import all_gather
+
+    group = ps.get_tensor_model_parallel_group(check_initialized=False)
+    gathered_values = cast(tuple[torch.Tensor, ...], all_gather(local_values, group))
+    gathered_tokens = [torch.empty_like(local_tokens) for _ in range(tp_size)]
+    dist.all_gather(gathered_tokens, local_tokens, group=group)
+    values = torch.cat(gathered_values, dim=1)
+    tokens = torch.cat(gathered_tokens, dim=1)
+    if k > int(values.shape[1]):
+        raise ValueError(f"top_k={k} exceeds vocabulary size {int(values.shape[1])}")
+    top_values, top_offsets = torch.topk(values, k=k, dim=-1)
+    return TopK(logprobs=top_values, tokens=tokens.gather(1, top_offsets))
+
+
+def _try_triton_local_topk_stats(
+    local_logits: torch.Tensor,
+    *,
+    k: int,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor] | None:
+    if k <= 0:
+        return None
+    if k > _triton_fused_topk_max():
+        return None
+    if not local_logits.is_cuda:
+        return None
+    if _triton_topk_disabled():
+        return None
+    if int(local_logits.shape[0]) < _triton_min_rows():
+        return None
+    try:
+        from art.megatron.trainer_rank_topk import local_topk_stats
+
+        stats = local_topk_stats(
+            local_logits,
+            k=min(k, int(local_logits.shape[1])),
+        )
+    except Exception:
+        if _triton_topk_strict():
+            raise
+        return None
+    return stats.local_max, stats.local_sum, stats.values, stats.tokens
+
+
+def _try_triton_local_logsumexp_stats(
+    local_logits: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor] | None:
+    if not local_logits.is_cuda:
+        return None
+    if _triton_topk_disabled():
+        return None
+    if int(local_logits.shape[0]) < _triton_min_rows():
+        return None
+    try:
+        from art.megatron.trainer_rank_topk import local_logsumexp_stats
+
+        stats = local_logsumexp_stats(local_logits)
+    except Exception:
+        if _triton_topk_strict():
+            raise
+        return None
+    return stats.local_max, stats.local_sum
+
+
+def _triton_topk_disabled() -> bool:
+    return os.environ.get("ART_TRAINER_RANK_TRITON_TOPK", "1").lower() in {
+        "0",
+        "false",
+    }
+
+
+def _triton_topk_strict() -> bool:
+    return os.environ.get("ART_TRAINER_RANK_TRITON_TOPK", "1").lower() == "strict"
+
+
+def _triton_fused_topk_max() -> int:
+    # H200 measurements: fused top-k wins through k=10; above that the
+    # logsumexp-only Triton path plus torch.topk scales better.
+    return int(os.environ.get("ART_TRAINER_RANK_TRITON_FUSED_TOPK_MAX", "10"))
+
+
+def _triton_min_rows() -> int:
+    # Below this, Triton launch overhead usually costs more than the memory saved.
+    return int(os.environ.get("ART_TRAINER_RANK_TRITON_MIN_ROWS", "64"))
+
+
+def _vocab_parallel_topk_from_local(
+    local_values: torch.Tensor,
+    local_tokens: torch.Tensor,
+    *,
+    k: int,
+    log_z: torch.Tensor,
+    vocab_start: int,
+) -> TopK:
+    local_k = min(k, int(local_values.shape[1]))
+    local_values = local_values[:, :local_k] - log_z.unsqueeze(1)
+    local_tokens = local_tokens[:, :local_k] + vocab_start
+
+    from megatron.core import parallel_state as ps
+
+    tp_size = int(ps.get_tensor_model_parallel_world_size())
+    if tp_size <= 1:
+        if k > int(local_values.shape[1]):
+            raise ValueError(
+                f"top_k={k} exceeds vocabulary size {int(local_values.shape[1])}"
+            )
+        return TopK(logprobs=local_values, tokens=local_tokens)
+
+    from torch.distributed.nn.functional import all_gather
+
+    group = ps.get_tensor_model_parallel_group(check_initialized=False)
+    gathered_values = cast(tuple[torch.Tensor, ...], all_gather(local_values, group))
+    gathered_tokens = [torch.empty_like(local_tokens) for _ in range(tp_size)]
+    dist.all_gather(gathered_tokens, local_tokens, group=group)
+    values = torch.cat(gathered_values, dim=1)
+    tokens = torch.cat(gathered_tokens, dim=1)
+    if k > int(values.shape[1]):
+        raise ValueError(f"top_k={k} exceeds vocabulary size {int(values.shape[1])}")
+    top_values, top_offsets = torch.topk(values, k=k, dim=-1)
+    return TopK(logprobs=top_values, tokens=tokens.gather(1, top_offsets))
+
+
+def _merge_topk(
+    current: TopK | None,
+    offsets: torch.Tensor,
+    values: TopK,
+    *,
+    length: int,
+) -> TopK:
+    if current is None:
+        current = TopK(
+            logprobs=torch.empty(
+                (length, int(values.logprobs.shape[1])),
+                device=values.logprobs.device,
+                dtype=values.logprobs.dtype,
+            ),
+            tokens=torch.empty(
+                (length, int(values.tokens.shape[1])),
+                device=values.tokens.device,
+                dtype=values.tokens.dtype,
+            ),
+        )
+    current.logprobs[offsets] = values.logprobs
+    current.tokens[offsets] = values.tokens
+    return current
+
+
+def _vocab_parallel_log_z(local_logits: torch.Tensor) -> torch.Tensor:
+    local_logits = local_logits.float()
+    local_max = local_logits.max(dim=-1).values.detach()
+    global_max = _all_reduce_tensor_parallel_max(local_max)
+    local_sum = _call_compiled(_local_vocab_exp_sum, local_logits, global_max)
+    global_sum = _all_reduce_tensor_parallel_sum(local_sum)
+    return global_max + torch.log(global_sum)
+
+
+def _local_vocab_exp_sum(
+    local_logits: torch.Tensor,
+    global_max: torch.Tensor,
+) -> torch.Tensor:
+    return torch.exp(local_logits.float() - global_max.unsqueeze(1)).sum(dim=-1)
+
+
+def _vocab_range(local_logits: torch.Tensor) -> tuple[int, int]:
+    from megatron.core import parallel_state as ps
+
+    local_size = int(local_logits.shape[1])
+    rank = int(ps.get_tensor_model_parallel_rank())
+    start = rank * local_size
+    return start, start + local_size
+
+
+def _all_reduce_tensor_parallel_sum(tensor: torch.Tensor) -> torch.Tensor:
+    from megatron.core import parallel_state as ps
+
+    if int(ps.get_tensor_model_parallel_world_size()) <= 1:
+        return tensor
+    from torch.distributed.nn.functional import all_reduce
+
+    return cast(
+        torch.Tensor,
+        all_reduce(
+            tensor,
+            op=dist.ReduceOp.SUM,
+            group=ps.get_tensor_model_parallel_group(check_initialized=False),
+        ),
+    )
+
+
+def _all_reduce_tensor_parallel_max(tensor: torch.Tensor) -> torch.Tensor:
+    from megatron.core import parallel_state as ps
+
+    if int(ps.get_tensor_model_parallel_world_size()) <= 1:
+        return tensor
+    output = tensor.clone()
+    dist.all_reduce(
+        output,
+        op=dist.ReduceOp.MAX,
+        group=ps.get_tensor_model_parallel_group(check_initialized=False),
+    )
+    return output
+
+
+def _call_compiled(fn: Callable[P, R], *args: P.args, **kwargs: P.kwargs) -> R:
+    if os.environ.get("ART_TRAINER_RANK_COMPILE", "0").lower() in {"0", "false"}:
+        return fn(*args, **kwargs)
+    compiled = _COMPILED_FUNCTIONS.get(fn)
+    if compiled is None:
+        compiled = cast(Callable[..., object], torch.compile(fn, dynamic=True))
+        _COMPILED_FUNCTIONS[fn] = compiled
+    try:
+        return cast(Callable[P, R], compiled)(*args, **kwargs)
+    except Exception:
+        return fn(*args, **kwargs)
+
+
+def _matching_offsets(
+    positions: torch.Tensor,
+    chunk_rows: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    if int(positions.numel()) == 0 or int(chunk_rows.numel()) == 0:
+        empty = torch.empty(0, dtype=torch.long, device=positions.device)
+        return empty, empty
+    sorted_rows, order = chunk_rows.sort()
+    indices = torch.searchsorted(sorted_rows, positions)
+    in_bounds = indices < int(sorted_rows.numel())
+    source_offsets = torch.arange(
+        int(positions.numel()),
+        device=positions.device,
+        dtype=torch.long,
+    )[in_bounds]
+    found = indices[in_bounds]
+    keep = sorted_rows.index_select(0, found) == positions.index_select(
+        0,
+        source_offsets,
+    )
+    return source_offsets[keep], order.index_select(0, found[keep])
+
+
+def _row_matches_by_item(
+    positions_by_item: Sequence[torch.Tensor],
+    rows: torch.Tensor,
+    *,
+    device: torch.device,
+) -> tuple[_RowMatch, ...]:
+    return tuple(
+        _row_match(positions.to(device=device), rows) for positions in positions_by_item
+    )
+
+
+def _row_match(positions: torch.Tensor, rows: torch.Tensor) -> _RowMatch:
+    source_offsets, row_offsets = _matching_offsets(positions, rows)
+    if int(row_offsets.numel()) > 1:
+        order = row_offsets.argsort()
+        source_offsets = source_offsets.index_select(0, order)
+        row_offsets = row_offsets.index_select(0, order)
+    return _RowMatch(source_offsets=source_offsets, row_offsets=row_offsets)
+
+
+def _match_chunk_offsets(
+    match: _RowMatch,
+    *,
+    start: int,
+    end: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    keep = (match.row_offsets >= start) & (match.row_offsets < end)
+    source_offsets = match.source_offsets[keep]
+    return source_offsets, match.row_offsets[keep] - start
+
+
+def _local_position_pairs(
+    local_global_positions: torch.Tensor,
+    item_positions: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    flat = local_global_positions.reshape(-1).to(device=item_positions.device)
+    local_positions = torch.nonzero(flat >= 0, as_tuple=False).reshape(-1)
+    global_positions = flat.index_select(0, local_positions)
+    sort_order = global_positions.argsort()
+    sorted_global_positions = global_positions.index_select(0, sort_order)
+    sorted_local_positions = local_positions.index_select(0, sort_order)
+
+    indices = torch.searchsorted(sorted_global_positions, item_positions)
+    in_bounds = indices < int(sorted_global_positions.numel())
+    source_offsets = torch.arange(
+        int(item_positions.numel()),
+        device=item_positions.device,
+        dtype=torch.long,
+    )[in_bounds]
+    found = indices[in_bounds]
+    keep = sorted_global_positions.index_select(
+        0, found
+    ) == item_positions.index_select(
+        0,
+        source_offsets,
+    )
+    return (
+        sorted_local_positions.index_select(0, found[keep]).to("cpu"),
+        source_offsets[keep].to("cpu"),
+    )
+
+
+def _select_positions(values: torch.Tensor, positions: torch.Tensor) -> torch.Tensor:
+    if int(positions.numel()) == 0:
+        return values[:0]
+    return values.index_select(0, positions.to(device=values.device))
+
+
+def _gather_target_logprobs(
+    logprobs: torch.Tensor,
+    labels: torch.Tensor,
+) -> torch.Tensor:
+    if int(labels.shape[0]) == 0:
+        return torch.empty(labels.shape, device=logprobs.device, dtype=logprobs.dtype)
+    flat_labels = labels.clamp_min(0).reshape(int(labels.shape[0]), -1)
+    selected = logprobs.gather(1, flat_labels).reshape(labels.shape)
+    return selected.masked_fill(labels == -100, 0.0)
+
+
+def _batch_seq_logits(logits: torch.Tensor, *, seq_len: int) -> torch.Tensor:
+    if int(logits.ndim) != 3:
+        raise RuntimeError(
+            f"expected logits with shape [B, S, V] or [S, B, V], got {tuple(logits.shape)}"
+        )
+    if int(logits.shape[0]) == 1 and int(logits.shape[1]) == seq_len:
+        return logits
+    if int(logits.shape[0]) == seq_len and int(logits.shape[1]) == 1:
+        return logits.transpose(0, 1).contiguous()
+    raise RuntimeError(
+        f"logits do not match sequence length {seq_len}: {tuple(logits.shape)}"
+    )
+
+
+def _materialize(inputs: ForwardInputs) -> ForwardInputs:
+    if isinstance(inputs, ForwardInput):
+        return inputs
+    return [_materialize(item) for item in inputs]
+
+
+def _flatten(inputs: ForwardInputs) -> Iterator[AnyForwardInput]:
+    if isinstance(inputs, ForwardInput):
+        yield inputs
+        return
+    for item in inputs:
+        yield from _flatten(item)
+
+
+def _unflatten(
+    template: ForwardInputs, outputs: Iterator[AnyForwardOutput]
+) -> ForwardOutputs:
+    if isinstance(template, ForwardInput):
+        return next(outputs)
+    return [_unflatten(item, outputs) for item in template]
+
+
+__all__ = [
+    "AdamParams",
+    "ForwardInput",
+    "ForwardOutput",
+    "MicroBatch",
+    "TopK",
+    "TrainerRank",
+]
diff --git a/src/art/megatron/trainer_rank_topk.py b/src/art/megatron/trainer_rank_topk.py
new file mode 100644
index 000000000..ededba63a
--- /dev/null
+++ b/src/art/megatron/trainer_rank_topk.py
@@ -0,0 +1,449 @@
+from __future__ import annotations
+
+from dataclasses import dataclass
+
+import torch
+import triton
+import triton.language as tl
+
+
+@dataclass(frozen=True)
+class LocalTopKStats:
+    local_max: torch.Tensor
+    local_sum: torch.Tensor
+    values: torch.Tensor
+    tokens: torch.Tensor
+
+
+@dataclass(frozen=True)
+class LocalLogSumExpStats:
+    local_max: torch.Tensor
+    local_sum: torch.Tensor
+
+
+@triton.jit
+def _topk_stage1_kernel(
+    logits_ptr,
+    partial_max_ptr,
+    partial_sum_ptr,
+    partial_values_ptr,
+    partial_tokens_ptr,
+    stride_row: tl.constexpr,
+    vocab_size: tl.constexpr,
+    n_blocks: tl.constexpr,
+    k: tl.constexpr,
+    block_v: tl.constexpr,
+):
+    row = tl.program_id(0)
+    block = tl.program_id(1)
+    offsets = block * block_v + tl.arange(0, block_v)
+    mask = offsets < vocab_size
+    values = tl.load(
+        logits_ptr + row * stride_row + offsets,
+        mask=mask,
+        other=-float("inf"),
+    ).to(tl.float32)
+
+    block_max = tl.max(values, axis=0)
+    block_sum = tl.sum(tl.exp(values - block_max), axis=0)
+    partial_offset = row * n_blocks + block
+    tl.store(partial_max_ptr + partial_offset, block_max)
+    tl.store(partial_sum_ptr + partial_offset, block_sum)
+
+    work = values
+    arange = tl.arange(0, block_v)
+    for slot in tl.static_range(0, k):
+        top_value, top_index = tl.max(
+            work,
+            axis=0,
+            return_indices=True,
+            return_indices_tie_break_left=True,
+        )
+        output_offset = (partial_offset * k) + slot
+        tl.store(partial_values_ptr + output_offset, top_value)
+        tl.store(
+            partial_tokens_ptr + output_offset,
+            (block * block_v + top_index).to(tl.int64),
+        )
+        work = tl.where(arange == top_index, -float("inf"), work)
+
+
+@triton.jit
+def _topk_stage2_kernel(
+    partial_max_ptr,
+    partial_sum_ptr,
+    partial_values_ptr,
+    partial_tokens_ptr,
+    local_max_ptr,
+    local_sum_ptr,
+    values_ptr,
+    tokens_ptr,
+    n_blocks: tl.constexpr,
+    k: tl.constexpr,
+    block_b: tl.constexpr,
+    block_candidates: tl.constexpr,
+):
+    row = tl.program_id(0)
+
+    block_offsets = tl.arange(0, block_b)
+    block_mask = block_offsets < n_blocks
+    partial_base = row * n_blocks
+    block_max = tl.load(
+        partial_max_ptr + partial_base + block_offsets,
+        mask=block_mask,
+        other=-float("inf"),
+    )
+    row_max = tl.max(block_max, axis=0)
+    block_sum = tl.load(
+        partial_sum_ptr + partial_base + block_offsets,
+        mask=block_mask,
+        other=0.0,
+    )
+    row_sum = tl.sum(block_sum * tl.exp(block_max - row_max), axis=0)
+    tl.store(local_max_ptr + row, row_max)
+    tl.store(local_sum_ptr + row, row_sum)
+
+    candidate_offsets = tl.arange(0, block_candidates)
+    candidate_mask = candidate_offsets < n_blocks * k
+    candidate_base = row * n_blocks * k
+    candidates = tl.load(
+        partial_values_ptr + candidate_base + candidate_offsets,
+        mask=candidate_mask,
+        other=-float("inf"),
+    )
+    work = candidates
+    for slot in tl.static_range(0, k):
+        top_value, top_index = tl.max(
+            work,
+            axis=0,
+            return_indices=True,
+            return_indices_tie_break_left=True,
+        )
+        output_offset = row * k + slot
+        tl.store(values_ptr + output_offset, top_value)
+        tl.store(
+            tokens_ptr + output_offset,
+            tl.load(partial_tokens_ptr + candidate_base + top_index),
+        )
+        work = tl.where(candidate_offsets == top_index, -float("inf"), work)
+
+
+@triton.jit
+def _logsumexp_stage1_kernel(
+    logits_ptr,
+    partial_max_ptr,
+    partial_sum_ptr,
+    stride_row: tl.constexpr,
+    vocab_size: tl.constexpr,
+    n_blocks: tl.constexpr,
+    block_v: tl.constexpr,
+):
+    row = tl.program_id(0)
+    block = tl.program_id(1)
+    offsets = block * block_v + tl.arange(0, block_v)
+    mask = offsets < vocab_size
+    values = tl.load(
+        logits_ptr + row * stride_row + offsets,
+        mask=mask,
+        other=-float("inf"),
+    ).to(tl.float32)
+
+    block_max = tl.max(values, axis=0)
+    partial_offset = row * n_blocks + block
+    tl.store(partial_max_ptr + partial_offset, block_max)
+    tl.store(partial_sum_ptr + partial_offset, tl.sum(tl.exp(values - block_max), axis=0))
+
+
+@triton.jit
+def _logsumexp_stage2_kernel(
+    partial_max_ptr,
+    partial_sum_ptr,
+    local_max_ptr,
+    local_sum_ptr,
+    n_blocks: tl.constexpr,
+    block_b: tl.constexpr,
+):
+    row = tl.program_id(0)
+    block_offsets = tl.arange(0, block_b)
+    block_mask = block_offsets < n_blocks
+    partial_base = row * n_blocks
+    block_max = tl.load(
+        partial_max_ptr + partial_base + block_offsets,
+        mask=block_mask,
+        other=-float("inf"),
+    )
+    row_max = tl.max(block_max, axis=0)
+    block_sum = tl.load(
+        partial_sum_ptr + partial_base + block_offsets,
+        mask=block_mask,
+        other=0.0,
+    )
+    tl.store(local_max_ptr + row, row_max)
+    tl.store(local_sum_ptr + row, tl.sum(block_sum * tl.exp(block_max - row_max), axis=0))
+
+
+@triton.jit
+def _topk_backward_kernel(
+    logits_ptr,
+    local_max_ptr,
+    tokens_ptr,
+    grad_sum_ptr,
+    grad_values_ptr,
+    grad_logits_ptr,
+    stride_row: tl.constexpr,
+    vocab_size: tl.constexpr,
+    k: tl.constexpr,
+    block_v: tl.constexpr,
+):
+    row = tl.program_id(0)
+    block = tl.program_id(1)
+    offsets = block * block_v + tl.arange(0, block_v)
+    mask = offsets < vocab_size
+
+    logits = tl.load(
+        logits_ptr + row * stride_row + offsets,
+        mask=mask,
+        other=-float("inf"),
+    ).to(tl.float32)
+    local_max = tl.load(local_max_ptr + row)
+    grad = tl.load(grad_sum_ptr + row).to(tl.float32) * tl.exp(logits - local_max)
+
+    for slot in tl.static_range(0, k):
+        token = tl.load(tokens_ptr + row * k + slot)
+        value_grad = tl.load(grad_values_ptr + row * k + slot).to(tl.float32)
+        grad += tl.where(offsets == token, value_grad, 0.0)
+
+    tl.store(grad_logits_ptr + row * stride_row + offsets, grad, mask=mask)
+
+
+@triton.jit
+def _logsumexp_backward_kernel(
+    logits_ptr,
+    local_max_ptr,
+    grad_sum_ptr,
+    grad_logits_ptr,
+    stride_row: tl.constexpr,
+    vocab_size: tl.constexpr,
+    block_v: tl.constexpr,
+):
+    row = tl.program_id(0)
+    block = tl.program_id(1)
+    offsets = block * block_v + tl.arange(0, block_v)
+    mask = offsets < vocab_size
+    logits = tl.load(
+        logits_ptr + row * stride_row + offsets,
+        mask=mask,
+        other=-float("inf"),
+    ).to(tl.float32)
+    local_max = tl.load(local_max_ptr + row)
+    grad = tl.load(grad_sum_ptr + row).to(tl.float32) * tl.exp(logits - local_max)
+    tl.store(grad_logits_ptr + row * stride_row + offsets, grad, mask=mask)
+
+
+class _LocalTopKStatsFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, local_logits: torch.Tensor, k: int):
+        stats = _local_topk_stats_forward(local_logits, k=k)
+        ctx.save_for_backward(local_logits, stats.local_max, stats.tokens)
+        ctx.k = k
+        return stats.local_max, stats.local_sum, stats.values, stats.tokens
+
+    @staticmethod
+    def backward(ctx, grad_local_max, grad_local_sum, grad_values, grad_tokens):
+        del grad_local_max, grad_tokens
+        logits, local_max, tokens = ctx.saved_tensors
+        k = int(ctx.k)
+        rows = int(logits.shape[0])
+        vocab_size = int(logits.shape[1])
+        block_v = 4096
+        n_blocks = triton.cdiv(vocab_size, block_v)
+
+        if grad_local_sum is None:
+            grad_local_sum = torch.zeros_like(local_max)
+        if grad_values is None:
+            grad_values = torch.zeros(
+                (rows, k),
+                device=logits.device,
+                dtype=torch.float32,
+            )
+
+        grad_logits = torch.empty_like(logits)
+        _topk_backward_kernel[(rows, n_blocks)](
+            logits,
+            local_max,
+            tokens,
+            grad_local_sum.contiguous(),
+            grad_values.contiguous(),
+            grad_logits,
+            logits.stride(0),
+            vocab_size,
+            k,
+            block_v,
+            num_warps=8,
+        )
+        return grad_logits, None
+
+
+class _LocalLogSumExpStatsFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, local_logits: torch.Tensor):
+        stats = _local_logsumexp_stats_forward(local_logits)
+        ctx.save_for_backward(local_logits, stats.local_max)
+        return stats.local_max, stats.local_sum
+
+    @staticmethod
+    def backward(ctx, grad_local_max, grad_local_sum):
+        del grad_local_max
+        logits, local_max = ctx.saved_tensors
+        rows = int(logits.shape[0])
+        vocab_size = int(logits.shape[1])
+        block_v = 4096
+        n_blocks = triton.cdiv(vocab_size, block_v)
+
+        if grad_local_sum is None:
+            grad_local_sum = torch.zeros_like(local_max)
+
+        grad_logits = torch.empty_like(logits)
+        _logsumexp_backward_kernel[(rows, n_blocks)](
+            logits,
+            local_max,
+            grad_local_sum.contiguous(),
+            grad_logits,
+            logits.stride(0),
+            vocab_size,
+            block_v,
+            num_warps=8,
+        )
+        return grad_logits
+
+
+def _check_local_logits(local_logits: torch.Tensor) -> torch.Tensor:
+    if local_logits.ndim != 2:
+        raise ValueError(f"expected [rows, vocab] logits, got {tuple(local_logits.shape)}")
+    if not local_logits.is_cuda:
+        raise ValueError("local top-k helpers require CUDA logits")
+    return local_logits.contiguous()
+
+
+def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTopKStats:
+    logits = _check_local_logits(local_logits)
+    if k < 1 or k > int(local_logits.shape[1]):
+        raise ValueError(f"k={k} is outside local vocab size {int(local_logits.shape[1])}")
+
+    rows = int(logits.shape[0])
+    vocab_size = int(logits.shape[1])
+    block_v = 4096
+    n_blocks = triton.cdiv(vocab_size, block_v)
+    block_b = triton.next_power_of_2(n_blocks)
+    block_candidates = triton.next_power_of_2(n_blocks * k)
+
+    partial_shape = (rows, n_blocks)
+    partial_topk_shape = (rows, n_blocks, k)
+    partial_max = torch.empty(partial_shape, device=logits.device, dtype=torch.float32)
+    partial_sum = torch.empty_like(partial_max)
+    partial_values = torch.empty(
+        partial_topk_shape,
+        device=logits.device,
+        dtype=torch.float32,
+    )
+    partial_tokens = torch.empty(
+        partial_topk_shape,
+        device=logits.device,
+        dtype=torch.long,
+    )
+    local_max = torch.empty((rows,), device=logits.device, dtype=torch.float32)
+    local_sum = torch.empty_like(local_max)
+    values = torch.empty((rows, k), device=logits.device, dtype=torch.float32)
+    tokens = torch.empty((rows, k), device=logits.device, dtype=torch.long)
+
+    _topk_stage1_kernel[(rows, n_blocks)](
+        logits,
+        partial_max,
+        partial_sum,
+        partial_values,
+        partial_tokens,
+        logits.stride(0),
+        vocab_size,
+        n_blocks,
+        k,
+        block_v,
+        num_warps=8,
+    )
+    _topk_stage2_kernel[(rows,)](
+        partial_max,
+        partial_sum,
+        partial_values,
+        partial_tokens,
+        local_max,
+        local_sum,
+        values,
+        tokens,
+        n_blocks,
+        k,
+        block_b,
+        block_candidates,
+        num_warps=8,
+    )
+    return LocalTopKStats(
+        local_max=local_max,
+        local_sum=local_sum,
+        values=values,
+        tokens=tokens,
+    )
+
+
+def _local_logsumexp_stats_forward(local_logits: torch.Tensor) -> LocalLogSumExpStats:
+    logits = _check_local_logits(local_logits)
+    rows = int(logits.shape[0])
+    vocab_size = int(logits.shape[1])
+    block_v = 4096
+    n_blocks = triton.cdiv(vocab_size, block_v)
+    block_b = triton.next_power_of_2(n_blocks)
+
+    partial_shape = (rows, n_blocks)
+    partial_max = torch.empty(partial_shape, device=logits.device, dtype=torch.float32)
+    partial_sum = torch.empty_like(partial_max)
+    local_max = torch.empty((rows,), device=logits.device, dtype=torch.float32)
+    local_sum = torch.empty_like(local_max)
+
+    _logsumexp_stage1_kernel[(rows, n_blocks)](
+        logits,
+        partial_max,
+        partial_sum,
+        logits.stride(0),
+        vocab_size,
+        n_blocks,
+        block_v,
+        num_warps=8,
+    )
+    _logsumexp_stage2_kernel[(rows,)](
+        partial_max,
+        partial_sum,
+        local_max,
+        local_sum,
+        n_blocks,
+        block_b,
+        num_warps=8,
+    )
+    return LocalLogSumExpStats(local_max=local_max, local_sum=local_sum)
+
+
+def local_topk_stats(local_logits: torch.Tensor, *, k: int) -> LocalTopKStats:
+    logits = local_logits.contiguous()
+    if not logits.requires_grad:
+        return _local_topk_stats_forward(logits, k=k)
+    local_max, local_sum, values, tokens = _LocalTopKStatsFunction.apply(logits, k)
+    return LocalTopKStats(
+        local_max=local_max,
+        local_sum=local_sum,
+        values=values,
+        tokens=tokens,
+    )
+
+
+def local_logsumexp_stats(local_logits: torch.Tensor) -> LocalLogSumExpStats:
+    logits = local_logits.contiguous()
+    if not logits.requires_grad:
+        return _local_logsumexp_stats_forward(logits)
+    local_max, local_sum = _LocalLogSumExpStatsFunction.apply(logits)
+    return LocalLogSumExpStats(local_max=local_max, local_sum=local_sum)
diff --git a/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py b/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
index 3d3d51d4c..915cc8083 100644
--- a/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
+++ b/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
@@ -82,40 +82,21 @@ def test_shared_prefix_attention_matches_flattened_grad_accumulation() -> None:
 
     ref_out = torch.zeros_like(packed_out)
     ref_loss = q_ref.new_zeros(())
-    for family in spec.families:
-        prefix = family.prefix
-        prefix_grad_used = False
-        for completion in family.completions:
-            indices = torch.tensor(
-                [
-                    *range(prefix.start, prefix.end),
-                    *range(completion.start, completion.end),
-                ],
-                device=q.device,
-                dtype=torch.long,
-            )
-            row = family.row_index
-            q_slice = q_ref[row : row + 1].index_select(2, indices)
-            k_slice = k_ref[row : row + 1].index_select(2, indices)
-            v_slice = v_ref[row : row + 1].index_select(2, indices)
-            flat_out = _dense_causal_attention(q_slice, k_slice, v_slice)
-
-            ref_out[row, :, completion.start : completion.end] = flat_out[
-                0, :, prefix.length :
-            ]
-            flat_grad = torch.zeros_like(flat_out)
-            flat_grad[0, :, prefix.length :] = output_grad[
-                row, :, completion.start : completion.end
-            ]
-            if not prefix_grad_used:
-                ref_out[row, :, prefix.start : prefix.end] = flat_out[
-                    0, :, : prefix.length
-                ]
-                flat_grad[0, :, : prefix.length] = output_grad[
-                    row, :, prefix.start : prefix.end
-                ]
-                prefix_grad_used = True
-            ref_loss = ref_loss + (flat_out * flat_grad).sum()
+    for segment_index, segment in enumerate(spec.tree_segments):
+        indices, output_slice = _segment_context_positions(spec, segment_index)
+        index_tensor = torch.tensor(indices, device=q.device, dtype=torch.long)
+        row = segment.row_index
+        q_slice = q_ref[row : row + 1].index_select(2, index_tensor)
+        k_slice = k_ref[row : row + 1].index_select(2, index_tensor)
+        v_slice = v_ref[row : row + 1].index_select(2, index_tensor)
+        flat_out = _dense_causal_attention(q_slice, k_slice, v_slice)
+
+        ref_out[row, :, segment.start : segment.end] = flat_out[0, :, output_slice]
+        flat_grad = torch.zeros_like(flat_out)
+        flat_grad[0, :, output_slice] = output_grad[
+            row, :, segment.start : segment.end
+        ]
+        ref_loss = ref_loss + (flat_out * flat_grad).sum()
     ref_loss.backward()
 
     real_mask = _real_token_mask(spec, q.shape, device=q.device)
@@ -225,11 +206,23 @@ def _completion_token_mask(
     spec: Any, shape: torch.Size, *, device: torch.device
 ) -> torch.Tensor:
     mask = torch.zeros(shape, device=device, dtype=torch.bool)
-    for family in spec.families:
-        for completion in family.completions:
-            mask[
-                family.row_index,
-                :,
-                completion.start : completion.end,
-            ] = True
+    for index, segment in enumerate(spec.tree_segments):
+        if spec.tree_parent_indices[index] >= 0:
+            mask[segment.row_index, :, segment.start : segment.end] = True
     return mask
+
+
+def _segment_context_positions(spec: Any, segment_index: int) -> tuple[list[int], slice]:
+    path = []
+    cursor = segment_index
+    while cursor >= 0:
+        path.append(cursor)
+        cursor = spec.tree_parent_indices[cursor]
+    path.reverse()
+    positions = [
+        position
+        for index in path
+        for position in range(spec.tree_segments[index].start, spec.tree_segments[index].end)
+    ]
+    segment_length = spec.tree_segments[segment_index].length
+    return positions, slice(len(positions) - segment_length, len(positions))
diff --git a/tests/integration/megatron/gdn_shared_prefix/oracles.py b/tests/integration/megatron/gdn_shared_prefix/oracles.py
index 3d3f9ae12..6758f7c43 100644
--- a/tests/integration/megatron/gdn_shared_prefix/oracles.py
+++ b/tests/integration/megatron/gdn_shared_prefix/oracles.py
@@ -111,23 +111,25 @@ def run_toy_packed(
         group_ids, parent_ids, min_completions_per_family=1
     )
     output = torch.zeros_like(hidden)
-    for family in spec.families:
-        row = family.row_index
-        prefix_hidden = hidden[row, family.prefix.start : family.prefix.end]
-        prefix_out, prefix_conv, prefix_rec = module.forward_segment(
-            prefix_hidden,
-            conv_initial=module.zero_conv_state(hidden),
-            recurrent_initial=module.zero_recurrent_state(hidden),
+    conv_states: list[Tensor] = []
+    rec_states: list[Tensor] = []
+    for segment_index, segment in enumerate(spec.tree_segments):
+        row = segment.row_index
+        parent_index = spec.tree_parent_indices[segment_index]
+        if parent_index < 0:
+            conv_initial = module.zero_conv_state(hidden)
+            rec_initial = module.zero_recurrent_state(hidden)
+        else:
+            conv_initial = conv_states[parent_index]
+            rec_initial = rec_states[parent_index]
+        segment_out, conv_final, rec_final = module.forward_segment(
+            hidden[row, segment.start : segment.end],
+            conv_initial=conv_initial,
+            recurrent_initial=rec_initial,
         )
-        output[row, family.prefix.start : family.prefix.end] = prefix_out
-        for completion in family.completions:
-            suffix_hidden = hidden[row, completion.start : completion.end]
-            suffix_out, _, _ = module.forward_segment(
-                suffix_hidden,
-                conv_initial=prefix_conv,
-                recurrent_initial=prefix_rec,
-            )
-            output[row, completion.start : completion.end] = suffix_out
+        output[row, segment.start : segment.end] = segment_out
+        conv_states.append(conv_final)
+        rec_states.append(rec_final)
     return output
 
 
@@ -142,26 +144,34 @@ def run_toy_flattened_reference(
         group_ids, parent_ids, min_completions_per_family=1
     )
     output = torch.zeros_like(hidden)
-    for family in spec.families:
-        row = family.row_index
-        prefix_hidden = hidden[row, family.prefix.start : family.prefix.end]
-        prefix_len = family.prefix.length
-        for child_index, completion in enumerate(family.completions):
-            suffix_hidden = hidden[row, completion.start : completion.end]
-            flattened = torch.cat([prefix_hidden, suffix_hidden], dim=0)
-            flat_out, _, _ = module.forward_segment(
-                flattened,
-                conv_initial=module.zero_conv_state(hidden),
-                recurrent_initial=module.zero_recurrent_state(hidden),
-            )
-            if child_index == 0:
-                output[row, family.prefix.start : family.prefix.end] = flat_out[
-                    :prefix_len
-                ]
-            output[row, completion.start : completion.end] = flat_out[prefix_len:]
+    for segment_index, segment in enumerate(spec.tree_segments):
+        path = _segment_path(spec, segment_index)
+        flattened = torch.cat(
+            [
+                hidden[node.row_index, node.start : node.end]
+                for node in path
+            ],
+            dim=0,
+        )
+        flat_out, _, _ = module.forward_segment(
+            flattened,
+            conv_initial=module.zero_conv_state(hidden),
+            recurrent_initial=module.zero_recurrent_state(hidden),
+        )
+        segment_len = segment.length
+        output[segment.row_index, segment.start : segment.end] = flat_out[-segment_len:]
     return output
 
 
+def _segment_path(spec: object, segment_index: int) -> tuple[object, ...]:
+    indices = []
+    cursor = segment_index
+    while cursor >= 0:
+        indices.append(cursor)
+        cursor = spec.tree_parent_indices[cursor]
+    return tuple(spec.tree_segments[index] for index in reversed(indices))
+
+
 def run_toy_physical_stream(
     module: ToyStatefulGdn,
     hidden: Tensor,
diff --git a/tests/integration/megatron/gdn_shared_prefix/packed_layout.py b/tests/integration/megatron/gdn_shared_prefix/packed_layout.py
index 45a41ff58..a56b801b3 100644
--- a/tests/integration/megatron/gdn_shared_prefix/packed_layout.py
+++ b/tests/integration/megatron/gdn_shared_prefix/packed_layout.py
@@ -141,7 +141,9 @@ def summarize_case(
         tensors["group_ids"], tensors["parent_ids"], min_completions_per_family=1
     )
     suffix_lengths = [
-        segment.length for family in spec.families for segment in family.completions
+        segment.length
+        for index, segment in enumerate(spec.tree_segments)
+        if spec.tree_parent_indices[index] >= 0
     ]
     boundary = _boundary_flags(spec, cp_sizes)
     return GdnCaseSummary(
@@ -227,19 +229,49 @@ def _boundary_flags(
         boundaries = {shard * rank for rank in range(1, cp_size)}
         if shard * (cp_size - 1) >= spec.real_token_count:
             flags["empty_trailing_rank"] = True
-        for family in spec.families:
-            family_start = _segment_real_start(family.prefix, spec, real_index)
-            family_end = _segment_real_end(family.completions[-1], spec, real_index)
+        for root in _root_segments(spec):
+            descendants = _descendant_segments(spec, root.family_index)
+            family_segments = (root, *descendants)
+            family_start = min(
+                _segment_real_start(segment, spec, real_index)
+                for segment in family_segments
+            )
+            family_end = max(
+                _segment_real_end(segment, spec, real_index)
+                for segment in family_segments
+            )
             if family_start in boundaries or family_end in boundaries:
                 flags["family_boundary_at_partition"] = True
-            if _crosses_boundary(family.prefix, spec, real_index, boundaries):
+            if _crosses_boundary(root, spec, real_index, boundaries):
                 flags["cp_boundary_prefix"] = True
-            for completion in family.completions:
+            for completion in descendants:
                 if _crosses_boundary(completion, spec, real_index, boundaries):
                     flags["cp_boundary_suffix"] = True
     return flags
 
 
+def _root_segments(spec: GdnPackedExecutionSpec) -> tuple[Any, ...]:
+    return tuple(
+        segment
+        for index, segment in enumerate(spec.tree_segments)
+        if spec.tree_parent_indices[index] < 0
+    )
+
+
+def _descendant_segments(
+    spec: GdnPackedExecutionSpec, root_index: int
+) -> tuple[Any, ...]:
+    descendants = []
+    for index, segment in enumerate(spec.tree_segments):
+        parent = spec.tree_parent_indices[index]
+        while parent >= 0:
+            if parent == root_index:
+                descendants.append(segment)
+                break
+            parent = spec.tree_parent_indices[parent]
+    return tuple(descendants)
+
+
 def _segment_real_start(
     segment: Any, spec: GdnPackedExecutionSpec, real_index: dict[int, int]
 ) -> int:
diff --git a/tests/integration/megatron/gdn_shared_prefix/parser_import.py b/tests/integration/megatron/gdn_shared_prefix/parser_import.py
index ce184d96e..3a473ebf3 100644
--- a/tests/integration/megatron/gdn_shared_prefix/parser_import.py
+++ b/tests/integration/megatron/gdn_shared_prefix/parser_import.py
@@ -24,6 +24,5 @@ def _load_parser_module() -> ModuleType:
 _MODULE = _load_parser_module()
 
 GdnPackedExecutionSpec: Any = _MODULE.GdnPackedExecutionSpec
-build_gdn_cp_segment_schedule: Any = _MODULE.build_gdn_cp_segment_schedule
 build_gdn_rank_execution_plan: Any = _MODULE.build_gdn_rank_execution_plan
 parse_gdn_shared_prefix_segments: Any = _MODULE.parse_gdn_shared_prefix_segments
diff --git a/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py b/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
index e69fef22b..be775dedb 100644
--- a/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
+++ b/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 
-from typing import Any, Literal
+from typing import Any, Literal, NamedTuple
 
 from pydantic import BaseModel, ConfigDict
 import torch
@@ -61,6 +61,57 @@ class GdnChainBoundaryDebug(BaseModel):
 ]
 
 
+class _TreeFamily(NamedTuple):
+    row_index: int
+    family_index: int
+    prefix: Any
+    completions: tuple[Any, ...]
+    segment_indices: tuple[int, ...]
+    parent_indices: tuple[int, ...]
+
+    @property
+    def token_count(self) -> int:
+        return self.prefix.length + sum(segment.length for segment in self.completions)
+
+
+def _segment_path(spec: Any, segment_index: int) -> tuple[Any, ...]:
+    path = []
+    cursor = segment_index
+    while cursor >= 0:
+        path.append(cursor)
+        cursor = spec.tree_parent_indices[cursor]
+    return tuple(spec.tree_segments[index] for index in reversed(path))
+
+
+def _tree_families(spec: Any) -> tuple[_TreeFamily, ...]:
+    families = []
+    for root_index, root in enumerate(spec.tree_segments):
+        if spec.tree_parent_indices[root_index] >= 0:
+            continue
+        segment_indices = [root_index]
+        for index in range(root_index + 1, len(spec.tree_segments)):
+            parent = spec.tree_parent_indices[index]
+            while parent >= 0:
+                if parent == root_index:
+                    segment_indices.append(index)
+                    break
+                parent = spec.tree_parent_indices[parent]
+        segments = tuple(spec.tree_segments[index] for index in segment_indices)
+        families.append(
+            _TreeFamily(
+                row_index=root.row_index,
+                family_index=root_index,
+                prefix=root,
+                completions=segments[1:],
+                segment_indices=tuple(segment_indices),
+                parent_indices=tuple(
+                    spec.tree_parent_indices[index] for index in segment_indices
+                ),
+            )
+        )
+    return tuple(families)
+
+
 def compare_real_gdn_cp1_to_flattened(
     *,
     packed_gdn: Any,
@@ -300,31 +351,32 @@ def run_real_gdn_flattened_reference(
         group_ids, parent_ids, min_completions_per_family=1
     )
     output = torch.zeros_like(hidden_states)
-    for family in spec.families:
-        row = family.row_index
-        prefix_hidden = hidden_states[
-            family.prefix.start : family.prefix.end, row : row + 1, :
-        ]
-        prefix_len = family.prefix.length
-        for child_index, completion in enumerate(family.completions):
-            suffix_hidden = hidden_states[
-                completion.start : completion.end, row : row + 1, :
-            ]
-            flat_hidden = torch.cat([prefix_hidden, suffix_hidden], dim=0)
-            flat_out, _, _, _ = _run_gdn_segment(
-                gdn,
-                flat_hidden,
-                conv_initial=_zero_conv_state(gdn, hidden_states, row),
-                recurrent_initial=_zero_recurrent_state(gdn, hidden_states, row),
-                output_final_state=False,
-            )
-            if child_index == 0:
-                output[family.prefix.start : family.prefix.end, row : row + 1, :] = (
-                    flat_out[:prefix_len]
-                )
-            output[completion.start : completion.end, row : row + 1, :] = flat_out[
-                prefix_len:
-            ]
+    for segment_index, segment in enumerate(spec.tree_segments):
+        flat_hidden = torch.cat(
+            [
+                hidden_states[
+                    node.start : node.end,
+                    node.row_index : node.row_index + 1,
+                    :,
+                ]
+                for node in _segment_path(spec, segment_index)
+            ],
+            dim=0,
+        )
+        flat_out, _, _, _ = _run_gdn_segment(
+            gdn,
+            flat_hidden,
+            conv_initial=_zero_conv_state(gdn, hidden_states, segment.row_index),
+            recurrent_initial=_zero_recurrent_state(
+                gdn, hidden_states, segment.row_index
+            ),
+            output_final_state=False,
+        )
+        output[
+            segment.start : segment.end,
+            segment.row_index : segment.row_index + 1,
+            :,
+        ] = flat_out[-segment.length :]
     return output
 
 
@@ -414,7 +466,7 @@ def _split_gdn_families_by_rank(
         raise ValueError(f"cp_size must be >= 1, got {cp_size}")
     ranks: list[list[int]] = [[] for _ in range(cp_size)]
     loads = [0] * cp_size
-    for family in spec.families:
+    for family in _tree_families(spec):
         rank = min(range(cp_size), key=lambda index: (loads[index], index))
         family_tokens = tuple(
             token
@@ -527,7 +579,7 @@ def run_real_gdn_suffix_only_chain_reference(
         group_ids, parent_ids, min_completions_per_family=0
     )
     output = torch.zeros_like(hidden_states)
-    for family in spec.families:
+    for family in _tree_families(spec):
         row = family.row_index
         zero_conv = _zero_conv_state(gdn, hidden_states, batch_size=1)
         zero_rec = _zero_recurrent_state(gdn, hidden_states, batch_size=1)
@@ -579,7 +631,7 @@ def run_real_gdn_chunk_native_reference(
         group_ids, parent_ids, min_completions_per_family=0
     )
     output = torch.zeros_like(hidden_states)
-    for family in spec.families:
+    for family in _tree_families(spec):
         _scatter_family_output(
             output,
             family,
@@ -603,7 +655,7 @@ def run_real_gdn_mixed_cp_reference(
     output = torch.zeros_like(hidden_states)
     local_count = 0
     chain_count = 0
-    for family in spec.families:
+    for family in _tree_families(spec):
         if family.token_count <= local_fork_max_tokens:
             local_count += 1
             _scatter_family_output(
@@ -753,14 +805,23 @@ def _family_group_tensors(
 ) -> tuple[Tensor, Tensor]:
     group_ids = []
     parent_ids = []
-    prefix_group_id = 0
-    group_ids.extend([prefix_group_id] * family.prefix.length)
-    parent_ids.extend([prefix_group_id] * family.prefix.length)
-    next_group_id = 1
-    for completion in family.completions:
-        group_ids.extend([next_group_id] * completion.length)
-        parent_ids.extend([prefix_group_id] * completion.length)
-        next_group_id += 1
+    local_group_by_global: dict[int, int] = {}
+    for local_group_id, (segment, global_index, parent_index) in enumerate(
+        zip(
+            (family.prefix, *family.completions),
+            family.segment_indices,
+            family.parent_indices,
+            strict=True,
+        )
+    ):
+        local_group_by_global[global_index] = local_group_id
+        local_parent_id = (
+            local_group_id
+            if parent_index < 0
+            else local_group_by_global[parent_index]
+        )
+        group_ids.extend([local_group_id] * segment.length)
+        parent_ids.extend([local_parent_id] * segment.length)
     return (
         torch.tensor([group_ids], device=device, dtype=torch.long),
         torch.tensor([parent_ids], device=device, dtype=torch.long),
@@ -883,7 +944,7 @@ def _local_fork_group_tensors(
     )
     parent_ids = torch.full_like(group_ids, -1)
     next_group_id = 0
-    for family in spec.families:
+    for family in _tree_families(spec):
         family_segments = (family.prefix, *family.completions)
         family_tokens = tuple(
             token_index
@@ -898,19 +959,23 @@ def _local_fork_group_tensors(
         if not all(token_is_local):
             raise ValueError("local-fork execution requires whole prompt families")
 
-        prefix_group_id = next_group_id
-        next_group_id += 1
-        for token_index in family.prefix.linear_indices(spec.sequence_length):
-            position = local_position[token_index]
-            group_ids[position] = prefix_group_id
-            parent_ids[position] = prefix_group_id
-        for completion in family.completions:
-            child_group_id = next_group_id
+        group_by_segment_index: dict[int, int] = {}
+        for segment, global_index, parent_index in zip(
+            family_segments,
+            family.segment_indices,
+            family.parent_indices,
+            strict=True,
+        ):
+            group_id = next_group_id
             next_group_id += 1
-            for token_index in completion.linear_indices(spec.sequence_length):
+            group_by_segment_index[global_index] = group_id
+            parent_group_id = (
+                group_id if parent_index < 0 else group_by_segment_index[parent_index]
+            )
+            for token_index in segment.linear_indices(spec.sequence_length):
                 position = local_position[token_index]
-                group_ids[position] = child_group_id
-                parent_ids[position] = prefix_group_id
+                group_ids[position] = group_id
+                parent_ids[position] = parent_group_id
     if torch.any(group_ids == -1):
         raise RuntimeError("local-fork metadata left unassigned token rows")
     return group_ids.unsqueeze(0), parent_ids.unsqueeze(0)
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
index 2151b41e1..9537dcf4b 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
@@ -21,6 +21,7 @@
     parse_gdn_shared_prefix_segments,
 )
 from art.megatron.gdn.operator import run_gdn_layer  # noqa: E402
+from art.megatron.shared_prefix_packing import pack_shared_prefixes  # noqa: E402
 
 from .cases import (  # noqa: E402
     GdnFamilyShape,
@@ -77,6 +78,34 @@ def test_gdn_cp_packed_sibling_order_matches_cp1_oracle(
         assert (tmp_path / f"cp1_oracle_sibling_rank_{rank}.ok").read_text() == "ok\n"
 
 
+@pytest.mark.parametrize("cp_size", (2, 4))
+def test_gdn_cp_tree_chain_matches_cp1_oracle(cp_size: int, tmp_path: Path) -> None:
+    _skip_without_gpus(cp_size)
+    port = _find_free_port()
+    mp.spawn(
+        _tree_chain_oracle_worker,
+        args=(cp_size, port, str(tmp_path)),
+        nprocs=cp_size,
+        join=True,
+    )
+    for rank in range(cp_size):
+        assert (tmp_path / f"tree_chain_rank_{rank}.ok").read_text() == "ok\n"
+
+
+def test_gdn_cp_tree_fuzz_matches_cp1_oracle(tmp_path: Path) -> None:
+    cp_size = 4
+    _skip_without_gpus(cp_size)
+    port = _find_free_port()
+    mp.spawn(
+        _tree_fuzz_oracle_worker,
+        args=(cp_size, port, str(tmp_path)),
+        nprocs=cp_size,
+        join=True,
+    )
+    for rank in range(cp_size):
+        assert (tmp_path / f"tree_fuzz_rank_{rank}.ok").read_text() == "ok\n"
+
+
 def _cp1_oracle_worker(
     rank: int,
     cp_size: int,
@@ -126,6 +155,86 @@ def _cp1_oracle_worker(
         destroy_process_group()
 
 
+def _tree_chain_oracle_worker(
+    rank: int,
+    cp_size: int,
+    port: int,
+    output_dir: str,
+) -> None:
+    torch.cuda.set_device(rank)
+    init_process_group(
+        backend="nccl",
+        init_method=f"tcp://127.0.0.1:{port}",
+        rank=rank,
+        world_size=cp_size,
+    )
+    try:
+        ps.initialize_model_parallel(
+            tensor_model_parallel_size=1,
+            pipeline_model_parallel_size=1,
+            context_parallel_size=cp_size,
+            expert_model_parallel_size=1,
+        )
+        ref_gdn, cp_gdn = _make_matching_gdn_pair(cp_size=cp_size)
+        _assert_tree_pack_matches_cp1(
+            "tree_chain",
+            ref_gdn,
+            cp_gdn,
+            _tree_chain_pack(),
+            rank=rank,
+            cp_size=cp_size,
+            seed=9090,
+            planner_config=_tree_chain_planner_config(),
+            require_chain=True,
+        )
+        Path(output_dir, f"tree_chain_rank_{rank}.ok").write_text("ok\n")
+    finally:
+        if getattr(ps, "model_parallel_is_initialized", lambda: False)():
+            ps.destroy_model_parallel()
+        destroy_process_group()
+
+
+def _tree_fuzz_oracle_worker(
+    rank: int,
+    cp_size: int,
+    port: int,
+    output_dir: str,
+) -> None:
+    torch.cuda.set_device(rank)
+    init_process_group(
+        backend="nccl",
+        init_method=f"tcp://127.0.0.1:{port}",
+        rank=rank,
+        world_size=cp_size,
+    )
+    try:
+        ps.initialize_model_parallel(
+            tensor_model_parallel_size=1,
+            pipeline_model_parallel_size=1,
+            context_parallel_size=cp_size,
+            expert_model_parallel_size=1,
+        )
+        ref_gdn, cp_gdn = _make_matching_gdn_pair(cp_size=cp_size)
+        for case_index, (name, pack) in enumerate(_tree_fuzz_packs()):
+            _assert_tree_pack_matches_cp1(
+                name,
+                ref_gdn,
+                cp_gdn,
+                pack,
+                rank=rank,
+                cp_size=cp_size,
+                seed=9190 + case_index,
+                planner_config=_tree_fuzz_planner_config(),
+                require_chain=False,
+            )
+            torch.distributed.barrier()
+        Path(output_dir, f"tree_fuzz_rank_{rank}.ok").write_text("ok\n")
+    finally:
+        if getattr(ps, "model_parallel_is_initialized", lambda: False)():
+            ps.destroy_model_parallel()
+        destroy_process_group()
+
+
 def _assert_case_matches_cp1(
     ref_gdn: torch.nn.Module,
     cp_gdn: torch.nn.Module,
@@ -212,6 +321,81 @@ def _assert_case_matches_cp1(
     )
 
 
+def _assert_tree_pack_matches_cp1(
+    name: str,
+    ref_gdn: torch.nn.Module,
+    cp_gdn: torch.nn.Module,
+    pack: Any,
+    *,
+    rank: int,
+    cp_size: int,
+    seed: int,
+    planner_config: GdnPlannerConfig,
+    require_chain: bool,
+) -> None:
+    zero_parameter_grads(ref_gdn)
+    zero_parameter_grads(cp_gdn)
+    group_ids = pack.group_ids.cuda()
+    parent_ids = pack.parent_ids.cuda()
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
+    plan = build_gdn_rank_execution_plan(
+        spec,
+        device=group_ids.device,
+        cp_rank=rank,
+        cp_size=cp_size,
+        planner_config=planner_config,
+    )
+    if require_chain:
+        assert any(plan.tree_chain_buckets_by_depth)
+    hidden, output_grad = _tree_hidden_and_grad(spec.real_token_count, seed=seed)
+    ref_hidden = hidden.clone().detach().requires_grad_(True)
+    ref_out, _ = run_gdn_layer(
+        ref_gdn,
+        ref_hidden,
+        group_ids=group_ids,
+        parent_ids=parent_ids,
+    )
+    ref_loss = (ref_out * output_grad).sum()
+    ref_loss.backward()
+
+    flat_hidden = hidden.transpose(0, 1).reshape(-1, hidden.shape[-1])
+    flat_grad = output_grad.transpose(0, 1).reshape(-1, output_grad.shape[-1])
+    local_index = torch.tensor(
+        plan.attention_token_indices, device=hidden.device, dtype=torch.long
+    )
+    local_hidden = (
+        flat_hidden.index_select(0, local_index)
+        .unsqueeze(1)
+        .contiguous()
+        .detach()
+        .requires_grad_(True)
+    )
+    local_output_grad = flat_grad.index_select(0, local_index).unsqueeze(1).contiguous()
+    cp_out, _ = run_gdn_layer(
+        cp_gdn,
+        local_hidden,
+        group_ids=group_ids,
+        parent_ids=parent_ids,
+        execution_spec=spec,
+        execution_plan=plan,
+        cp_group=torch.distributed.group.WORLD,
+    )
+    cp_loss = (cp_out * local_output_grad).sum()
+    cp_loss.backward()
+    _assert_cp_matches_reference(
+        name,
+        ref_gdn,
+        cp_gdn,
+        ref_hidden,
+        ref_out,
+        ref_loss.detach(),
+        local_hidden,
+        cp_out,
+        cp_loss.detach(),
+        local_index,
+    )
+
+
 def _assert_sibling_order_matches_cp1(
     ref_gdn: torch.nn.Module,
     cp_gdn: torch.nn.Module,
@@ -377,6 +561,127 @@ def _hidden_and_grad(
     return hidden, grad
 
 
+def _tree_hidden_and_grad(
+    sequence_length: int, *, seed: int
+) -> tuple[torch.Tensor, torch.Tensor]:
+    generator = torch.Generator(device="cuda").manual_seed(seed)
+    hidden = torch.randn(
+        sequence_length,
+        1,
+        64,
+        device="cuda",
+        dtype=GDN_CORRECTNESS_DTYPE,
+        generator=generator,
+    )
+    grad = torch.randn(
+        hidden.shape,
+        device="cuda",
+        dtype=GDN_CORRECTNESS_DTYPE,
+        generator=generator,
+    )
+    torch.distributed.broadcast(hidden, src=0)
+    torch.distributed.broadcast(grad, src=0)
+    return hidden, grad
+
+
+def _tree_chain_pack():
+    long_root = torch.arange(11, 267)
+    short_root = torch.arange(1001, 1097)
+    long_mid = torch.arange(2001, 2641)
+    other_mid = torch.arange(3001, 3065)
+    return pack_shared_prefixes(
+        (
+            torch.cat((long_root, torch.tensor([301]))),
+            torch.cat((long_root, torch.tensor([302]))),
+            torch.cat((short_root, long_mid, torch.tensor([401]))),
+            torch.cat((short_root, long_mid, torch.tensor([402]))),
+            torch.cat((short_root, other_mid, torch.tensor([403]))),
+        ),
+        max_depth=2,
+    )
+
+
+def _tree_chain_planner_config() -> GdnPlannerConfig:
+    return GdnPlannerConfig(
+        cp_chain_min_tokens_per_rank=16,
+        cp_chain_min_total_tokens=128,
+        cp_chain_min_prefix_only_tokens=128,
+        max_padding_ratio=4.0,
+    )
+
+
+def _tree_fuzz_planner_config() -> GdnPlannerConfig:
+    return GdnPlannerConfig(
+        cp_chain_min_tokens_per_rank=1,
+        cp_chain_min_total_tokens=64,
+        cp_chain_min_prefix_only_tokens=64,
+        cp_tree_chain_min_total_tokens=64,
+        cp_tree_chain_min_prefix_only_tokens=64,
+        max_padding_ratio=4.0,
+    )
+
+
+def _tree_fuzz_packs() -> tuple[tuple[str, Any], ...]:
+    return (
+        (
+            "tree_fuzz_duplicates",
+            pack_shared_prefixes(_duplicate_tree_sequences(), max_depth=4),
+        ),
+        (
+            "tree_fuzz_ragged_depth4",
+            pack_shared_prefixes(_random_tree_sequences(13, max_depth=4), max_depth=4),
+        ),
+        (
+            "tree_fuzz_mixed_tiny_long",
+            pack_shared_prefixes(_random_tree_sequences(29, max_depth=5), max_depth=5),
+        ),
+    )
+
+
+def _duplicate_tree_sequences() -> tuple[torch.Tensor, ...]:
+    root = torch.arange(11, 331)
+    mid_a = torch.arange(1001, 1261)
+    mid_b = torch.arange(2001, 2065)
+    leaf_a = torch.arange(3001, 3013)
+    leaf_b = torch.arange(4001, 4017)
+    first = torch.cat((root, mid_a, leaf_a))
+    second = torch.cat((root, mid_a, leaf_b))
+    third = torch.cat((root, mid_b, torch.tensor([91, 92, 93])))
+    return (first, first, second, third, third)
+
+
+def _random_tree_sequences(seed: int, *, max_depth: int) -> tuple[torch.Tensor, ...]:
+    generator = torch.Generator().manual_seed(seed)
+    next_token = 1
+
+    def randint(low: int, high: int) -> int:
+        return int(torch.randint(low, high + 1, (), generator=generator).item())
+
+    def tokens(length: int) -> torch.Tensor:
+        nonlocal next_token
+        out = torch.arange(next_token, next_token + length)
+        next_token += length + 997
+        return out
+
+    def segment_length(depth: int) -> int:
+        choices = (1, 3, 17, 64, 129, 257, 384 if depth == 0 else 96)
+        return choices[randint(0, len(choices) - 1)]
+
+    def walk(prefix: torch.Tensor, depth: int) -> list[torch.Tensor]:
+        here = torch.cat((prefix, tokens(segment_length(depth))))
+        if depth + 1 >= max_depth:
+            return [
+                torch.cat((here, tokens(randint(1, 17))))
+                for _ in range(randint(2, 4))
+            ]
+        leaves: list[torch.Tensor] = []
+        for _ in range(randint(2, 3)):
+            leaves.extend(walk(here, depth + 1))
+        return leaves
+
+    return tuple(walk(torch.empty(0, dtype=torch.long), 0))
+
+
 def _packed_correctness_cases() -> tuple[GdnPhase0Case, ...]:
     return (
         *default_phase0_cases(conv_width=2),
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
index 19f33970c..79fc95f9b 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
@@ -99,63 +99,67 @@ def test_qwen35_full_model_cp1_matches_flattened_grad_accumulation() -> None:
         spec = parse_gdn_shared_prefix_segments(
             group_ids.cpu(), parent_ids.cpu(), min_completions_per_family=1
         )
-        for family in spec.families:
-            row = family.row_index
-            prefix = family.prefix
-            for completion in family.completions:
-                ref_tokens = torch.cat(
-                    [
-                        tokens[row : row + 1, prefix.start : prefix.end],
-                        tokens[row : row + 1, completion.start : completion.end],
-                    ],
-                    dim=1,
-                )
-                ref_pos = torch.cat(
-                    [
-                        input_pos[row : row + 1, prefix.start : prefix.end],
-                        input_pos[row : row + 1, completion.start : completion.end],
-                    ],
-                    dim=1,
-                )
-                ref_assistant_mask = torch.cat(
-                    [
-                        torch.zeros(
-                            (1, prefix.length), dtype=torch.bool, device=device
-                        ),
-                        assistant_mask[
-                            row : row + 1, completion.start : completion.end
-                        ],
+        for segment_index, completion in enumerate(spec.tree_segments):
+            if spec.tree_parent_indices[segment_index] < 0:
+                continue
+            row = completion.row_index
+            path = _segment_path(spec, segment_index)
+            completion_offset = sum(segment.length for segment in path[:-1])
+            ref_tokens = torch.cat(
+                [
+                    tokens[row : row + 1, segment.start : segment.end]
+                    for segment in path
+                ],
+                dim=1,
+            )
+            ref_pos = torch.cat(
+                [
+                    input_pos[row : row + 1, segment.start : segment.end]
+                    for segment in path
+                ],
+                dim=1,
+            )
+            ref_assistant_mask = torch.cat(
+                [
+                    torch.zeros(
+                        (1, completion_offset),
+                        dtype=torch.bool,
+                        device=device,
+                    ),
+                    assistant_mask[
+                        row : row + 1, completion.start : completion.end
                     ],
-                    dim=1,
-                )
-                ref_group_ids = torch.zeros_like(ref_tokens)
-                ref_parent_ids = torch.zeros_like(ref_tokens)
-                ref_logits, ref_loss = _run_model_loss(
-                    flat_model,
-                    tokens=ref_tokens,
-                    input_pos=ref_pos,
-                    group_ids=ref_group_ids,
-                    parent_ids=ref_parent_ids,
-                    assistant_mask=ref_assistant_mask,
-                )
-                ref_loss.backward()
-                flat_loss_sum = (
-                    ref_loss.detach()
-                    if flat_loss_sum is None
-                    else flat_loss_sum + ref_loss.detach()
-                )
+                ],
+                dim=1,
+            )
+            ref_group_ids = torch.zeros_like(ref_tokens)
+            ref_parent_ids = torch.zeros_like(ref_tokens)
+            ref_logits, ref_loss = _run_model_loss(
+                flat_model,
+                tokens=ref_tokens,
+                input_pos=ref_pos,
+                group_ids=ref_group_ids,
+                parent_ids=ref_parent_ids,
+                assistant_mask=ref_assistant_mask,
+            )
+            ref_loss.backward()
+            flat_loss_sum = (
+                ref_loss.detach()
+                if flat_loss_sum is None
+                else flat_loss_sum + ref_loss.detach()
+            )
 
-                if completion.length > 1:
-                    packed_slice = packed_logits[
-                        row : row + 1, completion.start : completion.end - 1
-                    ]
-                    ref_slice = ref_logits[
-                        :, prefix.length : prefix.length + completion.length - 1
-                    ]
-                    logits_mean_abs_pct = max(
-                        logits_mean_abs_pct,
-                        mean_abs_pct(ref_slice, packed_slice),
-                    )
+            if completion.length > 1:
+                packed_slice = packed_logits[
+                    row : row + 1, completion.start : completion.end - 1
+                ]
+                ref_slice = ref_logits[
+                    :, completion_offset : completion_offset + completion.length - 1
+                ]
+                logits_mean_abs_pct = max(
+                    logits_mean_abs_pct,
+                    mean_abs_pct(ref_slice, packed_slice),
+                )
 
         assert flat_loss_sum is not None
         grad_name, grad_pct = parameter_grad_mean_abs_pct_with_name(
@@ -217,67 +221,69 @@ def _assert_logits_vjp_equivalence(
     spec = parse_gdn_shared_prefix_segments(
         group_ids.cpu(), parent_ids.cpu(), min_completions_per_family=1
     )
-    for family in spec.families:
-        row = family.row_index
-        prefix = family.prefix
-        for completion in family.completions:
-            ref_tokens = torch.cat(
-                [
-                    tokens[row : row + 1, prefix.start : prefix.end],
-                    tokens[row : row + 1, completion.start : completion.end],
-                ],
-                dim=1,
-            )
-            ref_pos = torch.cat(
-                [
-                    input_pos[row : row + 1, prefix.start : prefix.end],
-                    input_pos[row : row + 1, completion.start : completion.end],
-                ],
-                dim=1,
-            )
-            ref_logits = _run_model_logits(
-                flat_model,
-                tokens=ref_tokens,
-                input_pos=ref_pos,
-                group_ids=torch.zeros_like(ref_tokens),
-                parent_ids=torch.zeros_like(ref_tokens),
-            )
-            ref_output_grad = torch.zeros_like(ref_logits)
-            ref_output_mask = torch.zeros(
-                ref_logits.shape[:2],
-                device=ref_logits.device,
-                dtype=torch.bool,
-            )
-            if completion.length > 1:
-                ref_output_grad[
-                    :, prefix.length : prefix.length + completion.length - 1
-                ] = output_grad[row : row + 1, completion.start : completion.end - 1]
-                ref_output_mask[
-                    :, prefix.length : prefix.length + completion.length - 1
-                ] = True
-            ref_loss = stable_output_mse_loss(
-                ref_logits,
-                ref_output_grad,
-                mask=ref_output_mask.unsqueeze(-1),
-                denominator=loss_denominator,
-            )
-            ref_loss.backward()
-            flat_loss_sum = (
-                ref_loss.detach()
-                if flat_loss_sum is None
-                else flat_loss_sum + ref_loss.detach()
+    for segment_index, completion in enumerate(spec.tree_segments):
+        if spec.tree_parent_indices[segment_index] < 0:
+            continue
+        row = completion.row_index
+        path = _segment_path(spec, segment_index)
+        completion_offset = sum(segment.length for segment in path[:-1])
+        ref_tokens = torch.cat(
+            [
+                tokens[row : row + 1, segment.start : segment.end]
+                for segment in path
+            ],
+            dim=1,
+        )
+        ref_pos = torch.cat(
+            [
+                input_pos[row : row + 1, segment.start : segment.end]
+                for segment in path
+            ],
+            dim=1,
+        )
+        ref_logits = _run_model_logits(
+            flat_model,
+            tokens=ref_tokens,
+            input_pos=ref_pos,
+            group_ids=torch.zeros_like(ref_tokens),
+            parent_ids=torch.zeros_like(ref_tokens),
+        )
+        ref_output_grad = torch.zeros_like(ref_logits)
+        ref_output_mask = torch.zeros(
+            ref_logits.shape[:2],
+            device=ref_logits.device,
+            dtype=torch.bool,
+        )
+        if completion.length > 1:
+            ref_output_grad[
+                :, completion_offset : completion_offset + completion.length - 1
+            ] = output_grad[row : row + 1, completion.start : completion.end - 1]
+            ref_output_mask[
+                :, completion_offset : completion_offset + completion.length - 1
+            ] = True
+        ref_loss = stable_output_mse_loss(
+            ref_logits,
+            ref_output_grad,
+            mask=ref_output_mask.unsqueeze(-1),
+            denominator=loss_denominator,
+        )
+        ref_loss.backward()
+        flat_loss_sum = (
+            ref_loss.detach()
+            if flat_loss_sum is None
+            else flat_loss_sum + ref_loss.detach()
+        )
+        if completion.length > 1:
+            packed_slice = packed_logits[
+                row : row + 1, completion.start : completion.end - 1
+            ]
+            ref_slice = ref_logits[
+                :, completion_offset : completion_offset + completion.length - 1
+            ]
+            logits_mean_abs_pct = max(
+                logits_mean_abs_pct,
+                mean_abs_pct(ref_slice, packed_slice),
             )
-            if completion.length > 1:
-                packed_slice = packed_logits[
-                    row : row + 1, completion.start : completion.end - 1
-                ]
-                ref_slice = ref_logits[
-                    :, prefix.length : prefix.length + completion.length - 1
-                ]
-                logits_mean_abs_pct = max(
-                    logits_mean_abs_pct,
-                    mean_abs_pct(ref_slice, packed_slice),
-                )
 
     assert flat_loss_sum is not None
     grad_name, grad_pct = parameter_grad_mean_abs_pct_with_name(
@@ -359,6 +365,15 @@ def _run_model_logits(
     return logits
 
 
+def _segment_path(spec: Any, segment_index: int) -> tuple[Any, ...]:
+    indices = []
+    cursor = segment_index
+    while cursor >= 0:
+        indices.append(cursor)
+        cursor = spec.tree_parent_indices[cursor]
+    return tuple(spec.tree_segments[index] for index in reversed(indices))
+
+
 def _make_matching_models() -> tuple[torch.nn.Module, torch.nn.Module]:
     model_parallel_cuda_manual_seed(1234)
     packed = _make_model()
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
index e0d164c56..2148e3053 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
@@ -139,17 +139,9 @@ def _native_gdn_cp_packed_layer_worker(
                 cp_chain_min_tokens_per_rank=16,
                 cp_chain_min_total_tokens=128,
                 cp_chain_min_prefix_only_tokens=128,
-                # This test is the native chain correctness guard, so force the
-                # planner onto chain prefix and completion buckets.
-                planner_chain_bucket_ms=0.0,
-                planner_chain_token_ms=0.0,
-                planner_local_bucket_ms=1.0,
-                planner_local_token_ms=1.0,
-                cp_chain_min_score_delta_ms=0.0,
             ),
         )
-        assert plan.chain_prefix_buckets
-        assert plan.chain_completion_buckets
+        assert any(plan.tree_chain_buckets_by_depth)
         hidden, output_grad = _packed_hidden_and_grad(case, cp_size)
         ref_hidden = hidden.clone().detach().requires_grad_(True)
         ref_out, _ = run_gdn_layer(
diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
index 639932faf..5b168cab8 100644
--- a/tests/unit/test_shared_prefix_attention_builder.py
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -1,6 +1,10 @@
 from __future__ import annotations
 
+import pytest
 import torch
+from torch.nn.attention.flex_attention import BlockMask
+
+pytest.importorskip("megatron.core.packed_seq_params")
 
 from art.megatron.context_parallel.block_mask import build_block_mask
 from art.megatron.context_parallel.builder import (
@@ -9,6 +13,8 @@
 )
 from art.megatron.context_parallel.runtime import (
     build_context_parallel_token_layout_index,
+    get_or_build_runtime_plan,
+    make_runtime_key,
 )
 from art.megatron.context_parallel.types import (
     AttnMaskKind,
@@ -19,6 +25,8 @@
     ParallelTopology,
     TokenRange,
 )
+from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
+from art.megatron.shared_prefix_state import create_shared_prefix_state
 
 
 def test_shared_prefix_attention_spec_supports_branching_completions() -> None:
@@ -36,8 +44,8 @@ def test_shared_prefix_attention_spec_supports_branching_completions() -> None:
         [1, 1, 1, 0, 0, 0, 0],
         [1, 1, 1, 1, 0, 0, 0],
         [1, 1, 1, 0, 1, 0, 0],
-        [1, 0, 0, 0, 0, 1, 0],
-        [1, 0, 0, 0, 0, 1, 1],
+        [1, 1, 1, 0, 0, 1, 0],
+        [1, 1, 1, 0, 0, 1, 1],
     ]
 
 
@@ -105,6 +113,212 @@ def test_sparse_block_mask_exact_predicate_matches_dense_reference() -> None:
     assert actual.equal(build_dense_reference_mask(row_spec=row))
 
 
+def test_shared_prefix_state_builds_batched_block_mask() -> None:
+    group_ids = torch.tensor(
+        [
+            [1, 1, 2, 2, -1],
+            [10, 11, 11, -1, -1],
+        ],
+        dtype=torch.long,
+    )
+    parent_ids = torch.tensor(
+        [
+            [1, 1, 1, 1, -1],
+            [10, 10, 10, -1, -1],
+        ],
+        dtype=torch.long,
+    )
+
+    state = create_shared_prefix_state(
+        group_ids=group_ids,
+        parent_ids=parent_ids,
+        target_device=torch.device("cpu"),
+    )
+    seq_len = int(group_ids.shape[1])
+    batch_idx = torch.arange(2)[:, None, None].expand(2, seq_len, seq_len)
+    query_idx = torch.arange(seq_len)[None, :, None].expand(2, seq_len, seq_len)
+    kv_idx = torch.arange(seq_len)[None, None, :].expand(2, seq_len, seq_len)
+    actual = state.block_mask.mask_mod(
+        batch_idx,
+        torch.zeros_like(batch_idx),
+        query_idx,
+        kv_idx,
+    )
+    spec = build_shared_prefix_attention_spec(
+        group_ids=group_ids,
+        parent_ids=parent_ids,
+    )
+    assert int(state.block_mask.kv_num_blocks.shape[0]) == 2
+    for row_index, row_spec in enumerate(spec.rows):
+        valid_tokens = int(row_spec.valid_tokens)
+        assert actual[
+            row_index,
+            :valid_tokens,
+            :valid_tokens,
+        ].equal(build_dense_reference_mask(row_spec=row_spec))
+
+
+def test_context_parallel_stage_masks_match_dense_nested_tree() -> None:
+    _assert_context_parallel_stage_masks_match_dense(
+        pack_shared_prefixes(
+            (
+                torch.tensor([1, 2, 3, 4, 8]),
+                torch.tensor([1, 2, 3, 4, 9]),
+                torch.tensor([1, 2, 3, 5]),
+                torch.tensor([1, 6]),
+            ),
+            max_depth=3,
+        ),
+        require_remote_stage=True,
+    )
+    _assert_context_parallel_stage_masks_match_dense(
+        pack_shared_prefixes(
+            (
+                torch.tensor([1, 2, 3]),
+                torch.tensor([4, 5, 6]),
+                torch.tensor([7, 8]),
+                torch.tensor([9, 10, 11, 12]),
+            ),
+            max_depth=3,
+        ),
+        require_remote_stage=False,
+    )
+
+
+def _assert_context_parallel_stage_masks_match_dense(
+    pack: SharedPrefixPack,
+    *,
+    require_remote_stage: bool,
+) -> None:
+    spec = build_shared_prefix_attention_spec(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    row = spec.rows[0]
+    dense = build_dense_reference_mask(row_spec=row)
+    topology = ParallelTopology(cp=2)
+    config = ContextParallelConfig(
+        block_size=2,
+        planner_chunk_size=2,
+        planner_max_search_steps=1,
+        planner_remote_stage_token_floor=1,
+        planner_remote_stage_pair_floor=1,
+    )
+    plan = get_or_build_runtime_plan(
+        spec,
+        topology=topology,
+        config=config,
+        runtime_key=make_runtime_key(spec, topology=topology, config=config),
+        original_seq_len=int(pack.tokens.numel()),
+    )
+
+    checked_stages = 0
+    checked_remote_stages = 0
+    for rank_plan in plan.rank_plans:
+        for stage in rank_plan.stage_plans:
+            if stage.mask_metadata is None:
+                continue
+            block_mask = build_block_mask(
+                FlexMaskSpec(
+                    q_len=stage.q_len,
+                    k_len=stage.k_len,
+                    block_size=(2, 2),
+                    slices=stage.slices,
+                    exact_mask=stage.mask_metadata,
+                ),
+                group_ids=pack.group_ids[0],
+                parent_ids=pack.parent_ids[0],
+                device=torch.device("cpu"),
+            )
+            assert block_mask is not None
+            q_offsets = torch.arange(stage.q_len)[:, None]
+            k_offsets = torch.arange(stage.k_len)[None, :]
+            actual = block_mask.mask_mod(
+                torch.zeros_like(q_offsets),
+                torch.zeros_like(q_offsets),
+                q_offsets,
+                k_offsets,
+            )
+            q_tokens = stage.mask_metadata.q_token_indices
+            k_tokens = stage.mask_metadata.k_token_indices
+            expected = (
+                dense[q_tokens.clamp_min(0)[:, None], k_tokens.clamp_min(0)[None, :]]
+                & (q_tokens[:, None] >= 0)
+                & (k_tokens[None, :] >= 0)
+            )
+
+            assert actual.equal(expected)
+            assert _effective_block_mask(block_mask).equal(expected)
+            checked_stages += 1
+            checked_remote_stages += int(not stage.is_local_stage)
+
+    assert checked_stages
+    if require_remote_stage:
+        assert checked_remote_stages
+
+
+def _effective_block_mask(block_mask: BlockMask) -> torch.Tensor:
+    q_len, k_len = block_mask.seq_lengths
+    q_block, k_block = block_mask.BLOCK_SIZE
+    effective = torch.zeros((q_len, k_len), dtype=torch.bool)
+    _fill_full_blocks(effective, block_mask, q_block=q_block, k_block=k_block)
+    _fill_partial_blocks(effective, block_mask, q_block=q_block, k_block=k_block)
+    return effective
+
+
+def _fill_full_blocks(
+    effective: torch.Tensor,
+    block_mask: BlockMask,
+    *,
+    q_block: int,
+    k_block: int,
+) -> None:
+    if (
+        block_mask.full_kv_num_blocks is None
+        or block_mask.full_kv_indices is None
+    ):
+        return
+    for q_block_index in range(int(block_mask.full_kv_num_blocks.shape[-1])):
+        q_slice = slice(q_block_index * q_block, (q_block_index + 1) * q_block)
+        block_count = int(block_mask.full_kv_num_blocks[0, 0, q_block_index])
+        for k_block_index in block_mask.full_kv_indices[
+            0, 0, q_block_index, :block_count
+        ].tolist():
+            k_slice = slice(
+                int(k_block_index) * k_block,
+                (int(k_block_index) + 1) * k_block,
+            )
+            effective[q_slice, k_slice] = True
+
+
+def _fill_partial_blocks(
+    effective: torch.Tensor,
+    block_mask: BlockMask,
+    *,
+    q_block: int,
+    k_block: int,
+) -> None:
+    for q_block_index in range(int(block_mask.kv_num_blocks.shape[-1])):
+        q_offsets = torch.arange(
+            q_block_index * q_block,
+            min((q_block_index + 1) * q_block, effective.shape[0]),
+        )[:, None]
+        block_count = int(block_mask.kv_num_blocks[0, 0, q_block_index])
+        for k_block_index in block_mask.kv_indices[
+            0, 0, q_block_index, :block_count
+        ].tolist():
+            k_offsets = torch.arange(
+                int(k_block_index) * k_block,
+                min((int(k_block_index) + 1) * k_block, effective.shape[1]),
+            )[None, :]
+            effective[q_offsets, k_offsets] |= block_mask.mask_mod(
+                torch.zeros_like(q_offsets),
+                torch.zeros_like(q_offsets),
+                q_offsets,
+                k_offsets,
+            )
+
+
 def test_sparse_block_mask_supports_non_monotonic_remote_k_indices() -> None:
     q_token_indices = torch.tensor([4, 5, 6, 7], dtype=torch.long)
     k_token_indices = torch.tensor([0, 1, 6, 2, 3, 4], dtype=torch.long)
diff --git a/tests/unit/test_shared_prefix_grad_parity.py b/tests/unit/test_shared_prefix_grad_parity.py
new file mode 100644
index 000000000..6d06dcd6a
--- /dev/null
+++ b/tests/unit/test_shared_prefix_grad_parity.py
@@ -0,0 +1,274 @@
+from __future__ import annotations
+
+from copy import deepcopy
+
+import pytest
+import torch
+from torch import nn
+import torch.nn.functional as F
+
+from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
+
+
+class _ToyCausalLM(nn.Module):
+    def __init__(self) -> None:
+        super().__init__()
+        self.token_embedding = nn.Embedding(32, 8, dtype=torch.float64)
+        self.position_embedding = nn.Embedding(8, 8, dtype=torch.float64)
+        self.mix = nn.Linear(8, 8, bias=False, dtype=torch.float64)
+        self.output = nn.Linear(8, 32, bias=False, dtype=torch.float64)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        causal_mask: torch.Tensor,
+    ) -> torch.Tensor:
+        states = self.token_embedding(input_ids) + self.position_embedding(position_ids)
+        context = causal_mask.to(states.dtype) @ states
+        return self.output(torch.tanh(self.mix(context)))
+
+
+@pytest.mark.parametrize("max_depth", (1, 2, 3))
+@pytest.mark.parametrize("multi_target", (False, True))
+def test_shared_prefix_ce_parameter_grads_match_independent_sequences(
+    *,
+    max_depth: int,
+    multi_target: bool,
+) -> None:
+    input_ids = _input_ids()
+    target_ids = tuple(_targets(tokens, multi_target=multi_target) for tokens in input_ids)
+    pack = pack_shared_prefixes(input_ids, max_depth=max_depth)
+
+    assert int(pack.tokens.numel()) < sum(len(row) for row in input_ids)
+
+    torch.manual_seed(20260518)
+    naive_model = _ToyCausalLM()
+    packed_model = deepcopy(naive_model)
+
+    naive_loss = torch.stack(
+        [
+            _sequence_ce_loss(naive_model, tokens, labels)
+            for tokens, labels in zip(input_ids, target_ids, strict=True)
+        ]
+    ).sum()
+    packed_loss = _packed_ce_loss(packed_model, pack, target_ids)
+
+    torch.testing.assert_close(packed_loss, naive_loss, rtol=1e-12, atol=1e-12)
+    naive_loss.backward()
+    packed_loss.backward()
+
+    for (name, naive_param), packed_param in zip(
+        naive_model.named_parameters(),
+        packed_model.parameters(),
+        strict=True,
+    ):
+        assert naive_param.grad is not None, name
+        assert packed_param.grad is not None, name
+        torch.testing.assert_close(
+            packed_param.grad,
+            naive_param.grad,
+            rtol=1e-10,
+            atol=1e-10,
+            msg=lambda msg, name=name: f"{name} grad mismatch:\n{msg}",
+        )
+
+
+@pytest.mark.parametrize("max_depth", (1, 2, 3))
+def test_same_layout_mutation_preserves_forward_outputs(max_depth: int) -> None:
+    pack = pack_shared_prefixes(_input_ids(), max_depth=max_depth)
+    torch.manual_seed(20260518)
+    model = _ToyCausalLM()
+    logits = _packed_logits(model, pack)
+
+    for positions in pack.positions_by_sequence:
+        mutated_logits = _packed_logits(model, _mutated_pack(pack, keep=positions))
+        torch.testing.assert_close(
+            mutated_logits.index_select(0, positions),
+            logits.index_select(0, positions),
+            rtol=0.0,
+            atol=0.0,
+        )
+
+
+@pytest.mark.parametrize("max_depth", (1, 2, 3))
+@pytest.mark.parametrize("sequence_index", (0, 2, 4))
+def test_same_layout_mutation_preserves_target_loss_grads(
+    max_depth: int,
+    sequence_index: int,
+) -> None:
+    input_ids = _input_ids()
+    target_ids = tuple(_targets(tokens, multi_target=True) for tokens in input_ids)
+    pack = pack_shared_prefixes(input_ids, max_depth=max_depth)
+    mutated = _mutated_pack(pack, keep=pack.positions_by_sequence[sequence_index])
+
+    torch.manual_seed(20260518)
+    base_model = _ToyCausalLM()
+    mutated_model = deepcopy(base_model)
+
+    base_loss = _packed_sequence_ce_loss(base_model, pack, target_ids, sequence_index)
+    mutated_loss = _packed_sequence_ce_loss(
+        mutated_model,
+        mutated,
+        target_ids,
+        sequence_index,
+    )
+
+    torch.testing.assert_close(mutated_loss, base_loss, rtol=0.0, atol=0.0)
+    base_loss.backward()
+    mutated_loss.backward()
+    _assert_matching_grads(mutated_model, base_model)
+
+
+def _input_ids() -> tuple[torch.Tensor, ...]:
+    return (
+        torch.tensor([1, 2, 3, 4, 5]),
+        torch.tensor([1, 2, 3, 4, 6]),
+        torch.tensor([1, 2, 3, 7]),
+        torch.tensor([1, 2, 8]),
+        torch.tensor([9, 10, 11]),
+    )
+
+
+def _targets(tokens: torch.Tensor, *, multi_target: bool) -> torch.Tensor:
+    labels = (tokens * 3 + 5) % 31
+    if not multi_target:
+        return labels
+    alternate = (tokens * 5 + 7) % 31
+    stacked = torch.stack((labels, alternate), dim=1)
+    if int(stacked.numel()) > 2:
+        stacked[1, 1] = -100
+    return stacked
+
+
+def _sequence_ce_loss(
+    model: _ToyCausalLM,
+    input_ids: torch.Tensor,
+    target_ids: torch.Tensor,
+) -> torch.Tensor:
+    seq_len = int(input_ids.numel())
+    logits = model(
+        input_ids,
+        torch.arange(seq_len),
+        torch.ones((seq_len, seq_len), dtype=torch.bool).tril(),
+    )
+    return _target_ce_loss(logits, target_ids)
+
+
+def _packed_ce_loss(
+    model: _ToyCausalLM,
+    pack: SharedPrefixPack,
+    target_ids: tuple[torch.Tensor, ...],
+) -> torch.Tensor:
+    logits = _packed_logits(model, pack)
+    losses = [
+        _target_ce_loss(logits.index_select(0, positions), labels)
+        for positions, labels in zip(
+            pack.positions_by_sequence,
+            target_ids,
+            strict=True,
+        )
+    ]
+    return torch.stack(losses).sum()
+
+
+def _packed_sequence_ce_loss(
+    model: _ToyCausalLM,
+    pack: SharedPrefixPack,
+    target_ids: tuple[torch.Tensor, ...],
+    sequence_index: int,
+) -> torch.Tensor:
+    return _target_ce_loss(
+        _packed_logits(model, pack).index_select(
+            0,
+            pack.positions_by_sequence[sequence_index],
+        ),
+        target_ids[sequence_index],
+    )
+
+
+def _packed_logits(model: _ToyCausalLM, pack: SharedPrefixPack) -> torch.Tensor:
+    return model(
+        pack.tokens.reshape(-1),
+        pack.position_ids.reshape(-1),
+        _shared_prefix_causal_mask(pack),
+    )
+
+
+def _target_ce_loss(logits: torch.Tensor, labels: torch.Tensor) -> torch.Tensor:
+    if labels.ndim == 1:
+        return F.cross_entropy(logits, labels, ignore_index=-100, reduction="sum")
+    expanded = logits.unsqueeze(1).expand(-1, int(labels.shape[1]), -1)
+    return F.cross_entropy(
+        expanded.reshape(-1, int(logits.shape[-1])),
+        labels.reshape(-1),
+        ignore_index=-100,
+        reduction="sum",
+    )
+
+
+def _mutated_pack(pack: SharedPrefixPack, *, keep: torch.Tensor) -> SharedPrefixPack:
+    tokens = pack.tokens.clone()
+    mutate = torch.ones(int(tokens.shape[1]), dtype=torch.bool)
+    mutate[keep] = False
+    replacement = torch.arange(int(tokens.shape[1]), dtype=tokens.dtype) + 17
+    tokens[0, mutate] = replacement[mutate] % 31
+    return SharedPrefixPack(
+        tokens=tokens,
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+        position_ids=pack.position_ids,
+        positions_by_sequence=pack.positions_by_sequence,
+    )
+
+
+def _assert_matching_grads(actual_model: nn.Module, expected_model: nn.Module) -> None:
+    for (name, expected_param), actual_param in zip(
+        expected_model.named_parameters(),
+        actual_model.parameters(),
+        strict=True,
+    ):
+        assert expected_param.grad is not None, name
+        assert actual_param.grad is not None, name
+        torch.testing.assert_close(
+            actual_param.grad,
+            expected_param.grad,
+            rtol=1e-10,
+            atol=1e-10,
+            msg=lambda msg, name=name: f"{name} grad mismatch:\n{msg}",
+        )
+
+
+def _shared_prefix_causal_mask(pack: SharedPrefixPack) -> torch.Tensor:
+    group_ids = pack.group_ids.reshape(-1).tolist()
+    parent_ids = pack.parent_ids.reshape(-1).tolist()
+    position_ids = pack.position_ids.reshape(-1).tolist()
+    parent_by_group: dict[int, int] = {}
+    for group_id, parent_id in zip(group_ids, parent_ids, strict=True):
+        previous = parent_by_group.setdefault(group_id, parent_id)
+        assert previous == parent_id
+
+    ancestors = {
+        group_id: _ancestor_groups(group_id, parent_by_group)
+        for group_id in parent_by_group
+    }
+    mask = torch.zeros((len(group_ids), len(group_ids)), dtype=torch.bool)
+    for query_index, query_group in enumerate(group_ids):
+        query_ancestors = ancestors[query_group]
+        query_position = position_ids[query_index]
+        for key_index, key_group in enumerate(group_ids):
+            if key_group in query_ancestors and position_ids[key_index] <= query_position:
+                mask[query_index, key_index] = True
+    return mask
+
+
+def _ancestor_groups(group_id: int, parent_by_group: dict[int, int]) -> set[int]:
+    ancestors = {group_id}
+    parent_id = parent_by_group[group_id]
+    while parent_id != group_id:
+        if parent_id in ancestors:
+            raise AssertionError("shared-prefix group parents contain a cycle")
+        ancestors.add(parent_id)
+        group_id = parent_id
+        parent_id = parent_by_group[group_id]
+    return ancestors
diff --git a/tests/unit/test_shared_prefix_packing.py b/tests/unit/test_shared_prefix_packing.py
new file mode 100644
index 000000000..d1c17d7d8
--- /dev/null
+++ b/tests/unit/test_shared_prefix_packing.py
@@ -0,0 +1,127 @@
+from __future__ import annotations
+
+import pytest
+import torch
+
+from art.megatron.shared_prefix_packing import (
+    pack_shared_prefixes,
+    visualize_shared_prefix_pack,
+)
+from art.megatron.trainer_rank import _local_position_pairs
+
+
+def test_pack_shared_prefixes_support_depth_one() -> None:
+    inputs = (
+        torch.tensor([1, 2, 3, 4]),
+        torch.tensor([1, 2, 5]),
+        torch.tensor([9]),
+    )
+
+    pack = pack_shared_prefixes(inputs, max_depth=1)
+
+    assert pack.tokens.tolist() == [[1, 2, 3, 4, 5, 9]]
+    assert pack.group_ids.tolist() == [[1, 1, 2, 2, 3, 4]]
+    assert pack.parent_ids.tolist() == [[1, 1, 1, 1, 1, 4]]
+    assert pack.position_ids.tolist() == [[0, 1, 2, 3, 2, 0]]
+    assert [positions.tolist() for positions in pack.positions_by_sequence] == [
+        [0, 1, 2, 3],
+        [0, 1, 4],
+        [5],
+    ]
+
+
+def test_pack_shared_prefixes_support_zero_depth_without_sharing() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2]),
+            torch.tensor([1, 3]),
+            torch.tensor([4]),
+        ),
+        max_depth=0,
+    )
+
+    assert pack.tokens.tolist() == [[1, 2, 1, 3, 4]]
+    assert pack.group_ids.tolist() == [[1, 1, 2, 2, 3]]
+    assert pack.parent_ids.tolist() == [[1, 1, 2, 2, 3]]
+    assert pack.position_ids.tolist() == [[0, 1, 0, 1, 0]]
+    assert [positions.tolist() for positions in pack.positions_by_sequence] == [
+        [0, 1],
+        [2, 3],
+        [4],
+    ]
+
+
+def test_pack_shared_prefixes_support_deeper_trees() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 6, 7]),
+        ),
+        max_depth=2,
+    )
+
+    assert pack.tokens.tolist() == [[1, 2, 3, 4, 5, 6, 7]]
+    assert pack.group_ids.tolist() == [[1, 2, 2, 3, 4, 5, 5]]
+    assert pack.parent_ids.tolist() == [[1, 1, 1, 2, 2, 1, 1]]
+    assert pack.position_ids.tolist() == [[0, 1, 2, 3, 3, 1, 2]]
+    assert [positions.tolist() for positions in pack.positions_by_sequence] == [
+        [0, 1, 2, 3],
+        [0, 1, 2, 4],
+        [0, 5, 6],
+    ]
+
+
+def test_packing_preserves_first_seen_branch_order() -> None:
+    pack = pack_shared_prefixes(
+        (torch.tensor([9]), torch.tensor([1])),
+        max_depth=1,
+    )
+
+    assert pack.tokens.tolist() == [[9, 1]]
+    assert [positions.tolist() for positions in pack.positions_by_sequence] == [
+        [0],
+        [1],
+    ]
+
+
+def test_packing_handles_empty_sequences() -> None:
+    pack = pack_shared_prefixes(
+        (torch.empty(0, dtype=torch.long), torch.empty(0, dtype=torch.long)),
+        max_depth=1,
+    )
+
+    assert pack.tokens.tolist() == [[]]
+    assert pack.group_ids.tolist() == [[]]
+    assert pack.parent_ids.tolist() == [[]]
+    assert [positions.tolist() for positions in pack.positions_by_sequence] == [[], []]
+
+
+def test_packing_rejects_non_1d_sequences() -> None:
+    with pytest.raises(ValueError, match="expects 1-D tensors"):
+        pack_shared_prefixes((torch.tensor([[1, 2], [3, 4]]),), max_depth=1)
+
+
+def test_visualization_includes_reverse_index() -> None:
+    pack = pack_shared_prefixes(
+        (torch.tensor([1, 2, 3]), torch.tensor([1, 2, 4])),
+        max_depth=1,
+    )
+
+    visualization = visualize_shared_prefix_pack(pack)
+
+    assert visualization.splitlines()[0] == "pos token group parent source_pos"
+    assert "seq 1: [0, 1, 3]" in visualization
+
+
+def test_local_position_pairs_preserve_requested_order_without_dense_match() -> None:
+    local_global_positions = torch.tensor([[2, -1, 0, 4, 1]])
+    item_positions = torch.tensor([0, 1, 2, 3, 4])
+
+    local_positions, source_positions = _local_position_pairs(
+        local_global_positions,
+        item_positions,
+    )
+
+    assert local_positions.tolist() == [2, 4, 0, 3]
+    assert source_positions.tolist() == [0, 1, 2, 4]
diff --git a/tests/unit/test_shared_prefix_tree.py b/tests/unit/test_shared_prefix_tree.py
new file mode 100644
index 000000000..cf7c5dfd1
--- /dev/null
+++ b/tests/unit/test_shared_prefix_tree.py
@@ -0,0 +1,490 @@
+from __future__ import annotations
+
+import pytest
+import torch
+
+from art.megatron.shared_prefix_packing import pack_shared_prefixes
+from art.megatron.shared_prefix_tree import (
+    max_shared_prefix_tree_depth,
+    parse_shared_prefix_row,
+)
+
+
+def test_parse_shared_prefix_row_tracks_ancestors_and_depth() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4, 8]),
+            torch.tensor([1, 2, 3, 4, 9]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 6]),
+        ),
+        max_depth=3,
+    )
+
+    tree = parse_shared_prefix_row(
+        group_ids=pack.group_ids[0],
+        parent_ids=pack.parent_ids[0],
+    )
+
+    assert tree.valid_tokens == int(pack.tokens.numel())
+    assert tree.max_depth == 3
+    assert [(segment.group_id, segment.ancestors) for segment in tree.segments] == [
+        (1, ()),
+        (2, (1,)),
+        (3, (1, 2)),
+        (4, (1, 2, 3)),
+        (5, (1, 2, 3)),
+        (6, (1, 2)),
+        (7, (1,)),
+    ]
+
+
+def test_parse_shared_prefix_row_rejects_missing_parent() -> None:
+    with pytest.raises(RuntimeError, match="missing parent"):
+        parse_shared_prefix_row(
+            group_ids=torch.tensor([1, 2]),
+            parent_ids=torch.tensor([1, 3]),
+        )
+
+
+def test_parse_shared_prefix_row_rejects_non_contiguous_group() -> None:
+    with pytest.raises(RuntimeError, match="contiguous group runs"):
+        parse_shared_prefix_row(
+            group_ids=torch.tensor([1, 2, 1]),
+            parent_ids=torch.tensor([1, 1, 1]),
+        )
+
+
+def test_max_shared_prefix_tree_depth_treats_flat_families_as_depth_one() -> None:
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4]),
+            torch.tensor([1, 2, 5]),
+            torch.tensor([9]),
+        ),
+        max_depth=1,
+    )
+
+    assert (
+        max_shared_prefix_tree_depth(
+            group_ids=pack.group_ids,
+            parent_ids=pack.parent_ids,
+        )
+        == 1
+    )
+
+
+def test_gdn_tree_parser_accepts_nested_tree() -> None:
+    pytest.importorskip("megatron.core.packed_seq_params")
+    from art.megatron.gdn.gdn_shared_prefix import (
+        GdnPlannerConfig,
+        build_gdn_rank_execution_plan,
+        parse_gdn_shared_prefix_segments,
+    )
+
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 6]),
+        ),
+        max_depth=2,
+    )
+
+    spec = parse_gdn_shared_prefix_segments(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    plan = build_gdn_rank_execution_plan(spec, device="cpu")
+
+    assert spec.tree_parent_indices == (-1, 0, 1, 1, 0)
+    assert spec.tree_depths == (0, 1, 2, 2, 1)
+    assert [
+        sum(bucket.segment_count for bucket in buckets)
+        for buckets in plan.tree_segment_buckets_by_depth
+    ] == [1, 2, 2]
+
+
+def test_gdn_tree_parser_accepts_zero_depth_roots() -> None:
+    pytest.importorskip("megatron.core.packed_seq_params")
+    from art.megatron.gdn.gdn_shared_prefix import (
+        build_gdn_rank_execution_plan,
+        parse_gdn_shared_prefix_segments,
+    )
+
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2]),
+            torch.tensor([1, 3]),
+            torch.tensor([4]),
+        ),
+        max_depth=0,
+    )
+
+    spec = parse_gdn_shared_prefix_segments(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    plan = build_gdn_rank_execution_plan(spec, device="cpu")
+
+    assert spec.tree_parent_indices == (-1, -1, -1)
+    assert spec.tree_depths == (0, 0, 0)
+    assert [bucket.segment_count for bucket in plan.tree_segment_buckets_by_depth[0]]
+    assert not hasattr(plan, "local_prefix_buckets")
+    assert not hasattr(plan, "chain_completion_buckets")
+    assert not hasattr(plan, "prefix_boundary_buckets")
+    assert all(
+        not bucket.needs_final_state
+        for bucket in plan.tree_segment_buckets_by_depth[0]
+    )
+
+
+def test_gdn_tree_planner_splits_leaf_and_internal_final_state_buckets() -> None:
+    pytest.importorskip("megatron.core.packed_seq_params")
+    from art.megatron.gdn.gdn_shared_prefix import (
+        GdnPlannerConfig,
+        build_gdn_rank_execution_plan,
+        parse_gdn_shared_prefix_segments,
+    )
+
+    pack = pack_shared_prefixes(
+        (
+            torch.tensor([1, 2, 3, 4, 7]),
+            torch.tensor([1, 2, 3, 4, 8]),
+            torch.tensor([1, 2, 5, 6]),
+        ),
+        max_depth=2,
+    )
+
+    spec = parse_gdn_shared_prefix_segments(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    plan = build_gdn_rank_execution_plan(
+        spec,
+        device="cpu",
+        planner_config=GdnPlannerConfig(max_padding_ratio=4.0),
+    )
+    tree_has_children = _tree_has_children(spec)
+
+    depth_one_buckets = plan.tree_segment_buckets_by_depth[1]
+    assert any(bucket.needs_final_state for bucket in depth_one_buckets)
+    assert any(not bucket.needs_final_state for bucket in depth_one_buckets)
+    for bucket in depth_one_buckets:
+        expected = {
+            tree_has_children[family_index]
+            for family_index in bucket.family_indices.tolist()
+        }
+        assert expected == {bucket.needs_final_state}
+
+
+def test_gdn_tree_cp_plan_chains_long_nodes() -> None:
+    pytest.importorskip("megatron.core.packed_seq_params")
+    from art.megatron.gdn.gdn_shared_prefix import (
+        GdnPlannerConfig,
+        build_gdn_rank_execution_plan,
+        parse_gdn_shared_prefix_segments,
+    )
+
+    root = torch.arange(1, 321)
+    mid = torch.arange(1001, 1321)
+    other = torch.arange(2001, 2321)
+    pack = pack_shared_prefixes(
+        (
+            torch.cat((root, mid, torch.tensor([11]))),
+            torch.cat((root, mid, torch.tensor([12]))),
+            torch.cat((root, other, torch.tensor([13]))),
+        ),
+        max_depth=3,
+    )
+    spec = parse_gdn_shared_prefix_segments(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    config = _chain_every_legal_segment_config()
+    plans = tuple(
+        build_gdn_rank_execution_plan(
+            spec,
+            device="cpu",
+            cp_rank=rank,
+            cp_size=4,
+            planner_config=config,
+        )
+        for rank in range(4)
+    )
+
+    assert _covered_token_indices(plans) == set(range(spec.real_token_count))
+    assert any(plans[0].tree_chain_buckets_by_depth[0])
+    assert not any(
+        bucket
+        for plan in plans
+        for depth_buckets in plan.tree_chain_buckets_by_depth[1:]
+        for bucket in depth_buckets
+    )
+    _assert_parent_local_non_chained_children(spec, plans)
+    for plan in plans:
+        assert sum(plan.gdn_token_count for plan in plans) == spec.real_token_count
+        for depth_buckets in plan.tree_chain_buckets_by_depth:
+            for bucket in depth_buckets:
+                assert bucket.lengths_by_rank_cpu is not None
+                assert tuple(bucket.lengths_by_rank_cpu.shape)[0] == 4
+                assert bucket.parent_indices is not None
+
+
+def test_gdn_tree_cp_plan_keeps_non_chained_children_parent_local() -> None:
+    pytest.importorskip("megatron.core.packed_seq_params")
+    from art.megatron.gdn.gdn_shared_prefix import (
+        build_gdn_rank_execution_plan,
+        parse_gdn_shared_prefix_segments,
+    )
+
+    root = torch.arange(1, 17)
+    mid = torch.arange(1001, 1321)
+    pack = pack_shared_prefixes(
+        (
+            torch.cat((root, mid, torch.tensor([11]))),
+            torch.cat((root, mid, torch.tensor([12]))),
+            torch.cat((root, torch.tensor([99]))),
+        ),
+        max_depth=2,
+    )
+    spec = parse_gdn_shared_prefix_segments(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    plans = tuple(
+        build_gdn_rank_execution_plan(
+            spec,
+            device="cpu",
+            cp_rank=rank,
+            cp_size=4,
+            planner_config=_chain_every_legal_segment_config(),
+        )
+        for rank in range(4)
+    )
+    assert _covered_token_indices(plans) == set(range(spec.real_token_count))
+    assert not any(
+        bucket
+        for plan in plans
+        for depth_buckets in plan.tree_chain_buckets_by_depth[1:]
+        for bucket in depth_buckets
+    )
+    _assert_parent_local_non_chained_children(spec, plans)
+
+
+def test_gdn_tree_cp_randomized_plans_cover_each_token_once() -> None:
+    pytest.importorskip("megatron.core.packed_seq_params")
+    from art.megatron.gdn.gdn_shared_prefix import (
+        build_gdn_rank_execution_plan,
+        parse_gdn_shared_prefix_segments,
+    )
+
+    config = _chain_every_legal_segment_config()
+    for seed in range(8):
+        pack = pack_shared_prefixes(
+            _random_tree_sequences(seed),
+            max_depth=4,
+        )
+        spec = parse_gdn_shared_prefix_segments(
+            group_ids=pack.group_ids,
+            parent_ids=pack.parent_ids,
+        )
+        plans = tuple(
+            build_gdn_rank_execution_plan(
+                spec,
+                device="cpu",
+                cp_rank=rank,
+                cp_size=4,
+                planner_config=config,
+            )
+            for rank in range(4)
+        )
+
+        assert _covered_token_indices(plans) == set(range(spec.real_token_count))
+        assert sum(plan.gdn_token_count for plan in plans) == spec.real_token_count
+        for plan in plans:
+            for depth_buckets in (
+                *plan.tree_segment_buckets_by_depth,
+                *plan.tree_chain_buckets_by_depth,
+            ):
+                for bucket in depth_buckets:
+                    assert bucket.parent_indices is not None
+                    assert int(bucket.real_token_count) > 0
+
+
+def test_gdn_tree_cp_randomized_plans_pass_health_checks() -> None:
+    pytest.importorskip("megatron.core.packed_seq_params")
+    from art.megatron.gdn.gdn_shared_prefix import (
+        GdnPlannerConfig,
+        build_gdn_rank_execution_plan,
+        parse_gdn_shared_prefix_segments,
+    )
+
+    config = GdnPlannerConfig(
+        cp_chain_min_tokens_per_rank=1,
+        cp_chain_min_total_tokens=64,
+        cp_chain_min_prefix_only_tokens=64,
+        cp_tree_chain_min_total_tokens=64,
+        cp_tree_chain_min_prefix_only_tokens=64,
+        max_padding_ratio=4.0,
+    )
+    for seed in range(16):
+        pack = pack_shared_prefixes(
+            _random_tree_sequences(seed + 100, max_depth=5),
+            max_depth=5,
+        )
+        spec = parse_gdn_shared_prefix_segments(
+            group_ids=pack.group_ids,
+            parent_ids=pack.parent_ids,
+        )
+        plans = tuple(
+            build_gdn_rank_execution_plan(
+                spec,
+                device="cpu",
+                cp_rank=rank,
+                cp_size=4,
+                planner_config=config,
+            )
+            for rank in range(4)
+        )
+
+        _assert_tree_plan_health(spec, plans, max_padding_ratio=config.max_padding_ratio)
+
+
+def _chain_every_legal_segment_config():
+    from art.megatron.gdn.gdn_shared_prefix import GdnPlannerConfig
+
+    return GdnPlannerConfig(
+        cp_chain_min_tokens_per_rank=1,
+        cp_chain_min_total_tokens=1,
+        cp_chain_min_prefix_only_tokens=1,
+        max_padding_ratio=4.0,
+    )
+
+
+def _covered_token_indices(plans) -> set[int]:
+    return {
+        token
+        for plan in plans
+        for start, end, _position in plan.gdn_token_ranges
+        for token in range(start, end)
+    }
+
+
+def _local_owner_by_family(plans) -> dict[int, int]:
+    owner_by_family = {}
+    for rank, plan in enumerate(plans):
+        for depth_buckets in plan.tree_segment_buckets_by_depth:
+            for bucket in depth_buckets:
+                for family_index in bucket.family_indices.tolist():
+                    previous = owner_by_family.setdefault(int(family_index), rank)
+                    assert previous == rank
+    return owner_by_family
+
+
+def _assert_parent_local_non_chained_children(spec, plans) -> None:
+    owner_by_family = _local_owner_by_family(plans)
+    for family_index, parent_index in enumerate(spec.tree_parent_indices):
+        if parent_index < 0 or parent_index not in owner_by_family:
+            continue
+        assert owner_by_family[family_index] == owner_by_family[parent_index]
+
+
+def _tree_has_children(spec) -> list[bool]:
+    has_children = [False] * spec.family_count
+    for parent_index in spec.tree_parent_indices:
+        if parent_index >= 0:
+            has_children[parent_index] = True
+    return has_children
+
+
+def _assert_tree_plan_health(spec, plans, *, max_padding_ratio: float) -> None:
+    tree_has_children = _tree_has_children(spec)
+    token_counts = [0] * int(spec.real_token_count)
+    for plan in plans:
+        range_tokens = sum(end - start for start, end, _position in plan.gdn_token_ranges)
+        assert range_tokens == int(plan.gdn_token_count)
+        assert len(plan.attention_token_indices) == int(plan.attention_token_count)
+
+        bucket_tokens = 0
+        for depth_buckets in plan.tree_segment_buckets_by_depth:
+            for bucket in depth_buckets:
+                bucket_tokens += int(bucket.real_token_count)
+                assert bucket.parent_indices is not None
+                assert int(bucket.parent_indices.numel()) == int(bucket.segment_count)
+                assert int(bucket.real_token_count) > 0
+                padding_ratio = bucket.length * bucket.segment_count / bucket.real_token_count
+                assert padding_ratio <= max_padding_ratio
+                bucket_state_flags = {
+                    tree_has_children[family_index]
+                    for family_index in bucket.family_indices.tolist()
+                }
+                assert bucket_state_flags == {bucket.needs_final_state}
+                for family_index, parent_index in zip(
+                    bucket.family_indices.tolist(),
+                    bucket.parent_indices.tolist(),
+                    strict=True,
+                ):
+                    assert spec.tree_parent_indices[family_index] == parent_index
+
+        for depth_buckets in plan.tree_chain_buckets_by_depth:
+            for bucket in depth_buckets:
+                bucket_tokens += int(bucket.real_token_count)
+                assert bucket.parent_indices is not None
+                assert int(bucket.parent_indices.numel()) == int(bucket.segment_count)
+                assert int(bucket.real_token_count) > 0
+                padding_ratio = bucket.length * bucket.segment_count / bucket.real_token_count
+                assert padding_ratio <= max_padding_ratio
+                bucket_state_flags = {
+                    tree_has_children[family_index]
+                    for family_index in bucket.family_indices.tolist()
+                }
+                if bucket.needs_final_state:
+                    assert any(bucket_state_flags)
+                else:
+                    assert bucket_state_flags == {False}
+                for family_index, parent_index in zip(
+                    bucket.family_indices.tolist(),
+                    bucket.parent_indices.tolist(),
+                    strict=True,
+                ):
+                    assert spec.tree_parent_indices[family_index] == parent_index
+        assert bucket_tokens == int(plan.gdn_token_count)
+
+        for start, end, _position in plan.gdn_token_ranges:
+            for token_index in range(start, end):
+                token_counts[token_index] += 1
+
+    _assert_parent_local_non_chained_children(spec, plans)
+    assert token_counts == [1] * int(spec.real_token_count)
+    rank_tokens = [int(plan.gdn_token_count) for plan in plans]
+    assert max(rank_tokens) - min(rank_tokens) <= max(256, spec.real_token_count // 3)
+
+
+def _random_tree_sequences(seed: int, *, max_depth: int = 4) -> tuple[torch.Tensor, ...]:
+    generator = torch.Generator().manual_seed(seed)
+    next_token = 1
+
+    def tokens(length: int) -> torch.Tensor:
+        nonlocal next_token
+        out = torch.arange(next_token, next_token + length)
+        next_token += length
+        return out
+
+    def randint(low: int, high: int) -> int:
+        return int(torch.randint(low, high + 1, (), generator=generator).item())
+
+    def walk(prefix: torch.Tensor, depth: int) -> list[torch.Tensor]:
+        segment_length = [1, 3, 17, 64, 129, 257][randint(0, 5)]
+        here = torch.cat((prefix, tokens(segment_length)))
+        if depth + 1 >= max_depth:
+            return [
+                torch.cat((here, tokens(randint(1, 9))))
+                for _ in range(randint(2, 4))
+            ]
+        leaves: list[torch.Tensor] = []
+        for _ in range(randint(2, 3)):
+            leaves.extend(walk(here, depth + 1))
+        return leaves
+
+    return tuple(walk(torch.empty(0, dtype=torch.long), 0))
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
new file mode 100644
index 000000000..80ab47176
--- /dev/null
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -0,0 +1,50 @@
+from __future__ import annotations
+
+from types import SimpleNamespace
+
+import pytest
+import torch
+
+from art.megatron.trainer_rank import (
+    ForwardInput,
+    TrainerRank,
+    _validate_top_k,
+)
+
+
+class _Model:
+    vocab_size = 8
+
+
+def test_forward_input_rejects_non_positive_top_k() -> None:
+    with pytest.raises(ValueError, match="top_k must be >= 1"):
+        ForwardInput(input_tokens=torch.tensor([1]), top_k=0)
+
+
+def test_validate_top_k_rejects_values_above_vocab_size() -> None:
+    with pytest.raises(ValueError, match="top_k=9 exceeds vocabulary size 8"):
+        _validate_top_k(9, _Model())  # type: ignore[arg-type]
+
+
+def test_trainer_rank_accepts_nested_shared_prefix_for_gdn_runtime() -> None:
+    runtime = SimpleNamespace(
+        model=[torch.nn.Linear(1, 1)],
+        optimizer=None,
+        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
+    )
+
+    trainer = TrainerRank(runtime, shared_prefix_max_depth=2)  # type: ignore[arg-type]
+
+    assert trainer.shared_prefix_max_depth == 2
+
+
+def test_trainer_rank_accepts_zero_depth_shared_prefix_for_gdn_runtime() -> None:
+    runtime = SimpleNamespace(
+        model=[torch.nn.Linear(1, 1)],
+        optimizer=None,
+        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
+    )
+
+    trainer = TrainerRank(runtime, shared_prefix_max_depth=0)  # type: ignore[arg-type]
+
+    assert trainer.shared_prefix_max_depth == 0

From 5ffdca7352772bab471176f2ceb0d6ae1407e0df Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Fri, 19 Jun 2026 20:42:45 -0600
Subject: [PATCH 004/114] fix: satisfy quality checks

---
 dev/trainer_rank_parity_probe.py              | 27 +++++---
 dev/trainer_rank_perf.py                      | 56 ++++++++++++-----
 dev/trainer_rank_topology_check.py            |  8 ++-
 src/art/megatron/context_parallel/builder.py  |  4 +-
 src/art/megatron/gdn/gdn_shared_prefix.py     | 29 +++++----
 src/art/megatron/gdn/operator.py              | 17 ++++--
 src/art/megatron/shared_prefix_packing.py     | 10 +--
 src/art/megatron/shared_prefix_state.py       |  1 +
 src/art/megatron/shared_prefix_tree.py        | 10 +--
 src/art/megatron/trainer_rank.py              | 13 ++--
 src/art/megatron/trainer_rank_topk.py         | 61 +++++++++++--------
 .../test_attention_packed_vs_flattened.py     | 12 ++--
 .../megatron/gdn_shared_prefix/oracles.py     | 12 ++--
 .../gdn_shared_prefix/real_gdn_oracle.py      |  4 +-
 .../test_gdn_cp_packed_correctness.py         |  3 +-
 ...en35_full_model_cp1_packed_vs_flattened.py | 14 +----
 .../test_shared_prefix_attention_builder.py   |  5 +-
 tests/unit/test_shared_prefix_grad_parity.py  |  9 ++-
 tests/unit/test_shared_prefix_tree.py         | 26 +++++---
 19 files changed, 196 insertions(+), 125 deletions(-)

diff --git a/dev/trainer_rank_parity_probe.py b/dev/trainer_rank_parity_probe.py
index a6c6daf1c..8e372fa75 100644
--- a/dev/trainer_rank_parity_probe.py
+++ b/dev/trainer_rank_parity_probe.py
@@ -110,9 +110,7 @@ def main(
         dist.all_gather_object(gathered, records)
         if dist.get_rank() == 0:
             flat_records = [
-                record
-                for rank_records in gathered
-                for record in rank_records or []
+                record for rank_records in gathered for record in rank_records or []
             ]
             report = _build_report(
                 records=flat_records,
@@ -203,6 +201,7 @@ def _unique_requests(
         for index in range(sequences)
     ]
 
+
 def _run_capture(
     rank: TrainerRank,
     requests: Sequence[AnyForwardInput],
@@ -215,7 +214,9 @@ def _run_capture(
     items = [rank._forward_item(request) for request in requests]
     batch = _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
     if mutate_except is not None:
-        batch = _mutated_batch(batch, keep_positions=batch.positions_by_item[mutate_except])
+        batch = _mutated_batch(
+            batch, keep_positions=batch.positions_by_item[mutate_except]
+        )
     prepared = rank._prepare_packed_forward(batch)
     local_seq_len = int(prepared.tokens.shape[1])
     values: dict[str, torch.Tensor] = {}
@@ -247,9 +248,7 @@ def _run_capture(
                 rotary_pos_emb=preprocessed[1],
                 rotary_pos_cos=preprocessed[2],
                 rotary_pos_sin=preprocessed[3],
-                rotary_pos_cos_sin=preprocessed[6]
-                if len(preprocessed) == 7
-                else None,
+                rotary_pos_cos_sin=preprocessed[6] if len(preprocessed) == 7 else None,
                 packed_seq_params=prepared.packed_seq_params,
                 sequence_len_offset=preprocessed[4],
                 padding_mask=preprocessed[5],
@@ -331,7 +330,9 @@ def _capture_label(module_name: str) -> str | None:
     input_norm_match = re.fullmatch(rf"{layer_prefix}\.input_layernorm", module_name)
     if input_norm_match:
         return f"05.layer.{int(input_norm_match.group(1)):03d}.input_layernorm"
-    qkv_match = re.fullmatch(rf"{layer_prefix}\.self_attention\.linear_qkv", module_name)
+    qkv_match = re.fullmatch(
+        rf"{layer_prefix}\.self_attention\.linear_qkv", module_name
+    )
     if qkv_match:
         return f"08.layer.{int(qkv_match.group(1)):03d}.self_attention.linear_qkv"
     core_attention_match = re.fullmatch(
@@ -390,7 +391,11 @@ def _rows(tensor: torch.Tensor, *, seq_len: int) -> torch.Tensor:
             return rows[:, 0].contiguous()
         return rows.contiguous()
     if tensor.ndim >= 2 and int(tensor.shape[1]) == seq_len:
-        rows = tensor[:, :, 0] if tensor.ndim == 4 and int(tensor.shape[2]) == 1 else tensor
+        rows = (
+            tensor[:, :, 0]
+            if tensor.ndim == 4 and int(tensor.shape[2]) == 1
+            else tensor
+        )
         if int(rows.shape[0]) == 1:
             return rows[0].contiguous()
     raise RuntimeError(
@@ -517,7 +522,9 @@ def _assemble(
         output[positions] = value
         filled[positions] = True
     if not bool(filled.all().item()):
-        raise RuntimeError(f"Missing positions for {kind} {name} request={request_index}")
+        raise RuntimeError(
+            f"Missing positions for {kind} {name} request={request_index}"
+        )
     return output
 
 
diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 2ce878a3f..669d422f1 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -244,7 +244,9 @@ def register_case(
                 )
             if "logits_builtin_fwd" in benchmarks:
                 assert logits_prepared is not None
-                register_case("logits_builtin_fwd", _logits_requests(requests), request_stats)
+                register_case(
+                    "logits_builtin_fwd", _logits_requests(requests), request_stats
+                )
                 results["logits_builtin_fwd_ms"] = _bench(
                     lambda: _full_logits(rank, logits_prepared),
                     warmup=warmup,
@@ -252,7 +254,9 @@ def register_case(
                 )
             if "logits_hidden_fwd" in benchmarks:
                 assert logits_items is not None and logits_prepared is not None
-                register_case("logits_hidden_fwd", _logits_requests(requests), request_stats)
+                register_case(
+                    "logits_hidden_fwd", _logits_requests(requests), request_stats
+                )
                 results["logits_hidden_fwd_ms"] = _bench(
                     lambda: rank._project_head(
                         logits_items,
@@ -329,7 +333,9 @@ def register_case(
                 register_case(
                     name,
                     case_requests,
-                    _packed_request_stats(case_requests, items, batch, request_metadata={}),
+                    _packed_request_stats(
+                        case_requests, items, batch, request_metadata={}
+                    ),
                 )
                 prepared = rank._prepare_packed_forward(batch)
                 results[f"{name}_ms"] = _bench(
@@ -360,7 +366,9 @@ def register_case(
                 register_case(
                     "trainer_topk_head",
                     case_requests,
-                    _packed_request_stats(case_requests, items, batch, request_metadata={}),
+                    _packed_request_stats(
+                        case_requests, items, batch, request_metadata={}
+                    ),
                 )
                 prepared = rank._prepare_packed_forward(batch)
                 hidden = rank._gather_sequence_parallel_hidden(
@@ -869,10 +877,14 @@ def _packed_request_stats(
         **request_metadata,
         "request_count": len(requests),
         "packed_tokens": int(batch.tokens.numel()),
-        "logical_tokens": sum(int(request.input_tokens.numel()) for request in requests),
+        "logical_tokens": sum(
+            int(request.input_tokens.numel()) for request in requests
+        ),
         "trainable_tokens": trainable_tokens,
         "packed_trainable_tokens": int(trainable_mask.sum().item()),
-        "packed_group_count": int(group_ids.max().item()) if int(group_ids.numel()) else 0,
+        "packed_group_count": int(group_ids.max().item())
+        if int(group_ids.numel())
+        else 0,
         "nested_prefix_depth": max_shared_prefix_tree_depth(
             group_ids=group_ids,
             parent_ids=parent_ids,
@@ -911,7 +923,9 @@ def _gather_planner_metadata(prepared: object) -> dict[str, object]:
         if not values:
             continue
         if key.endswith("_ratio"):
-            merged[f"planner_{key}_max"] = round(max(float(value) for value in values), 3)
+            merged[f"planner_{key}_max"] = round(
+                max(float(value) for value in values), 3
+            )
         else:
             merged[f"planner_{key}_sum"] = int(sum(int(value) for value in values))
             merged[f"planner_{key}_max"] = int(max(int(value) for value in values))
@@ -923,7 +937,9 @@ def _gather_planner_metadata(prepared: object) -> dict[str, object]:
 
 
 def _local_planner_metadata(prepared: object) -> dict[str, object]:
-    plan = getattr(getattr(prepared, "attention_state", None), "gdn_execution_plan", None)
+    plan = getattr(
+        getattr(prepared, "attention_state", None), "gdn_execution_plan", None
+    )
     if plan is None:
         return {}
     local_buckets = tuple(
@@ -950,11 +966,21 @@ def _local_planner_metadata(prepared: object) -> dict[str, object]:
         "tree_completion_count": int(getattr(plan, "completion_count", 0)),
         "tree_local_bucket_count": len(local_buckets),
         "tree_chain_bucket_count": len(chain_buckets),
-        "tree_local_segment_count": sum(bucket.segment_count for bucket in local_buckets),
-        "tree_chain_segment_count": sum(bucket.segment_count for bucket in chain_buckets),
-        "tree_local_real_tokens": sum(bucket.real_token_count for bucket in local_buckets),
-        "tree_chain_real_tokens": sum(bucket.real_token_count for bucket in chain_buckets),
-        "tree_state_transfer_count": sum(len(transfers) for transfers in transfers_by_depth),
+        "tree_local_segment_count": sum(
+            bucket.segment_count for bucket in local_buckets
+        ),
+        "tree_chain_segment_count": sum(
+            bucket.segment_count for bucket in chain_buckets
+        ),
+        "tree_local_real_tokens": sum(
+            bucket.real_token_count for bucket in local_buckets
+        ),
+        "tree_chain_real_tokens": sum(
+            bucket.real_token_count for bucket in chain_buckets
+        ),
+        "tree_state_transfer_count": sum(
+            len(transfers) for transfers in transfers_by_depth
+        ),
         "tree_state_transfer_rows": sum(
             len(transfer.family_indices)
             for transfers in transfers_by_depth
@@ -1096,9 +1122,7 @@ def _trainer_topk_loss(
 ) -> torch.Tensor:
     outputs = rank._forward_packed(items, prepared)
     losses = [
-        -output.top_k.logprobs.sum()
-        for output in outputs
-        if output.top_k is not None
+        -output.top_k.logprobs.sum() for output in outputs if output.top_k is not None
     ]
     if not losses:
         raise RuntimeError("top_k logprobs were not produced")
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index 7b8c6e231..c20a62d33 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -255,7 +255,9 @@ def main(
                             ),
                             "same_layout": compare_same_layout,
                             "stress_tokens": stress_tokens,
-                            "estimated_unpacked_output_gb": round(unpacked_output_gb, 3),
+                            "estimated_unpacked_output_gb": round(
+                                unpacked_output_gb, 3
+                            ),
                             "elapsed_s": round(elapsed_s, 3),
                             "peak_memory_gb": round(float(peak_memory_gb.item()), 3),
                         },
@@ -756,7 +758,9 @@ def _records(
 ) -> list[dict[str, object]]:
     records: list[dict[str, object]] = []
     independent_records: list[CheckOutput | None] = (
-        independent_outputs if independent_outputs is not None else [None] * len(local_pairs)
+        independent_outputs
+        if independent_outputs is not None
+        else [None] * len(local_pairs)
     )
     for local_index, (
         (input_index, _),
diff --git a/src/art/megatron/context_parallel/builder.py b/src/art/megatron/context_parallel/builder.py
index 6dede229b..6b324d3f5 100644
--- a/src/art/megatron/context_parallel/builder.py
+++ b/src/art/megatron/context_parallel/builder.py
@@ -71,7 +71,9 @@ def build_shared_prefix_attention_spec(
     ):
         if row.valid_tokens == 0:
             rows.append(
-                PackedRowAttentionSpec(row_index=row.row_index, valid_tokens=0, slices=())
+                PackedRowAttentionSpec(
+                    row_index=row.row_index, valid_tokens=0, slices=()
+                )
             )
             continue
 
diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index cd29a3e3c..704a049e9 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -82,6 +82,8 @@ def segments(self) -> tuple[GdnSegmentSpec, ...]:
         "child_index",
     }
 )
+
+
 def _trusted_pydantic_construct(
     model_type: type[_PydanticModelT],
     fields_set: frozenset[str],
@@ -323,10 +325,14 @@ def _build_tree_rank_execution_plan(
         siblings_by_parent: dict[int, list[GdnSegmentSpec]] = {}
         for segment in depth_segments:
             parent_index = spec.tree_parent_indices[segment.family_index]
-            if parent_index < 0 and cp_size > 1 and _can_chain_tree_segment(
-                segment,
-                cp_size=cp_size,
-                planner_config=planner_config,
+            if (
+                parent_index < 0
+                and cp_size > 1
+                and _can_chain_tree_segment(
+                    segment,
+                    cp_size=cp_size,
+                    planner_config=planner_config,
+                )
             ):
                 chained_nodes[segment.family_index] = True
                 chain_segments_by_depth[depth].append(segment)
@@ -434,7 +440,9 @@ def _build_tree_rank_execution_plan(
         else tuple(() for _ in range(depth_count))
     )
     if cp_size == 1:
-        valid_lengths = torch.tensor(spec.valid_lengths, device=device, dtype=torch.long)
+        valid_lengths = torch.tensor(
+            spec.valid_lengths, device=device, dtype=torch.long
+        )
         positions = torch.arange(spec.sequence_length, device=device, dtype=torch.long)
         real_token_mask = positions.unsqueeze(0) < valid_lengths.unsqueeze(1)
     else:
@@ -733,8 +741,7 @@ def _best_segment_owner(
         target_load = sum(projected_loads) / max(1, len(projected_loads))
         overload = max(
             0.0,
-            max_load
-            - planner_config.max_zero_exchange_load_imbalance * target_load,
+            max_load - planner_config.max_zero_exchange_load_imbalance * target_load,
         )
         idle_tokens = sum(max_load - load for load in projected_loads)
         cross_rank_tokens = segment_length - int(tokens)
@@ -1376,14 +1383,10 @@ def _batch_tree_segments_by_padded_work(
     max_segments_per_batch: int = 128,
 ) -> tuple[tuple[GdnSegmentSpec, ...], ...]:
     stateful = tuple(
-        segment
-        for segment in segments
-        if tree_has_children[segment.family_index]
+        segment for segment in segments if tree_has_children[segment.family_index]
     )
     stateless = tuple(
-        segment
-        for segment in segments
-        if not tree_has_children[segment.family_index]
+        segment for segment in segments if not tree_has_children[segment.family_index]
     )
     return (
         *_batch_segments_by_padded_work(
diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index 98736e7b9..693bf1b68 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -641,8 +641,14 @@ def _run_tree_bucket(
     )
     if bucket.needs_final_state and (segment_conv is None or segment_rec is None):
         raise RuntimeError("tree GDN execution must return final states")
-    if bucket.needs_final_state and segment_conv is not None and segment_rec is not None:
-        cp_dependency = _make_autograd_dependency(segment_out, segment_conv, segment_rec)
+    if (
+        bucket.needs_final_state
+        and segment_conv is not None
+        and segment_rec is not None
+    ):
+        cp_dependency = _make_autograd_dependency(
+            segment_out, segment_conv, segment_rec
+        )
     else:
         cp_dependency = _make_autograd_dependency(segment_out)
     recurrent_output = _scatter_bucket_recurrent_output(
@@ -696,7 +702,7 @@ def parent_states(
         bucket: GdnSegmentBucketPlan,
         *,
         state_reference: Tensor,
-    ) -> tuple[Tensor, Tensor, Tensor]:
+    ) -> tuple[Tensor, Tensor]:
         parent_indices = bucket.parent_indices
         if parent_indices is None:
             raise RuntimeError("tree GDN bucket is missing parent indices")
@@ -816,7 +822,10 @@ def _long_tensor(values: Iterable[int], *, device: torch.device) -> Tensor:
 def _bucket_has_parent_state(bucket: GdnSegmentBucketPlan) -> bool:
     parent_indices_cpu = bucket.parent_indices_cpu
     if parent_indices_cpu is None:
-        parent_indices_cpu = bucket.parent_indices.detach().cpu()
+        parent_indices = bucket.parent_indices
+        if parent_indices is None:
+            raise RuntimeError("tree GDN bucket is missing parent indices")
+        parent_indices_cpu = parent_indices.detach().cpu()
     return any(int(parent_index) >= 0 for parent_index in parent_indices_cpu.tolist())
 
 
diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index a4e41de0b..cbcaf6092 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -133,8 +133,10 @@ def walk(
         active = indices[lengths.index_select(0, indices) > start]
         if int(active.numel()) == 0:
             return
-        if max_depth == 0 or int(active.numel()) == 1 or (
-            parent_group_id is not None and depth >= max_depth
+        if (
+            max_depth == 0
+            or int(active.numel()) == 1
+            or (parent_group_id is not None and depth >= max_depth)
         ):
             for sequence_index in active:
                 emit(
@@ -181,9 +183,7 @@ def visualize_shared_prefix_pack(pack: SharedPrefixPack) -> str:
             strict=True,
         )
     ):
-        rows.append(
-            f"{position:>3} {token:>5} {group:>5} {parent:>6} {source_pos:>10}"
-        )
+        rows.append(f"{position:>3} {token:>5} {group:>5} {parent:>6} {source_pos:>10}")
     for index, positions in enumerate(pack.positions_by_sequence):
         rows.append(f"seq {index}: {positions.detach().cpu().tolist()}")
     return "\n".join(rows)
diff --git a/src/art/megatron/shared_prefix_state.py b/src/art/megatron/shared_prefix_state.py
index 1f5a152ae..4221a3e0d 100644
--- a/src/art/megatron/shared_prefix_state.py
+++ b/src/art/megatron/shared_prefix_state.py
@@ -310,6 +310,7 @@ def _build_gdn_execution_spec_once(
         group_ids, parent_ids, min_completions_per_family=0
     )
 
+
 def _build_gdn_execution_plan_once(
     spec: GdnPackedExecutionSpec | None,
     *,
diff --git a/src/art/megatron/shared_prefix_tree.py b/src/art/megatron/shared_prefix_tree.py
index 48ad77ecc..6d68ed10b 100644
--- a/src/art/megatron/shared_prefix_tree.py
+++ b/src/art/megatron/shared_prefix_tree.py
@@ -46,11 +46,14 @@ def segment_by_group_id(self) -> dict[int, SharedPrefixSegment]:
             segments.setdefault(segment.group_id, segment)
         return segments
 
-    def group_can_attend_matrix(self) -> tuple[tuple[int, ...], tuple[tuple[bool, ...], ...]]:
+    def group_can_attend_matrix(
+        self,
+    ) -> tuple[tuple[int, ...], tuple[tuple[bool, ...], ...]]:
         group_ids = tuple(sorted({segment.group_id for segment in self.segments}))
         group_index = {group_id: index + 1 for index, group_id in enumerate(group_ids)}
         matrix = [
-            [False for _ in range(len(group_ids) + 1)] for _ in range(len(group_ids) + 1)
+            [False for _ in range(len(group_ids) + 1)]
+            for _ in range(len(group_ids) + 1)
         ]
         for segment in self.segments:
             query_index = group_index[segment.group_id]
@@ -105,8 +108,7 @@ def parse_shared_prefix_row(
         )
     if group_ids.ndim != 1:
         raise RuntimeError(
-            "group_ids and parent_ids must be rank-1 row tensors, got "
-            f"{group_ids.ndim}"
+            f"group_ids and parent_ids must be rank-1 row tensors, got {group_ids.ndim}"
         )
 
     valid_tokens = _valid_length(
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index a4cfd897a..1f669c891 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -14,6 +14,7 @@
     from megatron.bridge.models.gpt_provider import GPTModelProvider
     from megatron.core.models.gpt.gpt_model import GPTModel
     from megatron.core.optimizer import MegatronOptimizer, OptimizerConfig
+    from megatron.core.packed_seq_params import PackedSeqParams
 
     from art.megatron.context_parallel.types import (
         ArtContextParallelState,
@@ -311,7 +312,7 @@ class _PreparedPackedForward:
     tokens: torch.Tensor
     position_ids: torch.Tensor
     attention_state: "SharedPrefixAttentionState | ArtContextParallelState"
-    packed_seq_params: object | None
+    packed_seq_params: "PackedSeqParams | None"
     positions_by_item: tuple[torch.Tensor, ...]
     source_positions_by_item: tuple[torch.Tensor, ...]
 
@@ -655,7 +656,7 @@ def _decoder_hidden(
         preprocessed = model._preprocess(
             input_ids=prepared.tokens,
             position_ids=prepared.position_ids,
-            packed_seq_params=prepared.packed_seq_params,
+            packed_seq_params=cast("PackedSeqParams", prepared.packed_seq_params),
         )
         (
             decoder_input,
@@ -1534,7 +1535,9 @@ def _can_use_reference_target_ce(
     return (
         os.environ.get("ART_TRAINER_RANK_REFERENCE_TARGET_CE", "0").lower()
         not in {"0", "false"}
-        and all(item.request.top_k is None and not item.request.logits for item in items)
+        and all(
+            item.request.top_k is None and not item.request.logits for item in items
+        )
         and any(labels is not None and labels.ndim > 1 for labels in label_rows)
     )
 
@@ -1569,7 +1572,9 @@ def _reference_row_labels(
         candidates = candidates.masked_select(has_label)
         unset = references.index_select(0, row_offsets) == -100
         if bool(unset.any()):
-            references[row_offsets.masked_select(unset)] = candidates.masked_select(unset)
+            references[row_offsets.masked_select(unset)] = candidates.masked_select(
+                unset
+            )
     if bool((references == -100).any()):
         return None
     return references
diff --git a/src/art/megatron/trainer_rank_topk.py b/src/art/megatron/trainer_rank_topk.py
index ededba63a..77c27fb4c 100644
--- a/src/art/megatron/trainer_rank_topk.py
+++ b/src/art/megatron/trainer_rank_topk.py
@@ -1,6 +1,7 @@
 from __future__ import annotations
 
 from dataclasses import dataclass
+from typing import Any
 
 import torch
 import triton
@@ -151,7 +152,9 @@ def _logsumexp_stage1_kernel(
     block_max = tl.max(values, axis=0)
     partial_offset = row * n_blocks + block
     tl.store(partial_max_ptr + partial_offset, block_max)
-    tl.store(partial_sum_ptr + partial_offset, tl.sum(tl.exp(values - block_max), axis=0))
+    tl.store(
+        partial_sum_ptr + partial_offset, tl.sum(tl.exp(values - block_max), axis=0)
+    )
 
 
 @triton.jit
@@ -179,7 +182,9 @@ def _logsumexp_stage2_kernel(
         other=0.0,
     )
     tl.store(local_max_ptr + row, row_max)
-    tl.store(local_sum_ptr + row, tl.sum(block_sum * tl.exp(block_max - row_max), axis=0))
+    tl.store(
+        local_sum_ptr + row, tl.sum(block_sum * tl.exp(block_max - row_max), axis=0)
+    )
 
 
 @triton.jit
@@ -249,7 +254,8 @@ def forward(ctx, local_logits: torch.Tensor, k: int):
         return stats.local_max, stats.local_sum, stats.values, stats.tokens
 
     @staticmethod
-    def backward(ctx, grad_local_max, grad_local_sum, grad_values, grad_tokens):
+    def backward(ctx: Any, *grad_outputs: Any) -> Any:
+        grad_local_max, grad_local_sum, grad_values, grad_tokens = grad_outputs
         del grad_local_max, grad_tokens
         logits, local_max, tokens = ctx.saved_tensors
         k = int(ctx.k)
@@ -276,10 +282,10 @@ def backward(ctx, grad_local_max, grad_local_sum, grad_values, grad_tokens):
             grad_values.contiguous(),
             grad_logits,
             logits.stride(0),
-            vocab_size,
-            k,
-            block_v,
-            num_warps=8,
+            vocab_size,  # ty: ignore[invalid-argument-type]
+            k,  # ty: ignore[invalid-argument-type]
+            block_v,  # ty: ignore[invalid-argument-type]
+            num_warps=8,  # ty: ignore[unknown-argument]
         )
         return grad_logits, None
 
@@ -292,7 +298,8 @@ def forward(ctx, local_logits: torch.Tensor):
         return stats.local_max, stats.local_sum
 
     @staticmethod
-    def backward(ctx, grad_local_max, grad_local_sum):
+    def backward(ctx: Any, *grad_outputs: Any) -> Any:
+        grad_local_max, grad_local_sum = grad_outputs
         del grad_local_max
         logits, local_max = ctx.saved_tensors
         rows = int(logits.shape[0])
@@ -310,16 +317,18 @@ def backward(ctx, grad_local_max, grad_local_sum):
             grad_local_sum.contiguous(),
             grad_logits,
             logits.stride(0),
-            vocab_size,
-            block_v,
-            num_warps=8,
+            vocab_size,  # ty: ignore[invalid-argument-type]
+            block_v,  # ty: ignore[invalid-argument-type]
+            num_warps=8,  # ty: ignore[unknown-argument]
         )
         return grad_logits
 
 
 def _check_local_logits(local_logits: torch.Tensor) -> torch.Tensor:
     if local_logits.ndim != 2:
-        raise ValueError(f"expected [rows, vocab] logits, got {tuple(local_logits.shape)}")
+        raise ValueError(
+            f"expected [rows, vocab] logits, got {tuple(local_logits.shape)}"
+        )
     if not local_logits.is_cuda:
         raise ValueError("local top-k helpers require CUDA logits")
     return local_logits.contiguous()
@@ -328,7 +337,9 @@ def _check_local_logits(local_logits: torch.Tensor) -> torch.Tensor:
 def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTopKStats:
     logits = _check_local_logits(local_logits)
     if k < 1 or k > int(local_logits.shape[1]):
-        raise ValueError(f"k={k} is outside local vocab size {int(local_logits.shape[1])}")
+        raise ValueError(
+            f"k={k} is outside local vocab size {int(local_logits.shape[1])}"
+        )
 
     rows = int(logits.shape[0])
     vocab_size = int(logits.shape[1])
@@ -362,12 +373,12 @@ def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTop
         partial_sum,
         partial_values,
         partial_tokens,
-        logits.stride(0),
-        vocab_size,
+        logits.stride(0),  # ty: ignore[invalid-argument-type]
+        vocab_size,  # ty: ignore[invalid-argument-type]
         n_blocks,
-        k,
-        block_v,
-        num_warps=8,
+        k,  # ty: ignore[invalid-argument-type]
+        block_v,  # ty: ignore[invalid-argument-type]
+        num_warps=8,  # ty: ignore[unknown-argument]
     )
     _topk_stage2_kernel[(rows,)](
         partial_max,
@@ -379,10 +390,10 @@ def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTop
         values,
         tokens,
         n_blocks,
-        k,
+        k,  # ty: ignore[invalid-argument-type]
         block_b,
         block_candidates,
-        num_warps=8,
+        num_warps=8,  # ty: ignore[unknown-argument]
     )
     return LocalTopKStats(
         local_max=local_max,
@@ -410,11 +421,11 @@ def _local_logsumexp_stats_forward(local_logits: torch.Tensor) -> LocalLogSumExp
         logits,
         partial_max,
         partial_sum,
-        logits.stride(0),
-        vocab_size,
+        logits.stride(0),  # ty: ignore[invalid-argument-type]
+        vocab_size,  # ty: ignore[invalid-argument-type]
         n_blocks,
-        block_v,
-        num_warps=8,
+        block_v,  # ty: ignore[invalid-argument-type]
+        num_warps=8,  # ty: ignore[unknown-argument]
     )
     _logsumexp_stage2_kernel[(rows,)](
         partial_max,
@@ -423,7 +434,7 @@ def _local_logsumexp_stats_forward(local_logits: torch.Tensor) -> LocalLogSumExp
         local_sum,
         n_blocks,
         block_b,
-        num_warps=8,
+        num_warps=8,  # ty: ignore[unknown-argument]
     )
     return LocalLogSumExpStats(local_max=local_max, local_sum=local_sum)
 
diff --git a/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py b/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
index 915cc8083..58670a685 100644
--- a/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
+++ b/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
@@ -93,9 +93,7 @@ def test_shared_prefix_attention_matches_flattened_grad_accumulation() -> None:
 
         ref_out[row, :, segment.start : segment.end] = flat_out[0, :, output_slice]
         flat_grad = torch.zeros_like(flat_out)
-        flat_grad[0, :, output_slice] = output_grad[
-            row, :, segment.start : segment.end
-        ]
+        flat_grad[0, :, output_slice] = output_grad[row, :, segment.start : segment.end]
         ref_loss = ref_loss + (flat_out * flat_grad).sum()
     ref_loss.backward()
 
@@ -212,7 +210,9 @@ def _completion_token_mask(
     return mask
 
 
-def _segment_context_positions(spec: Any, segment_index: int) -> tuple[list[int], slice]:
+def _segment_context_positions(
+    spec: Any, segment_index: int
+) -> tuple[list[int], slice]:
     path = []
     cursor = segment_index
     while cursor >= 0:
@@ -222,7 +222,9 @@ def _segment_context_positions(spec: Any, segment_index: int) -> tuple[list[int]
     positions = [
         position
         for index in path
-        for position in range(spec.tree_segments[index].start, spec.tree_segments[index].end)
+        for position in range(
+            spec.tree_segments[index].start, spec.tree_segments[index].end
+        )
     ]
     segment_length = spec.tree_segments[segment_index].length
     return positions, slice(len(positions) - segment_length, len(positions))
diff --git a/tests/integration/megatron/gdn_shared_prefix/oracles.py b/tests/integration/megatron/gdn_shared_prefix/oracles.py
index 6758f7c43..3820bbdb5 100644
--- a/tests/integration/megatron/gdn_shared_prefix/oracles.py
+++ b/tests/integration/megatron/gdn_shared_prefix/oracles.py
@@ -7,6 +7,8 @@
 from torch import Tensor
 import torch.nn.functional as F
 
+from art.megatron.gdn.gdn_shared_prefix import GdnPackedExecutionSpec, GdnSegmentSpec
+
 from .metrics import (
     mean_abs_pct,
     parameter_grad_mean_abs_pct_with_name,
@@ -147,10 +149,7 @@ def run_toy_flattened_reference(
     for segment_index, segment in enumerate(spec.tree_segments):
         path = _segment_path(spec, segment_index)
         flattened = torch.cat(
-            [
-                hidden[node.row_index, node.start : node.end]
-                for node in path
-            ],
+            [hidden[node.row_index, node.start : node.end] for node in path],
             dim=0,
         )
         flat_out, _, _ = module.forward_segment(
@@ -163,7 +162,10 @@ def run_toy_flattened_reference(
     return output
 
 
-def _segment_path(spec: object, segment_index: int) -> tuple[object, ...]:
+def _segment_path(
+    spec: GdnPackedExecutionSpec,
+    segment_index: int,
+) -> tuple[GdnSegmentSpec, ...]:
     indices = []
     cursor = segment_index
     while cursor >= 0:
diff --git a/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py b/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
index be775dedb..ee472adaa 100644
--- a/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
+++ b/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
@@ -816,9 +816,7 @@ def _family_group_tensors(
     ):
         local_group_by_global[global_index] = local_group_id
         local_parent_id = (
-            local_group_id
-            if parent_index < 0
-            else local_group_by_global[parent_index]
+            local_group_id if parent_index < 0 else local_group_by_global[parent_index]
         )
         group_ids.extend([local_group_id] * segment.length)
         parent_ids.extend([local_parent_id] * segment.length)
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
index 9537dcf4b..53d5d62e8 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
@@ -671,8 +671,7 @@ def walk(prefix: torch.Tensor, depth: int) -> list[torch.Tensor]:
         here = torch.cat((prefix, tokens(segment_length(depth))))
         if depth + 1 >= max_depth:
             return [
-                torch.cat((here, tokens(randint(1, 17))))
-                for _ in range(randint(2, 4))
+                torch.cat((here, tokens(randint(1, 17)))) for _ in range(randint(2, 4))
             ]
         leaves: list[torch.Tensor] = []
         for _ in range(randint(2, 3)):
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
index 79fc95f9b..fe1159a65 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
@@ -126,9 +126,7 @@ def test_qwen35_full_model_cp1_matches_flattened_grad_accumulation() -> None:
                         dtype=torch.bool,
                         device=device,
                     ),
-                    assistant_mask[
-                        row : row + 1, completion.start : completion.end
-                    ],
+                    assistant_mask[row : row + 1, completion.start : completion.end],
                 ],
                 dim=1,
             )
@@ -228,17 +226,11 @@ def _assert_logits_vjp_equivalence(
         path = _segment_path(spec, segment_index)
         completion_offset = sum(segment.length for segment in path[:-1])
         ref_tokens = torch.cat(
-            [
-                tokens[row : row + 1, segment.start : segment.end]
-                for segment in path
-            ],
+            [tokens[row : row + 1, segment.start : segment.end] for segment in path],
             dim=1,
         )
         ref_pos = torch.cat(
-            [
-                input_pos[row : row + 1, segment.start : segment.end]
-                for segment in path
-            ],
+            [input_pos[row : row + 1, segment.start : segment.end] for segment in path],
             dim=1,
         )
         ref_logits = _run_model_logits(
diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
index 5b168cab8..1d68d6a90 100644
--- a/tests/unit/test_shared_prefix_attention_builder.py
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -273,10 +273,7 @@ def _fill_full_blocks(
     q_block: int,
     k_block: int,
 ) -> None:
-    if (
-        block_mask.full_kv_num_blocks is None
-        or block_mask.full_kv_indices is None
-    ):
+    if block_mask.full_kv_num_blocks is None or block_mask.full_kv_indices is None:
         return
     for q_block_index in range(int(block_mask.full_kv_num_blocks.shape[-1])):
         q_slice = slice(q_block_index * q_block, (q_block_index + 1) * q_block)
diff --git a/tests/unit/test_shared_prefix_grad_parity.py b/tests/unit/test_shared_prefix_grad_parity.py
index 6d06dcd6a..5b812782b 100644
--- a/tests/unit/test_shared_prefix_grad_parity.py
+++ b/tests/unit/test_shared_prefix_grad_parity.py
@@ -37,7 +37,9 @@ def test_shared_prefix_ce_parameter_grads_match_independent_sequences(
     multi_target: bool,
 ) -> None:
     input_ids = _input_ids()
-    target_ids = tuple(_targets(tokens, multi_target=multi_target) for tokens in input_ids)
+    target_ids = tuple(
+        _targets(tokens, multi_target=multi_target) for tokens in input_ids
+    )
     pack = pack_shared_prefixes(input_ids, max_depth=max_depth)
 
     assert int(pack.tokens.numel()) < sum(len(row) for row in input_ids)
@@ -257,7 +259,10 @@ def _shared_prefix_causal_mask(pack: SharedPrefixPack) -> torch.Tensor:
         query_ancestors = ancestors[query_group]
         query_position = position_ids[query_index]
         for key_index, key_group in enumerate(group_ids):
-            if key_group in query_ancestors and position_ids[key_index] <= query_position:
+            if (
+                key_group in query_ancestors
+                and position_ids[key_index] <= query_position
+            ):
                 mask[query_index, key_index] = True
     return mask
 
diff --git a/tests/unit/test_shared_prefix_tree.py b/tests/unit/test_shared_prefix_tree.py
index cf7c5dfd1..6c11132d2 100644
--- a/tests/unit/test_shared_prefix_tree.py
+++ b/tests/unit/test_shared_prefix_tree.py
@@ -134,8 +134,7 @@ def test_gdn_tree_parser_accepts_zero_depth_roots() -> None:
     assert not hasattr(plan, "chain_completion_buckets")
     assert not hasattr(plan, "prefix_boundary_buckets")
     assert all(
-        not bucket.needs_final_state
-        for bucket in plan.tree_segment_buckets_by_depth[0]
+        not bucket.needs_final_state for bucket in plan.tree_segment_buckets_by_depth[0]
     )
 
 
@@ -348,7 +347,9 @@ def test_gdn_tree_cp_randomized_plans_pass_health_checks() -> None:
             for rank in range(4)
         )
 
-        _assert_tree_plan_health(spec, plans, max_padding_ratio=config.max_padding_ratio)
+        _assert_tree_plan_health(
+            spec, plans, max_padding_ratio=config.max_padding_ratio
+        )
 
 
 def _chain_every_legal_segment_config():
@@ -402,7 +403,9 @@ def _assert_tree_plan_health(spec, plans, *, max_padding_ratio: float) -> None:
     tree_has_children = _tree_has_children(spec)
     token_counts = [0] * int(spec.real_token_count)
     for plan in plans:
-        range_tokens = sum(end - start for start, end, _position in plan.gdn_token_ranges)
+        range_tokens = sum(
+            end - start for start, end, _position in plan.gdn_token_ranges
+        )
         assert range_tokens == int(plan.gdn_token_count)
         assert len(plan.attention_token_indices) == int(plan.attention_token_count)
 
@@ -413,7 +416,9 @@ def _assert_tree_plan_health(spec, plans, *, max_padding_ratio: float) -> None:
                 assert bucket.parent_indices is not None
                 assert int(bucket.parent_indices.numel()) == int(bucket.segment_count)
                 assert int(bucket.real_token_count) > 0
-                padding_ratio = bucket.length * bucket.segment_count / bucket.real_token_count
+                padding_ratio = (
+                    bucket.length * bucket.segment_count / bucket.real_token_count
+                )
                 assert padding_ratio <= max_padding_ratio
                 bucket_state_flags = {
                     tree_has_children[family_index]
@@ -433,7 +438,9 @@ def _assert_tree_plan_health(spec, plans, *, max_padding_ratio: float) -> None:
                 assert bucket.parent_indices is not None
                 assert int(bucket.parent_indices.numel()) == int(bucket.segment_count)
                 assert int(bucket.real_token_count) > 0
-                padding_ratio = bucket.length * bucket.segment_count / bucket.real_token_count
+                padding_ratio = (
+                    bucket.length * bucket.segment_count / bucket.real_token_count
+                )
                 assert padding_ratio <= max_padding_ratio
                 bucket_state_flags = {
                     tree_has_children[family_index]
@@ -461,7 +468,9 @@ def _assert_tree_plan_health(spec, plans, *, max_padding_ratio: float) -> None:
     assert max(rank_tokens) - min(rank_tokens) <= max(256, spec.real_token_count // 3)
 
 
-def _random_tree_sequences(seed: int, *, max_depth: int = 4) -> tuple[torch.Tensor, ...]:
+def _random_tree_sequences(
+    seed: int, *, max_depth: int = 4
+) -> tuple[torch.Tensor, ...]:
     generator = torch.Generator().manual_seed(seed)
     next_token = 1
 
@@ -479,8 +488,7 @@ def walk(prefix: torch.Tensor, depth: int) -> list[torch.Tensor]:
         here = torch.cat((prefix, tokens(segment_length)))
         if depth + 1 >= max_depth:
             return [
-                torch.cat((here, tokens(randint(1, 9))))
-                for _ in range(randint(2, 4))
+                torch.cat((here, tokens(randint(1, 9)))) for _ in range(randint(2, 4))
             ]
         leaves: list[torch.Tensor] = []
         for _ in range(randint(2, 3)):

From 3fc0f09ff3ba3060020b15cea3b06db4d1e2f3e8 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Fri, 19 Jun 2026 21:08:10 -0600
Subject: [PATCH 005/114] fix: balance tree GDN CP plans

---
 src/art/megatron/gdn/gdn_shared_prefix.py | 195 ++++++++++++++++++----
 src/art/megatron/gdn/operator.py          |  71 ++++++++
 tests/unit/test_shared_prefix_tree.py     |  38 ++++-
 3 files changed, 261 insertions(+), 43 deletions(-)

diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 704a049e9..85e30fed2 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -128,6 +128,17 @@ def real_token_count(self) -> int:
         return self.real_token_count_static
 
 
+class GdnStateExchangePlan(BaseModel):
+    """Sparse CP exchange for tree parent states needed by remote children."""
+
+    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
+
+    source_family_indices: tuple[int, ...]
+    dest_family_indices: tuple[int, ...]
+    exchange: Any
+    reverse_exchange: Any
+
+
 class GdnPlannerConfig(BaseModel):
     """Tunable cost coefficients for one packed-row GDN execution plan."""
 
@@ -169,6 +180,7 @@ class GdnRankExecutionPlan(BaseModel):
     gdn_token_count: int = Field(default=0, ge=0)
     tree_segment_buckets_by_depth: tuple[tuple[GdnSegmentBucketPlan, ...], ...] = ()
     tree_chain_buckets_by_depth: tuple[tuple[GdnSegmentBucketPlan, ...], ...] = ()
+    tree_state_exchanges_by_depth: tuple[GdnStateExchangePlan | None, ...] = ()
 
     @property
     def attention_token_indices(self) -> tuple[int, ...]:
@@ -322,7 +334,6 @@ def _build_tree_rank_execution_plan(
 
     for depth, depth_segments in enumerate(tree_segments_by_depth):
         local_groups: list[tuple[GdnSegmentSpec, ...]] = []
-        siblings_by_parent: dict[int, list[GdnSegmentSpec]] = {}
         for segment in depth_segments:
             parent_index = spec.tree_parent_indices[segment.family_index]
             if (
@@ -344,31 +355,14 @@ def _build_tree_rank_execution_plan(
                     attention_layout_index=attention_layout_index,
                 )
                 continue
-            if parent_index < 0:
-                local_groups.append((segment,))
-            else:
-                if depth_count <= 2:
-                    siblings_by_parent.setdefault(parent_index, []).append(segment)
-                else:
-                    local_groups.append((segment,))
-        local_groups.extend(tuple(group) for group in siblings_by_parent.values())
+            local_groups.append((segment,))
 
         for local_group in local_groups:
-            parent_owner = _tree_group_parent_owner(
+            owner = _best_segment_owner(
                 local_group,
-                tree_parent_indices=spec.tree_parent_indices,
-                owner_by_node=owner_by_node,
-                chained_nodes=chained_nodes,
-            )
-            owner = (
-                parent_owner
-                if parent_owner is not None
-                else _best_segment_owner(
-                    local_group,
-                    rank_loads,
-                    segment_attention_counts=segment_attention_counts,
-                    planner_config=planner_config,
-                )
+                rank_loads,
+                segment_attention_counts=segment_attention_counts,
+                planner_config=planner_config,
             )
             for segment in local_group:
                 owner_by_node[segment.family_index] = owner
@@ -439,6 +433,15 @@ def _build_tree_rank_execution_plan(
         if cp_size > 1
         else tuple(() for _ in range(depth_count))
     )
+    tree_state_exchanges_by_depth = _build_tree_state_exchanges_by_depth(
+        spec,
+        owner_by_node=tuple(owner_by_node),
+        chained_nodes=tuple(chained_nodes),
+        cp_rank=cp_rank,
+        cp_size=cp_size,
+        depth_count=depth_count,
+        device=device,
+    )
     if cp_size == 1:
         valid_lengths = torch.tensor(
             spec.valid_lengths, device=device, dtype=torch.long
@@ -471,6 +474,7 @@ def _build_tree_rank_execution_plan(
         gdn_token_count=rank_loads[cp_rank],
         tree_segment_buckets_by_depth=tree_segment_buckets_by_depth,
         tree_chain_buckets_by_depth=tree_chain_buckets_by_depth,
+        tree_state_exchanges_by_depth=tree_state_exchanges_by_depth,
     )
 
 
@@ -506,6 +510,28 @@ def move_gdn_rank_execution_plan_to_device(
             _move_bucket_plans(buckets, device)
             for buckets in plan.tree_chain_buckets_by_depth
         ),
+        tree_state_exchanges_by_depth=tuple(
+            _move_state_exchange_plan(exchange, device)
+            for exchange in plan.tree_state_exchanges_by_depth
+        ),
+    )
+
+
+def _move_state_exchange_plan(
+    exchange: GdnStateExchangePlan | None,
+    device: torch.device | str,
+) -> GdnStateExchangePlan | None:
+    if exchange is None:
+        return None
+    from art.megatron.gdn.layout import move_cp_exchange_plan_to_device
+
+    return GdnStateExchangePlan.model_construct(
+        source_family_indices=exchange.source_family_indices,
+        dest_family_indices=exchange.dest_family_indices,
+        exchange=move_cp_exchange_plan_to_device(exchange.exchange, device),
+        reverse_exchange=move_cp_exchange_plan_to_device(
+            exchange.reverse_exchange, device
+        ),
     )
 
 
@@ -769,21 +795,116 @@ def _best_segment_owner(
     return best[-1]
 
 
-def _tree_group_parent_owner(
-    segments: tuple[GdnSegmentSpec, ...],
+def _build_tree_state_exchanges_by_depth(
+    spec: GdnPackedExecutionSpec,
     *,
-    tree_parent_indices: tuple[int, ...],
-    owner_by_node: list[int],
-    chained_nodes: list[bool],
-) -> int | None:
-    if not segments:
-        return None
-    segment = segments[0]
-    parent_index = tree_parent_indices[segment.family_index]
-    if parent_index < 0 or chained_nodes[parent_index]:
-        return None
-    parent_owner = owner_by_node[parent_index]
-    return parent_owner if parent_owner >= 0 else None
+    owner_by_node: tuple[int, ...],
+    chained_nodes: tuple[bool, ...],
+    cp_rank: int,
+    cp_size: int,
+    depth_count: int,
+    device: torch.device | str,
+) -> tuple[GdnStateExchangePlan | None, ...]:
+    if cp_size <= 1:
+        return tuple(None for _ in range(depth_count))
+
+    from art.megatron.gdn.layout import (
+        GdnCpExchangePlan,
+        _make_peer_transfer,
+        _reverse_exchange_plan,
+    )
+
+    families_by_depth_pair: list[dict[tuple[int, int], set[int]]] = [
+        {} for _ in range(depth_count)
+    ]
+    for child_index, parent_index in enumerate(spec.tree_parent_indices):
+        if parent_index < 0 or chained_nodes[parent_index]:
+            continue
+        source_rank = owner_by_node[parent_index]
+        dest_rank = owner_by_node[child_index]
+        if source_rank < 0 or dest_rank < 0:
+            raise ValueError("tree state exchange requires every node to have an owner")
+        if source_rank == dest_rank:
+            continue
+        depth = spec.tree_depths[child_index]
+        families_by_depth_pair[depth].setdefault((source_rank, dest_rank), set()).add(
+            parent_index
+        )
+
+    state_exchanges: list[GdnStateExchangePlan | None] = []
+    for pair_families in families_by_depth_pair:
+        if not pair_families:
+            state_exchanges.append(None)
+            continue
+        source_families_by_rank = [set[int]() for _ in range(cp_size)]
+        dest_families_by_rank = [set[int]() for _ in range(cp_size)]
+        for (source_rank, dest_rank), parent_indices in pair_families.items():
+            source_families_by_rank[source_rank].update(parent_indices)
+            dest_families_by_rank[dest_rank].update(parent_indices)
+        source_families = tuple(
+            tuple(sorted(families)) for families in source_families_by_rank
+        )
+        dest_families = tuple(
+            tuple(sorted(families)) for families in dest_families_by_rank
+        )
+        source_positions = (
+            {family: index for index, family in enumerate(families)}
+            for families in source_families
+        )
+        dest_positions = (
+            {family: index for index, family in enumerate(families)}
+            for families in dest_families
+        )
+        source_position_by_rank = tuple(source_positions)
+        dest_position_by_rank = tuple(dest_positions)
+        transfers = []
+        transfer_count = 0
+        for (source_rank, dest_rank), parent_indices in sorted(pair_families.items()):
+            ordered = tuple(sorted(parent_indices))
+            transfer_count += len(ordered)
+            transfers.append(
+                _make_peer_transfer(
+                    source_rank=source_rank,
+                    dest_rank=dest_rank,
+                    source_positions=torch.tensor(
+                        [
+                            source_position_by_rank[source_rank][family]
+                            for family in ordered
+                        ],
+                        dtype=torch.long,
+                    ),
+                    dest_positions=torch.tensor(
+                        [
+                            dest_position_by_rank[dest_rank][family]
+                            for family in ordered
+                        ],
+                        dtype=torch.long,
+                    ),
+                    source_count=len(source_families[source_rank]),
+                    dest_count=len(dest_families[dest_rank]),
+                    device=device,
+                )
+            )
+        exchange = GdnCpExchangePlan.model_construct(
+            cp_size=cp_size,
+            source_token_counts_by_rank=tuple(
+                len(families) for families in source_families
+            ),
+            dest_token_counts_by_rank=tuple(
+                len(families) for families in dest_families
+            ),
+            transfers=tuple(transfers),
+            cross_rank_token_count_override=transfer_count,
+        )
+        state_exchanges.append(
+            GdnStateExchangePlan.model_construct(
+                source_family_indices=source_families[cp_rank],
+                dest_family_indices=dest_families[cp_rank],
+                exchange=exchange,
+                reverse_exchange=_reverse_exchange_plan(exchange),
+            )
+        )
+    return tuple(state_exchanges)
 
 
 def _build_attention_layout_index_from_token_layout(
diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index 693bf1b68..c7c3aed96 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -14,6 +14,7 @@
     GdnPackedExecutionSpec,
     GdnRankExecutionPlan,
     GdnSegmentBucketPlan,
+    GdnStateExchangePlan,
     build_gdn_rank_execution_plan,
     parse_gdn_shared_prefix_segments,
 )
@@ -557,6 +558,15 @@ def _run_tree_depth_buckets(
     )
 
     for depth, buckets in enumerate(plan.tree_segment_buckets_by_depth):
+        if depth < len(plan.tree_state_exchanges_by_depth):
+            cp_dependency = state_cache.exchange_remote_parent_states(
+                gdn,
+                plan.tree_state_exchanges_by_depth[depth],
+                state_reference=state_reference,
+                rank=plan.cp_rank,
+                group=group,
+                cp_dependency=cp_dependency,
+            )
         if depth < len(plan.tree_chain_buckets_by_depth):
             for bucket in plan.tree_chain_buckets_by_depth[depth]:
                 recurrent_output, cp_dependency = _run_tree_bucket(
@@ -696,6 +706,67 @@ def append_families(
         for source_row, family_index in enumerate(family_indices):
             self._source_by_family[int(family_index)] = (chunk_index, source_row)
 
+    def exchange_remote_parent_states(
+        self,
+        gdn: Any,
+        exchange: GdnStateExchangePlan | None,
+        *,
+        state_reference: Tensor,
+        rank: int,
+        group: Any | None,
+        cp_dependency: Tensor | None,
+    ) -> Tensor | None:
+        if exchange is None:
+            return cp_dependency
+        from .layout import exchange_rank_tensor_all_to_all
+
+        source_conv, source_rec = self.states_for_families(
+            gdn,
+            exchange.source_family_indices,
+            state_reference=state_reference,
+        )
+        if cp_dependency is not None:
+            source_conv = _add_autograd_dependency(source_conv, cp_dependency)
+            source_rec = _add_autograd_dependency(source_rec, cp_dependency)
+        remote_conv = exchange_rank_tensor_all_to_all(
+            source_conv,
+            exchange.exchange,
+            rank=rank,
+            group=group,
+            backward_plan=exchange.reverse_exchange,
+        )
+        remote_rec = exchange_rank_tensor_all_to_all(
+            source_rec,
+            exchange.exchange,
+            rank=rank,
+            group=group,
+            backward_plan=exchange.reverse_exchange,
+        )
+        self.append_families(exchange.dest_family_indices, remote_conv, remote_rec)
+        dependency = _make_zero_autograd_dependency(
+            source_conv, source_rec, remote_conv, remote_rec
+        )
+        return dependency if cp_dependency is None else dependency + cp_dependency
+
+    def states_for_families(
+        self,
+        gdn: Any,
+        family_indices: Sequence[int],
+        *,
+        state_reference: Tensor,
+    ) -> tuple[Tensor, Tensor]:
+        if len(family_indices) == 0:
+            conv = _zero_conv_state(gdn, state_reference, batch_size=0)
+            rec = _zero_recurrent_state(gdn, state_reference, batch_size=0)
+            return conv.requires_grad_(True), rec.requires_grad_(True)
+        return self._mixed_parent_states(
+            gdn,
+            tuple(int(index) for index in family_indices),
+            state_reference=state_reference,
+            batch_size=len(family_indices),
+            roots_allowed=False,
+        )
+
     def parent_states(
         self,
         gdn: Any,
diff --git a/tests/unit/test_shared_prefix_tree.py b/tests/unit/test_shared_prefix_tree.py
index 6c11132d2..57cc9fa5c 100644
--- a/tests/unit/test_shared_prefix_tree.py
+++ b/tests/unit/test_shared_prefix_tree.py
@@ -220,7 +220,7 @@ def test_gdn_tree_cp_plan_chains_long_nodes() -> None:
         for depth_buckets in plan.tree_chain_buckets_by_depth[1:]
         for bucket in depth_buckets
     )
-    _assert_parent_local_non_chained_children(spec, plans)
+    _assert_remote_parent_state_transfers_cover(spec, plans)
     for plan in plans:
         assert sum(plan.gdn_token_count for plan in plans) == spec.real_token_count
         for depth_buckets in plan.tree_chain_buckets_by_depth:
@@ -230,7 +230,7 @@ def test_gdn_tree_cp_plan_chains_long_nodes() -> None:
                 assert bucket.parent_indices is not None
 
 
-def test_gdn_tree_cp_plan_keeps_non_chained_children_parent_local() -> None:
+def test_gdn_tree_cp_plan_exchanges_remote_parent_states() -> None:
     pytest.importorskip("megatron.core.packed_seq_params")
     from art.megatron.gdn.gdn_shared_prefix import (
         build_gdn_rank_execution_plan,
@@ -268,7 +268,8 @@ def test_gdn_tree_cp_plan_keeps_non_chained_children_parent_local() -> None:
         for depth_buckets in plan.tree_chain_buckets_by_depth[1:]
         for bucket in depth_buckets
     )
-    _assert_parent_local_non_chained_children(spec, plans)
+    assert _remote_parent_state_transfer_count(plans) > 0
+    _assert_remote_parent_state_transfers_cover(spec, plans)
 
 
 def test_gdn_tree_cp_randomized_plans_cover_each_token_once() -> None:
@@ -383,12 +384,37 @@ def _local_owner_by_family(plans) -> dict[int, int]:
     return owner_by_family
 
 
-def _assert_parent_local_non_chained_children(spec, plans) -> None:
+def _assert_remote_parent_state_transfers_cover(spec, plans) -> None:
     owner_by_family = _local_owner_by_family(plans)
     for family_index, parent_index in enumerate(spec.tree_parent_indices):
         if parent_index < 0 or parent_index not in owner_by_family:
             continue
-        assert owner_by_family[family_index] == owner_by_family[parent_index]
+        source_rank = owner_by_family[parent_index]
+        dest_rank = owner_by_family[family_index]
+        if source_rank == dest_rank:
+            continue
+        depth = spec.tree_depths[family_index]
+        source_exchange = plans[source_rank].tree_state_exchanges_by_depth[depth]
+        dest_exchange = plans[dest_rank].tree_state_exchanges_by_depth[depth]
+        assert source_exchange is not None
+        assert dest_exchange is not None
+        assert parent_index in source_exchange.source_family_indices
+        assert parent_index in dest_exchange.dest_family_indices
+        matching = [
+            transfer
+            for transfer in dest_exchange.exchange.transfers
+            if transfer.source_rank == source_rank and transfer.dest_rank == dest_rank
+        ]
+        assert matching
+
+
+def _remote_parent_state_transfer_count(plans) -> int:
+    return sum(
+        exchange.exchange.cross_rank_token_count
+        for plan in plans
+        for exchange in plan.tree_state_exchanges_by_depth
+        if exchange is not None
+    ) // len(plans)
 
 
 def _tree_has_children(spec) -> list[bool]:
@@ -462,7 +488,7 @@ def _assert_tree_plan_health(spec, plans, *, max_padding_ratio: float) -> None:
             for token_index in range(start, end):
                 token_counts[token_index] += 1
 
-    _assert_parent_local_non_chained_children(spec, plans)
+    _assert_remote_parent_state_transfers_cover(spec, plans)
     assert token_counts == [1] * int(spec.real_token_count)
     rank_tokens = [int(plan.gdn_token_count) for plan in plans]
     assert max(rank_tokens) - min(rank_tokens) <= max(256, spec.real_token_count // 3)

From 41c7fbb1cfa7d23d522221152660bf67657e4b71 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Mon, 22 Jun 2026 11:51:49 -0600
Subject: [PATCH 006/114] feat: add dynamic LoRA slots for TrainerRank

---
 src/art/megatron/lora.py                      | 424 +++++++++++++++++-
 src/art/megatron/trainer_rank.py              | 308 ++++++++++++-
 src/art/megatron/training/finalize_grads.py   |   2 +
 .../megatron/lora/test_dynamic_lora_slots.py  | 170 +++++++
 tests/unit/test_trainer_rank_validation.py    |  32 ++
 5 files changed, 906 insertions(+), 30 deletions(-)
 create mode 100644 tests/integration/megatron/lora/test_dynamic_lora_slots.py

diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index 4cea46b2a..27fb2b30d 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -1,9 +1,13 @@
-from collections.abc import Sequence
+from collections.abc import Iterator, Sequence
+from contextlib import contextmanager
+import contextvars
+from dataclasses import dataclass
+import functools
 import json
 import math
 import os
 import re
-from typing import Any, Literal, NamedTuple, cast
+from typing import Any, Callable, Literal, NamedTuple, TypeVar, cast
 
 from megatron.bridge.models.gpt_provider import GPTModelProvider
 from megatron.core import parallel_state as ps
@@ -42,6 +46,8 @@
 ShardDomain = Literal["tp", "expert_tp"]
 GradSyncDomain = Literal["tp_default", "expert_tp"]
 GradSyncOp = Literal["none", "sum", "avg"]
+LoraSlotKind = Literal["checkpoint", "lora"]
+_F = TypeVar("_F", bound=Callable[..., Any])
 
 TP_DEFAULT_GRAD_SYNC_DOMAIN: GradSyncDomain = "tp_default"
 EXPERT_TP_GRAD_SYNC_DOMAIN: GradSyncDomain = "expert_tp"
@@ -50,6 +56,158 @@
 GRAD_SYNC_OP_AVG: GradSyncOp = "avg"
 
 
+@dataclass(frozen=True)
+class LoRASlotRef:
+    kind: LoraSlotKind
+    name: str | None
+
+
+@dataclass(frozen=True)
+class _LoRASlotContext:
+    ref: LoRASlotRef
+
+
+_CURRENT_LORA_SLOT: contextvars.ContextVar[_LoRASlotContext | None] = (
+    contextvars.ContextVar("art_megatron_current_lora_slot", default=None)
+)
+
+
+def set_lora_slot_context(
+    ref: LoRASlotRef | None,
+) -> contextvars.Token[_LoRASlotContext | None]:
+    """Select a dynamic LoRA slot for the current execution context.
+
+    ``None`` preserves the legacy single-adapter path. ``LoRASlotRef(..., None)``
+    explicitly selects the base model and makes every LoRA site an identity.
+    """
+
+    return _CURRENT_LORA_SLOT.set(None if ref is None else _LoRASlotContext(ref))
+
+
+def reset_lora_slot_context(
+    token: contextvars.Token[_LoRASlotContext | None],
+) -> None:
+    _CURRENT_LORA_SLOT.reset(token)
+
+
+@contextmanager
+def use_lora_slot(ref: LoRASlotRef | None) -> Iterator[None]:
+    token = set_lora_slot_context(ref)
+    try:
+        yield
+    finally:
+        reset_lora_slot_context(token)
+
+
+def _with_captured_lora_slot(function: _F) -> _F:
+    context = _CURRENT_LORA_SLOT.get()
+
+    @functools.wraps(function)
+    def wrapped(*args: Any, **kwargs: Any) -> Any:
+        token = _CURRENT_LORA_SLOT.set(context)
+        try:
+            return function(*args, **kwargs)
+        finally:
+            _CURRENT_LORA_SLOT.reset(token)
+
+    return cast(_F, wrapped)
+
+
+def _patch_function_once(module: Any, name: str, wrapper: Callable[[_F], _F]) -> None:
+    original = getattr(module, name, None)
+    if original is None or getattr(original, "_art_lora_slot_context_patch", False):
+        return
+    patched = wrapper(original)
+    setattr(patched, "_art_lora_slot_context_patch", True)
+    setattr(module, name, patched)
+
+
+def install_lora_checkpoint_context_hooks() -> None:
+    """Preserve the selected dynamic LoRA slot across activation recompute."""
+
+    def wrap_torch_checkpoint(original: _F) -> _F:
+        @functools.wraps(original)
+        def checkpoint(function: Callable[..., Any], *args: Any, **kwargs: Any) -> Any:
+            return original(_with_captured_lora_slot(function), *args, **kwargs)
+
+        return cast(_F, checkpoint)
+
+    def wrap_megatron_checkpoint(original: _F) -> _F:
+        @functools.wraps(original)
+        def checkpoint(
+            function: Callable[..., Any],
+            distribute_saved_activations: bool,
+            *args: Any,
+        ) -> Any:
+            return original(
+                _with_captured_lora_slot(function),
+                distribute_saved_activations,
+                *args,
+            )
+
+        return cast(_F, checkpoint)
+
+    def wrap_checkpoint_without_output(original: _F) -> _F:
+        @functools.wraps(original)
+        def checkpoint(self: Any, function: Callable[..., Any], *args: Any) -> Any:
+            return original(self, _with_captured_lora_slot(function), *args)
+
+        return cast(_F, checkpoint)
+
+    def wrap_te_checkpoint(original: _F) -> _F:
+        @functools.wraps(original)
+        def checkpoint(
+            forward_func: Callable[..., Any],
+            *args: Any,
+            **kwargs: Any,
+        ) -> Any:
+            return original(_with_captured_lora_slot(forward_func), *args, **kwargs)
+
+        return cast(_F, checkpoint)
+
+    try:
+        import torch.utils.checkpoint as torch_checkpoint
+
+        _patch_function_once(torch_checkpoint, "checkpoint", wrap_torch_checkpoint)
+    except Exception:
+        pass
+
+    try:
+        import megatron.core.tensor_parallel as tensor_parallel
+        import megatron.core.tensor_parallel.random as megatron_random
+
+        _patch_function_once(tensor_parallel, "checkpoint", wrap_megatron_checkpoint)
+        _patch_function_once(megatron_random, "checkpoint", wrap_megatron_checkpoint)
+        checkpoint_without_output = getattr(
+            megatron_random, "CheckpointWithoutOutput", None
+        )
+        if checkpoint_without_output is not None:
+            _patch_function_once(
+                checkpoint_without_output,
+                "checkpoint",
+                wrap_checkpoint_without_output,
+            )
+    except Exception:
+        pass
+
+    try:
+        import megatron.core.transformer.transformer_block as transformer_block
+
+        _patch_function_once(transformer_block, "te_checkpoint", wrap_te_checkpoint)
+    except Exception:
+        pass
+
+    try:
+        import transformer_engine.pytorch.distributed as te_distributed
+
+        _patch_function_once(te_distributed, "checkpoint", wrap_te_checkpoint)
+    except Exception:
+        pass
+
+
+install_lora_checkpoint_context_hooks()
+
+
 class LoRAParallelSpec(BaseModel):
     # This spec only describes TP / expert-TP behavior.
     # DP/CP vs expert-DP behavior is selected separately via `allreduce`.
@@ -307,6 +465,59 @@ def _exported_shard_dim(param: torch.nn.Parameter) -> int:
     return 1 - axis
 
 
+def _copy_lora_param_metadata(
+    source: torch.nn.Parameter,
+    target: torch.nn.Parameter,
+) -> None:
+    for name in (
+        "lora_shard_domain",
+        "lora_tp_sharded",
+        "lora_tp_replicated",
+        "lora_tp_shard_dim",
+        "grad_sync_domain",
+        "grad_sync_op",
+        "allreduce",
+        "average_gradients_across_tp_domain",
+        "tensor_model_parallel",
+        "partition_dim",
+        "partition_stride",
+        "lora_tp_shard_strategy",
+        "lora_tp_component_sizes",
+    ):
+        if hasattr(source, name):
+            setattr(target, name, getattr(source, name))
+    setattr(target, "_art_dynamic_lora_slot", True)
+
+
+class LoRASlot(torch.nn.Module):
+    def __init__(
+        self,
+        *,
+        ref: LoRASlotRef,
+        a_t: torch.Tensor,
+        b_t: torch.Tensor,
+        alpha: float,
+        a_template: torch.nn.Parameter,
+        b_template: torch.nn.Parameter,
+        requires_grad: bool,
+    ) -> None:
+        super().__init__()
+        self.ref = ref
+        self.alpha = float(alpha)
+        self.A_T = torch.nn.Parameter(a_t.detach().clone(), requires_grad=requires_grad)
+        self.B_T = torch.nn.Parameter(b_t.detach().clone(), requires_grad=requires_grad)
+        _copy_lora_param_metadata(a_template, self.A_T)
+        _copy_lora_param_metadata(b_template, self.B_T)
+
+    @property
+    def rank(self) -> int:
+        return int(self.A_T.shape[-1])
+
+    @property
+    def scale(self) -> float:
+        return self.alpha / self.rank
+
+
 class LoRA(torch.nn.Module):
     def __init__(
         self,
@@ -327,7 +538,12 @@ def __init__(
             "adapter_model_prefix must contain the '{expert}' format placeholder if num_local_experts > 1"
         )
         self.adapter_model_prefix = adapter_model_prefix
+        self.alpha = float(alpha)
+        self.in_features = int(in_features)
+        self.out_features = int(out_features)
         self.scale = alpha / rank
+        self._slot_modules = torch.nn.ModuleDict()
+        self._slot_keys: dict[LoRASlotRef, str] = {}
         self.A_T = torch.nn.Parameter(
             torch.zeros(
                 num_local_experts, in_features, rank, dtype=dtype, device=device
@@ -395,6 +611,86 @@ def _expected_weight_keys(self, suffix: str) -> list[str]:
             ]
         return [f"{self.adapter_model_prefix}.{suffix}.weight"]
 
+    def has_lora_slot(self, ref: LoRASlotRef) -> bool:
+        return ref in self._slot_keys
+
+    def load_lora_slot(
+        self,
+        ref: LoRASlotRef,
+        adapter_model: dict[str, torch.Tensor],
+        *,
+        alpha: float = LORA_ALPHA,
+        requires_grad: bool,
+    ) -> bool:
+        if ref.name is None:
+            raise ValueError("base-model slot refs do not own LoRA tensors")
+        keys = {
+            suffix: self._expected_weight_keys(suffix)
+            for suffix in ("lora_A", "lora_B")
+        }
+        present = {
+            suffix: [key in adapter_model for key in suffix_keys]
+            for suffix, suffix_keys in keys.items()
+        }
+        if not any(any(values) for values in present.values()):
+            return False
+        missing_keys = [
+            key
+            for suffix, suffix_keys in keys.items()
+            for key, is_present in zip(suffix_keys, present[suffix], strict=True)
+            if not is_present
+        ]
+        if missing_keys:
+            raise KeyError(
+                f"Incomplete LoRA slot {ref.kind}:{ref.name} for "
+                f"{self.adapter_model_prefix}: {sorted(missing_keys)}"
+            )
+        a_t = self._localized_weight(
+            self._adapter_weight(adapter_model, suffix="lora_A"),
+            into=self.A_T,
+        )
+        b_t = self._localized_weight(
+            self._adapter_weight(adapter_model, suffix="lora_B"),
+            into=self.B_T,
+        )
+        slot_key = self._slot_keys.get(ref)
+        if slot_key is None:
+            slot_key = f"slot_{len(self._slot_keys)}"
+            self._slot_keys[ref] = slot_key
+        elif self._has_live_slot_grads(ref):
+            raise RuntimeError(
+                f"Cannot overwrite live LoRA slot {ref.kind}:{ref.name} for "
+                f"{self.adapter_model_prefix}; clear grads/backward graph first."
+            )
+        self._slot_modules[slot_key] = LoRASlot(
+            ref=ref,
+            a_t=a_t,
+            b_t=b_t,
+            alpha=alpha,
+            a_template=self.A_T,
+            b_template=self.B_T,
+            requires_grad=requires_grad,
+        )
+        return True
+
+    def lora_slot_params(self, ref: LoRASlotRef) -> list[torch.nn.Parameter]:
+        slot = self._slot(ref)
+        if slot is None:
+            return []
+        return [slot.A_T, slot.B_T]
+
+    def _slot(self, ref: LoRASlotRef) -> LoRASlot | None:
+        key = self._slot_keys.get(ref)
+        if key is None:
+            return None
+        return cast(LoRASlot, self._slot_modules[key])
+
+    def _has_live_slot_grads(self, ref: LoRASlotRef) -> bool:
+        slot = self._slot(ref)
+        return slot is not None and any(
+            param.grad is not None for param in (slot.A_T, slot.B_T)
+        )
+
     def load_lora(self, adapter_model: dict[str, torch.Tensor]) -> None:
         missing_keys = [
             key
@@ -417,6 +713,17 @@ def load_lora(self, adapter_model: dict[str, torch.Tensor]) -> None:
             into=self.B_T,
         )
 
+    def _adapter_weight(
+        self,
+        adapter_model: dict[str, torch.Tensor],
+        *,
+        suffix: str,
+    ) -> torch.Tensor:
+        keys = self._expected_weight_keys(suffix)
+        if self.num_local_experts > 1:
+            return torch.stack([adapter_model[key].T for key in keys])
+        return adapter_model[keys[0]].T
+
     def load_weights(
         self,
         adapter_model: dict[str, torch.Tensor],
@@ -424,14 +731,12 @@ def load_weights(
         suffix: str,
         into: torch.nn.Parameter,
     ) -> None:
-        keys = self._expected_weight_keys(suffix)
-        if self.num_local_experts > 1:
-            weight = torch.stack([adapter_model[key].T for key in keys])
-        else:
-            weight = adapter_model[keys[0]].T
+        weight = self._adapter_weight(adapter_model, suffix=suffix)
         self.load_weight(weight, into=into)
 
-    def load_weight(self, weight: torch.Tensor, *, into: torch.nn.Parameter) -> None:
+    def _localized_weight(
+        self, weight: torch.Tensor, *, into: torch.nn.Parameter
+    ) -> torch.Tensor:
         domain = into.lora_shard_domain  # ty: ignore[unresolved-attribute]
         if into.lora_tp_sharded:  # ty: ignore[unresolved-attribute]
             axis = into.lora_tp_shard_dim  # ty: ignore[unresolved-attribute]
@@ -470,11 +775,10 @@ def load_weight(self, weight: torch.Tensor, *, into: torch.nn.Parameter) -> None
                 raise ValueError(
                     f"{self.adapter_model_prefix}: unsupported shard strategy={strategy}"
                 )
-        elif tuple(weight.shape) != tuple(into.shape):
-            raise ValueError(
-                f"{self.adapter_model_prefix}: unsharded load shape mismatch, got {tuple(weight.shape)} "
-                f"expected {tuple(into.shape)}"
-            )
+        return weight.contiguous()
+
+    def load_weight(self, weight: torch.Tensor, *, into: torch.nn.Parameter) -> None:
+        weight = self._localized_weight(weight, into=into)
         if tuple(weight.shape) != tuple(into.shape):
             raise ValueError(
                 f"{self.adapter_model_prefix}: sharded load shape mismatch, got {tuple(weight.shape)} "
@@ -575,9 +879,29 @@ def sharded_lora_grad_dict(self) -> dict[str, torch.Tensor]:
             grads[key] = local_grad.T
         return grads
 
+    def active_lora_tensors(
+        self,
+    ) -> tuple[torch.Tensor, torch.Tensor, float] | None:
+        context = _CURRENT_LORA_SLOT.get()
+        if context is None:
+            return self.A_T, self.B_T, self.scale
+        if context.ref.name is None:
+            return None
+        slot = self._slot(context.ref)
+        if slot is None:
+            return None
+        return slot.A_T, slot.B_T, slot.scale
+
+    def _zero_output(self, x: torch.Tensor) -> torch.Tensor:
+        return x.new_zeros((*x.shape[:-1], self.out_features))
+
     def forward(
         self, x: torch.Tensor, tokens_per_expert: list[int] | torch.Tensor | None = None
     ) -> torch.Tensor:
+        active = self.active_lora_tensors()
+        if active is None:
+            return self._zero_output(x)
+        a_t, b_t, scale = active
         if tokens_per_expert is not None:
             assert self.num_local_experts > 1, (
                 "tokens_per_expert is only supported if num_local_experts > 1"
@@ -586,12 +910,12 @@ def forward(
             if isinstance(bsz, list):
                 bsz = torch.tensor(bsz, dtype=torch.int64, device="cpu")
             if x.shape[0] == 0:
-                return x.new_zeros((x.shape[0], self.B_T.shape[-1]))
-            return quack_grouped_lora(x, self.A_T, self.B_T, bsz, scale=self.scale)
-        out = (x @ self.A_T) @ self.B_T
-        if self.scale == 1.0:
+                return self._zero_output(x)
+            return quack_grouped_lora(x, a_t, b_t, bsz, scale=scale)
+        out = (x @ a_t) @ b_t
+        if scale == 1.0:
             return out
-        return out * self.scale
+        return out * scale
 
 
 class LoRAPublishPlanner:
@@ -834,15 +1158,27 @@ def _expert_grouped_lora_dual_forward(
         counts = torch.tensor(counts, dtype=torch.int64, device="cpu")
     if x.shape[0] == 0:
         return x.new_zeros((x.shape[0], module.linear_fc1.out_features))
+    gate = module.gate_lora.active_lora_tensors()
+    up = module.up_lora.active_lora_tensors()
+    if gate is None or up is None:
+        return torch.cat(
+            [
+                module.gate_lora(x, tokens_per_expert=counts),
+                module.up_lora(x, tokens_per_expert=counts),
+            ],
+            dim=-1,
+        )
+    gate_a_t, gate_b_t, gate_scale = gate
+    up_a_t, up_b_t, up_scale = up
     return quack_grouped_lora_dual(
         x,
-        module.gate_lora.A_T,
-        module.gate_lora.B_T,
-        module.up_lora.A_T,
-        module.up_lora.B_T,
+        gate_a_t,
+        gate_b_t,
+        up_a_t,
+        up_b_t,
         counts,
-        scale_gate=module.gate_lora.scale,
-        scale_up=module.up_lora.scale,
+        scale_gate=gate_scale,
+        scale_up=up_scale,
     )
 
 
@@ -1721,3 +2057,43 @@ def apply_lora_adapters(
         alpha=LORA_ALPHA,
     )
     return list(model)
+
+
+def load_lora_slot_into_model(
+    model: Sequence[torch.nn.Module],
+    ref: LoRASlotRef,
+    adapter_model: dict[str, torch.Tensor],
+    *,
+    alpha: float = LORA_ALPHA,
+    requires_grad: bool,
+) -> int:
+    loaded = 0
+    for chunk in model:
+        for module in chunk.modules():
+            if isinstance(module, LoRA) and module.load_lora_slot(
+                ref,
+                adapter_model,
+                alpha=alpha,
+                requires_grad=requires_grad,
+            ):
+                loaded += 1
+    if loaded == 0 and ref.name is not None:
+        raise RuntimeError(f"LoRA slot {ref.kind}:{ref.name} loaded no adapter sites")
+    return loaded
+
+
+def iter_lora_slot_parameters(
+    model: Sequence[torch.nn.Module],
+    ref: LoRASlotRef,
+) -> Iterator[torch.nn.Parameter]:
+    seen: set[int] = set()
+    for chunk in model:
+        for module in chunk.modules():
+            if not isinstance(module, LoRA):
+                continue
+            for param in module.lora_slot_params(ref):
+                param_id = id(param)
+                if param_id in seen:
+                    continue
+                seen.add(param_id)
+                yield param
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 1f669c891..cb274cf8b 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1,6 +1,7 @@
 from __future__ import annotations
 
 from collections.abc import Callable, Iterable, Iterator, MutableMapping, Sequence
+from contextlib import contextmanager
 from dataclasses import dataclass
 import os
 from typing import TYPE_CHECKING, Generic, Literal, ParamSpec, TypeVar, cast, overload
@@ -20,6 +21,7 @@
         ArtContextParallelState,
         ParallelTopology,
     )
+    from art.megatron.lora import LoRASlotRef
     from art.megatron.model_support import ModelSupportHandler
     from art.megatron.shared_prefix_state import SharedPrefixAttentionState
     from art.megatron.train import TrainingRuntime
@@ -51,6 +53,15 @@ class TopK:
 _COMPILED_FUNCTIONS: dict[Callable[..., object], Callable[..., object]] = {}
 
 
+class _Unset:
+    def __repr__(self) -> str:
+        return "Unset"
+
+
+Unset = _Unset()
+type AdapterSelection = str | None | _Unset
+
+
 @dataclass(frozen=True)
 class ForwardOutput(Generic[LogprobsT, TopKT, LogitsT, HiddenStatesT]):
     target_logprobs: LogprobsT
@@ -68,14 +79,20 @@ def __init__(
         top_k: int | None = None,
         logits: bool = False,
         hidden_states: bool = False,
+        checkpoint: AdapterSelection = Unset,
+        lora: AdapterSelection = Unset,
     ) -> None:
         if top_k is not None and top_k < 1:
             raise ValueError("top_k must be >= 1")
+        if checkpoint is not Unset and lora is not Unset:
+            raise ValueError("ForwardInput cannot set both checkpoint and lora")
         self.input_tokens = input_tokens
         self.target_tokens = target_tokens
         self.top_k = top_k
         self.logits = logits
         self.hidden_states = hidden_states
+        self.checkpoint = checkpoint
+        self.lora = lora
 
     @overload
     def __new__(
@@ -253,6 +270,7 @@ def __new__(
         hidden_states: Literal[True],
     ) -> "ForwardInput[torch.Tensor, TopK, torch.Tensor, torch.Tensor]": ...
 
+    @overload
     def __new__(
         cls,
         *,
@@ -261,6 +279,20 @@ def __new__(
         top_k: int | None = None,
         logits: bool = False,
         hidden_states: bool = False,
+        checkpoint: AdapterSelection = Unset,
+        lora: AdapterSelection = Unset,
+    ) -> "AnyForwardInput": ...
+
+    def __new__(
+        cls,
+        *,
+        input_tokens: torch.Tensor,
+        target_tokens: torch.Tensor | None = None,
+        top_k: int | None = None,
+        logits: bool = False,
+        hidden_states: bool = False,
+        checkpoint: AdapterSelection = Unset,
+        lora: AdapterSelection = Unset,
     ) -> "AnyForwardInput":
         return super().__new__(cls)
 
@@ -291,6 +323,26 @@ def select(self, xs: Sequence[T]) -> Sequence[T]:
         return [xs[i] for i in self.indices]
 
 
+@dataclass(frozen=True)
+class _PushedSlot:
+    trainer: "TrainerRank"
+    ref: "LoRASlotRef"
+
+    def __enter__(self) -> "_PushedSlot":
+        return self
+
+    def __exit__(
+        self,
+        exc_type: type[BaseException] | None,
+        exc: BaseException | None,
+        traceback: object,
+    ) -> bool:
+        if not self.trainer._slot_stack or self.trainer._slot_stack[-1] != self.ref:
+            raise RuntimeError("Pushed LoRA/checkpoint stack changed before context exit")
+        self.trainer.pop_pushed_lora_or_checkpoint()
+        return False
+
+
 @dataclass(frozen=True)
 class _ForwardItem:
     request: AnyForwardInput
@@ -350,6 +402,10 @@ def __init__(
         self.head_chunk_tokens = head_chunk_tokens
         self.shared_prefix_max_depth = shared_prefix_max_depth
         self.device = next(runtime.model[0].parameters()).device
+        self._default_slot_ref: LoRASlotRef | None = None
+        self._slot_stack: list[LoRASlotRef] = []
+        self._dynamic_optimizers: dict[str, torch.optim.Optimizer] = {}
+        self._checkpoint_slot_names: set[str] = set()
         self.zero_grad()
 
     def zero_grad(self) -> None:
@@ -360,6 +416,9 @@ def zero_grad(self) -> None:
         optimizer = cast("MegatronOptimizer | None", self.runtime.optimizer)
         if optimizer is not None:
             optimizer.zero_grad()
+        for name in self._checkpoint_slot_names:
+            for param in self._checkpoint_slot_params(name):
+                param.grad = None
 
     def _optimizer(self) -> "MegatronOptimizer":
         optimizer = cast("MegatronOptimizer | None", self.runtime.optimizer)
@@ -373,6 +432,106 @@ def _handler(self) -> "ModelSupportHandler":
     def _provider(self) -> "GPTModelProvider":
         return cast("GPTModelProvider", self.runtime.provider)
 
+    def set_checkpoint(self, name: str | None) -> None:
+        self._set_default_slot(self._slot_ref("checkpoint", name))
+
+    def set_lora(self, name: str | None) -> None:
+        self._set_default_slot(self._slot_ref("lora", name))
+
+    def push_checkpoint(self, name: str | None) -> _PushedSlot:
+        ref = self._slot_ref("checkpoint", name)
+        self._slot_stack.append(ref)
+        return _PushedSlot(self, ref)
+
+    def push_lora(self, name: str | None) -> _PushedSlot:
+        ref = self._slot_ref("lora", name)
+        self._slot_stack.append(ref)
+        return _PushedSlot(self, ref)
+
+    def pop_pushed_lora_or_checkpoint(self) -> None:
+        if not self._slot_stack:
+            raise RuntimeError("No pushed LoRA or checkpoint to pop")
+        self._slot_stack.pop()
+
+    def load_checkpoint_slot(
+        self,
+        name: str,
+        adapter_model: dict[str, torch.Tensor],
+        *,
+        alpha: float | None = None,
+    ) -> int:
+        loaded = self._load_slot(
+            "checkpoint", name, adapter_model, trainable=True, alpha=alpha
+        )
+        self._checkpoint_slot_names.add(name)
+        return loaded
+
+    def load_lora_slot(
+        self,
+        name: str,
+        adapter_model: dict[str, torch.Tensor],
+        *,
+        alpha: float | None = None,
+    ) -> int:
+        return self._load_slot("lora", name, adapter_model, trainable=False, alpha=alpha)
+
+    def _load_slot(
+        self,
+        kind: Literal["checkpoint", "lora"],
+        name: str,
+        adapter_model: dict[str, torch.Tensor],
+        *,
+        trainable: bool,
+        alpha: float | None,
+    ) -> int:
+        from art.megatron.lora import LORA_ALPHA, load_lora_slot_into_model
+
+        return load_lora_slot_into_model(
+            self.runtime.model,
+            self._slot_ref(kind, name),
+            adapter_model,
+            alpha=LORA_ALPHA if alpha is None else alpha,
+            requires_grad=trainable,
+        )
+
+    def _set_default_slot(self, ref: "LoRASlotRef") -> None:
+        if self._slot_stack:
+            raise RuntimeError("Cannot set a LoRA/checkpoint while a slot is pushed")
+        self._default_slot_ref = ref
+
+    @staticmethod
+    def _slot_ref(kind: Literal["checkpoint", "lora"], name: str | None) -> "LoRASlotRef":
+        from art.megatron.lora import LoRASlotRef
+
+        return LoRASlotRef(kind=kind, name=name)
+
+    def _resolve_slot_ref(self, request: AnyForwardInput) -> "LoRASlotRef | None":
+        if request.checkpoint is not Unset:
+            return self._slot_ref("checkpoint", cast(str | None, request.checkpoint))
+        if request.lora is not Unset:
+            return self._slot_ref("lora", cast(str | None, request.lora))
+        if self._slot_stack:
+            return self._slot_stack[-1]
+        return self._default_slot_ref
+
+    def _set_current_slot(self, ref: "LoRASlotRef | None") -> object:
+        from art.megatron.lora import set_lora_slot_context
+
+        return set_lora_slot_context(ref)
+
+    def _reset_current_slot(self, token: object) -> None:
+        from art.megatron.lora import reset_lora_slot_context
+
+        reset_lora_slot_context(token)  # type: ignore[arg-type]
+
+    @contextmanager
+    def _use_slot(self, ref: "LoRASlotRef | None") -> Iterator[None]:
+        token = self._set_current_slot(ref)
+        try:
+            yield
+        finally:
+            self._reset_current_slot(token)
+
     def micro_batches(
         self,
         inputs: Iterable[ForwardInputsT],
@@ -456,7 +615,16 @@ def optim_step(
         *,
         params: AdamParams,
         scale_grads: float = 1.0,
+        checkpoints: Sequence[str] | None = None,
     ) -> dict[str, float]:
+        selected_checkpoints = self._selected_dynamic_checkpoints(checkpoints)
+        if selected_checkpoints:
+            return self._dynamic_optim_step(
+                selected_checkpoints,
+                params=params,
+                scale_grads=scale_grads,
+            )
+
         from art.megatron.training.finalize_grads import (
             finalize_model_grads_extended,
             flush_param_grads_to_main_grads,
@@ -481,6 +649,128 @@ def optim_step(
             "num_zeros_in_grad": float(num_zeros or 0),
         }
 
+    def _selected_dynamic_checkpoints(
+        self,
+        checkpoints: Sequence[str] | None,
+    ) -> tuple[str, ...]:
+        if checkpoints is not None:
+            unknown = set(checkpoints) - self._checkpoint_slot_names
+            if unknown:
+                raise ValueError(f"Unknown checkpoint slots: {sorted(unknown)}")
+            return tuple(dict.fromkeys(checkpoints))
+        names = []
+        for name in sorted(self._checkpoint_slot_names):
+            local_has_grad = any(
+                param.grad is not None for param in self._checkpoint_slot_params(name)
+            )
+            has_grad = torch.tensor(
+                int(local_has_grad),
+                device=self.device,
+                dtype=torch.int32,
+            )
+            if dist.is_available() and dist.is_initialized():
+                dist.all_reduce(has_grad, op=dist.ReduceOp.MAX)
+            if bool(has_grad.item()):
+                names.append(name)
+        return tuple(names)
+
+    def _dynamic_optim_step(
+        self,
+        checkpoint_names: Sequence[str],
+        *,
+        params: AdamParams,
+        scale_grads: float,
+    ) -> dict[str, float]:
+        all_params: list[torch.nn.Parameter] = []
+        for name in checkpoint_names:
+            slot_params = self._checkpoint_slot_params(name)
+            self._ensure_dynamic_grads(slot_params)
+            self._reduce_dynamic_grads(slot_params)
+            if scale_grads != 1.0:
+                for param in slot_params:
+                    if param.grad is not None:
+                        param.grad.mul_(scale_grads)
+            all_params.extend(slot_params)
+
+        grad_norm = torch.nn.utils.clip_grad_norm_(
+            all_params,
+            max_norm=params.grad_clip_norm,
+        )
+        for name in checkpoint_names:
+            optimizer = self._dynamic_optimizer(name, params)
+            optimizer.step()
+            optimizer.zero_grad(set_to_none=True)
+        return {
+            "learning_rate": float(params.learning_rate),
+            "grad_norm": float(grad_norm),
+            "update_successful": 1.0,
+            "num_zeros_in_grad": 0.0,
+        }
+
+    def _dynamic_optimizer(
+        self,
+        name: str,
+        params: AdamParams,
+    ) -> torch.optim.Optimizer:
+        optimizer = self._dynamic_optimizers.get(name)
+        if optimizer is None:
+            optimizer = torch.optim.AdamW(
+                self._checkpoint_slot_params(name),
+                lr=params.learning_rate,
+                betas=(params.beta1, params.beta2),
+                weight_decay=params.weight_decay,
+            )
+            self._dynamic_optimizers[name] = optimizer
+            return optimizer
+        for group in optimizer.param_groups:
+            group["lr"] = params.learning_rate
+            group["betas"] = (params.beta1, params.beta2)
+            group["weight_decay"] = params.weight_decay
+        return optimizer
+
+    def _checkpoint_slot_params(self, name: str) -> list[torch.nn.Parameter]:
+        from art.megatron.lora import iter_lora_slot_parameters
+
+        return list(
+            iter_lora_slot_parameters(
+                self.runtime.model,
+                self._slot_ref("checkpoint", name),
+            )
+        )
+
+    @staticmethod
+    def _ensure_dynamic_grads(params: Sequence[torch.nn.Parameter]) -> None:
+        for param in params:
+            if param.grad is None:
+                param.grad = torch.zeros_like(param)
+
+    def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
+        from megatron.core import parallel_state as ps
+
+        for param in params:
+            grad = param.grad
+            if grad is None:
+                continue
+            if bool(getattr(param, "allreduce", True)):
+                group = ps.get_data_parallel_group(with_context_parallel=True)
+            else:
+                group = ps.get_expert_data_parallel_group()
+            if group is not None and group.size() > 1:
+                dist.all_reduce(grad, op=dist.ReduceOp.SUM, group=group)
+
+            op = getattr(param, "grad_sync_op", "none")
+            if op == "none":
+                continue
+            domain = getattr(param, "grad_sync_domain", "tp_default")
+            if domain == "expert_tp":
+                tp_group = ps.get_expert_tensor_parallel_group(check_initialized=False)
+            else:
+                tp_group = ps.get_tensor_model_parallel_group(check_initialized=False)
+            if tp_group is None or tp_group.size() <= 1:
+                continue
+            reduce_op = dist.ReduceOp.AVG if op == "avg" else dist.ReduceOp.SUM
+            dist.all_reduce(grad, op=reduce_op, group=tp_group)
+
     def _forward_flat(
         self, requests: Sequence[AnyForwardInput]
     ) -> list[AnyForwardOutput]:
@@ -504,12 +794,18 @@ def _forward_flat(
         if not active_indices:
             return outputs
 
-        items = [self._forward_item(requests[index]) for index in active_indices]
-        packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
-        prepared = self._prepare_packed_forward(packed)
-        item_outputs = self._forward_packed(items, prepared)
-        for index, output in zip(active_indices, item_outputs, strict=True):
-            outputs[index] = output
+        groups: dict[LoRASlotRef | None, list[int]] = {}
+        for index in active_indices:
+            groups.setdefault(self._resolve_slot_ref(requests[index]), []).append(index)
+
+        for slot_ref, group_indices in groups.items():
+            items = [self._forward_item(requests[index]) for index in group_indices]
+            packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
+            with self._use_slot(slot_ref):
+                prepared = self._prepare_packed_forward(packed)
+                item_outputs = self._forward_packed(items, prepared)
+            for index, output in zip(group_indices, item_outputs, strict=True):
+                outputs[index] = output
         return outputs
 
     def _forward_item(self, request: AnyForwardInput) -> _ForwardItem:
diff --git a/src/art/megatron/training/finalize_grads.py b/src/art/megatron/training/finalize_grads.py
index cde0e7b06..2c49671fa 100644
--- a/src/art/megatron/training/finalize_grads.py
+++ b/src/art/megatron/training/finalize_grads.py
@@ -28,6 +28,8 @@ def _iter_named_trainable_parameters(
         for name, param in model_chunk.named_parameters():
             if not param.requires_grad:
                 continue
+            if getattr(param, "_art_dynamic_lora_slot", False):
+                continue
             param_id = id(param)
             if param_id in seen:
                 continue
diff --git a/tests/integration/megatron/lora/test_dynamic_lora_slots.py b/tests/integration/megatron/lora/test_dynamic_lora_slots.py
new file mode 100644
index 000000000..9cb90de81
--- /dev/null
+++ b/tests/integration/megatron/lora/test_dynamic_lora_slots.py
@@ -0,0 +1,170 @@
+from __future__ import annotations
+
+from contextlib import contextmanager
+import os
+import socket
+from types import SimpleNamespace
+
+import pytest
+
+torch = pytest.importorskip("torch")
+pytest.importorskip("megatron.core")
+
+from megatron.core import parallel_state as ps  # noqa: E402
+from torch.distributed import destroy_process_group, init_process_group  # noqa: E402
+
+from art.megatron.lora import LoRA, LoRASlotRef, use_lora_slot  # noqa: E402
+from art.megatron.trainer_rank import AdamParams, TrainerRank  # noqa: E402
+
+
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="CUDA is required.")
+def test_dynamic_lora_slots_capture_recompute_context_and_step_independently() -> None:
+    with _single_rank_model_parallel():
+        device = torch.device("cuda")
+        lora = LoRA(
+            "dense",
+            in_features=4,
+            out_features=5,
+            rank=2,
+            alpha=32,
+            dtype=torch.float32,
+            device=device,
+        )
+        ref_a = LoRASlotRef("checkpoint", "A")
+        ref_b = LoRASlotRef("checkpoint", "B")
+        lora.load_lora_slot(ref_a, _adapter("dense", rank=1, seed=1), requires_grad=True)
+        lora.load_lora_slot(ref_b, _adapter("dense", rank=4, seed=2), requires_grad=True)
+
+        x = torch.randn(7, 4, device=device)
+        with use_lora_slot(LoRASlotRef("checkpoint", None)):
+            assert torch.equal(lora(x), torch.zeros(7, 5, device=device))
+        with use_lora_slot(LoRASlotRef("lora", "missing")):
+            assert torch.equal(lora(x), torch.zeros(7, 5, device=device))
+
+        slot_a = lora._slot(ref_a)
+        assert slot_a is not None
+        with use_lora_slot(ref_a):
+            actual = lora(x)
+        expected = (x @ slot_a.A_T) @ slot_a.B_T * slot_a.scale
+        assert torch.allclose(actual, expected, atol=0, rtol=0)
+        assert slot_a.rank == 1
+        assert slot_a.scale == 32.0
+        assert lora._slot(ref_b).scale == 8.0  # type: ignore[union-attr]
+
+        trainer = _trainer_for(lora, device)
+        with trainer.push_checkpoint("A"):
+            assert trainer._slot_stack[-1] == ref_a
+            with trainer.push_lora(None):
+                assert trainer._slot_stack[-1].name is None
+            assert trainer._slot_stack[-1] == ref_a
+        assert trainer._slot_stack == []
+
+        from megatron.core.tensor_parallel.random import (
+            checkpoint as megatron_checkpoint,
+        )
+        from torch.utils.checkpoint import checkpoint as torch_checkpoint
+
+        _assert_checkpoint_recomputes_with(ref_a, ref_b, lora, torch_checkpoint)
+        _assert_checkpoint_recomputes_with(ref_a, ref_b, lora, megatron_checkpoint, False)
+        _assert_step_updates_only(ref_a, ref_b, lora, trainer)
+
+
+def _adapter(prefix: str, *, rank: int, seed: int) -> dict[str, torch.Tensor]:
+    device = torch.device("cuda")
+    generator = torch.Generator(device=device).manual_seed(seed)
+    return {
+        f"{prefix}.lora_A.weight": torch.randn(
+            rank, 4, generator=generator, device=device
+        ),
+        f"{prefix}.lora_B.weight": torch.randn(
+            5, rank, generator=generator, device=device
+        ),
+    }
+
+
+def _assert_checkpoint_recomputes_with(
+    expected_ref: LoRASlotRef,
+    ambient_ref: LoRASlotRef,
+    lora: LoRA,
+    checkpoint,
+    *checkpoint_args,
+) -> None:
+    for param in lora.parameters():
+        param.grad = None
+    x = torch.randn(3, 4, device="cuda", requires_grad=True)
+    with use_lora_slot(expected_ref):
+        y = checkpoint(lambda t: lora(t), *checkpoint_args, x)
+    with use_lora_slot(ambient_ref):
+        y.sum().backward()
+    assert lora._slot(expected_ref).A_T.grad is not None  # type: ignore[union-attr]
+    assert lora._slot(ambient_ref).A_T.grad is None  # type: ignore[union-attr]
+
+
+def _assert_step_updates_only(
+    stepped_ref: LoRASlotRef,
+    frozen_ref: LoRASlotRef,
+    lora: LoRA,
+    trainer: TrainerRank,
+) -> None:
+    for param in lora.parameters():
+        param.grad = None
+    with use_lora_slot(stepped_ref):
+        lora(torch.randn(5, 4, device="cuda")).sum().backward()
+    before_stepped = [p.detach().clone() for p in lora.lora_slot_params(stepped_ref)]
+    before_frozen = [p.detach().clone() for p in lora.lora_slot_params(frozen_ref)]
+    trainer.optim_step(
+        params=AdamParams(learning_rate=1e-3, weight_decay=0.0, grad_clip_norm=1.0),
+        checkpoints=[stepped_ref.name or ""],
+    )
+    assert any(
+        not torch.equal(before, after)
+        for before, after in zip(
+            before_stepped, lora.lora_slot_params(stepped_ref), strict=True
+        )
+    )
+    assert all(
+        torch.equal(before, after)
+        for before, after in zip(
+            before_frozen, lora.lora_slot_params(frozen_ref), strict=True
+        )
+    )
+
+
+def _trainer_for(lora: LoRA, device: torch.device) -> TrainerRank:
+    trainer = TrainerRank.__new__(TrainerRank)
+    trainer.runtime = SimpleNamespace(model=[lora], optimizer=None)
+    trainer.device = device
+    trainer._slot_stack = []
+    trainer._default_slot_ref = None
+    trainer._dynamic_optimizers = {}
+    trainer._checkpoint_slot_names = {"A", "B"}
+    return trainer
+
+
+@contextmanager
+def _single_rank_model_parallel():
+    os.environ.setdefault("MASTER_ADDR", "127.0.0.1")
+    os.environ["MASTER_PORT"] = str(_free_port())
+    os.environ.setdefault("RANK", "0")
+    os.environ.setdefault("WORLD_SIZE", "1")
+    os.environ.setdefault("LOCAL_RANK", "0")
+    torch.cuda.set_device(0)
+    init_process_group("nccl", rank=0, world_size=1)
+    try:
+        ps.initialize_model_parallel(
+            tensor_model_parallel_size=1,
+            pipeline_model_parallel_size=1,
+            context_parallel_size=1,
+            expert_model_parallel_size=1,
+        )
+        yield
+    finally:
+        if getattr(ps, "model_parallel_is_initialized", lambda: False)():
+            ps.destroy_model_parallel()
+        destroy_process_group()
+
+
+def _free_port() -> int:
+    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
+        sock.bind(("127.0.0.1", 0))
+        return int(sock.getsockname()[1])
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 80ab47176..005ea0757 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -8,6 +8,7 @@
 from art.megatron.trainer_rank import (
     ForwardInput,
     TrainerRank,
+    Unset,
     _validate_top_k,
 )
 
@@ -21,6 +22,25 @@ def test_forward_input_rejects_non_positive_top_k() -> None:
         ForwardInput(input_tokens=torch.tensor([1]), top_k=0)
 
 
+def test_forward_input_adapter_selection_defaults_to_unset() -> None:
+    request = ForwardInput(input_tokens=torch.tensor([1]))
+
+    assert request.checkpoint is Unset
+    assert request.lora is Unset
+
+
+def test_forward_input_accepts_explicit_base_checkpoint() -> None:
+    request = ForwardInput(input_tokens=torch.tensor([1]), checkpoint=None)
+
+    assert request.checkpoint is None
+    assert request.lora is Unset
+
+
+def test_forward_input_rejects_checkpoint_and_lora_together() -> None:
+    with pytest.raises(ValueError, match="cannot set both checkpoint and lora"):
+        ForwardInput(input_tokens=torch.tensor([1]), checkpoint="a", lora="b")
+
+
 def test_validate_top_k_rejects_values_above_vocab_size() -> None:
     with pytest.raises(ValueError, match="top_k=9 exceeds vocabulary size 8"):
         _validate_top_k(9, _Model())  # type: ignore[arg-type]
@@ -48,3 +68,15 @@ def test_trainer_rank_accepts_zero_depth_shared_prefix_for_gdn_runtime() -> None
     trainer = TrainerRank(runtime, shared_prefix_max_depth=0)  # type: ignore[arg-type]
 
     assert trainer.shared_prefix_max_depth == 0
+
+
+def test_trainer_rank_pop_rejects_empty_adapter_stack() -> None:
+    runtime = SimpleNamespace(
+        model=[torch.nn.Linear(1, 1)],
+        optimizer=None,
+        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
+    )
+    trainer = TrainerRank(runtime)  # type: ignore[arg-type]
+
+    with pytest.raises(RuntimeError, match="No pushed LoRA or checkpoint"):
+        trainer.pop_pushed_lora_or_checkpoint()

From c70f4b6e0f7dcae7bfd5516c26f507c085043d2a Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Mon, 22 Jun 2026 12:56:57 -0600
Subject: [PATCH 007/114] fix: resolve vllm runtime python for codec tests

---
 .../megatron/lora/test_lora_disk_codecs.py    | 27 ++++++++++++++++++-
 1 file changed, 26 insertions(+), 1 deletion(-)

diff --git a/tests/integration/megatron/lora/test_lora_disk_codecs.py b/tests/integration/megatron/lora/test_lora_disk_codecs.py
index b14cd2a4c..6fcb4c2bc 100644
--- a/tests/integration/megatron/lora/test_lora_disk_codecs.py
+++ b/tests/integration/megatron/lora/test_lora_disk_codecs.py
@@ -1,5 +1,7 @@
 import json
+import os
 from pathlib import Path
+import shutil
 import subprocess
 import sys
 from typing import Any, cast
@@ -31,6 +33,29 @@
 VLLM_PYTHON = REPO_ROOT / "vllm_runtime/.venv/bin/python"
 
 
+def _vllm_python_cmd() -> list[str]:
+    override = os.environ.get("ART_TEST_VLLM_PYTHON")
+    if override:
+        return [override]
+    if VLLM_PYTHON.exists():
+        return [str(VLLM_PYTHON)]
+    uv = shutil.which("uv")
+    if uv is None:
+        raise RuntimeError(
+            f"{VLLM_PYTHON} does not exist and uv is not available to run "
+            "the locked vLLM runtime project"
+        )
+    return [
+        uv,
+        "run",
+        "--project",
+        str(REPO_ROOT / "vllm_runtime"),
+        "--frozen",
+        "--no-dev",
+        "python",
+    ]
+
+
 def _config(base_model: str, rank: int = 2, alpha: int = 4) -> dict:
     return {
         "base_model_name_or_path": base_model,
@@ -142,7 +167,7 @@ def _assert_stock_vllm_loads(
 """
     result = subprocess.run(
         [
-            str(VLLM_PYTHON),
+            *_vllm_python_cmd(),
             "-c",
             script,
             str(path),

From 94afb0f5a2596b70744019aecaf62f3ac2d3295b Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Mon, 22 Jun 2026 13:00:28 -0600
Subject: [PATCH 008/114] style: apply TrainerRank formatting

---
 src/art/megatron/trainer_rank.py                     | 12 +++++++++---
 .../megatron/lora/test_dynamic_lora_slots.py         | 12 +++++++++---
 2 files changed, 18 insertions(+), 6 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index cb274cf8b..feb023784 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -338,7 +338,9 @@ def __exit__(
         traceback: object,
     ) -> bool:
         if not self.trainer._slot_stack or self.trainer._slot_stack[-1] != self.ref:
-            raise RuntimeError("Pushed LoRA/checkpoint stack changed before context exit")
+            raise RuntimeError(
+                "Pushed LoRA/checkpoint stack changed before context exit"
+            )
         self.trainer.pop_pushed_lora_or_checkpoint()
         return False
 
@@ -473,7 +475,9 @@ def load_lora_slot(
         *,
         alpha: float | None = None,
     ) -> int:
-        return self._load_slot("lora", name, adapter_model, trainable=False, alpha=alpha)
+        return self._load_slot(
+            "lora", name, adapter_model, trainable=False, alpha=alpha
+        )
 
     def _load_slot(
         self,
@@ -500,7 +504,9 @@ def _set_default_slot(self, ref: "LoRASlotRef") -> None:
         self._default_slot_ref = ref
 
     @staticmethod
-    def _slot_ref(kind: Literal["checkpoint", "lora"], name: str | None) -> "LoRASlotRef":
+    def _slot_ref(
+        kind: Literal["checkpoint", "lora"], name: str | None
+    ) -> "LoRASlotRef":
         from art.megatron.lora import LoRASlotRef
 
         return LoRASlotRef(kind=kind, name=name)
diff --git a/tests/integration/megatron/lora/test_dynamic_lora_slots.py b/tests/integration/megatron/lora/test_dynamic_lora_slots.py
index 9cb90de81..49a7f8224 100644
--- a/tests/integration/megatron/lora/test_dynamic_lora_slots.py
+++ b/tests/integration/megatron/lora/test_dynamic_lora_slots.py
@@ -32,8 +32,12 @@ def test_dynamic_lora_slots_capture_recompute_context_and_step_independently() -
         )
         ref_a = LoRASlotRef("checkpoint", "A")
         ref_b = LoRASlotRef("checkpoint", "B")
-        lora.load_lora_slot(ref_a, _adapter("dense", rank=1, seed=1), requires_grad=True)
-        lora.load_lora_slot(ref_b, _adapter("dense", rank=4, seed=2), requires_grad=True)
+        lora.load_lora_slot(
+            ref_a, _adapter("dense", rank=1, seed=1), requires_grad=True
+        )
+        lora.load_lora_slot(
+            ref_b, _adapter("dense", rank=4, seed=2), requires_grad=True
+        )
 
         x = torch.randn(7, 4, device=device)
         with use_lora_slot(LoRASlotRef("checkpoint", None)):
@@ -65,7 +69,9 @@ def test_dynamic_lora_slots_capture_recompute_context_and_step_independently() -
         from torch.utils.checkpoint import checkpoint as torch_checkpoint
 
         _assert_checkpoint_recomputes_with(ref_a, ref_b, lora, torch_checkpoint)
-        _assert_checkpoint_recomputes_with(ref_a, ref_b, lora, megatron_checkpoint, False)
+        _assert_checkpoint_recomputes_with(
+            ref_a, ref_b, lora, megatron_checkpoint, False
+        )
         _assert_step_updates_only(ref_a, ref_b, lora, trainer)
 
 

From 327ced412950d5f49afe1e3b1b9043815aa2b9de Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Mon, 22 Jun 2026 16:13:22 -0600
Subject: [PATCH 009/114] fix: guard dynamic slot optimizer reductions

---
 src/art/megatron/trainer_rank.py | 136 ++++++++++++++++++++++++++++++-
 1 file changed, 133 insertions(+), 3 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index feb023784..a2d8ce87d 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -3,10 +3,12 @@
 from collections.abc import Callable, Iterable, Iterator, MutableMapping, Sequence
 from contextlib import contextmanager
 from dataclasses import dataclass
+from itertools import zip_longest
 import os
 from typing import TYPE_CHECKING, Generic, Literal, ParamSpec, TypeVar, cast, overload
 
 import torch
+from torch._utils import _flatten_dense_tensors, _unflatten_dense_tensors
 import torch.distributed as dist
 
 from art.megatron.shared_prefix_packing import pack_shared_prefixes
@@ -465,6 +467,7 @@ def load_checkpoint_slot(
         loaded = self._load_slot(
             "checkpoint", name, adapter_model, trainable=True, alpha=alpha
         )
+        self._validate_dynamic_slot_consistency("checkpoint", name, loaded)
         self._checkpoint_slot_names.add(name)
         return loaded
 
@@ -475,9 +478,11 @@ def load_lora_slot(
         *,
         alpha: float | None = None,
     ) -> int:
-        return self._load_slot(
+        loaded = self._load_slot(
             "lora", name, adapter_model, trainable=False, alpha=alpha
         )
+        self._validate_dynamic_slot_consistency("lora", name, loaded)
+        return loaded
 
     def _load_slot(
         self,
@@ -511,6 +516,74 @@ def _slot_ref(
 
         return LoRASlotRef(kind=kind, name=name)
 
+    def _validate_dynamic_slot_consistency(
+        self,
+        kind: Literal["checkpoint", "lora"],
+        name: str,
+        loaded_sites: int,
+    ) -> None:
+        if not (dist.is_available() and dist.is_initialized()):
+            return
+
+        from art.megatron.lora import iter_lora_slot_parameters
+
+        ref = self._slot_ref(kind, name)
+        params = list(iter_lora_slot_parameters(self.runtime.model, ref))
+        local = {
+            "rank": dist.get_rank(),
+            "loaded_sites": int(loaded_sites),
+            "param_count": len(params),
+            "numel": sum(int(param.numel()) for param in params),
+            "signature": [
+                (
+                    tuple(int(dim) for dim in param.shape),
+                    str(param.dtype),
+                    bool(getattr(param, "allreduce", True)),
+                    str(getattr(param, "grad_sync_domain", "tp_default")),
+                    str(getattr(param, "grad_sync_op", "none")),
+                )
+                for param in params
+            ],
+        }
+        gathered: list[dict[str, object] | None] = [None] * dist.get_world_size()
+        dist.all_gather_object(gathered, local)
+        ranks = [rank for rank in gathered if rank is not None]
+        reference = ranks[0]
+        mismatched = [
+            rank
+            for rank in ranks
+            if rank["loaded_sites"] != reference["loaded_sites"]
+            or rank["signature"] != reference["signature"]
+        ]
+        if not mismatched:
+            return
+
+        first_mismatch = None
+        for left, right in zip_longest(
+            cast(list[object], reference["signature"]),
+            cast(list[object], mismatched[0]["signature"]),
+            fillvalue=None,
+        ):
+            if left != right:
+                first_mismatch = {"expected": left, "actual": right}
+                break
+        summary = [
+            {
+                "rank": rank["rank"],
+                "loaded_sites": rank["loaded_sites"],
+                "param_count": rank["param_count"],
+                "numel": rank["numel"],
+            }
+            for rank in ranks
+        ]
+        raise RuntimeError(
+            f"Dynamic LoRA slot {kind}:{name} is not loaded consistently across "
+            "distributed ranks. This usually means a sharded/exported LoRA state "
+            "dict was passed directly to TrainerRank; gather or materialize the "
+            "full adapter state before loading a dynamic slot. "
+            f"Rank summary: {summary}. First mismatch: {first_mismatch}."
+        )
+
     def _resolve_slot_ref(self, request: AnyForwardInput) -> "LoRASlotRef | None":
         if request.checkpoint is not Unset:
             return self._slot_ref("checkpoint", cast(str | None, request.checkpoint))
@@ -753,6 +826,39 @@ def _ensure_dynamic_grads(params: Sequence[torch.nn.Parameter]) -> None:
     def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
         from megatron.core import parallel_state as ps
 
+        buckets: list[
+            tuple[
+                object,
+                dist.ReduceOp.RedOpType,
+                torch.dtype,
+                torch.device,
+                list[torch.Tensor],
+            ]
+        ] = []
+
+        def add_to_bucket(
+            *,
+            group: object,
+            op: dist.ReduceOp.RedOpType,
+            grad: torch.Tensor,
+        ) -> None:
+            for (
+                bucket_group,
+                bucket_op,
+                bucket_dtype,
+                bucket_device,
+                bucket_grads,
+            ) in buckets:
+                if (
+                    bucket_group is group
+                    and bucket_op == op
+                    and bucket_dtype == grad.dtype
+                    and bucket_device == grad.device
+                ):
+                    bucket_grads.append(grad)
+                    return
+            buckets.append((group, op, grad.dtype, grad.device, [grad]))
+
         for param in params:
             grad = param.grad
             if grad is None:
@@ -762,7 +868,7 @@ def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
             else:
                 group = ps.get_expert_data_parallel_group()
             if group is not None and group.size() > 1:
-                dist.all_reduce(grad, op=dist.ReduceOp.SUM, group=group)
+                add_to_bucket(group=group, op=dist.ReduceOp.SUM, grad=grad)
 
             op = getattr(param, "grad_sync_op", "none")
             if op == "none":
@@ -775,7 +881,31 @@ def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
             if tp_group is None or tp_group.size() <= 1:
                 continue
             reduce_op = dist.ReduceOp.AVG if op == "avg" else dist.ReduceOp.SUM
-            dist.all_reduce(grad, op=reduce_op, group=tp_group)
+            add_to_bucket(group=tp_group, op=reduce_op, grad=grad)
+
+        for group, op, _dtype, _device, grads in buckets:
+            self._coalesced_all_reduce(grads, group=group, op=op)
+
+    @staticmethod
+    def _coalesced_all_reduce(
+        grads: Sequence[torch.Tensor],
+        *,
+        group: object,
+        op: dist.ReduceOp.RedOpType,
+    ) -> None:
+        if not grads:
+            return
+        coalesced = _flatten_dense_tensors(grads)
+        reduced = (
+            coalesced.float()
+            if torch.is_floating_point(coalesced) and coalesced.dtype != torch.float32
+            else coalesced
+        )
+        dist.all_reduce(reduced, op=op, group=group)
+        if reduced is not coalesced:
+            reduced = reduced.to(dtype=coalesced.dtype)
+        for grad, synced in zip(grads, _unflatten_dense_tensors(reduced, grads)):
+            grad.copy_(synced)
 
     def _forward_flat(
         self, requests: Sequence[AnyForwardInput]

From 9dcc9f95ca287be526a958ec38708452350f1430 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Mon, 22 Jun 2026 17:56:30 -0600
Subject: [PATCH 010/114] test: add megatron review readiness harness

---
 dev/trainer_rank_perf.py                      | 234 ++++++--
 dev/trainer_rank_review_perf.py               | 530 ++++++++++++++++++
 .../megatron/context_parallel/block_mask.py   | 184 ++++--
 src/art/megatron/context_parallel/executor.py |  15 +-
 src/art/megatron/context_parallel/types.py    |   1 +
 src/art/megatron/setup.sh                     |   4 +
 .../megatron/lora/test_lora_disk_codecs.py    |  42 ++
 .../test_shared_prefix_attention_builder.py   | 135 +++++
 8 files changed, 1055 insertions(+), 90 deletions(-)
 create mode 100644 dev/trainer_rank_review_perf.py

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 669d422f1..eaad7b03b 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -3,6 +3,7 @@
 from collections.abc import Callable, Sequence
 import json
 import os
+from pathlib import Path
 
 import torch
 import torch.distributed as dist
@@ -42,6 +43,10 @@ def main(
     tree_depth: int = 3,
     tree_seed: int = 1,
     tree_duplicate_factor: int = 1,
+    adapter_slots: int = 0,
+    adapter_slot_mode: str = "family",
+    adapter_slot_rank: int = 1,
+    output_jsonl: str = "",
 ) -> None:
     os.environ.setdefault("ART_MEGATRON_TENSOR_MODEL_PARALLEL_SIZE", "1")
     os.environ.setdefault("ART_MEGATRON_CONTEXT_PARALLEL_SIZE", "1")
@@ -71,6 +76,18 @@ def main(
             head_chunk_tokens=head_chunk_tokens,
             shared_prefix_max_depth=shared_prefix_max_depth,
         )
+        if adapter_slots < 0:
+            raise ValueError("adapter_slots must be >= 0")
+        if adapter_slot_rank < 1:
+            raise ValueError("adapter_slot_rank must be >= 1")
+        if adapter_slots:
+            loaded_sites = _load_adapter_slots(
+                rank,
+                count=adapter_slots,
+                slot_rank=adapter_slot_rank,
+            )
+        else:
+            loaded_sites = 0
         hidden_size, vocab_size, dtype_size = _runtime_output_shape(runtime)
         model_config = getattr(_language_model(runtime.model[0]), "config", None)
 
@@ -138,6 +155,16 @@ def main(
             tree_seed=tree_seed,
             tree_duplicate_factor=tree_duplicate_factor,
         )
+        requests = _route_adapter_slots(
+            requests,
+            adapter_slots=adapter_slots,
+            mode=adapter_slot_mode,
+        )
+        multi_target_requests = _route_adapter_slots(
+            multi_target_requests,
+            adapter_slots=adapter_slots,
+            mode=adapter_slot_mode,
+        )
         stats_items = [rank._forward_item(request) for request in requests]
         stats_batch = _pack_forward_items(
             stats_items,
@@ -488,53 +515,58 @@ def register_case(
 
         if dist.get_rank() == 0:
             token_rates = _rate_metrics(results, rate_units)
-            print(
-                json.dumps(
-                    {
-                        "world": dist.get_world_size(),
-                        "tp": int(ps.get_tensor_model_parallel_world_size()),
-                        "cp": int(ps.get_context_parallel_world_size()),
-                        "seq_len": seq_len,
-                        "prefix_families": prefix_families,
-                        "prefix_len": prefix_len,
-                        "mid_prefixes_per_family": mid_prefixes_per_family,
-                        "mid_prefix_len": mid_prefix_len,
-                        "branches_per_prefix": branches_per_prefix,
-                        "completion_len": completion_len,
-                        "head_chunk_tokens": head_chunk_tokens,
-                        "shared_prefix_max_depth": shared_prefix_max_depth,
-                        "warmup": warmup,
-                        "repeat": repeat,
-                        "target_count": target_count,
-                        "top_k": top_k,
-                        "top_k_values": top_k_values,
-                        "max_unpacked_output_gb": max_unpacked_output_gb,
-                        "mask_prefix_targets": mask_prefix_targets,
-                        "workload": workload,
-                        "tree_depth": tree_depth,
-                        "tree_seed": tree_seed,
-                        "tree_duplicate_factor": tree_duplicate_factor,
-                        "mtp_num_layers": getattr(model_config, "mtp_num_layers", None),
-                        "cross_entropy_loss_fusion": getattr(
-                            model_config, "cross_entropy_loss_fusion", None
-                        ),
-                        "cross_entropy_fusion_impl": getattr(
-                            model_config, "cross_entropy_fusion_impl", None
-                        ),
-                        **request_stats,
-                        "peak_memory_gb": round(
-                            torch.cuda.max_memory_allocated() / 1024**3,
-                            3,
-                        ),
-                        **results,
-                        **token_rates,
-                        **metadata,
-                        **planner_metadata,
-                    },
-                    sort_keys=True,
+            payload = {
+                "world": dist.get_world_size(),
+                "tp": int(ps.get_tensor_model_parallel_world_size()),
+                "cp": int(ps.get_context_parallel_world_size()),
+                "seq_len": seq_len,
+                "prefix_families": prefix_families,
+                "prefix_len": prefix_len,
+                "mid_prefixes_per_family": mid_prefixes_per_family,
+                "mid_prefix_len": mid_prefix_len,
+                "branches_per_prefix": branches_per_prefix,
+                "completion_len": completion_len,
+                "head_chunk_tokens": head_chunk_tokens,
+                "shared_prefix_max_depth": shared_prefix_max_depth,
+                "warmup": warmup,
+                "repeat": repeat,
+                "target_count": target_count,
+                "top_k": top_k,
+                "top_k_values": top_k_values,
+                "max_unpacked_output_gb": max_unpacked_output_gb,
+                "mask_prefix_targets": mask_prefix_targets,
+                "workload": workload,
+                "tree_depth": tree_depth,
+                "tree_seed": tree_seed,
+                "tree_duplicate_factor": tree_duplicate_factor,
+                "adapter_slots": adapter_slots,
+                "adapter_slot_mode": adapter_slot_mode,
+                "adapter_slot_rank": adapter_slot_rank,
+                "adapter_loaded_sites": loaded_sites,
+                "mtp_num_layers": getattr(model_config, "mtp_num_layers", None),
+                "cross_entropy_loss_fusion": getattr(
+                    model_config, "cross_entropy_loss_fusion", None
                 ),
-                flush=True,
-            )
+                "cross_entropy_fusion_impl": getattr(
+                    model_config, "cross_entropy_fusion_impl", None
+                ),
+                **request_stats,
+                "peak_memory_gb": round(
+                    torch.cuda.max_memory_allocated() / 1024**3,
+                    3,
+                ),
+                **results,
+                **token_rates,
+                **metadata,
+                **planner_metadata,
+            }
+            line = json.dumps(payload, sort_keys=True)
+            print(line, flush=True)
+            if output_jsonl:
+                output_path = Path(output_jsonl)
+                output_path.parent.mkdir(parents=True, exist_ok=True)
+                with output_path.open("a", encoding="utf-8") as output_file:
+                    output_file.write(line + "\n")
         dist.barrier()
     finally:
         if dist.is_initialized():
@@ -621,6 +653,116 @@ def _requests(
     )
 
 
+def _load_adapter_slots(
+    rank: TrainerRank,
+    *,
+    count: int,
+    slot_rank: int,
+) -> int:
+    loaded_sites = 0
+    for slot_index in range(count):
+        loaded_sites += rank.load_checkpoint_slot(
+            f"S{slot_index}",
+            _synthetic_adapter(
+                rank.runtime.model, slot_rank=slot_rank, seed=slot_index
+            ),
+        )
+    return loaded_sites
+
+
+def _synthetic_adapter(
+    model: Sequence[torch.nn.Module],
+    *,
+    slot_rank: int,
+    seed: int,
+) -> dict[str, torch.Tensor]:
+    from art.megatron.lora import LoRA
+
+    adapter: dict[str, torch.Tensor] = {}
+    generator = torch.Generator(device="cuda").manual_seed(10_000 + seed)
+    for chunk in model:
+        for module in chunk.modules():
+            if not isinstance(module, LoRA):
+                continue
+            a_keys = module._expected_weight_keys("lora_A")
+            b_keys = module._expected_weight_keys("lora_B")
+            for a_key, b_key in zip(a_keys, b_keys, strict=True):
+                adapter[a_key] = (
+                    torch.randn(
+                        slot_rank,
+                        module.in_features,
+                        dtype=module.A_T.dtype,
+                        device=module.A_T.device,
+                        generator=generator,
+                    )
+                    * 0.01
+                )
+                adapter[b_key] = (
+                    torch.randn(
+                        module.out_features,
+                        slot_rank,
+                        dtype=module.B_T.dtype,
+                        device=module.B_T.device,
+                        generator=generator,
+                    )
+                    * 0.01
+                )
+    if not adapter:
+        raise RuntimeError("adapter slot stress requested, but model has no LoRA sites")
+    return adapter
+
+
+def _route_adapter_slots(
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    adapter_slots: int,
+    mode: str,
+) -> list[
+    ForwardInput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ]
+]:
+    if adapter_slots == 0:
+        return list(requests)
+    if mode not in {"family", "round_robin", "single"}:
+        raise ValueError(
+            "adapter_slot_mode must be one of: family, round_robin, single"
+        )
+    return [
+        ForwardInput(
+            input_tokens=request.input_tokens,
+            target_tokens=request.target_tokens,
+            top_k=request.top_k,
+            logits=request.logits,
+            hidden_states=request.hidden_states,
+            checkpoint=f"S{_adapter_slot_index(index, request, adapter_slots, mode)}",
+        )
+        for index, request in enumerate(requests)
+    ]
+
+
+def _adapter_slot_index(
+    index: int,
+    request: ForwardInput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ],
+    adapter_slots: int,
+    mode: str,
+) -> int:
+    if mode == "single":
+        return 0
+    if mode == "round_robin":
+        return index % adapter_slots
+    first_token = (
+        int(request.input_tokens[0].item()) if request.input_tokens.numel() else 0
+    )
+    return (first_token // 10_000_019) % adapter_slots
+
+
 def _workload_sequences(
     *,
     workload: str,
diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
new file mode 100644
index 000000000..3e0ca1690
--- /dev/null
+++ b/dev/trainer_rank_review_perf.py
@@ -0,0 +1,530 @@
+from __future__ import annotations
+
+from collections.abc import Callable, Sequence
+import json
+from pathlib import Path
+import time
+
+import torch
+from torch.nn.attention.flex_attention import BlockMask
+from torch.nn.attention.flex_attention import create_block_mask as torch_block_mask
+import typer
+
+from art.megatron.context_parallel.block_mask import (
+    build_block_mask_from_context,
+    prepare_block_mask_context,
+)
+from art.megatron.context_parallel.builder import build_shared_prefix_attention_spec
+from art.megatron.context_parallel.runtime import (
+    _RUNTIME_PLAN_CACHE,
+    get_or_build_runtime_plan,
+    make_runtime_key,
+)
+from art.megatron.context_parallel.types import (
+    ContextParallelConfig,
+    FlexMaskSpec,
+    ParallelTopology,
+)
+from art.megatron.flex_attn.attention import FlexAttentionWrapper
+from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
+from art.megatron.shared_prefix_state import create_shared_prefix_state
+
+
+def main(
+    workload: str = "austin_198k",
+    max_depth: int = 1,
+    cp_size: int = 4,
+    block_size: int = 128,
+    prefix_families: int = 4,
+    prefix_len: int = 1024,
+    mid_prefixes_per_family: int = 1,
+    mid_prefix_len: int = 0,
+    branches_per_prefix: int = 8,
+    completion_len: int = 128,
+    warmup: int = 3,
+    repeat: int = 10,
+    shape_variants: int = 4,
+    validate_torch: bool = True,
+    run_flex: bool = True,
+    flex_token_cap: int = 8192,
+    flex_heads: int = 2,
+    flex_head_dim: int = 64,
+    output_jsonl: Path = Path(".local/trainer_rank_review/block_mask_flex.jsonl"),
+) -> None:
+    if warmup < 0 or repeat < 1:
+        raise ValueError("warmup must be >= 0 and repeat must be >= 1")
+    output_jsonl.parent.mkdir(parents=True, exist_ok=True)
+
+    pack = _pack_workload(
+        workload=workload,
+        max_depth=max_depth,
+        prefix_families=prefix_families,
+        prefix_len=prefix_len,
+        mid_prefixes_per_family=mid_prefixes_per_family,
+        mid_prefix_len=mid_prefix_len,
+        branches_per_prefix=branches_per_prefix,
+        completion_len=completion_len,
+    )
+    spec = build_shared_prefix_attention_spec(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    config = ContextParallelConfig(block_size=block_size)
+    topology = ParallelTopology(cp=cp_size)
+    base = {
+        "workload": workload,
+        "max_depth": max_depth,
+        "cp_size": cp_size,
+        "block_size": block_size,
+        "packed_tokens": int(pack.tokens.numel()),
+        "logical_tokens": _logical_tokens(pack),
+        "warmup": warmup,
+        "repeat": repeat,
+    }
+
+    plan, plan_ms = _bench_cpu(
+        lambda: _build_cp_plan(pack, spec, topology, config),
+        warmup=warmup,
+        repeat=repeat,
+        before_each=_RUNTIME_PLAN_CACHE.clear,
+    )
+    _write(
+        output_jsonl,
+        {
+            **base,
+            "case": "cp_planning_cold",
+            "ms": plan_ms,
+            **_plan_stats(plan),
+        },
+    )
+
+    cached_plan, cached_plan_ms = _bench_cpu(
+        lambda: _build_cp_plan(pack, spec, topology, config),
+        warmup=warmup,
+        repeat=repeat,
+    )
+    _write(
+        output_jsonl,
+        {
+            **base,
+            "case": "cp_planning_cached",
+            "ms": cached_plan_ms,
+            **_plan_stats(cached_plan),
+        },
+    )
+
+    masks, mask_ms = _bench_cpu(
+        lambda: _build_stage_masks(pack, plan, config),
+        warmup=warmup,
+        repeat=repeat,
+    )
+    if validate_torch:
+        for mask in masks:
+            _assert_matches_torch_block_mask(mask)
+    _write(
+        output_jsonl,
+        {
+            **base,
+            "case": "block_mask_build",
+            "ms": mask_ms,
+            **_mask_stats(masks),
+        },
+    )
+
+    if run_flex:
+        _write(
+            output_jsonl,
+            {
+                **base,
+                **_flex_record(
+                    pack,
+                    warmup=warmup,
+                    repeat=repeat,
+                    token_cap=flex_token_cap,
+                    heads=flex_heads,
+                    head_dim=flex_head_dim,
+                ),
+            },
+        )
+
+    for variant in range(shape_variants):
+        variant_pack = _pack_workload(
+            workload="regular",
+            max_depth=max_depth,
+            prefix_families=prefix_families,
+            prefix_len=prefix_len + variant * 17,
+            mid_prefixes_per_family=mid_prefixes_per_family,
+            mid_prefix_len=mid_prefix_len + variant * 3,
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len + variant * 11,
+        )
+        variant_spec = build_shared_prefix_attention_spec(
+            group_ids=variant_pack.group_ids,
+            parent_ids=variant_pack.parent_ids,
+        )
+        variant_plan, variant_plan_ms = _bench_cpu(
+            lambda pack=variant_pack, spec=variant_spec: _build_cp_plan(
+                pack,
+                spec,
+                topology,
+                config,
+            ),
+            warmup=0,
+            repeat=1,
+            before_each=_RUNTIME_PLAN_CACHE.clear,
+        )
+        variant_masks, variant_mask_ms = _bench_cpu(
+            lambda pack=variant_pack, plan=variant_plan: _build_stage_masks(
+                pack,
+                plan,
+                config,
+            ),
+            warmup=0,
+            repeat=1,
+        )
+        _write(
+            output_jsonl,
+            {
+                **base,
+                "case": "shape_variant",
+                "variant": variant,
+                "variant_packed_tokens": int(variant_pack.tokens.numel()),
+                "variant_logical_tokens": _logical_tokens(variant_pack),
+                "cp_planning_ms": variant_plan_ms,
+                "block_mask_build_ms": variant_mask_ms,
+                **_plan_stats(variant_plan),
+                **_mask_stats(variant_masks),
+            },
+        )
+
+    print(f"wrote review perf records to {output_jsonl}", flush=True)
+
+
+def _pack_workload(
+    *,
+    workload: str,
+    max_depth: int,
+    prefix_families: int,
+    prefix_len: int,
+    mid_prefixes_per_family: int,
+    mid_prefix_len: int,
+    branches_per_prefix: int,
+    completion_len: int,
+) -> SharedPrefixPack:
+    sequences = (
+        _austin_sequences()
+        if workload == "austin_198k"
+        else _regular_sequences(
+            prefix_families=prefix_families,
+            prefix_len=prefix_len,
+            mid_prefixes_per_family=mid_prefixes_per_family,
+            mid_prefix_len=mid_prefix_len,
+            branches_per_prefix=branches_per_prefix,
+            completion_len=completion_len,
+        )
+    )
+    return pack_shared_prefixes(sequences, max_depth=max_depth)
+
+
+def _austin_sequences() -> tuple[torch.Tensor, ...]:
+    return tuple(
+        torch.cat(
+            (
+                _tokens(family * 10_000_019, 5000),
+                _tokens(family * 10_000_019 + branch * 1009 + 17, 100),
+            )
+        )
+        for family in range(30)
+        for branch in range(16)
+    )
+
+
+def _regular_sequences(
+    *,
+    prefix_families: int,
+    prefix_len: int,
+    mid_prefixes_per_family: int,
+    mid_prefix_len: int,
+    branches_per_prefix: int,
+    completion_len: int,
+) -> tuple[torch.Tensor, ...]:
+    sequences = []
+    for family in range(max(1, prefix_families)):
+        family_base = family * 10_000_019
+        root = _tokens(family_base, max(1, prefix_len))
+        for mid in range(max(1, mid_prefixes_per_family)):
+            mid_prefix = _tokens(
+                family_base + 1_000_003 + mid * 100_003,
+                max(0, mid_prefix_len),
+            )
+            prefix = torch.cat((root, mid_prefix))
+            for branch in range(max(1, branches_per_prefix)):
+                sequences.append(
+                    torch.cat(
+                        (
+                            prefix,
+                            _tokens(
+                                family_base + mid * 100_003 + branch * 1009 + 17,
+                                max(1, completion_len),
+                            ),
+                        )
+                    )
+                )
+    return tuple(sequences)
+
+
+def _tokens(offset: int, length: int) -> torch.Tensor:
+    return (torch.arange(length, dtype=torch.long) + offset) % 32_000 + 100
+
+
+def _build_cp_plan(
+    pack: SharedPrefixPack,
+    spec: object,
+    topology: ParallelTopology,
+    config: ContextParallelConfig,
+) -> object:
+    return get_or_build_runtime_plan(
+        spec,
+        topology=topology,
+        config=config,
+        runtime_key=make_runtime_key(spec, topology=topology, config=config),
+        original_seq_len=int(pack.tokens.numel()),
+    )
+
+
+def _build_stage_masks(
+    pack: SharedPrefixPack,
+    plan: object,
+    config: ContextParallelConfig,
+) -> tuple[BlockMask, ...]:
+    masks = []
+    context = prepare_block_mask_context(
+        group_ids=pack.group_ids[0],
+        parent_ids=pack.parent_ids[0],
+    )
+    for rank_plan in plan.rank_plans:
+        for stage in rank_plan.stage_plans:
+            if stage.mask_metadata is None:
+                continue
+            mask = build_block_mask_from_context(
+                FlexMaskSpec(
+                    q_len=stage.q_len,
+                    k_len=stage.k_len,
+                    block_size=config.block_size,
+                    slices=stage.slices,
+                    exact_mask=stage.mask_metadata,
+                ),
+                context=context,
+                device=torch.device("cpu"),
+                validate=False,
+            )
+            if mask is not None:
+                masks.append(mask)
+    return tuple(masks)
+
+
+def _flex_record(
+    pack: SharedPrefixPack,
+    *,
+    warmup: int,
+    repeat: int,
+    token_cap: int,
+    heads: int,
+    head_dim: int,
+) -> dict[str, object]:
+    if not torch.cuda.is_available():
+        return {"case": "flex_attention_fwd_bwd", "skipped": "cuda_unavailable"}
+    if int(pack.tokens.numel()) > int(token_cap):
+        return {
+            "case": "flex_attention_fwd_bwd",
+            "skipped": "packed_tokens_exceed_flex_token_cap",
+            "flex_token_cap": int(token_cap),
+        }
+    device = torch.device("cuda")
+    group_ids = pack.group_ids.to(device)
+    parent_ids = pack.parent_ids.to(device)
+    attention_state = create_shared_prefix_state(
+        group_ids,
+        parent_ids,
+        target_device=device,
+    )
+    shape = (1, int(heads), int(pack.tokens.numel()), int(head_dim))
+    q = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
+    k = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
+    v = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
+    wrapper = FlexAttentionWrapper()
+
+    def step() -> None:
+        q.grad = None
+        k.grad = None
+        v.grad = None
+        out = wrapper(
+            q,
+            k,
+            v,
+            block_mask=attention_state.block_mask,
+            scale=float(head_dim) ** -0.5,
+            enable_gqa=False,
+        )
+        out.float().sum().backward()
+
+    try:
+        ms = _bench_cuda(step, warmup=warmup, repeat=repeat)
+    except Exception as exc:
+        torch.cuda.empty_cache()
+        return {
+            "case": "flex_attention_fwd_bwd",
+            "compile_error": type(exc).__name__,
+            "compile_error_message": str(exc).splitlines()[0][:500],
+            "flex_heads": heads,
+            "flex_head_dim": head_dim,
+        }
+    return {
+        "case": "flex_attention_fwd_bwd",
+        "ms": ms,
+        "packed_tok_s": round(int(pack.tokens.numel()) * 1000.0 / ms, 3),
+        "flex_heads": heads,
+        "flex_head_dim": head_dim,
+        "peak_memory_gb": round(torch.cuda.max_memory_allocated() / 1024**3, 3),
+    }
+
+
+def _bench_cpu(
+    fn: Callable[[], object],
+    *,
+    warmup: int,
+    repeat: int,
+    before_each: Callable[[], object] | None = None,
+) -> tuple[object, float]:
+    result = None
+    for _ in range(warmup):
+        if before_each is not None:
+            before_each()
+        result = fn()
+    elapsed = []
+    for _ in range(repeat):
+        if before_each is not None:
+            before_each()
+        start = time.perf_counter()
+        result = fn()
+        elapsed.append((time.perf_counter() - start) * 1000.0)
+    assert result is not None
+    return result, round(sum(elapsed) / len(elapsed), 3)
+
+
+def _bench_cuda(fn: Callable[[], object], *, warmup: int, repeat: int) -> float:
+    torch.cuda.reset_peak_memory_stats()
+    for _ in range(warmup):
+        fn()
+    torch.cuda.synchronize()
+    start = torch.cuda.Event(enable_timing=True)
+    stop = torch.cuda.Event(enable_timing=True)
+    start.record()
+    for _ in range(repeat):
+        fn()
+    stop.record()
+    torch.cuda.synchronize()
+    return round(float(start.elapsed_time(stop)) / repeat, 3)
+
+
+def _plan_stats(plan: object) -> dict[str, int]:
+    stage_count = 0
+    remote_stage_count = 0
+    mask_stage_count = 0
+    for rank_plan in plan.rank_plans:
+        for stage in rank_plan.stage_plans:
+            stage_count += 1
+            remote_stage_count += int(not stage.is_local_stage)
+            mask_stage_count += int(stage.mask_metadata is not None)
+    return {
+        "rank_count": len(plan.rank_plans),
+        "stage_count": stage_count,
+        "remote_stage_count": remote_stage_count,
+        "mask_stage_count": mask_stage_count,
+    }
+
+
+def _mask_stats(masks: Sequence[BlockMask]) -> dict[str, int]:
+    return {
+        "mask_count": len(masks),
+        "partial_kv_blocks": sum(_block_count(mask, "kv_num_blocks") for mask in masks),
+        "full_kv_blocks": sum(
+            _block_count(mask, "full_kv_num_blocks") for mask in masks
+        ),
+        "partial_q_blocks": sum(_block_count(mask, "q_num_blocks") for mask in masks),
+        "full_q_blocks": sum(_block_count(mask, "full_q_num_blocks") for mask in masks),
+    }
+
+
+def _block_count(block_mask: BlockMask, name: str) -> int:
+    counts = getattr(block_mask, name)
+    return 0 if counts is None else int(counts.sum().item())
+
+
+def _assert_matches_torch_block_mask(block_mask: BlockMask) -> None:
+    q_len, k_len = block_mask.seq_lengths
+    reference = torch_block_mask(
+        block_mask.mask_mod,
+        B=int(block_mask.kv_num_blocks.shape[0]),
+        H=1,
+        Q_LEN=q_len,
+        KV_LEN=k_len,
+        device="cpu",
+        BLOCK_SIZE=block_mask.BLOCK_SIZE,
+    )
+    for counts_name, indices_name in (
+        ("kv_num_blocks", "kv_indices"),
+        ("full_kv_num_blocks", "full_kv_indices"),
+        ("q_num_blocks", "q_indices"),
+        ("full_q_num_blocks", "full_q_indices"),
+    ):
+        actual = _block_entries(block_mask, counts_name, indices_name)
+        expected = _block_entries(reference, counts_name, indices_name)
+        if actual != expected:
+            raise AssertionError(f"{counts_name}/{indices_name} mismatch")
+
+
+def _block_entries(
+    block_mask: BlockMask,
+    counts_name: str,
+    indices_name: str,
+) -> set[tuple[int, int, int, int]]:
+    counts = getattr(block_mask, counts_name)
+    indices = getattr(block_mask, indices_name)
+    if counts is None or indices is None:
+        return set()
+    entries = set()
+    for batch_index in range(int(counts.shape[0])):
+        for head_index in range(int(counts.shape[1])):
+            for block_index in range(int(counts.shape[2])):
+                block_count = int(counts[batch_index, head_index, block_index])
+                for other_block in indices[
+                    batch_index,
+                    head_index,
+                    block_index,
+                    :block_count,
+                ].tolist():
+                    entries.add(
+                        (
+                            batch_index,
+                            head_index,
+                            block_index,
+                            int(other_block),
+                        )
+                    )
+    return entries
+
+
+def _logical_tokens(pack: SharedPrefixPack) -> int:
+    return sum(int(positions.numel()) for positions in pack.positions_by_sequence)
+
+
+def _write(path: Path, payload: dict[str, object]) -> None:
+    line = json.dumps(payload, sort_keys=True)
+    with path.open("a", encoding="utf-8") as output:
+        output.write(line + "\n")
+    print(line, flush=True)
+
+
+if __name__ == "__main__":
+    typer.run(main)
diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index e4839cf49..32b5251e5 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -1,5 +1,7 @@
 from __future__ import annotations
 
+from dataclasses import dataclass
+
 import numpy as np
 import torch
 from torch.nn.attention.flex_attention import BlockMask
@@ -12,6 +14,16 @@
 _INVALID_GROUP_INDEX = 0
 
 
+@dataclass(frozen=True, slots=True)
+class PreparedBlockMaskContext:
+    group_ids: torch.Tensor
+    parent_ids: torch.Tensor
+    group_ids_np: np.ndarray
+    sorted_group_ids: np.ndarray
+    group_can_attend: np.ndarray
+    max_depth: int
+
+
 def _build_exact_mask_mod(
     *,
     q_abs: np.ndarray,
@@ -54,10 +66,18 @@ def _dense_blocks_to_ordered(
     *,
     device: torch.device,
 ) -> tuple[torch.Tensor, torch.Tensor]:
-    counts = torch.from_numpy(blocks.sum(axis=-1).astype(np.int32))
-    indices = torch.from_numpy(
-        np.argsort(-blocks.astype(np.int32), axis=-1, kind="stable").astype(np.int32)
-    )
+    row_indices, column_indices = np.nonzero(blocks)
+    counts_np = np.bincount(row_indices, minlength=blocks.shape[0]).astype(np.int32)
+    indices_np = np.zeros(blocks.shape, dtype=np.int32)
+    if int(row_indices.size) > 0:
+        starts = np.concatenate(([0], np.cumsum(counts_np[:-1], dtype=np.int64)))
+        active_rows = np.flatnonzero(counts_np)
+        for row_index in active_rows:
+            start = int(starts[row_index])
+            end = start + int(counts_np[row_index])
+            indices_np[row_index, : end - start] = column_indices[start:end]
+    counts = torch.from_numpy(counts_np)
+    indices = torch.from_numpy(indices_np)
     return (
         counts.view(1, 1, -1).to(device=device),
         indices.view(1, 1, blocks.shape[0], blocks.shape[1]).to(device=device),
@@ -111,12 +131,45 @@ def _remap_group_values(
     return remapped
 
 
+def _promote_exact_full_blocks(
+    *,
+    partial_blocks: np.ndarray,
+    full_blocks: np.ndarray,
+    q_abs: np.ndarray,
+    k_abs: np.ndarray,
+    q_group_index: np.ndarray,
+    k_group_index: np.ndarray,
+    group_can_attend: np.ndarray,
+    q_block: int,
+    k_block: int,
+    q_len: int,
+    k_len: int,
+) -> None:
+    for q_block_index, k_block_index in np.argwhere(partial_blocks):
+        q_start = int(q_block_index) * q_block
+        k_start = int(k_block_index) * k_block
+        q_end = q_start + q_block
+        k_end = k_start + k_block
+        if q_end > q_len or k_end > k_len:
+            continue
+
+        q_slice = slice(q_start, q_end)
+        k_slice = slice(k_start, k_end)
+        can_attend = group_can_attend[
+            q_group_index[q_slice, None],
+            k_group_index[None, k_slice],
+        ]
+        causal = q_abs[q_slice, None] >= k_abs[None, k_slice]
+        if bool(np.all(causal & can_attend)):
+            partial_blocks[q_block_index, k_block_index] = False
+            full_blocks[q_block_index, k_block_index] = True
+
+
 def _build_sparse_block_mask(
     spec: FlexMaskSpec,
     *,
     device: torch.device,
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
+    context: PreparedBlockMaskContext,
     block_size: tuple[int, int],
 ) -> BlockMask:
     q_block, k_block = block_size
@@ -136,43 +189,30 @@ def _build_sparse_block_mask(
     k_abs = k_abs_tensor.numpy()
     q_abs_sorted = _is_strictly_increasing(q_abs[q_abs >= 0])
     k_abs_sorted = _is_strictly_increasing(k_abs[k_abs >= 0])
-    flat_group_ids = group_ids.detach().to(device="cpu", dtype=torch.int64).reshape(-1)
-    flat_parent_ids = (
-        parent_ids.detach().to(device="cpu", dtype=torch.int64).reshape(-1)
-    )
-    flat_group_ids_np = flat_group_ids.numpy()
-    flat_parent_ids_np = flat_parent_ids.numpy()
     q_group = _select_with_invalid_np(
-        flat_group_ids_np,
+        context.group_ids_np,
         q_abs,
         invalid_value=-1,
     )
     k_group = _select_with_invalid_np(
-        flat_group_ids_np,
+        context.group_ids_np,
         k_abs,
         invalid_value=-1,
     )
-    row_tree = parse_shared_prefix_row(
-        group_ids=flat_group_ids,
-        parent_ids=flat_parent_ids,
-    )
-    group_ids_for_matrix, group_can_attend_values = row_tree.group_can_attend_matrix()
-    sorted_group_ids = np.asarray(group_ids_for_matrix, dtype=np.int64)
-    group_can_attend = np.asarray(group_can_attend_values, dtype=bool)
     q_group_index = _remap_group_values(
         q_group,
-        sorted_group_ids=sorted_group_ids,
+        sorted_group_ids=context.sorted_group_ids,
     )
     k_group_index = _remap_group_values(
         k_group,
-        sorted_group_ids=sorted_group_ids,
+        sorted_group_ids=context.sorted_group_ids,
     )
     mask_mod = _build_exact_mask_mod(
         q_abs=q_abs,
         k_abs=k_abs,
         q_group_index=q_group_index,
         k_group_index=k_group_index,
-        group_can_attend=group_can_attend,
+        group_can_attend=context.group_can_attend,
         device=device,
     )
     if not spec.slices:
@@ -198,15 +238,11 @@ def _build_sparse_block_mask(
         if int(q_block_indices.size) == 0 or int(k_block_indices.size) == 0:
             continue
         q_block_start = q_block_indices * q_block
-        q_block_end = np.minimum(
-            (q_block_indices + 1) * q_block,
-            int(spec.q_len),
-        )
+        q_block_end_raw = (q_block_indices + 1) * q_block
+        q_block_end = np.minimum(q_block_end_raw, int(spec.q_len))
         k_block_start = k_block_indices * k_block
-        k_block_end = np.minimum(
-            (k_block_indices + 1) * k_block,
-            int(spec.k_len),
-        )
+        k_block_end_raw = (k_block_indices + 1) * k_block
+        k_block_end = np.minimum(k_block_end_raw, int(spec.k_len))
         q_overlap_start = np.maximum(
             q_block_start,
             q_start,
@@ -233,8 +269,12 @@ def _build_sparse_block_mask(
             if k_abs_sorted
             else _block_min_max(k_abs, k_overlap_start, k_overlap_end)
         )
-        q_is_full = (q_overlap_start == q_block_start) & (q_overlap_end == q_block_end)
-        k_is_full = (k_overlap_start == k_block_start) & (k_overlap_end == k_block_end)
+        q_is_full = (q_overlap_start == q_block_start) & (
+            q_overlap_end == q_block_end_raw
+        )
+        k_is_full = (k_overlap_start == k_block_start) & (
+            k_overlap_end == k_block_end_raw
+        )
         covers_block = q_is_full[:, None] & k_is_full[None, :]
         if slice_.mask_kind == AttnMaskKind.FULL:
             has_any = np.ones(
@@ -250,10 +290,21 @@ def _build_sparse_block_mask(
         partial_blocks[q_slice, k_slice] |= has_any
         full_blocks[q_slice, k_slice] |= is_full
 
-    # Overlapping tree slices are left as partial blocks. The block-level program
-    # only decides which blocks to visit; `mask_mod` above is the exact authority.
-
     partial_blocks &= ~full_blocks
+    if context.max_depth > 1:
+        _promote_exact_full_blocks(
+            partial_blocks=partial_blocks,
+            full_blocks=full_blocks,
+            q_abs=q_abs,
+            k_abs=k_abs,
+            q_group_index=q_group_index,
+            k_group_index=k_group_index,
+            group_can_attend=context.group_can_attend,
+            q_block=q_block,
+            k_block=k_block,
+            q_len=int(spec.q_len),
+            k_len=int(spec.k_len),
+        )
     kv_num_blocks, kv_indices = _dense_blocks_to_ordered(
         partial_blocks,
         device=device,
@@ -285,6 +336,38 @@ def _build_sparse_block_mask(
     )
 
 
+def prepare_block_mask_context(
+    *,
+    group_ids: torch.Tensor,
+    parent_ids: torch.Tensor,
+) -> PreparedBlockMaskContext:
+    if group_ids.ndim != 1 or parent_ids.ndim != 1:
+        raise RuntimeError(
+            "Shared-prefix sparse block masks require rank-1 group_ids and parent_ids."
+        )
+    if int(group_ids.numel()) != int(parent_ids.numel()):
+        raise RuntimeError(
+            "Shared-prefix sparse block masks require equal group_ids and parent_ids lengths."
+        )
+    flat_group_ids = group_ids.detach().to(device="cpu", dtype=torch.int64).reshape(-1)
+    flat_parent_ids = (
+        parent_ids.detach().to(device="cpu", dtype=torch.int64).reshape(-1)
+    )
+    row_tree = parse_shared_prefix_row(
+        group_ids=flat_group_ids,
+        parent_ids=flat_parent_ids,
+    )
+    group_ids_for_matrix, group_can_attend_values = row_tree.group_can_attend_matrix()
+    return PreparedBlockMaskContext(
+        group_ids=flat_group_ids,
+        parent_ids=flat_parent_ids,
+        group_ids_np=flat_group_ids.numpy(),
+        sorted_group_ids=np.asarray(group_ids_for_matrix, dtype=np.int64),
+        group_can_attend=np.asarray(group_can_attend_values, dtype=bool),
+        max_depth=int(row_tree.max_depth),
+    )
+
+
 def _valid_prefix(indices: torch.Tensor, *, name: str) -> torch.Tensor:
     if indices.ndim != 1:
         raise RuntimeError(f"{name} exact token indices must be rank 1.")
@@ -374,6 +457,23 @@ def build_block_mask(
     group_ids: torch.Tensor,
     parent_ids: torch.Tensor,
     device: torch.device,
+) -> BlockMask | None:
+    return build_block_mask_from_context(
+        spec,
+        context=prepare_block_mask_context(
+            group_ids=group_ids,
+            parent_ids=parent_ids,
+        ),
+        device=device,
+    )
+
+
+def build_block_mask_from_context(
+    spec: FlexMaskSpec,
+    *,
+    context: PreparedBlockMaskContext,
+    device: torch.device,
+    validate: bool = True,
 ) -> BlockMask | None:
     if spec.q_len <= 0 or spec.k_len <= 0:
         return None
@@ -387,12 +487,16 @@ def build_block_mask(
             "Exact stage k-token metadata length mismatch: "
             f"{int(spec.exact_mask.k_token_indices.numel())} != {int(spec.k_len)}"
         )
-    _validate_supported_mask_spec(spec, group_ids=group_ids, parent_ids=parent_ids)
+    if validate:
+        _validate_supported_mask_spec(
+            spec,
+            group_ids=context.group_ids,
+            parent_ids=context.parent_ids,
+        )
     block_size = normalize_sparse_block_size(spec.block_size)
     return _build_sparse_block_mask(
         spec,
         device=device,
-        group_ids=group_ids,
-        parent_ids=parent_ids,
+        context=context,
         block_size=block_size,
     )
diff --git a/src/art/megatron/context_parallel/executor.py b/src/art/megatron/context_parallel/executor.py
index e5e219e72..3cb0779da 100644
--- a/src/art/megatron/context_parallel/executor.py
+++ b/src/art/megatron/context_parallel/executor.py
@@ -19,7 +19,7 @@
     sparse_compiled_flex_attention,
 )
 
-from .block_mask import build_block_mask
+from .block_mask import build_block_mask_from_context, prepare_block_mask_context
 from .comm import A2AVCommunicator
 from .range_ops import (
     range_gather_head_major,
@@ -684,7 +684,14 @@ def _build_stage_block_mask(
         raise RuntimeError(
             f"Stage {stage_plan.stage_index} is missing exact mask metadata"
         )
-    mask = build_block_mask(
+    block_mask_context = state.execution_cache.block_mask_context
+    if block_mask_context is None:
+        block_mask_context = prepare_block_mask_context(
+            group_ids=state.group_ids,
+            parent_ids=state.parent_ids,
+        )
+        state.execution_cache.block_mask_context = block_mask_context
+    mask = build_block_mask_from_context(
         FlexMaskSpec(
             q_len=int(execution_spec.q_len),
             k_len=int(execution_spec.k_len),
@@ -692,9 +699,9 @@ def _build_stage_block_mask(
             slices=stage_plan.slices,
             exact_mask=mask_metadata.model_dump(mode="python"),
         ),
-        group_ids=state.group_ids,
-        parent_ids=state.parent_ids,
+        context=block_mask_context,
         device=device,
+        validate=False,
     )
     cache[cache_key] = mask
     return mask
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index 2bbc0ff4c..2bc5eb657 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -223,6 +223,7 @@ class DispatchedPackedTensors(ContextParallelLossInputs):
 class ContextParallelExecutionCache(BaseModel):
     model_config = ConfigDict(arbitrary_types_allowed=True)
 
+    block_mask_context: Any | None = None
     block_masks: dict[Any, Any] = Field(default_factory=dict)
     range_indices: dict[Any, torch.Tensor] = Field(default_factory=dict)
     range_meta: dict[Any, tuple[torch.Tensor, torch.Tensor, torch.Tensor, int]] = Field(
diff --git a/src/art/megatron/setup.sh b/src/art/megatron/setup.sh
index 6d3a5548c..3e5a1cb51 100755
--- a/src/art/megatron/setup.sh
+++ b/src/art/megatron/setup.sh
@@ -36,3 +36,7 @@ if [ -x "${HOME}/.local/bin/uv" ]; then
     uv_bin="${HOME}/.local/bin/uv"
 fi
 "${uv_bin}" sync --extra backend --extra megatron --frozen --active
+
+if [ "${INSTALL_VLLM_RUNTIME:-true}" = "true" ]; then
+    "${uv_bin}" sync --project vllm_runtime --frozen --no-dev
+fi
diff --git a/tests/integration/megatron/lora/test_lora_disk_codecs.py b/tests/integration/megatron/lora/test_lora_disk_codecs.py
index 6fcb4c2bc..7bb3e1b94 100644
--- a/tests/integration/megatron/lora/test_lora_disk_codecs.py
+++ b/tests/integration/megatron/lora/test_lora_disk_codecs.py
@@ -6,9 +6,12 @@
 import sys
 from typing import Any, cast
 
+import pytest
 from safetensors.torch import load_file, save_file
 import torch
 
+pytest.importorskip("megatron.bridge.models.gpt_provider")
+
 from art.megatron import lora as lora_module
 from art.megatron.lora import LoRA, LoRAParallelSpec, LoRAPublishPlanner
 from art.megatron.model_support.handlers import (
@@ -31,6 +34,7 @@
 
 REPO_ROOT = Path(__file__).parents[4]
 VLLM_PYTHON = REPO_ROOT / "vllm_runtime/.venv/bin/python"
+_VLLM_RUNTIME_UNAVAILABLE_REASON: str | None | object = object()
 
 
 def _vllm_python_cmd() -> list[str]:
@@ -56,6 +60,42 @@ def _vllm_python_cmd() -> list[str]:
     ]
 
 
+def _vllm_runtime_unavailable_reason() -> str | None:
+    global _VLLM_RUNTIME_UNAVAILABLE_REASON
+    if isinstance(_VLLM_RUNTIME_UNAVAILABLE_REASON, str):
+        return _VLLM_RUNTIME_UNAVAILABLE_REASON
+    if _VLLM_RUNTIME_UNAVAILABLE_REASON is None:
+        return None
+    try:
+        subprocess.run(
+            [
+                *_vllm_python_cmd(),
+                "-c",
+                "import vllm; from vllm.lora.lora_model import LoRAModel",
+            ],
+            check=True,
+            text=True,
+            capture_output=True,
+            timeout=120,
+        )
+    except Exception as exc:
+        _VLLM_RUNTIME_UNAVAILABLE_REASON = (
+            "Stock vLLM loader runtime is unavailable. Run "
+            "`uv sync --project vllm_runtime --frozen --no-dev`, or set "
+            "`ART_TEST_VLLM_PYTHON` to a Python environment with vLLM installed. "
+            f"Original error: {exc}"
+        )
+        return _VLLM_RUNTIME_UNAVAILABLE_REASON
+    _VLLM_RUNTIME_UNAVAILABLE_REASON = None
+    return None
+
+
+def test_stock_vllm_loader_runtime_is_available() -> None:
+    reason = _vllm_runtime_unavailable_reason()
+    if reason is not None:
+        pytest.fail(reason)
+
+
 def _config(base_model: str, rank: int = 2, alpha: int = 4) -> dict:
     return {
         "base_model_name_or_path": base_model,
@@ -141,6 +181,8 @@ def _assert_stock_vllm_loads(
     expected_modules: set[str],
     mapper: str = "none",
 ) -> list[str]:
+    if reason := _vllm_runtime_unavailable_reason():
+        pytest.skip(reason)
     script = r"""
 import json
 import sys
diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
index 1d68d6a90..b70b73c60 100644
--- a/tests/unit/test_shared_prefix_attention_builder.py
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -3,6 +3,7 @@
 import pytest
 import torch
 from torch.nn.attention.flex_attention import BlockMask
+from torch.nn.attention.flex_attention import create_block_mask as torch_block_mask
 
 pytest.importorskip("megatron.core.packed_seq_params")
 
@@ -113,6 +114,77 @@ def test_sparse_block_mask_exact_predicate_matches_dense_reference() -> None:
     assert actual.equal(build_dense_reference_mask(row_spec=row))
 
 
+@pytest.mark.parametrize(
+    ("name", "pack"),
+    (
+        (
+            "no-sharing",
+            pack_shared_prefixes(
+                (
+                    torch.tensor([1, 2, 3]),
+                    torch.tensor([4, 5]),
+                    torch.tensor([6, 7, 8, 9]),
+                ),
+                max_depth=0,
+            ),
+        ),
+        (
+            "depth-one",
+            pack_shared_prefixes(
+                (
+                    torch.tensor([1, 2, 3, 4]),
+                    torch.tensor([1, 2, 3, 5]),
+                    torch.tensor([1, 2, 6]),
+                ),
+                max_depth=1,
+            ),
+        ),
+        (
+            "depth-three",
+            pack_shared_prefixes(
+                (
+                    torch.tensor([1, 2, 3, 4, 8]),
+                    torch.tensor([1, 2, 3, 4, 9]),
+                    torch.tensor([1, 2, 3, 5]),
+                    torch.tensor([1, 6]),
+                ),
+                max_depth=3,
+            ),
+        ),
+    ),
+)
+def test_sparse_block_mask_matches_torch_block_metadata(
+    name: str,
+    pack: SharedPrefixPack,
+) -> None:
+    del name
+    spec = build_shared_prefix_attention_spec(
+        group_ids=pack.group_ids,
+        parent_ids=pack.parent_ids,
+    )
+    row = spec.rows[0]
+    token_indices = torch.arange(row.valid_tokens, dtype=torch.long)
+    block_mask = build_block_mask(
+        FlexMaskSpec(
+            q_len=row.valid_tokens,
+            k_len=row.valid_tokens,
+            block_size=(2, 2),
+            slices=row.slices,
+            exact_mask=ExactMaskMetadata(
+                q_token_indices=token_indices,
+                k_token_indices=token_indices,
+                cache_key="torch-parity",
+            ),
+        ),
+        group_ids=pack.group_ids[0],
+        parent_ids=pack.parent_ids[0],
+        device=torch.device("cpu"),
+    )
+
+    assert block_mask is not None
+    _assert_matches_torch_block_mask(block_mask)
+
+
 def test_shared_prefix_state_builds_batched_block_mask() -> None:
     group_ids = torch.tensor(
         [
@@ -156,6 +228,7 @@ def test_shared_prefix_state_builds_batched_block_mask() -> None:
             :valid_tokens,
             :valid_tokens,
         ].equal(build_dense_reference_mask(row_spec=row_spec))
+    _assert_matches_torch_block_mask(state.block_mask, batch_size=2)
 
 
 def test_context_parallel_stage_masks_match_dense_nested_tree() -> None:
@@ -249,6 +322,7 @@ def _assert_context_parallel_stage_masks_match_dense(
 
             assert actual.equal(expected)
             assert _effective_block_mask(block_mask).equal(expected)
+            _assert_matches_torch_block_mask(block_mask)
             checked_stages += 1
             checked_remote_stages += int(not stage.is_local_stage)
 
@@ -355,6 +429,67 @@ def test_sparse_block_mask_supports_non_monotonic_remote_k_indices() -> None:
     )
 
     assert actual.equal(q_token_indices[:, None] >= k_token_indices[None, :])
+    _assert_matches_torch_block_mask(block_mask)
+
+
+def _assert_matches_torch_block_mask(
+    block_mask: BlockMask,
+    *,
+    batch_size: int = 1,
+) -> None:
+    q_len, k_len = block_mask.seq_lengths
+    reference = torch_block_mask(
+        block_mask.mask_mod,
+        B=batch_size,
+        H=1,
+        Q_LEN=q_len,
+        KV_LEN=k_len,
+        device="cpu",
+        BLOCK_SIZE=block_mask.BLOCK_SIZE,
+    )
+    assert _effective_block_mask(block_mask).equal(_effective_block_mask(reference))
+    for counts_name, indices_name in (
+        ("kv_num_blocks", "kv_indices"),
+        ("full_kv_num_blocks", "full_kv_indices"),
+        ("q_num_blocks", "q_indices"),
+        ("full_q_num_blocks", "full_q_indices"),
+    ):
+        assert _block_entries(block_mask, counts_name, indices_name) == _block_entries(
+            reference,
+            counts_name,
+            indices_name,
+        )
+
+
+def _block_entries(
+    block_mask: BlockMask,
+    counts_name: str,
+    indices_name: str,
+) -> set[tuple[int, int, int, int]]:
+    counts = getattr(block_mask, counts_name)
+    indices = getattr(block_mask, indices_name)
+    if counts is None or indices is None:
+        return set()
+    entries = set()
+    for batch_index in range(int(counts.shape[0])):
+        for head_index in range(int(counts.shape[1])):
+            for block_index in range(int(counts.shape[2])):
+                block_count = int(counts[batch_index, head_index, block_index])
+                for other_block in indices[
+                    batch_index,
+                    head_index,
+                    block_index,
+                    :block_count,
+                ].tolist():
+                    entries.add(
+                        (
+                            batch_index,
+                            head_index,
+                            block_index,
+                            int(other_block),
+                        )
+                    )
+    return entries
 
 
 def _branching_prefix_inputs() -> tuple[torch.Tensor, torch.Tensor]:

From d78eab7c67200168689d1b724d07a83476c3f3e2 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 09:24:51 -0600
Subject: [PATCH 011/114] test: add Austin-focused TrainerRank validation

---
 dev/trainer_rank_perf.py           | 650 +++++++++++++++++++++++++++--
 dev/trainer_rank_review_perf.py    | 258 +++++++++---
 dev/trainer_rank_topology_check.py | 105 +++--
 3 files changed, 878 insertions(+), 135 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index eaad7b03b..76bb48e35 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -1,15 +1,20 @@
 from __future__ import annotations
 
 from collections.abc import Callable, Sequence
+from contextlib import suppress
 import json
 import os
 from pathlib import Path
+import threading
+import time
+from typing import Any
 
 import torch
 import torch.distributed as dist
 import typer
 
 from art.megatron.trainer_rank import (
+    AdamParams,
     ForwardInput,
     TopK,
     TrainerRank,
@@ -46,6 +51,11 @@ def main(
     adapter_slots: int = 0,
     adapter_slot_mode: str = "family",
     adapter_slot_rank: int = 1,
+    learning_rate: float = 1e-5,
+    full_step_offload_reload: bool = False,
+    memory_sample_interval_s: float = 0.01,
+    compare_target_correctness: bool = False,
+    run_adapter_sanity: bool = False,
     output_jsonl: str = "",
 ) -> None:
     os.environ.setdefault("ART_MEGATRON_TENSOR_MODEL_PARALLEL_SIZE", "1")
@@ -107,12 +117,17 @@ def main(
                 "target_builtin_masked_fwd_bwd",
                 "target_trainer_fwd_bwd",
                 "target_hidden_fwd_bwd",
+                "target_builtin_train_step",
+                "target_trainer_train_step",
+                "target_hidden_train_step",
                 "trainer_multi_target_fwd_bwd",
+                "trainer_multi_target_train_step",
                 "trainer_target",
                 "trainer_multi_target",
                 "trainer_topk",
                 "trainer_topk_head",
                 "trainer_topk_fwd_bwd",
+                "trainer_topk_train_step",
                 "trainer_topk_sweep",
                 "trainer_target_topk",
                 "trainer_hidden",
@@ -125,9 +140,11 @@ def main(
                     "trainer_target",
                     "trainer_multi_target",
                     "trainer_multi_target_fwd_bwd",
+                    "trainer_multi_target_train_step",
                     "trainer_topk",
                     "trainer_topk_head",
                     "trainer_topk_fwd_bwd",
+                    "trainer_topk_train_step",
                     "trainer_topk_sweep",
                     "trainer_target_topk",
                     "trainer_hidden",
@@ -140,6 +157,8 @@ def main(
             raise ValueError("target_count must be >= 1")
         if top_k < 1:
             raise ValueError("top_k must be >= 1")
+        if memory_sample_interval_s < 0:
+            raise ValueError("memory_sample_interval_s must be >= 0")
         requests, multi_target_requests, request_metadata = _requests(
             seq_len=seq_len,
             prefix_families=prefix_families,
@@ -187,9 +206,7 @@ def main(
         logits_prepared = None
         if any(name.startswith("logits_") for name in benchmarks):
             logits_items = [
-                rank._forward_item(
-                    ForwardInput(input_tokens=request.input_tokens, logits=True)
-                )
+                rank._forward_item(_with_outputs(request, logits=True))
                 for request in requests
             ]
             logits_prepared = rank._prepare_packed_forward(
@@ -233,9 +250,17 @@ def register_case(
             "target_builtin_masked_fwd_bwd",
             "target_trainer_fwd_bwd",
             "target_hidden_fwd_bwd",
+            "target_builtin_train_step",
+            "target_trainer_train_step",
+            "target_hidden_train_step",
         ):
             register_case(name, requests, request_stats)
 
+        memory_tracker = _CudaMemoryTracker(
+            device_index=int(os.environ["LOCAL_RANK"]),
+            sample_interval_s=memory_sample_interval_s,
+        )
+        memory_tracker.start()
         torch.cuda.reset_peak_memory_stats()
         with torch.no_grad():
             if "target_builtin_fwd" in benchmarks:
@@ -299,24 +324,22 @@ def register_case(
                 "trainer_target": requests,
                 "trainer_multi_target": multi_target_requests,
                 "trainer_topk": [
-                    ForwardInput(input_tokens=request.input_tokens, top_k=top_k)
-                    for request in requests
+                    _with_outputs(request, top_k=top_k) for request in requests
                 ],
                 "trainer_target_topk": [
-                    ForwardInput(
-                        input_tokens=request.input_tokens,
+                    _with_outputs(
+                        request,
                         target_tokens=request.target_tokens,
                         top_k=top_k,
                     )
                     for request in requests
                 ],
                 "trainer_hidden": [
-                    ForwardInput(input_tokens=request.input_tokens, hidden_states=True)
-                    for request in requests
+                    _with_outputs(request, hidden_states=True) for request in requests
                 ],
                 "trainer_all_no_logits": [
-                    ForwardInput(
-                        input_tokens=request.input_tokens,
+                    _with_outputs(
+                        request,
                         target_tokens=multi_request.target_tokens,
                         top_k=top_k,
                         hidden_states=True,
@@ -333,8 +356,7 @@ def register_case(
             if "trainer_topk_sweep" in benchmarks:
                 for k in _int_values(top_k_values):
                     trainer_cases[f"trainer_topk_{k}"] = [
-                        ForwardInput(input_tokens=request.input_tokens, top_k=k)
-                        for request in requests
+                        _with_outputs(request, top_k=k) for request in requests
                     ]
             for name, case_requests in trainer_cases.items():
                 if name not in benchmarks and not (
@@ -365,18 +387,24 @@ def register_case(
                     ),
                 )
                 prepared = rank._prepare_packed_forward(batch)
-                results[f"{name}_ms"] = _bench(
-                    lambda items=items, prepared=prepared: rank._forward_packed(
-                        items,
-                        prepared,
-                    ),
-                    warmup=warmup,
-                    repeat=repeat,
-                )
+                if adapter_slots:
+                    results[f"{name}_ms"] = _bench(
+                        lambda case_requests=case_requests: rank.forward(case_requests),
+                        warmup=warmup,
+                        repeat=repeat,
+                    )
+                else:
+                    results[f"{name}_ms"] = _bench(
+                        lambda items=items, prepared=prepared: rank._forward_packed(
+                            items,
+                            prepared,
+                        ),
+                        warmup=warmup,
+                        repeat=repeat,
+                    )
             if "trainer_topk_head" in benchmarks:
                 case_requests = [
-                    ForwardInput(input_tokens=request.input_tokens, top_k=top_k)
-                    for request in requests
+                    _with_outputs(request, top_k=top_k) for request in requests
                 ]
                 output_gb = _request_output_gb(
                     case_requests,
@@ -440,10 +468,14 @@ def register_case(
                 chunk.train()
             assert target_items is not None and target_prepared is not None
             results["target_trainer_fwd_bwd_ms"] = _bench(
-                lambda: _target_trainer_loss(
-                    rank,
-                    target_items,
-                    target_prepared,
+                lambda: (
+                    _target_requests_loss(rank, requests)
+                    if adapter_slots
+                    else _target_trainer_loss(
+                        rank,
+                        target_items,
+                        target_prepared,
+                    )
                 ).backward(),
                 warmup=warmup,
                 repeat=repeat,
@@ -463,6 +495,56 @@ def register_case(
                 repeat=repeat,
                 after=rank.zero_grad,
             )
+        train_step_params = AdamParams(learning_rate=learning_rate)
+        offload_manager = (
+            _make_offload_manager(runtime) if full_step_offload_reload else None
+        )
+        if "target_builtin_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            assert target_items is not None and target_prepared is not None
+            results["target_builtin_train_step_ms"] = _bench(
+                lambda: _training_step(
+                    rank,
+                    lambda: _target_builtin_loss(rank, target_items, target_prepared),
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
+        if "target_trainer_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            assert target_items is not None and target_prepared is not None
+            results["target_trainer_train_step_ms"] = _bench(
+                lambda: _training_step(
+                    rank,
+                    lambda: (
+                        _target_requests_loss(rank, requests)
+                        if adapter_slots
+                        else _target_trainer_loss(rank, target_items, target_prepared)
+                    ),
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
+        if "target_hidden_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            assert target_items is not None and target_prepared is not None
+            results["target_hidden_train_step_ms"] = _bench(
+                lambda: _training_step(
+                    rank,
+                    lambda: _target_hidden_loss(rank, target_items, target_prepared),
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
         if "trainer_multi_target_fwd_bwd" in benchmarks:
             for chunk in runtime.model:
                 chunk.train()
@@ -483,17 +565,53 @@ def register_case(
             )
             prepared = rank._prepare_packed_forward(batch)
             results["trainer_multi_target_fwd_bwd_ms"] = _bench(
-                lambda: _target_trainer_loss(rank, items, prepared).backward(),
+                lambda: (
+                    _target_requests_loss(rank, multi_target_requests)
+                    if adapter_slots
+                    else _target_trainer_loss(rank, items, prepared)
+                ).backward(),
                 warmup=warmup,
                 repeat=repeat,
                 after=rank.zero_grad,
             )
+        if "trainer_multi_target_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            items = [rank._forward_item(request) for request in multi_target_requests]
+            batch = _pack_forward_items(
+                items,
+                max_depth=rank.shared_prefix_max_depth,
+            )
+            register_case(
+                "trainer_multi_target_train_step",
+                multi_target_requests,
+                _packed_request_stats(
+                    multi_target_requests,
+                    items,
+                    batch,
+                    request_metadata={},
+                ),
+            )
+            prepared = rank._prepare_packed_forward(batch)
+            results["trainer_multi_target_train_step_ms"] = _bench(
+                lambda: _training_step(
+                    rank,
+                    lambda: (
+                        _target_requests_loss(rank, multi_target_requests)
+                        if adapter_slots
+                        else _target_trainer_loss(rank, items, prepared)
+                    ),
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
         if "trainer_topk_fwd_bwd" in benchmarks:
             for chunk in runtime.model:
                 chunk.train()
             topk_requests = [
-                ForwardInput(input_tokens=request.input_tokens, top_k=top_k)
-                for request in requests
+                _with_outputs(request, top_k=top_k) for request in requests
             ]
             items = [rank._forward_item(request) for request in topk_requests]
             batch = _pack_forward_items(
@@ -507,11 +625,66 @@ def register_case(
             )
             prepared = rank._prepare_packed_forward(batch)
             results["trainer_topk_fwd_bwd_ms"] = _bench(
-                lambda: _trainer_topk_loss(rank, items, prepared).backward(),
+                lambda: (
+                    _topk_requests_loss(rank, topk_requests)
+                    if adapter_slots
+                    else _trainer_topk_loss(rank, items, prepared)
+                ).backward(),
                 warmup=warmup,
                 repeat=repeat,
                 after=rank.zero_grad,
             )
+        if "trainer_topk_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            topk_requests = [
+                _with_outputs(request, top_k=top_k) for request in requests
+            ]
+            items = [rank._forward_item(request) for request in topk_requests]
+            batch = _pack_forward_items(
+                items,
+                max_depth=rank.shared_prefix_max_depth,
+            )
+            register_case(
+                "trainer_topk_train_step",
+                topk_requests,
+                _packed_request_stats(topk_requests, items, batch, request_metadata={}),
+            )
+            prepared = rank._prepare_packed_forward(batch)
+            results["trainer_topk_train_step_ms"] = _bench(
+                lambda: _training_step(
+                    rank,
+                    lambda: (
+                        _topk_requests_loss(rank, topk_requests)
+                        if adapter_slots
+                        else _trainer_topk_loss(rank, items, prepared)
+                    ),
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
+
+        if compare_target_correctness and adapter_slots:
+            metadata["target_correctness_skipped"] = "adapter_slots"
+        elif compare_target_correctness:
+            assert target_items is not None and target_prepared is not None
+            metadata.update(
+                _target_correctness_metrics(rank, target_items, target_prepared)
+            )
+        if run_adapter_sanity and adapter_slots > 0:
+            metadata.update(
+                _adapter_sanity_metrics(
+                    rank,
+                    requests,
+                    params=train_step_params,
+                    adapter_slots=adapter_slots,
+                )
+            )
+
+        memory_tracker.stop()
+        memory_metadata = _distributed_memory_metadata(memory_tracker)
 
         if dist.get_rank() == 0:
             token_rates = _rate_metrics(results, rate_units)
@@ -543,6 +716,8 @@ def register_case(
                 "adapter_slot_mode": adapter_slot_mode,
                 "adapter_slot_rank": adapter_slot_rank,
                 "adapter_loaded_sites": loaded_sites,
+                "learning_rate": learning_rate,
+                "full_step_offload_reload": full_step_offload_reload,
                 "mtp_num_layers": getattr(model_config, "mtp_num_layers", None),
                 "cross_entropy_loss_fusion": getattr(
                     model_config, "cross_entropy_loss_fusion", None
@@ -550,11 +725,9 @@ def register_case(
                 "cross_entropy_fusion_impl": getattr(
                     model_config, "cross_entropy_fusion_impl", None
                 ),
+                **_model_metadata(runtime, model, layers=layers),
                 **request_stats,
-                "peak_memory_gb": round(
-                    torch.cuda.max_memory_allocated() / 1024**3,
-                    3,
-                ),
+                **memory_metadata,
                 **results,
                 **token_rates,
                 **metadata,
@@ -728,9 +901,10 @@ def _route_adapter_slots(
 ]:
     if adapter_slots == 0:
         return list(requests)
-    if mode not in {"family", "round_robin", "single"}:
+    if mode not in {"family", "round_robin", "single", "skewed_random"}:
         raise ValueError(
-            "adapter_slot_mode must be one of: family, round_robin, single"
+            "adapter_slot_mode must be one of: family, round_robin, single, "
+            "skewed_random"
         )
     return [
         ForwardInput(
@@ -757,12 +931,45 @@ def _adapter_slot_index(
         return 0
     if mode == "round_robin":
         return index % adapter_slots
+    if mode == "skewed_random":
+        bucket = (index * 1103515245 + 12345) & 0x7FFFFFFF
+        skew = bucket % 100
+        if skew < 50:
+            return 0
+        if skew < 75:
+            return min(1, adapter_slots - 1)
+        if skew < 90:
+            return min(2, adapter_slots - 1)
+        return min(3 + (bucket % max(1, adapter_slots - 3)), adapter_slots - 1)
     first_token = (
         int(request.input_tokens[0].item()) if request.input_tokens.numel() else 0
     )
     return (first_token // 10_000_019) % adapter_slots
 
 
+def _with_outputs(
+    request: ForwardInput[
+        torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+    ],
+    *,
+    target_tokens: torch.Tensor | None = None,
+    top_k: int | None = None,
+    logits: bool = False,
+    hidden_states: bool = False,
+) -> ForwardInput[
+    torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+]:
+    return ForwardInput(
+        input_tokens=request.input_tokens,
+        target_tokens=target_tokens,
+        top_k=top_k,
+        logits=logits,
+        hidden_states=hidden_states,
+        checkpoint=request.checkpoint,
+        lora=request.lora,
+    )
+
+
 def _workload_sequences(
     *,
     workload: str,
@@ -786,6 +993,8 @@ def _workload_sequences(
             branches_per_prefix=16,
             completion_len=100,
         )
+    if workload == "austin_varied":
+        return _austin_varied_sequences()
     if workload == "regular":
         return _regular_tree_sequences(
             prefix_families=prefix_families,
@@ -860,7 +1069,7 @@ def _workload_sequences(
         )
     raise ValueError(
         "workload must be one of: regular, single, long_root, long_mid, "
-        "many_tiny_leaves, uneven, duplicates, random, austin_198k"
+        "many_tiny_leaves, uneven, duplicates, random, austin_198k, austin_varied"
     )
 
 
@@ -907,6 +1116,31 @@ def _regular_tree_sequences(
     return tuple(sequences), tuple(shared_lengths), shape
 
 
+def _austin_varied_sequences() -> tuple[tuple[torch.Tensor, ...], tuple[int, ...], str]:
+    sequences: list[torch.Tensor] = []
+    shared_lengths: list[int] = []
+    for family in range(30):
+        family_base = family * 10_000_019
+        prefix_len = 4500 + ((family * 137) % 1001)
+        root = _tokens(family_base, prefix_len)
+        branch_count = 10 + ((family * 7) % 13)
+        for branch in range(branch_count):
+            completion_len = 32 + ((family * 19 + branch * 23) % 145)
+            sequences.append(
+                torch.cat(
+                    (
+                        root,
+                        _tokens(
+                            family_base + branch * 1009 + 17,
+                            completion_len,
+                        ),
+                    )
+                )
+            )
+            shared_lengths.append(int(root.numel()))
+    return tuple(sequences), tuple(shared_lengths), "austin_varied"
+
+
 def _uneven_tree_sequences(
     *,
     prefix_families: int,
@@ -1154,6 +1388,146 @@ def _labels(tokens: torch.Tensor, *, target_count: int) -> torch.Tensor:
     return labels[:, 0]
 
 
+class _CudaMemoryTracker:
+    def __init__(self, *, device_index: int, sample_interval_s: float) -> None:
+        self.device_index = device_index
+        self.sample_interval_s = sample_interval_s
+        self.process_peak_bytes = 0
+        self.allocated_peak_bytes = 0
+        self.reserved_peak_bytes = 0
+        self._stop = threading.Event()
+        self._thread: threading.Thread | None = None
+
+    def start(self) -> None:
+        if not torch.cuda.is_available():
+            return
+        torch.cuda.reset_peak_memory_stats()
+        self._sample()
+        if self.sample_interval_s <= 0:
+            return
+        self._thread = threading.Thread(target=self._poll, daemon=True)
+        self._thread.start()
+
+    def stop(self) -> None:
+        if not torch.cuda.is_available():
+            return
+        self._stop.set()
+        if self._thread is not None:
+            self._thread.join(timeout=1.0)
+        torch.cuda.synchronize()
+        self._sample()
+        self.allocated_peak_bytes = max(
+            self.allocated_peak_bytes,
+            int(torch.cuda.max_memory_allocated()),
+        )
+        self.reserved_peak_bytes = max(
+            self.reserved_peak_bytes,
+            int(torch.cuda.max_memory_reserved()),
+        )
+
+    def _poll(self) -> None:
+        while not self._stop.wait(self.sample_interval_s):
+            self._sample()
+
+    def _sample(self) -> None:
+        self.process_peak_bytes = max(
+            self.process_peak_bytes,
+            _current_process_gpu_memory_bytes(self.device_index),
+        )
+        self.allocated_peak_bytes = max(
+            self.allocated_peak_bytes,
+            int(torch.cuda.memory_allocated()) if torch.cuda.is_available() else 0,
+        )
+        self.reserved_peak_bytes = max(
+            self.reserved_peak_bytes,
+            int(torch.cuda.memory_reserved()) if torch.cuda.is_available() else 0,
+        )
+
+
+def _current_process_gpu_memory_bytes(device_index: int) -> int:
+    try:
+        import pynvml
+
+        pynvml.nvmlInit()
+        handle = pynvml.nvmlDeviceGetHandleByIndex(device_index)
+        pid = os.getpid()
+        processes = list(pynvml.nvmlDeviceGetComputeRunningProcesses(handle))
+        with suppress(Exception):
+            processes.extend(pynvml.nvmlDeviceGetGraphicsRunningProcesses(handle))
+        for process in processes:
+            if int(process.pid) == pid:
+                return int(process.usedGpuMemory)
+    except Exception:
+        return 0
+    return 0
+
+
+def _distributed_memory_metadata(tracker: _CudaMemoryTracker) -> dict[str, float]:
+    values = torch.tensor(
+        [
+            tracker.allocated_peak_bytes,
+            tracker.reserved_peak_bytes,
+            tracker.process_peak_bytes,
+        ],
+        device="cuda",
+        dtype=torch.float64,
+    )
+    dist.all_reduce(values, op=dist.ReduceOp.MAX)
+    return {
+        "peak_memory_allocated_gb": round(float(values[0].item()) / 1024**3, 3),
+        "peak_memory_reserved_gb": round(float(values[1].item()) / 1024**3, 3),
+        "peak_memory_process_gb": round(float(values[2].item()) / 1024**3, 3),
+        "peak_memory_gb": round(float(values[0].item()) / 1024**3, 3),
+    }
+
+
+def _mean_abs_pct(reference: torch.Tensor, candidate: torch.Tensor) -> float:
+    reference_fp32 = reference.detach().float()
+    candidate_fp32 = candidate.detach().float()
+    return float(
+        (candidate_fp32 - reference_fp32).abs().mean().item()
+        / (reference_fp32.abs().mean().item() + 1e-18)
+    )
+
+
+def _model_metadata(runtime: object, model_name: str, *, layers: int) -> dict[str, Any]:
+    from art.megatron.lora import LoRA
+
+    provider = getattr(runtime, "provider")
+    model = _language_model(getattr(runtime, "model")[0])
+    config = getattr(model, "config", None)
+    total_params = sum(
+        int(param.numel()) for chunk in runtime.model for param in chunk.parameters()
+    )
+    trainable_params = sum(
+        int(param.numel())
+        for chunk in runtime.model
+        for param in chunk.parameters()
+        if param.requires_grad
+    )
+    lora_sites = sum(
+        1
+        for chunk in runtime.model
+        for module in chunk.modules()
+        if isinstance(module, LoRA)
+    )
+    local = torch.tensor(
+        [total_params, trainable_params, lora_sites],
+        device="cuda",
+        dtype=torch.float64,
+    )
+    dist.all_reduce(local, op=dist.ReduceOp.MAX)
+    return {
+        "model": model_name,
+        "layers_arg": layers,
+        "provider_num_layers": getattr(provider, "num_layers", None),
+        "config_num_layers": getattr(config, "num_layers", None),
+        "rank_local_param_count": int(local[0].item()),
+        "rank_local_trainable_param_count": int(local[1].item()),
+        "rank_local_lora_site_count": int(local[2].item()),
+    }
+
+
 def _bench(
     fn: Callable[[], object],
     *,
@@ -1257,6 +1631,25 @@ def _target_trainer_loss(
     return torch.stack(losses).sum()
 
 
+def _target_requests_loss(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> torch.Tensor:
+    outputs = rank.forward(requests)
+    losses = [
+        -output.target_logprobs.sum()
+        for output in outputs
+        if output.target_logprobs is not None
+    ]
+    if not losses:
+        raise RuntimeError("target logprobs were not produced")
+    return torch.stack(losses).sum()
+
+
 def _trainer_topk_loss(
     rank: TrainerRank,
     items: object,
@@ -1271,6 +1664,187 @@ def _trainer_topk_loss(
     return torch.stack(losses).sum()
 
 
+def _topk_requests_loss(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> torch.Tensor:
+    outputs = rank.forward(requests)
+    losses = [
+        -output.top_k.logprobs.sum() for output in outputs if output.top_k is not None
+    ]
+    if not losses:
+        raise RuntimeError("top_k logprobs were not produced")
+    return torch.stack(losses).sum()
+
+
+def _training_step(
+    rank: TrainerRank,
+    loss_fn: Callable[[], torch.Tensor],
+    *,
+    params: AdamParams,
+    offload_manager: object | None,
+) -> dict[str, float]:
+    if offload_manager is None:
+        return _training_step_body(rank, loss_fn, params=params)
+    with offload_manager.job():  # type: ignore[attr-defined]
+        return _training_step_body(rank, loss_fn, params=params)
+
+
+def _training_step_body(
+    rank: TrainerRank,
+    loss_fn: Callable[[], torch.Tensor],
+    *,
+    params: AdamParams,
+) -> dict[str, float]:
+    rank.zero_grad()
+    loss = loss_fn()
+    loss.backward()
+    return rank.optim_step(params=params, scale_grads=1.0)
+
+
+def _make_offload_manager(runtime: object) -> object:
+    from art.megatron.training.streaming_weight_offload import (
+        StreamingWeightOffloadConfig,
+    )
+    from art.megatron.training.weight_offload import WeightOffloadManager
+
+    manager = WeightOffloadManager.from_config(
+        model=getattr(runtime, "model"),
+        rank=dist.get_rank(),
+        compile_enabled=bool(getattr(runtime, "transformer_layers_compiled", False)),
+        offload_between_jobs=True,
+        streaming_config=StreamingWeightOffloadConfig(enabled=False),
+    )
+    manager.install()
+    manager.after_job()
+    return manager
+
+
+def _target_correctness_metrics(
+    rank: TrainerRank,
+    items: object,
+    prepared: object,
+) -> dict[str, float]:
+    for chunk in rank.runtime.model:
+        chunk.eval()
+    with torch.no_grad():
+        labels = _packed_labels(items, prepared)
+        native_outputs = rank._forward_native_target_logprobs(items, prepared, labels)
+        hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
+        head_outputs = rank._project_head(items, prepared, hidden)
+        abs_diff_sum = torch.tensor(0.0, device=rank.device)
+        reference_abs_sum = torch.tensor(0.0, device=rank.device)
+        value_count = torch.tensor(0.0, device=rank.device)
+        max_abs_diff = torch.tensor(0.0, device=rank.device)
+        for native, candidate in zip(
+            native_outputs,
+            head_outputs.target_logprobs,
+            strict=True,
+        ):
+            if native.target_logprobs is None or candidate is None:
+                continue
+            diff = (candidate.float() - native.target_logprobs.float()).abs()
+            abs_diff_sum += diff.sum()
+            reference_abs_sum += native.target_logprobs.float().abs().sum()
+            value_count += float(diff.numel())
+            max_abs_diff = torch.maximum(max_abs_diff, diff.max())
+        sums = torch.stack((abs_diff_sum, reference_abs_sum, value_count))
+        dist.all_reduce(sums, op=dist.ReduceOp.SUM)
+        dist.all_reduce(max_abs_diff, op=dist.ReduceOp.MAX)
+        mean_abs_pct = float((sums[0] / torch.clamp(sums[1], min=1e-18)).item())
+        max_abs = float(max_abs_diff.item())
+    return {
+        "target_hidden_vs_native_mean_abs_pct": mean_abs_pct,
+        "target_hidden_vs_native_max_abs_diff": max_abs,
+    }
+
+
+def _adapter_sanity_metrics(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    params: AdamParams,
+    adapter_slots: int,
+) -> dict[str, float]:
+    target_request = next(
+        (request for request in requests if request.target_tokens is not None),
+        None,
+    )
+    if target_request is None:
+        return {"adapter_sanity_skipped": 1.0}
+    base_request = ForwardInput(
+        input_tokens=target_request.input_tokens,
+        target_tokens=target_request.target_tokens,
+        checkpoint=None,
+    )
+    slot_request = ForwardInput(
+        input_tokens=target_request.input_tokens,
+        target_tokens=target_request.target_tokens,
+        checkpoint="S0",
+    )
+    for chunk in rank.runtime.model:
+        chunk.eval()
+    with torch.no_grad():
+        base_output = rank.forward([base_request])[0]
+        slot_output = rank.forward([slot_request])[0]
+        if base_output.target_logprobs is None or slot_output.target_logprobs is None:
+            raise RuntimeError("adapter sanity target outputs were not produced")
+        output_diff = _mean_abs_pct(
+            base_output.target_logprobs,
+            slot_output.target_logprobs,
+        )
+        output_max = float(
+            (slot_output.target_logprobs.float() - base_output.target_logprobs.float())
+            .abs()
+            .max()
+            .item()
+        )
+
+    slot_params = rank._checkpoint_slot_params("S0")
+    other_params = rank._checkpoint_slot_params("S1") if adapter_slots > 1 else []
+    before = [param.detach().clone() for param in slot_params]
+    other_before = [param.detach().clone() for param in other_params]
+    for chunk in rank.runtime.model:
+        chunk.train()
+    rank.zero_grad()
+    loss = _target_requests_loss(rank, [slot_request])
+    loss.backward()
+    grad_sq = torch.tensor(0.0, device=rank.device)
+    for param in slot_params:
+        if param.grad is not None:
+            grad_sq = grad_sq + param.grad.detach().float().square().sum()
+    grad_norm = torch.sqrt(grad_sq)
+    rank.optim_step(params=params, checkpoints=["S0"])
+    slot_delta = sum(
+        float((param.detach().float() - old.float()).abs().sum().item())
+        for param, old in zip(slot_params, before, strict=True)
+    )
+    other_delta = sum(
+        float((param.detach().float() - old.float()).abs().sum().item())
+        for param, old in zip(other_params, other_before, strict=True)
+    )
+    values = torch.tensor(
+        [output_diff, output_max, float(grad_norm.item()), slot_delta, other_delta],
+        device=rank.device,
+    )
+    dist.all_reduce(values, op=dist.ReduceOp.MAX)
+    return {
+        "adapter_sanity_output_mean_abs_pct": float(values[0].item()),
+        "adapter_sanity_output_max_abs_diff": float(values[1].item()),
+        "adapter_sanity_grad_norm": float(values[2].item()),
+        "adapter_sanity_stepped_slot_delta": float(values[3].item()),
+        "adapter_sanity_unselected_slot_delta": float(values[4].item()),
+    }
+
+
 def _runtime_output_shape(runtime: object) -> tuple[int, int, int]:
     provider = getattr(runtime, "provider")
     model = _language_model(getattr(runtime, "model")[0])
diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index 3e0ca1690..7491f351a 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -49,6 +49,7 @@ def main(
     flex_token_cap: int = 8192,
     flex_heads: int = 2,
     flex_head_dim: int = 64,
+    flex_mask_variants: str = "current,flat_pair,token_group,local_or_flat_pair",
     output_jsonl: Path = Path(".local/trainer_rank_review/block_mask_flex.jsonl"),
 ) -> None:
     if warmup < 0 or repeat < 1:
@@ -132,20 +133,16 @@ def main(
     )
 
     if run_flex:
-        _write(
-            output_jsonl,
-            {
-                **base,
-                **_flex_record(
-                    pack,
-                    warmup=warmup,
-                    repeat=repeat,
-                    token_cap=flex_token_cap,
-                    heads=flex_heads,
-                    head_dim=flex_head_dim,
-                ),
-            },
-        )
+        for record in _flex_records(
+            pack,
+            warmup=warmup,
+            repeat=repeat,
+            token_cap=flex_token_cap,
+            heads=flex_heads,
+            head_dim=flex_head_dim,
+            variants=_csv_values(flex_mask_variants),
+        ):
+            _write(output_jsonl, {**base, **record})
 
     for variant in range(shape_variants):
         variant_pack = _pack_workload(
@@ -214,6 +211,8 @@ def _pack_workload(
     sequences = (
         _austin_sequences()
         if workload == "austin_198k"
+        else _austin_varied_sequences()
+        if workload == "austin_varied"
         else _regular_sequences(
             prefix_families=prefix_families,
             prefix_len=prefix_len,
@@ -239,6 +238,29 @@ def _austin_sequences() -> tuple[torch.Tensor, ...]:
     )
 
 
+def _austin_varied_sequences() -> tuple[torch.Tensor, ...]:
+    sequences: list[torch.Tensor] = []
+    for family in range(30):
+        family_base = family * 10_000_019
+        prefix_len = 4500 + ((family * 137) % 1001)
+        root = _tokens(family_base, prefix_len)
+        branch_count = 10 + ((family * 7) % 13)
+        for branch in range(branch_count):
+            completion_len = 32 + ((family * 19 + branch * 23) % 145)
+            sequences.append(
+                torch.cat(
+                    (
+                        root,
+                        _tokens(
+                            family_base + branch * 1009 + 17,
+                            completion_len,
+                        ),
+                    )
+                )
+            )
+    return tuple(sequences)
+
+
 def _regular_sequences(
     *,
     prefix_families: int,
@@ -323,7 +345,7 @@ def _build_stage_masks(
     return tuple(masks)
 
 
-def _flex_record(
+def _flex_records(
     pack: SharedPrefixPack,
     *,
     warmup: int,
@@ -331,15 +353,18 @@ def _flex_record(
     token_cap: int,
     heads: int,
     head_dim: int,
-) -> dict[str, object]:
+    variants: Sequence[str],
+) -> list[dict[str, object]]:
     if not torch.cuda.is_available():
-        return {"case": "flex_attention_fwd_bwd", "skipped": "cuda_unavailable"}
+        return [{"case": "flex_attention_fwd_bwd", "skipped": "cuda_unavailable"}]
     if int(pack.tokens.numel()) > int(token_cap):
-        return {
-            "case": "flex_attention_fwd_bwd",
-            "skipped": "packed_tokens_exceed_flex_token_cap",
-            "flex_token_cap": int(token_cap),
-        }
+        return [
+            {
+                "case": "flex_attention_fwd_bwd",
+                "skipped": "packed_tokens_exceed_flex_token_cap",
+                "flex_token_cap": int(token_cap),
+            }
+        ]
     device = torch.device("cuda")
     group_ids = pack.group_ids.to(device)
     parent_ids = pack.parent_ids.to(device)
@@ -349,44 +374,152 @@ def _flex_record(
         target_device=device,
     )
     shape = (1, int(heads), int(pack.tokens.numel()), int(head_dim))
-    q = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
-    k = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
-    v = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
-    wrapper = FlexAttentionWrapper()
-
-    def step() -> None:
-        q.grad = None
-        k.grad = None
-        v.grad = None
-        out = wrapper(
-            q,
-            k,
-            v,
-            block_mask=attention_state.block_mask,
-            scale=float(head_dim) ** -0.5,
-            enable_gqa=False,
+    records: list[dict[str, object]] = []
+    block_masks = _flex_mask_variants(
+        attention_state.block_mask,
+        pack,
+        variants=variants,
+        device=device,
+    )
+    for variant, block_mask in block_masks:
+        q = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
+        k = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
+        v = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
+        wrapper = FlexAttentionWrapper()
+
+        def step() -> None:
+            q.grad = None
+            k.grad = None
+            v.grad = None
+            out = wrapper(
+                q,
+                k,
+                v,
+                block_mask=block_mask,
+                scale=float(head_dim) ** -0.5,
+                enable_gqa=False,
+            )
+            out.float().sum().backward()
+
+        try:
+            torch.cuda.synchronize()
+            first_started = time.perf_counter()
+            step()
+            torch.cuda.synchronize()
+            first_call_ms = round((time.perf_counter() - first_started) * 1000.0, 3)
+            ms = _bench_cuda(step, warmup=warmup, repeat=repeat)
+        except Exception as exc:
+            torch.cuda.empty_cache()
+            records.append(
+                {
+                    "case": "flex_attention_fwd_bwd",
+                    "flex_mask_variant": variant,
+                    "compile_error": type(exc).__name__,
+                    "compile_error_message": str(exc).splitlines()[0][:500],
+                    "flex_heads": heads,
+                    "flex_head_dim": head_dim,
+                }
+            )
+            continue
+        records.append(
+            {
+                "case": "flex_attention_fwd_bwd",
+                "flex_mask_variant": variant,
+                "first_call_ms": first_call_ms,
+                "ms": ms,
+                "packed_tok_s": round(int(pack.tokens.numel()) * 1000.0 / ms, 3),
+                "flex_heads": heads,
+                "flex_head_dim": head_dim,
+                "peak_memory_gb": round(torch.cuda.max_memory_allocated() / 1024**3, 3),
+            }
         )
-        out.float().sum().backward()
-
-    try:
-        ms = _bench_cuda(step, warmup=warmup, repeat=repeat)
-    except Exception as exc:
-        torch.cuda.empty_cache()
-        return {
-            "case": "flex_attention_fwd_bwd",
-            "compile_error": type(exc).__name__,
-            "compile_error_message": str(exc).splitlines()[0][:500],
-            "flex_heads": heads,
-            "flex_head_dim": head_dim,
-        }
-    return {
-        "case": "flex_attention_fwd_bwd",
-        "ms": ms,
-        "packed_tok_s": round(int(pack.tokens.numel()) * 1000.0 / ms, 3),
-        "flex_heads": heads,
-        "flex_head_dim": head_dim,
-        "peak_memory_gb": round(torch.cuda.max_memory_allocated() / 1024**3, 3),
-    }
+    return records
+
+
+def _flex_mask_variants(
+    block_mask: BlockMask,
+    pack: SharedPrefixPack,
+    *,
+    variants: Sequence[str],
+    device: torch.device,
+) -> tuple[tuple[str, BlockMask], ...]:
+    group_ids = pack.group_ids[0].to(device=device, dtype=torch.long)
+    can_attend = _group_can_attend(pack).to(device=device)
+    token_group_can_attend = can_attend.index_select(0, group_ids)
+    stride = int(can_attend.shape[1])
+    can_attend_flat = can_attend.reshape(-1)
+    out = []
+    for variant in variants:
+        if variant == "current":
+            out.append((variant, block_mask))
+            continue
+        if variant == "flat_pair":
+
+            def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
+                del batch_idx, head_idx
+                q_group = group_ids[query_idx]
+                k_group = group_ids[kv_idx]
+                return (query_idx >= kv_idx) & can_attend_flat[
+                    q_group * stride + k_group
+                ]
+
+        elif variant == "token_group":
+
+            def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
+                del batch_idx, head_idx
+                k_group = group_ids[kv_idx]
+                return (query_idx >= kv_idx) & token_group_can_attend[
+                    query_idx, k_group
+                ]
+
+        elif variant == "local_or_flat_pair":
+
+            def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
+                del batch_idx, head_idx
+                q_group = group_ids[query_idx]
+                k_group = group_ids[kv_idx]
+                allowed = (q_group == k_group) | can_attend_flat[
+                    q_group * stride + k_group
+                ]
+                return (query_idx >= kv_idx) & allowed
+
+        else:
+            raise ValueError(f"unknown flex_mask_variant {variant!r}")
+        out.append((variant, _replace_block_mask_mod(block_mask, mask_mod)))
+    return tuple(out)
+
+
+def _group_can_attend(pack: SharedPrefixPack) -> torch.Tensor:
+    group_ids = pack.group_ids[0].to(dtype=torch.long).cpu()
+    parent_ids = pack.parent_ids[0].to(dtype=torch.long).cpu()
+    max_group = int(group_ids.max().item()) if int(group_ids.numel()) else 0
+    parents = [0 for _ in range(max_group + 1)]
+    for group, parent in zip(group_ids.tolist(), parent_ids.tolist(), strict=True):
+        if int(group) >= 0:
+            parents[int(group)] = max(0, int(parent))
+    can_attend = torch.zeros((max_group + 1, max_group + 1), dtype=torch.bool)
+    for group in range(1, max_group + 1):
+        current = group
+        while current > 0:
+            can_attend[group, current] = True
+            current = parents[current]
+    return can_attend
+
+
+def _replace_block_mask_mod(block_mask: BlockMask, mask_mod: object) -> BlockMask:
+    return BlockMask(
+        seq_lengths=block_mask.seq_lengths,
+        kv_num_blocks=block_mask.kv_num_blocks,
+        kv_indices=block_mask.kv_indices,
+        full_kv_num_blocks=block_mask.full_kv_num_blocks,
+        full_kv_indices=block_mask.full_kv_indices,
+        q_num_blocks=block_mask.q_num_blocks,
+        q_indices=block_mask.q_indices,
+        full_q_num_blocks=block_mask.full_q_num_blocks,
+        full_q_indices=block_mask.full_q_indices,
+        BLOCK_SIZE=block_mask.BLOCK_SIZE,
+        mask_mod=mask_mod,
+    )
 
 
 def _bench_cpu(
@@ -519,6 +652,13 @@ def _logical_tokens(pack: SharedPrefixPack) -> int:
     return sum(int(positions.numel()) for positions in pack.positions_by_sequence)
 
 
+def _csv_values(value: str) -> tuple[str, ...]:
+    values = tuple(part.strip() for part in value.split(",") if part.strip())
+    if not values:
+        raise ValueError("CSV option must contain at least one value")
+    return values
+
+
 def _write(path: Path, payload: dict[str, object]) -> None:
     line = json.dumps(payload, sort_keys=True)
     with path.open("a", encoding="utf-8") as output:
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index c20a62d33..147a56cdd 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -32,6 +32,18 @@ class CheckOutput:
     hidden_states: torch.Tensor | None
 
 
+@dataclass(frozen=True)
+class DiffStats:
+    max_abs_diff: float = 0.0
+    mean_abs_pct: float = 0.0
+
+    def merge(self, other: DiffStats) -> DiffStats:
+        return DiffStats(
+            max_abs_diff=max(self.max_abs_diff, other.max_abs_diff),
+            mean_abs_pct=max(self.mean_abs_pct, other.mean_abs_pct),
+        )
+
+
 def main(
     model: str = "Qwen/Qwen3-0.6B",
     layers: int = 1,
@@ -122,7 +134,7 @@ def main(
         same_layout_outputs: list[CheckOutput] | None = None
 
         torch.cuda.reset_peak_memory_stats()
-        max_diff = torch.tensor(0.0, device=rank_a.device)
+        diff_stats = DiffStats()
         with torch.no_grad():
             started_at = time.perf_counter()
             if request_case == "target_only":
@@ -161,8 +173,7 @@ def main(
                         for index, (actual, independent) in enumerate(
                             zip(outputs_a, independent_outputs, strict=True)
                         ):
-                            max_diff = torch.maximum(
-                                max_diff,
+                            diff_stats = diff_stats.merge(
                                 _assert_close(
                                     actual,
                                     independent,
@@ -177,8 +188,7 @@ def main(
                     for index, (actual, same_layout) in enumerate(
                         zip(outputs_a, same_layout_outputs, strict=True)
                     ):
-                        max_diff = torch.maximum(
-                            max_diff,
+                        diff_stats = diff_stats.merge(
                             _assert_close(
                                 actual,
                                 same_layout,
@@ -197,18 +207,21 @@ def main(
         ):
             if int(oracle.source_positions.numel()) == 0:
                 continue
-            max_diff = torch.maximum(
-                max_diff,
+            diff_stats = diff_stats.merge(
                 _assert_close(actual, chunked, f"chunk[{index}]"),
             )
-            max_diff = torch.maximum(
-                max_diff,
+            diff_stats = diff_stats.merge(
                 _assert_close(actual, oracle, f"oracle[{index}]"),
             )
 
-        dist.all_reduce(max_diff, op=dist.ReduceOp.MAX)
+        diff_tensor = torch.tensor(
+            [diff_stats.max_abs_diff, diff_stats.mean_abs_pct],
+            device=rank_a.device,
+        )
+        dist.all_reduce(diff_tensor, op=dist.ReduceOp.MAX)
         dist.all_reduce(peak_memory_gb, op=dist.ReduceOp.MAX)
-        max_diff_value = float(max_diff.item())
+        max_diff_value = float(diff_tensor[0].item())
+        mean_abs_pct_value = float(diff_tensor[1].item())
         records = _records(
             local_pairs=local_pairs,
             actual_outputs=outputs_a,
@@ -235,9 +248,14 @@ def main(
                 reconstruction_error = f"DP reconstruction missed inputs: {seen}"
             else:
                 try:
+                    reconstructed_stats = _assert_reconstructed(gathered, requests)
                     max_diff_value = max(
                         max_diff_value,
-                        _assert_reconstructed(gathered, requests),
+                        reconstructed_stats.max_abs_diff,
+                    )
+                    mean_abs_pct_value = max(
+                        mean_abs_pct_value,
+                        reconstructed_stats.mean_abs_pct,
                     )
                 except AssertionError as exc:
                     reconstruction_error = str(exc)
@@ -249,6 +267,7 @@ def main(
                             "dp": dp_size,
                             "tp": int(ps.get_tensor_model_parallel_world_size()),
                             "cp": int(ps.get_context_parallel_world_size()),
+                            "mean_abs_pct": mean_abs_pct_value,
                             "max_abs_diff": max_diff_value,
                             "records": sum(
                                 len(rank_records or []) for rank_records in gathered
@@ -826,8 +845,8 @@ def _assert_reconstructed(
             torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
         ]
     ],
-) -> float:
-    max_diff = 0.0
+) -> DiffStats:
+    diff_stats = DiffStats()
     records = [
         record
         for rank_records in gathered
@@ -868,8 +887,7 @@ def _assert_reconstructed(
                 f"{_tensor_summary(oracle_value)}"
             )
             _debug(f"reconstruct-input-{input_index}-{key}-diff-oracle")
-            max_diff = max(
-                max_diff,
+            diff_stats = diff_stats.merge(
                 _tensor_diff_value(
                     actual_value,
                     oracle_value,
@@ -885,8 +903,7 @@ def _assert_reconstructed(
                     f"{_tensor_summary(independent_value)}"
                 )
                 _debug(f"reconstruct-input-{input_index}-{key}-diff-independent")
-                max_diff = max(
-                    max_diff,
+                diff_stats = diff_stats.merge(
                     _tensor_diff_value(
                         actual_value,
                         independent_value,
@@ -912,7 +929,7 @@ def _assert_reconstructed(
                     actual_logprobs,
                     oracle_logprobs,
                     f"reconstructed[{input_index}].top_k.logprobs",
-                )
+                ).max_abs_diff
                 > 5e-6
             ):
                 raise AssertionError(
@@ -939,13 +956,13 @@ def _assert_reconstructed(
                         actual_logprobs,
                         independent_logprobs,
                         f"independent[{input_index}].top_k.logprobs",
-                    )
+                    ).max_abs_diff
                     > 5e-6
                 ):
                     raise AssertionError(
                         f"independent[{input_index}].top_k.tokens mismatch"
                     )
-    return max_diff
+    return diff_stats
 
 
 def _assemble(
@@ -993,7 +1010,7 @@ def _assert_close(
     ]
     | CheckOutput,
     label: str,
-) -> torch.Tensor:
+) -> DiffStats:
     diffs = [
         _tensor_diff(
             actual.target_logprobs, expected.target_logprobs, f"{label}.target_logprobs"
@@ -1032,7 +1049,7 @@ def _assert_close(
         diffs.append(top_k_diff)
         if (
             not torch.equal(actual.top_k.tokens, expected.top_k.tokens)
-            and float(top_k_diff.item()) > 5e-6
+            and top_k_diff.max_abs_diff > 5e-6
         ):
             mismatch = torch.nonzero(
                 actual.top_k.tokens != expected.top_k.tokens,
@@ -1047,26 +1064,26 @@ def _assert_close(
                 f"actual_logprob={float(actual.top_k.logprobs[row, col].item())} "
                 f"expected_logprob={float(expected.top_k.logprobs[row, col].item())}"
             )
-    return torch.stack(diffs).max()
+    return _merge_diff_stats(diffs)
 
 
 def _tensor_diff(
     actual: torch.Tensor | None,
     expected: torch.Tensor | None,
     label: str,
-) -> torch.Tensor:
-    return torch.tensor(_tensor_diff_value(actual, expected, label), device="cuda")
+) -> DiffStats:
+    return _tensor_diff_value(actual, expected, label)
 
 
 def _tensor_diff_value(
     actual: torch.Tensor | None,
     expected: torch.Tensor | None,
     label: str,
-) -> float:
+) -> DiffStats:
     if actual is None or expected is None:
         if actual is not expected:
             raise AssertionError(f"{label} None mismatch")
-        return 0.0
+        return DiffStats()
     if actual.shape != expected.shape:
         raise AssertionError(
             f"{label} shape mismatch: {actual.shape} != {expected.shape}"
@@ -1076,17 +1093,29 @@ def _tensor_diff_value(
     if torch.cuda.is_available():
         actual_for_diff = actual_for_diff.to(device="cuda")
         expected_for_diff = expected_for_diff.to(device="cuda")
-    diff = (
-        (actual_for_diff.float() - expected_for_diff.float()).abs().max()
-        if actual_for_diff.numel()
-        else actual_for_diff.new_tensor(0.0)
-    )
-    value = float(diff.item())
+    if actual_for_diff.numel():
+        abs_diff = (actual_for_diff.float() - expected_for_diff.float()).abs()
+        max_abs_diff = float(abs_diff.max().item())
+        denominator = float(expected_for_diff.float().abs().mean().item())
+        mean_abs_pct = float(abs_diff.mean().item()) / (denominator + 1e-18)
+    else:
+        max_abs_diff = 0.0
+        mean_abs_pct = 0.0
     tolerance = 5e-6 if "logprobs" in label else 0.0
-    _debug(f"{label} diff={value} tolerance={tolerance}")
-    if value > tolerance:
-        raise AssertionError(f"{label} max diff {value}")
-    return value
+    _debug(
+        f"{label} max_abs_diff={max_abs_diff} "
+        f"mean_abs_pct={mean_abs_pct} tolerance={tolerance}"
+    )
+    if max_abs_diff > tolerance:
+        raise AssertionError(f"{label} max diff {max_abs_diff}")
+    return DiffStats(max_abs_diff=max_abs_diff, mean_abs_pct=mean_abs_pct)
+
+
+def _merge_diff_stats(stats: list[DiffStats]) -> DiffStats:
+    merged = DiffStats()
+    for stat in stats:
+        merged = merged.merge(stat)
+    return merged
 
 
 if __name__ == "__main__":

From 991aaffabee451491756911ab36e270110976ec5 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 09:40:56 -0600
Subject: [PATCH 012/114] test: harden Austin validation harness

---
 dev/trainer_rank_perf.py        | 2 +-
 dev/trainer_rank_review_perf.py | 9 +++++++--
 2 files changed, 8 insertions(+), 3 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 76bb48e35..e30f8d52e 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -53,7 +53,7 @@ def main(
     adapter_slot_rank: int = 1,
     learning_rate: float = 1e-5,
     full_step_offload_reload: bool = False,
-    memory_sample_interval_s: float = 0.01,
+    memory_sample_interval_s: float = 0.05,
     compare_target_correctness: bool = False,
     run_adapter_sanity: bool = False,
     output_jsonl: str = "",
diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index 7491f351a..ba956df87 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -500,9 +500,14 @@ def _group_can_attend(pack: SharedPrefixPack) -> torch.Tensor:
     can_attend = torch.zeros((max_group + 1, max_group + 1), dtype=torch.bool)
     for group in range(1, max_group + 1):
         current = group
-        while current > 0:
+        seen: set[int] = set()
+        while current > 0 and current not in seen:
+            seen.add(current)
             can_attend[group, current] = True
-            current = parents[current]
+            parent = parents[current]
+            if parent == current:
+                break
+            current = parent
     return can_attend
 
 

From 896d34432ba3a851066384cf90bf04345d36c629 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:02:24 -0600
Subject: [PATCH 013/114] fix: prune false exact CP mask blocks

---
 .../megatron/context_parallel/block_mask.py   | 11 ++++---
 .../test_shared_prefix_attention_builder.py   | 33 +++++++++++++++++++
 2 files changed, 40 insertions(+), 4 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 32b5251e5..0602c00c4 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -131,7 +131,7 @@ def _remap_group_values(
     return remapped
 
 
-def _promote_exact_full_blocks(
+def _refine_exact_partial_blocks(
     *,
     partial_blocks: np.ndarray,
     full_blocks: np.ndarray,
@@ -160,7 +160,10 @@ def _promote_exact_full_blocks(
             k_group_index[None, k_slice],
         ]
         causal = q_abs[q_slice, None] >= k_abs[None, k_slice]
-        if bool(np.all(causal & can_attend)):
+        allowed = causal & can_attend
+        if not bool(np.any(allowed)):
+            partial_blocks[q_block_index, k_block_index] = False
+        elif bool(np.all(allowed)):
             partial_blocks[q_block_index, k_block_index] = False
             full_blocks[q_block_index, k_block_index] = True
 
@@ -291,8 +294,8 @@ def _build_sparse_block_mask(
         full_blocks[q_slice, k_slice] |= is_full
 
     partial_blocks &= ~full_blocks
-    if context.max_depth > 1:
-        _promote_exact_full_blocks(
+    if int(context.group_can_attend.shape[0]) > 2:
+        _refine_exact_partial_blocks(
             partial_blocks=partial_blocks,
             full_blocks=full_blocks,
             q_abs=q_abs,
diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
index b70b73c60..1214d344e 100644
--- a/tests/unit/test_shared_prefix_attention_builder.py
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -185,6 +185,39 @@ def test_sparse_block_mask_matches_torch_block_metadata(
     _assert_matches_torch_block_mask(block_mask)
 
 
+def test_sparse_block_mask_prunes_exact_blocks_rejected_by_group_tree() -> None:
+    group_ids = torch.tensor([1, 1, 1, 1, 2, 2, 2, 2], dtype=torch.long)
+    parent_ids = torch.tensor([1, 1, 1, 1, 2, 2, 2, 2], dtype=torch.long)
+    block_mask = build_block_mask(
+        FlexMaskSpec(
+            q_len=4,
+            k_len=4,
+            block_size=(2, 2),
+            slices=(
+                AttnSlice(
+                    q_range=TokenRange(start=0, end=4),
+                    k_range=TokenRange(start=0, end=4),
+                    mask_kind=AttnMaskKind.CAUSAL,
+                    row_index=0,
+                ),
+            ),
+            exact_mask=ExactMaskMetadata(
+                q_token_indices=torch.tensor([4, 5, 6, 7], dtype=torch.long),
+                k_token_indices=torch.tensor([0, 1, 2, 3], dtype=torch.long),
+                cache_key="all-false-cross-family",
+            ),
+        ),
+        group_ids=group_ids,
+        parent_ids=parent_ids,
+        device=torch.device("cpu"),
+    )
+
+    assert block_mask is not None
+    assert int(block_mask.kv_num_blocks.sum().item()) == 0
+    assert int(block_mask.full_kv_num_blocks.sum().item()) == 0
+    _assert_matches_torch_block_mask(block_mask)
+
+
 def test_shared_prefix_state_builds_batched_block_mask() -> None:
     group_ids = torch.tensor(
         [

From fb8b18870be228125437d342bc6b332c9bdad1fe Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:03:34 -0600
Subject: [PATCH 014/114] fix: refine full exact CP mask blocks

---
 src/art/megatron/context_parallel/block_mask.py | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 0602c00c4..ac8c6e3c6 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -131,7 +131,7 @@ def _remap_group_values(
     return remapped
 
 
-def _refine_exact_partial_blocks(
+def _refine_exact_blocks(
     *,
     partial_blocks: np.ndarray,
     full_blocks: np.ndarray,
@@ -145,7 +145,7 @@ def _refine_exact_partial_blocks(
     q_len: int,
     k_len: int,
 ) -> None:
-    for q_block_index, k_block_index in np.argwhere(partial_blocks):
+    for q_block_index, k_block_index in np.argwhere(partial_blocks | full_blocks):
         q_start = int(q_block_index) * q_block
         k_start = int(k_block_index) * k_block
         q_end = q_start + q_block
@@ -163,9 +163,13 @@ def _refine_exact_partial_blocks(
         allowed = causal & can_attend
         if not bool(np.any(allowed)):
             partial_blocks[q_block_index, k_block_index] = False
+            full_blocks[q_block_index, k_block_index] = False
         elif bool(np.all(allowed)):
             partial_blocks[q_block_index, k_block_index] = False
             full_blocks[q_block_index, k_block_index] = True
+        else:
+            partial_blocks[q_block_index, k_block_index] = True
+            full_blocks[q_block_index, k_block_index] = False
 
 
 def _build_sparse_block_mask(
@@ -295,7 +299,7 @@ def _build_sparse_block_mask(
 
     partial_blocks &= ~full_blocks
     if int(context.group_can_attend.shape[0]) > 2:
-        _refine_exact_partial_blocks(
+        _refine_exact_blocks(
             partial_blocks=partial_blocks,
             full_blocks=full_blocks,
             q_abs=q_abs,

From 0c8a16b48b136a538d272b67792e1d4c2454928b Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:05:07 -0600
Subject: [PATCH 015/114] perf: avoid unnecessary exact CP mask refinement

---
 src/art/megatron/context_parallel/block_mask.py | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index ac8c6e3c6..1c47a746e 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -155,6 +155,15 @@ def _refine_exact_blocks(
 
         q_slice = slice(q_start, q_end)
         k_slice = slice(k_start, k_end)
+        q_groups = np.unique(q_group_index[q_slice])
+        k_groups = np.unique(k_group_index[k_slice])
+        group_allowed = group_can_attend[np.ix_(q_groups, k_groups)]
+        if bool(np.all(group_allowed)):
+            continue
+        if not bool(np.any(group_allowed)):
+            partial_blocks[q_block_index, k_block_index] = False
+            full_blocks[q_block_index, k_block_index] = False
+            continue
         can_attend = group_can_attend[
             q_group_index[q_slice, None],
             k_group_index[None, k_slice],

From 1ac8edf3f0174c354916baa2f29834e7aae7f43d Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:06:17 -0600
Subject: [PATCH 016/114] fix: keep exact CP refinement for deep trees

---
 .../megatron/context_parallel/block_mask.py   | 21 +++++++++++--------
 1 file changed, 12 insertions(+), 9 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 1c47a746e..c00ea255a 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -144,6 +144,7 @@ def _refine_exact_blocks(
     k_block: int,
     q_len: int,
     k_len: int,
+    skip_uniform_allowed: bool,
 ) -> None:
     for q_block_index, k_block_index in np.argwhere(partial_blocks | full_blocks):
         q_start = int(q_block_index) * q_block
@@ -155,15 +156,16 @@ def _refine_exact_blocks(
 
         q_slice = slice(q_start, q_end)
         k_slice = slice(k_start, k_end)
-        q_groups = np.unique(q_group_index[q_slice])
-        k_groups = np.unique(k_group_index[k_slice])
-        group_allowed = group_can_attend[np.ix_(q_groups, k_groups)]
-        if bool(np.all(group_allowed)):
-            continue
-        if not bool(np.any(group_allowed)):
-            partial_blocks[q_block_index, k_block_index] = False
-            full_blocks[q_block_index, k_block_index] = False
-            continue
+        if skip_uniform_allowed:
+            q_groups = np.unique(q_group_index[q_slice])
+            k_groups = np.unique(k_group_index[k_slice])
+            group_allowed = group_can_attend[np.ix_(q_groups, k_groups)]
+            if bool(np.all(group_allowed)):
+                continue
+            if not bool(np.any(group_allowed)):
+                partial_blocks[q_block_index, k_block_index] = False
+                full_blocks[q_block_index, k_block_index] = False
+                continue
         can_attend = group_can_attend[
             q_group_index[q_slice, None],
             k_group_index[None, k_slice],
@@ -320,6 +322,7 @@ def _build_sparse_block_mask(
             k_block=k_block,
             q_len=int(spec.q_len),
             k_len=int(spec.k_len),
+            skip_uniform_allowed=context.max_depth <= 1,
         )
     kv_num_blocks, kv_indices = _dense_blocks_to_ordered(
         partial_blocks,

From 19cb41a35296fc62e2ca68a45342d68ea32f294b Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:12:18 -0600
Subject: [PATCH 017/114] test: make CP mask parity slice aware

---
 dev/trainer_rank_review_perf.py               | 48 +++++++++++++++----
 .../megatron/context_parallel/block_mask.py   |  3 ++
 2 files changed, 43 insertions(+), 8 deletions(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index ba956df87..703f62ae6 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -114,14 +114,15 @@ def main(
         },
     )
 
-    masks, mask_ms = _bench_cpu(
+    stage_masks, mask_ms = _bench_cpu(
         lambda: _build_stage_masks(pack, plan, config),
         warmup=warmup,
         repeat=repeat,
     )
+    masks = tuple(mask for mask, _ in stage_masks)
     if validate_torch:
-        for mask in masks:
-            _assert_matches_torch_block_mask(mask)
+        for mask, slices in stage_masks:
+            _assert_matches_torch_block_mask(mask, slices=slices)
     _write(
         output_jsonl,
         {
@@ -170,7 +171,7 @@ def main(
             repeat=1,
             before_each=_RUNTIME_PLAN_CACHE.clear,
         )
-        variant_masks, variant_mask_ms = _bench_cpu(
+        variant_stage_masks, variant_mask_ms = _bench_cpu(
             lambda pack=variant_pack, plan=variant_plan: _build_stage_masks(
                 pack,
                 plan,
@@ -179,6 +180,10 @@ def main(
             warmup=0,
             repeat=1,
         )
+        variant_masks = tuple(mask for mask, _ in variant_stage_masks)
+        if validate_torch:
+            for mask, slices in variant_stage_masks:
+                _assert_matches_torch_block_mask(mask, slices=slices)
         _write(
             output_jsonl,
             {
@@ -318,7 +323,7 @@ def _build_stage_masks(
     pack: SharedPrefixPack,
     plan: object,
     config: ContextParallelConfig,
-) -> tuple[BlockMask, ...]:
+) -> tuple[tuple[BlockMask, tuple[object, ...]], ...]:
     masks = []
     context = prepare_block_mask_context(
         group_ids=pack.group_ids[0],
@@ -341,7 +346,7 @@ def _build_stage_masks(
                 validate=False,
             )
             if mask is not None:
-                masks.append(mask)
+                masks.append((mask, tuple(stage.slices)))
     return tuple(masks)
 
 
@@ -599,10 +604,14 @@ def _block_count(block_mask: BlockMask, name: str) -> int:
     return 0 if counts is None else int(counts.sum().item())
 
 
-def _assert_matches_torch_block_mask(block_mask: BlockMask) -> None:
+def _assert_matches_torch_block_mask(
+    block_mask: BlockMask,
+    *,
+    slices: Sequence[object] = (),
+) -> None:
     q_len, k_len = block_mask.seq_lengths
     reference = torch_block_mask(
-        block_mask.mask_mod,
+        _slice_mask_mod(block_mask.mask_mod, slices),
         B=int(block_mask.kv_num_blocks.shape[0]),
         H=1,
         Q_LEN=q_len,
@@ -622,6 +631,29 @@ def _assert_matches_torch_block_mask(block_mask: BlockMask) -> None:
             raise AssertionError(f"{counts_name}/{indices_name} mismatch")
 
 
+def _slice_mask_mod(mask_mod: object, slices: Sequence[object]) -> object:
+    if not slices:
+        return mask_mod
+
+    def sliced_mask_mod(
+        batch_idx: torch.Tensor,
+        head_idx: torch.Tensor,
+        query_idx: torch.Tensor,
+        kv_idx: torch.Tensor,
+    ) -> torch.Tensor:
+        in_slice = torch.zeros_like(query_idx, dtype=torch.bool)
+        for slice_ in slices:
+            in_slice |= (
+                (query_idx >= int(slice_.q_range.start))
+                & (query_idx < int(slice_.q_range.end))
+                & (kv_idx >= int(slice_.k_range.start))
+                & (kv_idx < int(slice_.k_range.end))
+            )
+        return in_slice & mask_mod(batch_idx, head_idx, query_idx, kv_idx)
+
+    return sliced_mask_mod
+
+
 def _block_entries(
     block_mask: BlockMask,
     counts_name: str,
diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index c00ea255a..174ef9841 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -166,6 +166,9 @@ def _refine_exact_blocks(
                 partial_blocks[q_block_index, k_block_index] = False
                 full_blocks[q_block_index, k_block_index] = False
                 continue
+            partial_blocks[q_block_index, k_block_index] = True
+            full_blocks[q_block_index, k_block_index] = False
+            continue
         can_attend = group_can_attend[
             q_group_index[q_slice, None],
             k_group_index[None, k_slice],

From f4649397980463baf2c46a465cd0bb1f44a5e304 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:13:24 -0600
Subject: [PATCH 018/114] fix: broadcast slice-aware mask parity

---
 dev/trainer_rank_review_perf.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index 703f62ae6..2af0bf414 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -641,7 +641,7 @@ def sliced_mask_mod(
         query_idx: torch.Tensor,
         kv_idx: torch.Tensor,
     ) -> torch.Tensor:
-        in_slice = torch.zeros_like(query_idx, dtype=torch.bool)
+        in_slice = (query_idx < 0) & (kv_idx < 0)
         for slice_ in slices:
             in_slice |= (
                 (query_idx >= int(slice_.q_range.start))

From f640167339e584399a27373137fbf1e23e81a145 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:20:22 -0600
Subject: [PATCH 019/114] perf: vectorize depth-one CP mask refinement

---
 .../megatron/context_parallel/block_mask.py   | 27 ++++++++++++++++++-
 1 file changed, 26 insertions(+), 1 deletion(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 174ef9841..577389eca 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -146,7 +146,32 @@ def _refine_exact_blocks(
     k_len: int,
     skip_uniform_allowed: bool,
 ) -> None:
-    for q_block_index, k_block_index in np.argwhere(partial_blocks | full_blocks):
+    candidate_blocks = partial_blocks | full_blocks
+    if skip_uniform_allowed:
+        q_starts = np.arange(candidate_blocks.shape[0], dtype=np.int64) * int(q_block)
+        k_starts = np.arange(candidate_blocks.shape[1], dtype=np.int64) * int(k_block)
+        q_ends = np.minimum(q_starts + int(q_block), int(q_len))
+        k_ends = np.minimum(k_starts + int(k_block), int(k_len))
+        q_group_min, q_group_max = _block_min_max(q_group_index, q_starts, q_ends)
+        k_group_min, k_group_max = _block_min_max(k_group_index, k_starts, k_ends)
+        q_block_indices, k_block_indices = np.nonzero(candidate_blocks)
+        homogeneous = (q_group_min[q_block_indices] == q_group_max[q_block_indices]) & (
+            k_group_min[k_block_indices] == k_group_max[k_block_indices]
+        )
+        if bool(np.any(homogeneous)):
+            homogeneous_q = q_block_indices[homogeneous]
+            homogeneous_k = k_block_indices[homogeneous]
+            allowed = group_can_attend[
+                q_group_min[homogeneous_q],
+                k_group_min[homogeneous_k],
+            ]
+            disallowed_q = homogeneous_q[~allowed]
+            disallowed_k = homogeneous_k[~allowed]
+            partial_blocks[disallowed_q, disallowed_k] = False
+            full_blocks[disallowed_q, disallowed_k] = False
+            candidate_blocks[homogeneous_q, homogeneous_k] = False
+
+    for q_block_index, k_block_index in np.argwhere(candidate_blocks):
         q_start = int(q_block_index) * q_block
         k_start = int(k_block_index) * k_block
         q_end = q_start + q_block

From 3cf1fe5c6a2254a81c3b35ead2897096599eaee4 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:22:13 -0600
Subject: [PATCH 020/114] perf: keep depth-one CP mask refinement vectorized

---
 src/art/megatron/context_parallel/block_mask.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 577389eca..2d1be15f5 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -169,7 +169,11 @@ def _refine_exact_blocks(
             disallowed_k = homogeneous_k[~allowed]
             partial_blocks[disallowed_q, disallowed_k] = False
             full_blocks[disallowed_q, disallowed_k] = False
-            candidate_blocks[homogeneous_q, homogeneous_k] = False
+        mixed_q = q_block_indices[~homogeneous]
+        mixed_k = k_block_indices[~homogeneous]
+        partial_blocks[mixed_q, mixed_k] = True
+        full_blocks[mixed_q, mixed_k] = False
+        return
 
     for q_block_index, k_block_index in np.argwhere(candidate_blocks):
         q_start = int(q_block_index) * q_block

From 63ca04534c5a1621cb970a571b61123e9f4a5c9f Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 10:32:44 -0600
Subject: [PATCH 021/114] fix: handle empty CP correctness shards

---
 dev/trainer_rank_perf.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index e30f8d52e..cabf3c93e 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -1748,6 +1748,8 @@ def _target_correctness_metrics(
             if native.target_logprobs is None or candidate is None:
                 continue
             diff = (candidate.float() - native.target_logprobs.float()).abs()
+            if int(diff.numel()) == 0:
+                continue
             abs_diff_sum += diff.sum()
             reference_abs_sum += native.target_logprobs.float().abs().sum()
             value_count += float(diff.numel())
@@ -1760,6 +1762,7 @@ def _target_correctness_metrics(
     return {
         "target_hidden_vs_native_mean_abs_pct": mean_abs_pct,
         "target_hidden_vs_native_max_abs_diff": max_abs,
+        "target_hidden_vs_native_value_count": float(sums[2].item()),
     }
 
 

From 5fb59248df24be9999b625f9032a63037b8b1270 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 11:06:51 -0600
Subject: [PATCH 022/114] fix: collect perf metadata on all ranks

---
 dev/trainer_rank_perf.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index cabf3c93e..d22a4d24b 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -685,6 +685,7 @@ def register_case(
 
         memory_tracker.stop()
         memory_metadata = _distributed_memory_metadata(memory_tracker)
+        model_metadata = _model_metadata(runtime, model, layers=layers)
 
         if dist.get_rank() == 0:
             token_rates = _rate_metrics(results, rate_units)
@@ -725,7 +726,7 @@ def register_case(
                 "cross_entropy_fusion_impl": getattr(
                     model_config, "cross_entropy_fusion_impl", None
                 ),
-                **_model_metadata(runtime, model, layers=layers),
+                **model_metadata,
                 **request_stats,
                 **memory_metadata,
                 **results,

From f79f5203bf449a88f95cb3d375cf14f765ac8303 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 11:50:38 -0600
Subject: [PATCH 023/114] bench: use CP stage masks for flex timing

---
 dev/trainer_rank_review_perf.py | 350 ++++++++++++++++++++++----------
 1 file changed, 247 insertions(+), 103 deletions(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index 2af0bf414..b2a23503d 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -1,16 +1,20 @@
 from __future__ import annotations
 
 from collections.abc import Callable, Sequence
+from dataclasses import dataclass
 import json
 from pathlib import Path
 import time
 
+import numpy as np
 import torch
 from torch.nn.attention.flex_attention import BlockMask
 from torch.nn.attention.flex_attention import create_block_mask as torch_block_mask
 import typer
 
 from art.megatron.context_parallel.block_mask import (
+    _remap_group_values,
+    _select_with_invalid_np,
     build_block_mask_from_context,
     prepare_block_mask_context,
 )
@@ -27,7 +31,6 @@
 )
 from art.megatron.flex_attn.attention import FlexAttentionWrapper
 from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
-from art.megatron.shared_prefix_state import create_shared_prefix_state
 
 
 def main(
@@ -49,7 +52,7 @@ def main(
     flex_token_cap: int = 8192,
     flex_heads: int = 2,
     flex_head_dim: int = 64,
-    flex_mask_variants: str = "current,flat_pair,token_group,local_or_flat_pair",
+    flex_mask_variants: str = "current,ancestor_slots,causal_abs_only",
     output_jsonl: Path = Path(".local/trainer_rank_review/block_mask_flex.jsonl"),
 ) -> None:
     if warmup < 0 or repeat < 1:
@@ -136,6 +139,8 @@ def main(
     if run_flex:
         for record in _flex_records(
             pack,
+            plan,
+            config,
             warmup=warmup,
             repeat=repeat,
             token_cap=flex_token_cap,
@@ -352,6 +357,8 @@ def _build_stage_masks(
 
 def _flex_records(
     pack: SharedPrefixPack,
+    plan: object,
+    config: ContextParallelConfig,
     *,
     warmup: int,
     repeat: int,
@@ -362,51 +369,80 @@ def _flex_records(
 ) -> list[dict[str, object]]:
     if not torch.cuda.is_available():
         return [{"case": "flex_attention_fwd_bwd", "skipped": "cuda_unavailable"}]
-    if int(pack.tokens.numel()) > int(token_cap):
+    device = torch.device("cuda")
+    stage_cases = _build_stage_flex_cases(
+        pack,
+        plan,
+        config,
+        device=device,
+    )
+    if not stage_cases:
+        return [{"case": "flex_attention_fwd_bwd", "skipped": "no_stage_masks"}]
+    largest_stage = max(max(case.q_len, case.k_len) for case in stage_cases)
+    if int(largest_stage) > int(token_cap):
         return [
             {
                 "case": "flex_attention_fwd_bwd",
-                "skipped": "packed_tokens_exceed_flex_token_cap",
+                "skipped": "stage_tokens_exceed_flex_token_cap",
                 "flex_token_cap": int(token_cap),
+                "largest_stage_tokens": int(largest_stage),
             }
         ]
-    device = torch.device("cuda")
-    group_ids = pack.group_ids.to(device)
-    parent_ids = pack.parent_ids.to(device)
-    attention_state = create_shared_prefix_state(
-        group_ids,
-        parent_ids,
-        target_device=device,
-    )
-    shape = (1, int(heads), int(pack.tokens.numel()), int(head_dim))
     records: list[dict[str, object]] = []
-    block_masks = _flex_mask_variants(
-        attention_state.block_mask,
-        pack,
-        variants=variants,
+    base_tensors = _stage_tensors(
+        stage_cases,
+        heads=heads,
+        head_dim=head_dim,
         device=device,
     )
-    for variant, block_mask in block_masks:
-        q = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
-        k = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
-        v = torch.randn(shape, device=device, dtype=torch.bfloat16, requires_grad=True)
+    for variant in variants:
+        block_masks = []
+        try:
+            block_masks = [
+                _stage_variant_block_mask(case, variant, device=device)
+                for case in stage_cases
+            ]
+        except Exception as exc:
+            records.append(
+                {
+                    "case": "flex_attention_fwd_bwd",
+                    "flex_mask_variant": variant,
+                    "compile_error": type(exc).__name__,
+                    "compile_error_message": str(exc).splitlines()[0][:500],
+                    "flex_heads": heads,
+                    "flex_head_dim": head_dim,
+                }
+            )
+            continue
+        qkv = [
+            (
+                q.detach().clone().requires_grad_(True),
+                k.detach().clone().requires_grad_(True),
+                v.detach().clone().requires_grad_(True),
+            )
+            for q, k, v in base_tensors
+        ]
         wrapper = FlexAttentionWrapper()
 
         def step() -> None:
-            q.grad = None
-            k.grad = None
-            v.grad = None
-            out = wrapper(
-                q,
-                k,
-                v,
-                block_mask=block_mask,
-                scale=float(head_dim) ** -0.5,
-                enable_gqa=False,
-            )
-            out.float().sum().backward()
+            loss = torch.zeros((), device=device, dtype=torch.float32)
+            for (q, k, v), block_mask in zip(qkv, block_masks, strict=True):
+                q.grad = None
+                k.grad = None
+                v.grad = None
+                out = wrapper(
+                    q,
+                    k,
+                    v,
+                    block_mask=block_mask,
+                    scale=float(head_dim) ** -0.5,
+                    enable_gqa=False,
+                )
+                loss = loss + out.float().sum()
+            loss.backward()
 
         try:
+            torch.cuda.reset_peak_memory_stats()
             torch.cuda.synchronize()
             first_started = time.perf_counter()
             step()
@@ -423,6 +459,7 @@ def step() -> None:
                     "compile_error_message": str(exc).splitlines()[0][:500],
                     "flex_heads": heads,
                     "flex_head_dim": head_dim,
+                    **_stage_flex_stats(stage_cases),
                 }
             )
             continue
@@ -435,85 +472,192 @@ def step() -> None:
                 "packed_tok_s": round(int(pack.tokens.numel()) * 1000.0 / ms, 3),
                 "flex_heads": heads,
                 "flex_head_dim": head_dim,
+                **_stage_flex_stats(stage_cases),
                 "peak_memory_gb": round(torch.cuda.max_memory_allocated() / 1024**3, 3),
             }
         )
     return records
 
 
-def _flex_mask_variants(
-    block_mask: BlockMask,
+@dataclass(frozen=True)
+class _StageFlexCase:
+    rank: int
+    stage_index: int
+    q_len: int
+    k_len: int
+    block_mask: BlockMask
+    q_abs: np.ndarray
+    k_abs: np.ndarray
+    q_group_index: np.ndarray
+    k_group_index: np.ndarray
+    group_can_attend: np.ndarray
+
+
+def _build_stage_flex_cases(
     pack: SharedPrefixPack,
+    plan: object,
+    config: ContextParallelConfig,
     *,
-    variants: Sequence[str],
     device: torch.device,
-) -> tuple[tuple[str, BlockMask], ...]:
-    group_ids = pack.group_ids[0].to(device=device, dtype=torch.long)
-    can_attend = _group_can_attend(pack).to(device=device)
-    token_group_can_attend = can_attend.index_select(0, group_ids)
-    stride = int(can_attend.shape[1])
-    can_attend_flat = can_attend.reshape(-1)
-    out = []
-    for variant in variants:
-        if variant == "current":
-            out.append((variant, block_mask))
-            continue
-        if variant == "flat_pair":
-
-            def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
-                del batch_idx, head_idx
-                q_group = group_ids[query_idx]
-                k_group = group_ids[kv_idx]
-                return (query_idx >= kv_idx) & can_attend_flat[
-                    q_group * stride + k_group
-                ]
-
-        elif variant == "token_group":
-
-            def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
-                del batch_idx, head_idx
-                k_group = group_ids[kv_idx]
-                return (query_idx >= kv_idx) & token_group_can_attend[
-                    query_idx, k_group
-                ]
-
-        elif variant == "local_or_flat_pair":
-
-            def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
-                del batch_idx, head_idx
-                q_group = group_ids[query_idx]
-                k_group = group_ids[kv_idx]
-                allowed = (q_group == k_group) | can_attend_flat[
-                    q_group * stride + k_group
-                ]
-                return (query_idx >= kv_idx) & allowed
-
-        else:
-            raise ValueError(f"unknown flex_mask_variant {variant!r}")
-        out.append((variant, _replace_block_mask_mod(block_mask, mask_mod)))
-    return tuple(out)
-
-
-def _group_can_attend(pack: SharedPrefixPack) -> torch.Tensor:
-    group_ids = pack.group_ids[0].to(dtype=torch.long).cpu()
-    parent_ids = pack.parent_ids[0].to(dtype=torch.long).cpu()
-    max_group = int(group_ids.max().item()) if int(group_ids.numel()) else 0
-    parents = [0 for _ in range(max_group + 1)]
-    for group, parent in zip(group_ids.tolist(), parent_ids.tolist(), strict=True):
-        if int(group) >= 0:
-            parents[int(group)] = max(0, int(parent))
-    can_attend = torch.zeros((max_group + 1, max_group + 1), dtype=torch.bool)
-    for group in range(1, max_group + 1):
-        current = group
-        seen: set[int] = set()
-        while current > 0 and current not in seen:
-            seen.add(current)
-            can_attend[group, current] = True
-            parent = parents[current]
-            if parent == current:
-                break
-            current = parent
-    return can_attend
+) -> tuple[_StageFlexCase, ...]:
+    cases: list[_StageFlexCase] = []
+    context = prepare_block_mask_context(
+        group_ids=pack.group_ids[0],
+        parent_ids=pack.parent_ids[0],
+    )
+    for rank_plan in plan.rank_plans:
+        for stage in rank_plan.stage_plans:
+            if stage.mask_metadata is None:
+                continue
+            mask = build_block_mask_from_context(
+                FlexMaskSpec(
+                    q_len=stage.q_len,
+                    k_len=stage.k_len,
+                    block_size=config.block_size,
+                    slices=stage.slices,
+                    exact_mask=stage.mask_metadata,
+                ),
+                context=context,
+                device=device,
+                validate=False,
+            )
+            if mask is None:
+                continue
+            q_abs = (
+                stage.mask_metadata.q_token_indices.detach()
+                .to(device="cpu", dtype=torch.int64)
+                .reshape(-1)
+                .numpy()
+            )
+            k_abs = (
+                stage.mask_metadata.k_token_indices.detach()
+                .to(device="cpu", dtype=torch.int64)
+                .reshape(-1)
+                .numpy()
+            )
+            q_group = _select_with_invalid_np(
+                context.group_ids_np,
+                q_abs,
+                invalid_value=-1,
+            )
+            k_group = _select_with_invalid_np(
+                context.group_ids_np,
+                k_abs,
+                invalid_value=-1,
+            )
+            cases.append(
+                _StageFlexCase(
+                    rank=int(rank_plan.rank),
+                    stage_index=int(stage.stage_index),
+                    q_len=int(stage.q_len),
+                    k_len=int(stage.k_len),
+                    block_mask=mask,
+                    q_abs=q_abs,
+                    k_abs=k_abs,
+                    q_group_index=_remap_group_values(
+                        q_group,
+                        sorted_group_ids=context.sorted_group_ids,
+                    ),
+                    k_group_index=_remap_group_values(
+                        k_group,
+                        sorted_group_ids=context.sorted_group_ids,
+                    ),
+                    group_can_attend=context.group_can_attend,
+                )
+            )
+    return tuple(cases)
+
+
+def _stage_tensors(
+    cases: Sequence[_StageFlexCase],
+    *,
+    heads: int,
+    head_dim: int,
+    device: torch.device,
+) -> tuple[tuple[torch.Tensor, torch.Tensor, torch.Tensor], ...]:
+    generator = torch.Generator(device=device).manual_seed(17)
+    tensors = []
+    for case in cases:
+        q_shape = (1, int(heads), int(case.q_len), int(head_dim))
+        k_shape = (1, int(heads), int(case.k_len), int(head_dim))
+        tensors.append(
+            (
+                torch.randn(
+                    q_shape, device=device, dtype=torch.bfloat16, generator=generator
+                ),
+                torch.randn(
+                    k_shape, device=device, dtype=torch.bfloat16, generator=generator
+                ),
+                torch.randn(
+                    k_shape, device=device, dtype=torch.bfloat16, generator=generator
+                ),
+            )
+        )
+    return tuple(tensors)
+
+
+def _stage_variant_block_mask(
+    case: _StageFlexCase,
+    variant: str,
+    *,
+    device: torch.device,
+) -> BlockMask:
+    if variant == "current":
+        return case.block_mask
+    q_abs = torch.as_tensor(case.q_abs, device=device, dtype=torch.int64)
+    k_abs = torch.as_tensor(case.k_abs, device=device, dtype=torch.int64)
+    if variant == "causal_abs_only":
+
+        def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
+            del batch_idx, head_idx
+            return q_abs[query_idx] >= k_abs[kv_idx]
+
+        return _replace_block_mask_mod(case.block_mask, mask_mod)
+    if variant == "ancestor_slots":
+        q_group = torch.as_tensor(case.q_group_index, device=device, dtype=torch.int32)
+        k_group = torch.as_tensor(case.k_group_index, device=device, dtype=torch.int32)
+        ancestor_slots = torch.as_tensor(
+            _ancestor_slots(case.group_can_attend),
+            device=device,
+            dtype=torch.int32,
+        )
+        slot_count = int(ancestor_slots.shape[1])
+
+        def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
+            del batch_idx, head_idx
+            q_group_local = q_group[query_idx]
+            k_group_local = k_group[kv_idx]
+            allowed = torch.zeros_like(q_group_local, dtype=torch.bool)
+            for slot in range(slot_count):
+                allowed = allowed | (
+                    k_group_local == ancestor_slots[q_group_local, slot]
+                )
+            return (q_abs[query_idx] >= k_abs[kv_idx]) & allowed
+
+        return _replace_block_mask_mod(case.block_mask, mask_mod)
+    raise ValueError(f"unknown flex_mask_variant {variant!r}")
+
+
+def _ancestor_slots(group_can_attend: np.ndarray) -> np.ndarray:
+    max_ancestors = max(
+        1,
+        max(int(np.count_nonzero(row)) for row in group_can_attend),
+    )
+    slots = np.full((group_can_attend.shape[0], max_ancestors), -1, dtype=np.int32)
+    for group_index, row in enumerate(group_can_attend):
+        ancestors = np.flatnonzero(row).astype(np.int32, copy=False)
+        slots[group_index, : int(ancestors.size)] = ancestors
+    return slots
+
+
+def _stage_flex_stats(cases: Sequence[_StageFlexCase]) -> dict[str, object]:
+    return {
+        "flex_stage_count": len(cases),
+        "flex_stage_q_tokens": sum(case.q_len for case in cases),
+        "flex_stage_k_tokens": sum(case.k_len for case in cases),
+        "flex_stage_max_q_tokens": max(case.q_len for case in cases),
+        "flex_stage_max_k_tokens": max(case.k_len for case in cases),
+    }
 
 
 def _replace_block_mask_mod(block_mask: BlockMask, mask_mod: object) -> BlockMask:

From 252664191833ca902af048ae56330c70c98cace0 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 11:52:57 -0600
Subject: [PATCH 024/114] fix: benchmark production sparse flex path

---
 dev/trainer_rank_review_perf.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index b2a23503d..48e524c16 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -8,7 +8,7 @@
 
 import numpy as np
 import torch
-from torch.nn.attention.flex_attention import BlockMask
+from torch.nn.attention.flex_attention import AuxRequest, BlockMask
 from torch.nn.attention.flex_attention import create_block_mask as torch_block_mask
 import typer
 
@@ -29,7 +29,7 @@
     FlexMaskSpec,
     ParallelTopology,
 )
-from art.megatron.flex_attn.attention import FlexAttentionWrapper
+from art.megatron.flex_attn.compiled import sparse_compiled_flex_attention
 from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
 
 
@@ -422,7 +422,6 @@ def _flex_records(
             )
             for q, k, v in base_tensors
         ]
-        wrapper = FlexAttentionWrapper()
 
         def step() -> None:
             loss = torch.zeros((), device=device, dtype=torch.float32)
@@ -430,13 +429,14 @@ def step() -> None:
                 q.grad = None
                 k.grad = None
                 v.grad = None
-                out = wrapper(
+                out, _aux = sparse_compiled_flex_attention(
                     q,
                     k,
                     v,
                     block_mask=block_mask,
                     scale=float(head_dim) ** -0.5,
                     enable_gqa=False,
+                    return_aux=AuxRequest(lse=True),
                 )
                 loss = loss + out.float().sum()
             loss.backward()

From 1e954371e678528361b684d2a70a03627b490cea Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 11:56:21 -0600
Subject: [PATCH 025/114] fix: mirror production flex stage padding in review
 bench

---
 dev/trainer_rank_review_perf.py | 74 +++++++++++++++++++++++++--------
 1 file changed, 56 insertions(+), 18 deletions(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index 48e524c16..c285fa40d 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -19,6 +19,7 @@
     prepare_block_mask_context,
 )
 from art.megatron.context_parallel.builder import build_shared_prefix_attention_spec
+from art.megatron.context_parallel.executor import _build_stage_execution_spec
 from art.megatron.context_parallel.runtime import (
     _RUNTIME_PLAN_CACHE,
     get_or_build_runtime_plan,
@@ -28,8 +29,13 @@
     ContextParallelConfig,
     FlexMaskSpec,
     ParallelTopology,
+    StageExecutionSpec,
+    StagePlan,
+)
+from art.megatron.flex_attn.compiled import (
+    normalize_sparse_block_size,
+    sparse_compiled_flex_attention,
 )
-from art.megatron.flex_attn.compiled import sparse_compiled_flex_attention
 from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
 
 
@@ -338,13 +344,17 @@ def _build_stage_masks(
         for stage in rank_plan.stage_plans:
             if stage.mask_metadata is None:
                 continue
+            execution_spec = _stage_execution_spec(stage, config)
+            mask_metadata = execution_spec.mask_metadata or stage.mask_metadata
+            if mask_metadata is None:
+                continue
             mask = build_block_mask_from_context(
                 FlexMaskSpec(
-                    q_len=stage.q_len,
-                    k_len=stage.k_len,
-                    block_size=config.block_size,
+                    q_len=execution_spec.q_len,
+                    k_len=execution_spec.k_len,
+                    block_size=_sparse_block_size(config),
                     slices=stage.slices,
-                    exact_mask=stage.mask_metadata,
+                    exact_mask=mask_metadata,
                 ),
                 context=context,
                 device=torch.device("cpu"),
@@ -485,6 +495,8 @@ class _StageFlexCase:
     stage_index: int
     q_len: int
     k_len: int
+    logical_q_len: int
+    logical_k_len: int
     block_mask: BlockMask
     q_abs: np.ndarray
     k_abs: np.ndarray
@@ -509,13 +521,17 @@ def _build_stage_flex_cases(
         for stage in rank_plan.stage_plans:
             if stage.mask_metadata is None:
                 continue
+            execution_spec = _stage_execution_spec(stage, config)
+            mask_metadata = execution_spec.mask_metadata or stage.mask_metadata
+            if mask_metadata is None:
+                continue
             mask = build_block_mask_from_context(
                 FlexMaskSpec(
-                    q_len=stage.q_len,
-                    k_len=stage.k_len,
-                    block_size=config.block_size,
+                    q_len=execution_spec.q_len,
+                    k_len=execution_spec.k_len,
+                    block_size=_sparse_block_size(config),
                     slices=stage.slices,
-                    exact_mask=stage.mask_metadata,
+                    exact_mask=mask_metadata,
                 ),
                 context=context,
                 device=device,
@@ -524,13 +540,13 @@ def _build_stage_flex_cases(
             if mask is None:
                 continue
             q_abs = (
-                stage.mask_metadata.q_token_indices.detach()
+                mask_metadata.q_token_indices.detach()
                 .to(device="cpu", dtype=torch.int64)
                 .reshape(-1)
                 .numpy()
             )
             k_abs = (
-                stage.mask_metadata.k_token_indices.detach()
+                mask_metadata.k_token_indices.detach()
                 .to(device="cpu", dtype=torch.int64)
                 .reshape(-1)
                 .numpy()
@@ -549,8 +565,10 @@ def _build_stage_flex_cases(
                 _StageFlexCase(
                     rank=int(rank_plan.rank),
                     stage_index=int(stage.stage_index),
-                    q_len=int(stage.q_len),
-                    k_len=int(stage.k_len),
+                    q_len=int(execution_spec.q_len),
+                    k_len=int(execution_spec.k_len),
+                    logical_q_len=int(stage.q_len),
+                    logical_k_len=int(stage.k_len),
                     block_mask=mask,
                     q_abs=q_abs,
                     k_abs=k_abs,
@@ -621,17 +639,17 @@ def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
             device=device,
             dtype=torch.int32,
         )
-        slot_count = int(ancestor_slots.shape[1])
+        slot_columns = tuple(
+            ancestor_slots[:, index] for index in range(ancestor_slots.shape[1])
+        )
 
         def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
             del batch_idx, head_idx
             q_group_local = q_group[query_idx]
             k_group_local = k_group[kv_idx]
             allowed = torch.zeros_like(q_group_local, dtype=torch.bool)
-            for slot in range(slot_count):
-                allowed = allowed | (
-                    k_group_local == ancestor_slots[q_group_local, slot]
-                )
+            for slot_values in slot_columns:
+                allowed = allowed | (k_group_local == slot_values[q_group_local])
             return (q_abs[query_idx] >= k_abs[kv_idx]) & allowed
 
         return _replace_block_mask_mod(case.block_mask, mask_mod)
@@ -655,11 +673,31 @@ def _stage_flex_stats(cases: Sequence[_StageFlexCase]) -> dict[str, object]:
         "flex_stage_count": len(cases),
         "flex_stage_q_tokens": sum(case.q_len for case in cases),
         "flex_stage_k_tokens": sum(case.k_len for case in cases),
+        "flex_stage_logical_q_tokens": sum(case.logical_q_len for case in cases),
+        "flex_stage_logical_k_tokens": sum(case.logical_k_len for case in cases),
         "flex_stage_max_q_tokens": max(case.q_len for case in cases),
         "flex_stage_max_k_tokens": max(case.k_len for case in cases),
+        "flex_stage_max_logical_q_tokens": max(case.logical_q_len for case in cases),
+        "flex_stage_max_logical_k_tokens": max(case.logical_k_len for case in cases),
     }
 
 
+def _sparse_block_size(config: ContextParallelConfig) -> tuple[int, int]:
+    return normalize_sparse_block_size(
+        config.attention_sparse_block_size or config.block_size
+    )
+
+
+def _stage_execution_spec(
+    stage: StagePlan,
+    config: ContextParallelConfig,
+) -> StageExecutionSpec:
+    return _build_stage_execution_spec(
+        stage_plan=stage,
+        block_size=_sparse_block_size(config),
+    )
+
+
 def _replace_block_mask_mod(block_mask: BlockMask, mask_mod: object) -> BlockMask:
     return BlockMask(
         seq_lengths=block_mask.seq_lengths,

From 3578fa44d7b3a6077a9a8cbf656b15acf1430e4d Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 12:07:05 -0600
Subject: [PATCH 026/114] fix: default flex review bench to qwen head dim

---
 dev/trainer_rank_review_perf.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index c285fa40d..ca71a3d4b 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -57,7 +57,7 @@ def main(
     run_flex: bool = True,
     flex_token_cap: int = 8192,
     flex_heads: int = 2,
-    flex_head_dim: int = 64,
+    flex_head_dim: int = 128,
     flex_mask_variants: str = "current,ancestor_slots,causal_abs_only",
     output_jsonl: Path = Path(".local/trainer_rank_review/block_mask_flex.jsonl"),
 ) -> None:

From 76ded79a050972e32b5871c6f7988c494a305b3d Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 12:45:13 -0600
Subject: [PATCH 027/114] perf: skip exact refinement for homogeneous mask
 blocks

---
 .../megatron/context_parallel/block_mask.py   | 62 ++++++++-----------
 1 file changed, 25 insertions(+), 37 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 2d1be15f5..b7b56bc96 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -147,35 +147,36 @@ def _refine_exact_blocks(
     skip_uniform_allowed: bool,
 ) -> None:
     candidate_blocks = partial_blocks | full_blocks
+    q_starts = np.arange(candidate_blocks.shape[0], dtype=np.int64) * int(q_block)
+    k_starts = np.arange(candidate_blocks.shape[1], dtype=np.int64) * int(k_block)
+    q_ends = np.minimum(q_starts + int(q_block), int(q_len))
+    k_ends = np.minimum(k_starts + int(k_block), int(k_len))
+    q_group_min, q_group_max = _block_min_max(q_group_index, q_starts, q_ends)
+    k_group_min, k_group_max = _block_min_max(k_group_index, k_starts, k_ends)
+    q_block_indices, k_block_indices = np.nonzero(candidate_blocks)
+    homogeneous = (q_group_min[q_block_indices] == q_group_max[q_block_indices]) & (
+        k_group_min[k_block_indices] == k_group_max[k_block_indices]
+    )
+    if bool(np.any(homogeneous)):
+        homogeneous_q = q_block_indices[homogeneous]
+        homogeneous_k = k_block_indices[homogeneous]
+        allowed = group_can_attend[
+            q_group_min[homogeneous_q],
+            k_group_min[homogeneous_k],
+        ]
+        disallowed_q = homogeneous_q[~allowed]
+        disallowed_k = homogeneous_k[~allowed]
+        partial_blocks[disallowed_q, disallowed_k] = False
+        full_blocks[disallowed_q, disallowed_k] = False
+
+    mixed_q = q_block_indices[~homogeneous]
+    mixed_k = k_block_indices[~homogeneous]
     if skip_uniform_allowed:
-        q_starts = np.arange(candidate_blocks.shape[0], dtype=np.int64) * int(q_block)
-        k_starts = np.arange(candidate_blocks.shape[1], dtype=np.int64) * int(k_block)
-        q_ends = np.minimum(q_starts + int(q_block), int(q_len))
-        k_ends = np.minimum(k_starts + int(k_block), int(k_len))
-        q_group_min, q_group_max = _block_min_max(q_group_index, q_starts, q_ends)
-        k_group_min, k_group_max = _block_min_max(k_group_index, k_starts, k_ends)
-        q_block_indices, k_block_indices = np.nonzero(candidate_blocks)
-        homogeneous = (q_group_min[q_block_indices] == q_group_max[q_block_indices]) & (
-            k_group_min[k_block_indices] == k_group_max[k_block_indices]
-        )
-        if bool(np.any(homogeneous)):
-            homogeneous_q = q_block_indices[homogeneous]
-            homogeneous_k = k_block_indices[homogeneous]
-            allowed = group_can_attend[
-                q_group_min[homogeneous_q],
-                k_group_min[homogeneous_k],
-            ]
-            disallowed_q = homogeneous_q[~allowed]
-            disallowed_k = homogeneous_k[~allowed]
-            partial_blocks[disallowed_q, disallowed_k] = False
-            full_blocks[disallowed_q, disallowed_k] = False
-        mixed_q = q_block_indices[~homogeneous]
-        mixed_k = k_block_indices[~homogeneous]
         partial_blocks[mixed_q, mixed_k] = True
         full_blocks[mixed_q, mixed_k] = False
         return
 
-    for q_block_index, k_block_index in np.argwhere(candidate_blocks):
+    for q_block_index, k_block_index in zip(mixed_q, mixed_k, strict=True):
         q_start = int(q_block_index) * q_block
         k_start = int(k_block_index) * k_block
         q_end = q_start + q_block
@@ -185,19 +186,6 @@ def _refine_exact_blocks(
 
         q_slice = slice(q_start, q_end)
         k_slice = slice(k_start, k_end)
-        if skip_uniform_allowed:
-            q_groups = np.unique(q_group_index[q_slice])
-            k_groups = np.unique(k_group_index[k_slice])
-            group_allowed = group_can_attend[np.ix_(q_groups, k_groups)]
-            if bool(np.all(group_allowed)):
-                continue
-            if not bool(np.any(group_allowed)):
-                partial_blocks[q_block_index, k_block_index] = False
-                full_blocks[q_block_index, k_block_index] = False
-                continue
-            partial_blocks[q_block_index, k_block_index] = True
-            full_blocks[q_block_index, k_block_index] = False
-            continue
         can_attend = group_can_attend[
             q_group_index[q_slice, None],
             k_group_index[None, k_slice],

From e40b063aef75cc594bbcc7ccc6c9ae9bf893e5df Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 16:52:22 -0600
Subject: [PATCH 028/114] perf: use generic interval block mask

---
 .../megatron/context_parallel/block_mask.py   | 405 ++++++++++++------
 1 file changed, 265 insertions(+), 140 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index b7b56bc96..8af5f9448 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -11,37 +11,54 @@
 
 from .types import AttnMaskKind, FlexMaskSpec
 
-_INVALID_GROUP_INDEX = 0
+_INVALID_ABS = -(1 << 63)
+_INVALID_ENTER = -1
+_INVALID_EXIT = -1
 
 
 @dataclass(frozen=True, slots=True)
 class PreparedBlockMaskContext:
     group_ids: torch.Tensor
     parent_ids: torch.Tensor
-    group_ids_np: np.ndarray
-    sorted_group_ids: np.ndarray
-    group_can_attend: np.ndarray
+    group_enter_np: np.ndarray
+    group_exit_np: np.ndarray
     max_depth: int
 
 
-def _build_exact_mask_mod(
+@dataclass(frozen=True, slots=True)
+class _QBlockState:
+    abs_values: np.ndarray
+    enter_values: np.ndarray
+    min_abs: int
+    max_abs: int
+    min_enter: int
+    max_enter: int
+    all_valid: bool
+
+
+@dataclass(frozen=True, slots=True)
+class _KBlockState:
+    max_abs: int
+    max_enter: int
+    min_exit: int
+    intervals: tuple[tuple[int, int, int], ...]
+    all_valid: bool
+
+
+def _build_interval_mask_mod(
     *,
     q_abs: np.ndarray,
     k_abs: np.ndarray,
-    q_group_index: np.ndarray,
-    k_group_index: np.ndarray,
-    group_can_attend: np.ndarray,
+    q_enter: np.ndarray,
+    k_enter: np.ndarray,
+    k_exit: np.ndarray,
     device: torch.device,
 ):
     q_abs_tensor = torch.as_tensor(q_abs, device=device, dtype=torch.int64)
     k_abs_tensor = torch.as_tensor(k_abs, device=device, dtype=torch.int64)
-    q_group_tensor = torch.as_tensor(q_group_index, device=device, dtype=torch.int32)
-    k_group_tensor = torch.as_tensor(k_group_index, device=device, dtype=torch.int32)
-    group_can_attend_tensor = torch.as_tensor(
-        group_can_attend,
-        device=device,
-        dtype=torch.bool,
-    )
+    q_enter_tensor = torch.as_tensor(q_enter, device=device, dtype=torch.int64)
+    k_enter_tensor = torch.as_tensor(k_enter, device=device, dtype=torch.int64)
+    k_exit_tensor = torch.as_tensor(k_exit, device=device, dtype=torch.int64)
 
     def mask_mod(
         batch_idx: torch.Tensor,
@@ -52,11 +69,13 @@ def mask_mod(
         del batch_idx, head_idx
         q_abs_local = q_abs_tensor[query_idx]
         k_abs_local = k_abs_tensor[kv_idx]
-        allowed_group = group_can_attend_tensor[
-            q_group_tensor[query_idx],
-            k_group_tensor[kv_idx],
-        ]
-        return (q_abs_local >= k_abs_local) & allowed_group
+        q_enter_local = q_enter_tensor[query_idx]
+        k_enter_local = k_enter_tensor[kv_idx]
+        k_exit_local = k_exit_tensor[kv_idx]
+        in_key_subtree = (k_enter_local <= q_enter_local) & (
+            q_enter_local < k_exit_local
+        )
+        return (q_abs_local >= k_abs_local) & in_key_subtree
 
     return mask_mod
 
@@ -97,6 +116,165 @@ def _select_with_invalid_np(
     return selected
 
 
+def _build_q_block_state(
+    *,
+    q_abs: np.ndarray,
+    q_enter: np.ndarray,
+    q_block: int,
+    block_idx: int,
+) -> _QBlockState:
+    start = int(block_idx) * q_block
+    end = min((int(block_idx) + 1) * q_block, int(q_abs.size))
+    abs_block = q_abs[start:end]
+    enter_block = q_enter[start:end]
+    valid = (abs_block >= 0) & (enter_block >= 0)
+    all_valid = bool(valid.all()) and int(abs_block.size) == int(q_block)
+    if not bool(valid.any()):
+        return _QBlockState(
+            abs_values=np.empty(0, dtype=np.int64),
+            enter_values=np.empty(0, dtype=np.int64),
+            min_abs=_INVALID_ABS,
+            max_abs=_INVALID_ABS,
+            min_enter=_INVALID_ENTER,
+            max_enter=_INVALID_ENTER,
+            all_valid=False,
+        )
+    valid_abs = abs_block[valid]
+    valid_enter = enter_block[valid]
+    return _QBlockState(
+        abs_values=valid_abs,
+        enter_values=valid_enter,
+        min_abs=int(valid_abs.min()),
+        max_abs=int(valid_abs.max()),
+        min_enter=int(valid_enter.min()),
+        max_enter=int(valid_enter.max()),
+        all_valid=all_valid,
+    )
+
+
+def _build_k_block_state(
+    *,
+    k_abs: np.ndarray,
+    k_enter: np.ndarray,
+    k_exit: np.ndarray,
+    k_block: int,
+    block_idx: int,
+) -> _KBlockState:
+    start = int(block_idx) * k_block
+    end = min((int(block_idx) + 1) * k_block, int(k_abs.size))
+    abs_block = k_abs[start:end]
+    enter_block = k_enter[start:end]
+    exit_block = k_exit[start:end]
+    valid = (abs_block >= 0) & (enter_block >= 0) & (exit_block > enter_block)
+    all_valid = bool(valid.all()) and int(abs_block.size) == int(k_block)
+    if not bool(valid.any()):
+        return _KBlockState(
+            max_abs=_INVALID_ABS,
+            max_enter=_INVALID_ENTER,
+            min_exit=_INVALID_EXIT,
+            intervals=(),
+            all_valid=False,
+        )
+    valid_abs = abs_block[valid]
+    valid_enter = enter_block[valid]
+    valid_exit = exit_block[valid]
+    min_abs_by_interval: dict[tuple[int, int], int] = {}
+    for abs_value, enter_value, exit_value in zip(
+        valid_abs,
+        valid_enter,
+        valid_exit,
+        strict=True,
+    ):
+        interval = (int(enter_value), int(exit_value))
+        prior = min_abs_by_interval.get(interval)
+        min_abs_by_interval[interval] = (
+            int(abs_value) if prior is None else min(prior, int(abs_value))
+        )
+    return _KBlockState(
+        max_abs=int(valid_abs.max()),
+        max_enter=int(valid_enter.max()),
+        min_exit=int(valid_exit.min()),
+        intervals=tuple(
+            (enter, exit, min_abs)
+            for (enter, exit), min_abs in min_abs_by_interval.items()
+        ),
+        all_valid=all_valid,
+    )
+
+
+def _interval_block_has_any(
+    *,
+    q_state: _QBlockState,
+    k_state: _KBlockState,
+) -> bool:
+    if int(q_state.abs_values.size) == 0 or not k_state.intervals:
+        return False
+    for enter, exit, min_abs in k_state.intervals:
+        if q_state.max_abs < min_abs:
+            continue
+        in_subtree = (q_state.enter_values >= enter) & (q_state.enter_values < exit)
+        if bool(in_subtree.any()) and int(q_state.abs_values[in_subtree].max()) >= min_abs:
+            return True
+    return False
+
+
+def _interval_block_state(
+    *,
+    q_state: _QBlockState,
+    k_state: _KBlockState,
+) -> tuple[bool, bool]:
+    has_any = _interval_block_has_any(q_state=q_state, k_state=k_state)
+    if not has_any:
+        return False, False
+    if not q_state.all_valid or not k_state.all_valid:
+        return True, False
+    causal_full = q_state.min_abs >= k_state.max_abs
+    interval_full = (
+        k_state.max_enter <= q_state.min_enter and q_state.max_enter < k_state.min_exit
+    )
+    return True, bool(causal_full and interval_full)
+
+
+def _refine_interval_blocks(
+    *,
+    partial_blocks: np.ndarray,
+    full_blocks: np.ndarray,
+    q_abs: np.ndarray,
+    k_abs: np.ndarray,
+    q_enter: np.ndarray,
+    k_enter: np.ndarray,
+    k_exit: np.ndarray,
+    q_block: int,
+    k_block: int,
+) -> None:
+    candidate_blocks = partial_blocks | full_blocks
+    q_state_cache: dict[int, _QBlockState] = {}
+    k_state_cache: dict[int, _KBlockState] = {}
+    for q_idx, k_idx in np.argwhere(candidate_blocks):
+        q_state = q_state_cache.get(int(q_idx))
+        if q_state is None:
+            q_state = _build_q_block_state(
+                q_abs=q_abs,
+                q_enter=q_enter,
+                q_block=q_block,
+                block_idx=int(q_idx),
+            )
+            q_state_cache[int(q_idx)] = q_state
+        k_state = k_state_cache.get(int(k_idx))
+        if k_state is None:
+            k_state = _build_k_block_state(
+                k_abs=k_abs,
+                k_enter=k_enter,
+                k_exit=k_exit,
+                k_block=k_block,
+                block_idx=int(k_idx),
+            )
+            k_state_cache[int(k_idx)] = k_state
+        has_any, is_full = _interval_block_state(q_state=q_state, k_state=k_state)
+        partial_blocks[q_idx, k_idx] = bool(has_any and not is_full)
+        full_blocks[q_idx, k_idx] = bool(is_full)
+
+
 def _is_strictly_increasing(values: np.ndarray) -> bool:
     return int(values.size) <= 1 or bool(np.all(values[1:] > values[:-1]))
 
@@ -115,92 +293,44 @@ def _block_min_max(
     return mins, maxes
 
 
-def _remap_group_values(
-    values: np.ndarray,
+def _build_group_interval_arrays(
     *,
-    sorted_group_ids: np.ndarray,
-) -> np.ndarray:
-    remapped = np.full(values.shape, _INVALID_GROUP_INDEX, dtype=np.int32)
-    if int(sorted_group_ids.size) == 0:
-        return remapped
-    positions = np.searchsorted(sorted_group_ids, values)
-    in_bounds = positions < int(sorted_group_ids.size)
-    matched = np.zeros(values.shape, dtype=bool)
-    matched[in_bounds] = sorted_group_ids[positions[in_bounds]] == values[in_bounds]
-    remapped[matched] = positions[matched].astype(np.int32, copy=False) + 1
-    return remapped
-
-
-def _refine_exact_blocks(
-    *,
-    partial_blocks: np.ndarray,
-    full_blocks: np.ndarray,
-    q_abs: np.ndarray,
-    k_abs: np.ndarray,
-    q_group_index: np.ndarray,
-    k_group_index: np.ndarray,
-    group_can_attend: np.ndarray,
-    q_block: int,
-    k_block: int,
-    q_len: int,
-    k_len: int,
-    skip_uniform_allowed: bool,
-) -> None:
-    candidate_blocks = partial_blocks | full_blocks
-    q_starts = np.arange(candidate_blocks.shape[0], dtype=np.int64) * int(q_block)
-    k_starts = np.arange(candidate_blocks.shape[1], dtype=np.int64) * int(k_block)
-    q_ends = np.minimum(q_starts + int(q_block), int(q_len))
-    k_ends = np.minimum(k_starts + int(k_block), int(k_len))
-    q_group_min, q_group_max = _block_min_max(q_group_index, q_starts, q_ends)
-    k_group_min, k_group_max = _block_min_max(k_group_index, k_starts, k_ends)
-    q_block_indices, k_block_indices = np.nonzero(candidate_blocks)
-    homogeneous = (q_group_min[q_block_indices] == q_group_max[q_block_indices]) & (
-        k_group_min[k_block_indices] == k_group_max[k_block_indices]
-    )
-    if bool(np.any(homogeneous)):
-        homogeneous_q = q_block_indices[homogeneous]
-        homogeneous_k = k_block_indices[homogeneous]
-        allowed = group_can_attend[
-            q_group_min[homogeneous_q],
-            k_group_min[homogeneous_k],
-        ]
-        disallowed_q = homogeneous_q[~allowed]
-        disallowed_k = homogeneous_k[~allowed]
-        partial_blocks[disallowed_q, disallowed_k] = False
-        full_blocks[disallowed_q, disallowed_k] = False
-
-    mixed_q = q_block_indices[~homogeneous]
-    mixed_k = k_block_indices[~homogeneous]
-    if skip_uniform_allowed:
-        partial_blocks[mixed_q, mixed_k] = True
-        full_blocks[mixed_q, mixed_k] = False
-        return
-
-    for q_block_index, k_block_index in zip(mixed_q, mixed_k, strict=True):
-        q_start = int(q_block_index) * q_block
-        k_start = int(k_block_index) * k_block
-        q_end = q_start + q_block
-        k_end = k_start + k_block
-        if q_end > q_len or k_end > k_len:
-            continue
-
-        q_slice = slice(q_start, q_end)
-        k_slice = slice(k_start, k_end)
-        can_attend = group_can_attend[
-            q_group_index[q_slice, None],
-            k_group_index[None, k_slice],
-        ]
-        causal = q_abs[q_slice, None] >= k_abs[None, k_slice]
-        allowed = causal & can_attend
-        if not bool(np.any(allowed)):
-            partial_blocks[q_block_index, k_block_index] = False
-            full_blocks[q_block_index, k_block_index] = False
-        elif bool(np.all(allowed)):
-            partial_blocks[q_block_index, k_block_index] = False
-            full_blocks[q_block_index, k_block_index] = True
+    row_tree,
+    length: int,
+) -> tuple[np.ndarray, np.ndarray]:
+    enter_by_group: dict[int, int] = {}
+    exit_by_group: dict[int, int] = {}
+    segment_by_group = row_tree.segment_by_group_id()
+    children_by_group: dict[int, list[int]] = {}
+    roots: list[int] = []
+    for segment in row_tree.segments:
+        if segment.ancestors:
+            children_by_group.setdefault(segment.parent_id, []).append(segment.group_id)
         else:
-            partial_blocks[q_block_index, k_block_index] = True
-            full_blocks[q_block_index, k_block_index] = False
+            roots.append(segment.group_id)
+
+    next_enter = 0
+
+    def visit(group_id: int) -> None:
+        nonlocal next_enter
+        enter_by_group[group_id] = next_enter
+        next_enter += 1
+        children = children_by_group.get(group_id, [])
+        children.sort(key=lambda child: segment_by_group[child].start)
+        for child_group_id in children:
+            visit(child_group_id)
+        exit_by_group[group_id] = next_enter
+
+    roots.sort(key=lambda root: segment_by_group[root].start)
+    for root_group_id in roots:
+        visit(root_group_id)
+
+    enter_by_token = np.full((length,), _INVALID_ENTER, dtype=np.int64)
+    exit_by_token = np.full((length,), _INVALID_EXIT, dtype=np.int64)
+    for segment in row_tree.segments:
+        enter_by_token[segment.start : segment.end] = enter_by_group[segment.group_id]
+        exit_by_token[segment.start : segment.end] = exit_by_group[segment.group_id]
+    return enter_by_token, exit_by_token
 
 
 def _build_sparse_block_mask(
@@ -227,30 +357,27 @@ def _build_sparse_block_mask(
     k_abs = k_abs_tensor.numpy()
     q_abs_sorted = _is_strictly_increasing(q_abs[q_abs >= 0])
     k_abs_sorted = _is_strictly_increasing(k_abs[k_abs >= 0])
-    q_group = _select_with_invalid_np(
-        context.group_ids_np,
+    q_enter = _select_with_invalid_np(
+        context.group_enter_np,
         q_abs,
-        invalid_value=-1,
+        invalid_value=_INVALID_ENTER,
     )
-    k_group = _select_with_invalid_np(
-        context.group_ids_np,
+    k_enter = _select_with_invalid_np(
+        context.group_enter_np,
         k_abs,
-        invalid_value=-1,
-    )
-    q_group_index = _remap_group_values(
-        q_group,
-        sorted_group_ids=context.sorted_group_ids,
+        invalid_value=_INVALID_ENTER,
     )
-    k_group_index = _remap_group_values(
-        k_group,
-        sorted_group_ids=context.sorted_group_ids,
+    k_exit = _select_with_invalid_np(
+        context.group_exit_np,
+        k_abs,
+        invalid_value=_INVALID_EXIT,
     )
-    mask_mod = _build_exact_mask_mod(
+    mask_mod = _build_interval_mask_mod(
         q_abs=q_abs,
         k_abs=k_abs,
-        q_group_index=q_group_index,
-        k_group_index=k_group_index,
-        group_can_attend=context.group_can_attend,
+        q_enter=q_enter,
+        k_enter=k_enter,
+        k_exit=k_exit,
         device=device,
     )
     if not spec.slices:
@@ -329,21 +456,17 @@ def _build_sparse_block_mask(
         full_blocks[q_slice, k_slice] |= is_full
 
     partial_blocks &= ~full_blocks
-    if int(context.group_can_attend.shape[0]) > 2:
-        _refine_exact_blocks(
-            partial_blocks=partial_blocks,
-            full_blocks=full_blocks,
-            q_abs=q_abs,
-            k_abs=k_abs,
-            q_group_index=q_group_index,
-            k_group_index=k_group_index,
-            group_can_attend=context.group_can_attend,
-            q_block=q_block,
-            k_block=k_block,
-            q_len=int(spec.q_len),
-            k_len=int(spec.k_len),
-            skip_uniform_allowed=context.max_depth <= 1,
-        )
+    _refine_interval_blocks(
+        partial_blocks=partial_blocks,
+        full_blocks=full_blocks,
+        q_abs=q_abs,
+        k_abs=k_abs,
+        q_enter=q_enter,
+        k_enter=k_enter,
+        k_exit=k_exit,
+        q_block=q_block,
+        k_block=k_block,
+    )
     kv_num_blocks, kv_indices = _dense_blocks_to_ordered(
         partial_blocks,
         device=device,
@@ -396,13 +519,15 @@ def prepare_block_mask_context(
         group_ids=flat_group_ids,
         parent_ids=flat_parent_ids,
     )
-    group_ids_for_matrix, group_can_attend_values = row_tree.group_can_attend_matrix()
+    group_enter_np, group_exit_np = _build_group_interval_arrays(
+        row_tree=row_tree,
+        length=int(flat_group_ids.numel()),
+    )
     return PreparedBlockMaskContext(
         group_ids=flat_group_ids,
         parent_ids=flat_parent_ids,
-        group_ids_np=flat_group_ids.numpy(),
-        sorted_group_ids=np.asarray(group_ids_for_matrix, dtype=np.int64),
-        group_can_attend=np.asarray(group_can_attend_values, dtype=bool),
+        group_enter_np=group_enter_np,
+        group_exit_np=group_exit_np,
         max_depth=int(row_tree.max_depth),
     )
 

From b8e3649be338cbac4deff376721f82d4e3642796 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 17:23:39 -0600
Subject: [PATCH 029/114] feat: add adaptive trainer rank microbatches

---
 dev/trainer_rank.py                        |   8 +-
 dev/trainer_rank_perf.py                   |  12 +-
 dev/trainer_rank_topology_check.py         |  10 +-
 src/art/megatron/__init__.py               |   2 +
 src/art/megatron/shared_prefix_packing.py  |   2 +-
 src/art/megatron/trainer_rank.py           | 528 +++++++++++++++++++--
 tests/unit/test_trainer_rank_validation.py | 217 ++++++++-
 7 files changed, 702 insertions(+), 77 deletions(-)

diff --git a/dev/trainer_rank.py b/dev/trainer_rank.py
index 2b9ee70c3..177ece785 100644
--- a/dev/trainer_rank.py
+++ b/dev/trainer_rank.py
@@ -17,7 +17,6 @@ def main(
     text_column: str = "text",
     samples: int = 16,
     steps: int = 1,
-    micro_batch_size: int = 1,
     lr: float = 5e-5,
     layers: int = 2,
     max_seq_length: int = 256,
@@ -71,7 +70,7 @@ def main(
             ),
             print_env=dist.get_rank() == 0,
         )
-        rank = TrainerRank(runtime, micro_batch_size=micro_batch_size)
+        rank = TrainerRank(runtime)
         if dist.get_rank() == 0:
             print(
                 "TrainerRank ready: "
@@ -83,10 +82,9 @@ def main(
         for step in range(steps):
             loss_sum = torch.tensor(0.0, device=rank.device)
             token_count = torch.tensor(0.0, device=rank.device)
-            for micro in rank.micro_batches(inputs):
-                outputs = rank.forward(micro.inputs)
+            for micro in rank.forward_micro_batches(inputs):
                 loss = torch.tensor(0.0, device=rank.device)
-                for output in outputs:
+                for output in micro.outputs:
                     assert output.target_logprobs is not None
                     loss = loss - output.target_logprobs.sum()
                     token_count += output.target_logprobs.numel()
diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index d22a4d24b..06ff61a5f 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -389,7 +389,9 @@ def register_case(
                 prepared = rank._prepare_packed_forward(batch)
                 if adapter_slots:
                     results[f"{name}_ms"] = _bench(
-                        lambda case_requests=case_requests: rank.forward(case_requests),
+                        lambda case_requests=case_requests: rank.dp_rank_forward(
+                            case_requests
+                        ),
                         warmup=warmup,
                         repeat=repeat,
                     )
@@ -1640,7 +1642,7 @@ def _target_requests_loss(
         ]
     ],
 ) -> torch.Tensor:
-    outputs = rank.forward(requests)
+    outputs = rank.dp_rank_forward(requests)
     losses = [
         -output.target_logprobs.sum()
         for output in outputs
@@ -1673,7 +1675,7 @@ def _topk_requests_loss(
         ]
     ],
 ) -> torch.Tensor:
-    outputs = rank.forward(requests)
+    outputs = rank.dp_rank_forward(requests)
     losses = [
         -output.top_k.logprobs.sum() for output in outputs if output.top_k is not None
     ]
@@ -1797,8 +1799,8 @@ def _adapter_sanity_metrics(
     for chunk in rank.runtime.model:
         chunk.eval()
     with torch.no_grad():
-        base_output = rank.forward([base_request])[0]
-        slot_output = rank.forward([slot_request])[0]
+        base_output = rank.dp_rank_forward([base_request])[0]
+        slot_output = rank.dp_rank_forward([slot_request])[0]
         if base_output.target_logprobs is None or slot_output.target_logprobs is None:
             raise RuntimeError("adapter sanity target outputs were not produced")
         output_diff = _mean_abs_pct(
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index 147a56cdd..55ad81850 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -139,14 +139,14 @@ def main(
             started_at = time.perf_counter()
             if request_case == "target_only":
                 _debug("forward-target-only")
-                outputs_a = list(rank_a.forward(local_requests))
-                outputs_b = list(rank_b.forward(local_requests))
+                outputs_a = list(rank_a.dp_rank_forward(local_requests))
+                outputs_b = list(rank_b.dp_rank_forward(local_requests))
                 oracle_outputs, actual_source_positions = _packed_oracle(
                     rank_a, local_requests
                 )
             elif stress_tokens > 0:
                 _debug("forward-a")
-                outputs_a = list(rank_a.forward(local_requests))
+                outputs_a = list(rank_a.dp_rank_forward(local_requests))
                 outputs_b = outputs_a
                 actual_source_positions = _source_positions(rank_a, local_requests)
                 oracle_outputs = [
@@ -564,7 +564,9 @@ def _independent_check_outputs(
     outputs: list[CheckOutput] = []
     for request in requests:
         source_positions = _source_positions(rank, [request])[0]
-        outputs.append(_as_check_output(source_positions, rank.forward([request])[0]))
+        outputs.append(
+            _as_check_output(source_positions, rank.dp_rank_forward([request])[0])
+        )
     return outputs
 
 
diff --git a/src/art/megatron/__init__.py b/src/art/megatron/__init__.py
index a87296507..18345c630 100644
--- a/src/art/megatron/__init__.py
+++ b/src/art/megatron/__init__.py
@@ -5,8 +5,10 @@
     "ForwardInput",
     "ForwardOutput",
     "MicroBatch",
+    "MicroBatchStats",
     "TopK",
     "TrainerRank",
+    "TrainerRankMemoryError",
 )
 
 __all__ = ["MegatronBackend", *_TRAINER_RANK_EXPORTS]
diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index cbcaf6092..906dff8eb 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -22,7 +22,7 @@ def pack_shared_prefixes(
 ) -> SharedPrefixPack:
     """Pack token sequences by storing shared prefixes once.
 
-    This is the small packing step that lets `TrainerRank.forward()` run one
+    This is the small packing step that lets `TrainerRank.dp_rank_forward()` run one
     model pass over a compact prefix tree instead of replaying the same prompt
     tokens for every request. Think of each input sequence as a path through a
     tree: when several paths start with the same tokens, this function writes
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index a2d8ce87d..4ef53c853 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+from collections import Counter
 from collections.abc import Callable, Iterable, Iterator, MutableMapping, Sequence
 from contextlib import contextmanager
 from dataclasses import dataclass
@@ -319,12 +320,32 @@ def __new__(
 @dataclass(frozen=True)
 class MicroBatch(Generic[ForwardInputsT]):
     inputs: Sequence[ForwardInputsT]
+    outputs: Sequence[ForwardOutputs]
     indices: Sequence[int]
+    stats: "MicroBatchStats"
 
     def select(self, xs: Sequence[T]) -> Sequence[T]:
         return [xs[i] for i in self.indices]
 
 
+@dataclass(frozen=True)
+class MicroBatchStats:
+    global_start: int
+    global_stop: int
+    global_count: int
+    local_count: int
+    packed_tokens: int
+    logical_tokens: int
+    estimated_required_bytes: int
+    available_bytes: int
+    rejected_candidates: int
+    cold_start: bool
+
+
+class TrainerRankMemoryError(RuntimeError):
+    pass
+
+
 @dataclass(frozen=True)
 class _PushedSlot:
     trainer: "TrainerRank"
@@ -386,30 +407,80 @@ class _RowMatch:
     row_offsets: torch.Tensor
 
 
+@dataclass(frozen=True)
+class _MemorySignature:
+    topology: tuple[int, int, int, int]
+    shared_prefix_max_depth: int
+    slot_group_count: int
+    request_mix: tuple[tuple[str, int], ...]
+
+
+@dataclass(frozen=True)
+class _ForwardGroupPlan:
+    slot_ref: "LoRASlotRef | None"
+    request_indices: tuple[int, ...]
+    items: tuple[_ForwardItem, ...]
+    packed: _PackedForwardBatch
+
+
+@dataclass(frozen=True)
+class _FlatForwardPlan:
+    request_count: int
+    groups: tuple[_ForwardGroupPlan, ...]
+    packed_tokens: int
+    logical_tokens: int
+    output_bytes: int
+    signature: _MemorySignature
+
+
+@dataclass(frozen=True)
+class _MemoryCheck:
+    estimated_required_bytes: int
+    available_bytes: int
+    fits: bool
+
+
+@dataclass(frozen=True)
+class _CandidateMicroBatch(Generic[ForwardInputsT]):
+    inputs: Sequence[ForwardInputsT]
+    indices: tuple[int, ...]
+    plan: _FlatForwardPlan
+    check: _MemoryCheck
+    stats_global_count: int
+    rejected_candidates: int
+    cold_start: bool
+
+
 class TrainerRank:
     def __init__(
         self,
         runtime: TrainingRuntime,
         *,
-        micro_batch_size: int = 1,
         head_chunk_tokens: int = 512,
         shared_prefix_max_depth: int = 1,
+        memory_safety_factor: float = 1.10,
+        memory_reserve_fraction: float = 0.03,
     ) -> None:
-        if micro_batch_size < 1:
-            raise ValueError("micro_batch_size must be >= 1")
         if head_chunk_tokens < 1:
             raise ValueError("head_chunk_tokens must be >= 1")
         if shared_prefix_max_depth < 0:
             raise ValueError("shared_prefix_max_depth must be >= 0")
+        if memory_safety_factor < 1.0:
+            raise ValueError("memory_safety_factor must be >= 1.0")
+        if not (0.0 <= memory_reserve_fraction < 1.0):
+            raise ValueError("memory_reserve_fraction must be in [0, 1)")
         self.runtime: TrainingRuntime = runtime
-        self.micro_batch_size = micro_batch_size
         self.head_chunk_tokens = head_chunk_tokens
         self.shared_prefix_max_depth = shared_prefix_max_depth
+        self.memory_safety_factor = memory_safety_factor
+        self.memory_reserve_fraction = memory_reserve_fraction
         self.device = next(runtime.model[0].parameters()).device
         self._default_slot_ref: LoRASlotRef | None = None
         self._slot_stack: list[LoRASlotRef] = []
         self._dynamic_optimizers: dict[str, torch.optim.Optimizer] = {}
         self._checkpoint_slot_names: set[str] = set()
+        self._memory_profiles: dict[_MemorySignature, float] = {}
+        self._last_global_micro_batch_size: int | None = None
         self.zero_grad()
 
     def zero_grad(self) -> None:
@@ -611,31 +682,46 @@ def _use_slot(self, ref: "LoRASlotRef | None") -> Iterator[None]:
         finally:
             self._reset_current_slot(token)
 
-    def micro_batches(
+    def forward_micro_batches(
         self,
         inputs: Iterable[ForwardInputsT],
-    ) -> Sequence[MicroBatch[ForwardInputsT]]:
+    ) -> Iterator[MicroBatch[ForwardInputsT]]:
         items = list(inputs)
-        from megatron.core import parallel_state as ps
-
-        dp_rank = int(ps.get_data_parallel_rank())
-        dp_size = int(ps.get_data_parallel_world_size())
-        global_micro_size = self.micro_batch_size * dp_size
-        batches: list[MicroBatch[ForwardInputsT]] = []
-        for start in range(0, len(items), global_micro_size):
-            stop = min(start + global_micro_size, len(items))
-            indices = list(range(start + dp_rank, stop, dp_size))
-            batches.append(MicroBatch([items[i] for i in indices], indices))
-        return batches
+        self._validate_replicated_top_level_count(len(items))
+        start = 0
+        while start < len(items):
+            candidate = self._select_next_micro_batch(items, start)
+            flat_outputs = iter(self._run_flat_plan_with_memory_tracking(candidate.plan))
+            outputs = [_unflatten(item, flat_outputs) for item in candidate.inputs]
+            stop = start + candidate.stats_global_count
+            self._last_global_micro_batch_size = candidate.stats_global_count
+            yield MicroBatch(
+                inputs=candidate.inputs,
+                outputs=outputs,
+                indices=candidate.indices,
+                stats=MicroBatchStats(
+                    global_start=start,
+                    global_stop=stop,
+                    global_count=candidate.stats_global_count,
+                    local_count=len(candidate.inputs),
+                    packed_tokens=candidate.plan.packed_tokens,
+                    logical_tokens=candidate.plan.logical_tokens,
+                    estimated_required_bytes=candidate.check.estimated_required_bytes,
+                    available_bytes=candidate.check.available_bytes,
+                    rejected_candidates=candidate.rejected_candidates,
+                    cold_start=candidate.cold_start,
+                ),
+            )
+            start = stop
 
     @overload
-    def forward(
+    def dp_rank_forward(
         self,
         inputs: Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]],
     ) -> Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]: ...
 
     @overload
-    def forward(
+    def dp_rank_forward(
         self,
         inputs: Iterable[
             Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]
@@ -645,7 +731,7 @@ def forward(
     ]: ...
 
     @overload
-    def forward(
+    def dp_rank_forward(
         self,
         inputs: Iterable[
             Iterable[Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]]
@@ -655,7 +741,7 @@ def forward(
     ]: ...
 
     @overload
-    def forward(
+    def dp_rank_forward(
         self,
         inputs: Iterable[
             Iterable[
@@ -670,9 +756,11 @@ def forward(
         ]
     ]: ...
 
-    def forward(self, inputs: ForwardInputs) -> ForwardOutputs:
+    def dp_rank_forward(self, inputs: ForwardInputs) -> ForwardOutputs:
         materialized = _materialize(inputs)
-        outputs = iter(self._forward_flat(list(_flatten(materialized))))
+        plan = self._plan_flat_forward(list(_flatten(materialized)))
+        self._raise_if_plan_will_not_fit(plan, context="dp_rank_forward")
+        outputs = iter(self._run_flat_plan_with_memory_tracking(plan))
         return _unflatten(materialized, outputs)
 
     def dp_reduce(
@@ -907,18 +995,120 @@ def _coalesced_all_reduce(
         for grad, synced in zip(grads, _unflatten_dense_tensors(reduced, grads)):
             grad.copy_(synced)
 
-    def _forward_flat(
-        self, requests: Sequence[AnyForwardInput]
-    ) -> list[AnyForwardOutput]:
-        outputs = [
-            ForwardOutput(
-                target_logprobs=None,
-                top_k=None,
-                logits=None,
-                hidden_states=None,
+    def _select_next_micro_batch(
+        self,
+        items: Sequence[ForwardInputsT],
+        start: int,
+    ) -> _CandidateMicroBatch[ForwardInputsT]:
+        dp_rank, dp_size = self._dp_rank_and_size()
+        remaining = len(items) - start
+        min_width = min(dp_size, remaining)
+        if min_width <= 0:
+            raise RuntimeError("cannot select an empty microbatch window")
+
+        cache: dict[int, _CandidateMicroBatch[ForwardInputsT]] = {}
+        rejected = 0
+
+        def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
+            nonlocal rejected
+            width = max(min_width, min(width, remaining))
+            cached = cache.get(width)
+            if cached is not None:
+                return cached
+            stop = start + width
+            indices = tuple(range(start + dp_rank, stop, dp_size))
+            local_inputs = [items[index] for index in indices]
+            plan = self._plan_flat_forward(list(_flatten(local_inputs)))
+            check = self._memory_check(plan)
+            cold_start = not self._all_ranks_have_memory_profile(plan)
+            item = _CandidateMicroBatch(
+                inputs=local_inputs,
+                indices=indices,
+                plan=plan,
+                check=check,
+                stats_global_count=width,
+                rejected_candidates=rejected,
+                cold_start=cold_start,
             )
-            for _ in requests
-        ]
+            cache[width] = item
+            return item
+
+        first = candidate(min_width)
+        if not first.check.fits:
+            self._raise_memory_error(
+                first.plan,
+                first.check,
+                context="forward_micro_batches",
+                message="smallest DP microbatch is predicted to exceed available memory",
+            )
+
+        if first.cold_start:
+            return first
+
+        previous = self._last_global_micro_batch_size or min_width
+        width = min(remaining, max(min_width, previous * 2))
+        best = first
+        high_fail: int | None = None
+        while width <= remaining:
+            item = candidate(width)
+            if item.check.fits:
+                best = item
+                if width == remaining:
+                    break
+                width = min(remaining, max(width + 1, width * 2))
+                continue
+            rejected += 1
+            high_fail = width
+            break
+
+        if high_fail is None:
+            return best
+
+        low = best.stats_global_count + 1
+        high = high_fail - 1
+        while low <= high:
+            mid = (low + high) // 2
+            item = candidate(mid)
+            if item.check.fits:
+                best = item
+                low = mid + 1
+            else:
+                rejected += 1
+                high = mid - 1
+        return _CandidateMicroBatch(
+            inputs=best.inputs,
+            indices=best.indices,
+            plan=best.plan,
+            check=best.check,
+            stats_global_count=best.stats_global_count,
+            rejected_candidates=rejected,
+            cold_start=best.cold_start,
+        )
+
+    def _validate_replicated_top_level_count(self, count: int) -> None:
+        if not (dist.is_available() and dist.is_initialized()):
+            return
+        counts = [0 for _ in range(dist.get_world_size())]
+        dist.all_gather_object(counts, int(count))
+        if len(set(counts)) == 1:
+            return
+        raise ValueError(
+            "forward_micro_batches requires the same top-level input count on every "
+            "distributed rank. Pass already-DP-local inputs to dp_rank_forward instead. "
+            f"Observed counts by rank: {counts}."
+        )
+
+    def _dp_rank_and_size(self) -> tuple[int, int]:
+        try:
+            from megatron.core import parallel_state as ps
+
+            return int(ps.get_data_parallel_rank()), int(
+                ps.get_data_parallel_world_size()
+            )
+        except (AssertionError, ImportError, RuntimeError, ValueError):
+            return 0, 1
+
+    def _plan_flat_forward(self, requests: Sequence[AnyForwardInput]) -> _FlatForwardPlan:
         active_indices = [
             index
             for index, request in enumerate(requests)
@@ -927,25 +1117,263 @@ def _forward_flat(
             or request.top_k is not None
             or request.hidden_states
         ]
-        if not active_indices:
-            return outputs
 
         groups: dict[LoRASlotRef | None, list[int]] = {}
         for index in active_indices:
             groups.setdefault(self._resolve_slot_ref(requests[index]), []).append(index)
 
+        plans: list[_ForwardGroupPlan] = []
+        output_bytes = 0
+        logical_tokens = sum(int(request.input_tokens.numel()) for request in requests)
         for slot_ref, group_indices in groups.items():
-            items = [self._forward_item(requests[index]) for index in group_indices]
+            items = tuple(self._forward_item(requests[index]) for index in group_indices)
             packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
-            with self._use_slot(slot_ref):
-                prepared = self._prepare_packed_forward(packed)
-                item_outputs = self._forward_packed(items, prepared)
-            for index, output in zip(group_indices, item_outputs, strict=True):
+            output_bytes += self._estimate_group_output_bytes(items)
+            plans.append(
+                _ForwardGroupPlan(
+                    slot_ref=slot_ref,
+                    request_indices=tuple(group_indices),
+                    items=items,
+                    packed=packed,
+                )
+            )
+
+        return _FlatForwardPlan(
+            request_count=len(requests),
+            groups=tuple(plans),
+            packed_tokens=sum(int(plan.packed.tokens.numel()) for plan in plans),
+            logical_tokens=logical_tokens,
+            output_bytes=output_bytes,
+            signature=self._memory_signature(requests, plans),
+        )
+
+    def _run_flat_plan_with_memory_tracking(
+        self,
+        plan: _FlatForwardPlan,
+    ) -> list[AnyForwardOutput]:
+        if torch.cuda.is_available() and self.device.type == "cuda":
+            torch.cuda.synchronize(self.device)
+            baseline = int(torch.cuda.memory_allocated(self.device))
+            torch.cuda.reset_peak_memory_stats(self.device)
+        else:
+            baseline = 0
+        try:
+            outputs = self._execute_flat_plan(plan)
+        except torch.cuda.OutOfMemoryError as exc:
+            check = self._memory_check(plan)
+            self._raise_memory_error(
+                plan,
+                check,
+                context="forward",
+                message="CUDA OOM occurred despite the planner estimate",
+            )
+            raise AssertionError("unreachable") from exc
+        if torch.cuda.is_available() and self.device.type == "cuda":
+            torch.cuda.synchronize(self.device)
+            peak = int(torch.cuda.max_memory_allocated(self.device))
+            self._update_memory_profile(plan, max(0, peak - baseline))
+        return outputs
+
+    def _execute_flat_plan(self, plan: _FlatForwardPlan) -> list[AnyForwardOutput]:
+        outputs = [
+            ForwardOutput(
+                target_logprobs=None,
+                top_k=None,
+                logits=None,
+                hidden_states=None,
+            )
+            for _ in range(plan.request_count)
+        ]
+        for group in plan.groups:
+            with self._use_slot(group.slot_ref):
+                prepared = self._prepare_packed_forward(group.packed)
+                item_outputs = self._forward_packed(group.items, prepared)
+            for index, output in zip(
+                group.request_indices, item_outputs, strict=True
+            ):
                 outputs[index] = output
         return outputs
 
+    def _estimate_group_output_bytes(self, items: Sequence[_ForwardItem]) -> int:
+        model: GPTModel | None
+        try:
+            model = _language_model(self.runtime.model[0])
+        except RuntimeError:
+            model = None
+        dtype_size = _dtype_size(next(self.runtime.model[0].parameters()).dtype)
+        total = 0
+        for item in items:
+            seq_len = int(item.input_ids.numel())
+            labels = item.labels
+            if labels is not None:
+                total += int(labels.numel()) * _dtype_size(torch.float32)
+            if item.request.top_k is not None:
+                total += seq_len * int(item.request.top_k) * (
+                    _dtype_size(torch.float32) + _dtype_size(torch.long)
+                )
+            if item.request.logits:
+                if model is None:
+                    raise RuntimeError("logits output memory requires a GPT model")
+                total += seq_len * _padded_vocab_size(model) * dtype_size
+            if item.request.hidden_states:
+                hidden_size = _hidden_size(model, self.runtime.provider)
+                total += seq_len * hidden_size * dtype_size
+        return total
+
+    def _memory_signature(
+        self,
+        requests: Sequence[AnyForwardInput],
+        groups: Sequence[_ForwardGroupPlan],
+    ) -> _MemorySignature:
+        mix = Counter[str]()
+        for request in requests:
+            parts = []
+            if request.target_tokens is not None:
+                target = request.target_tokens
+                tail_shape = tuple(target.shape[request.input_tokens.ndim :])
+                parts.append(f"target:{tail_shape or 'single'}")
+            if request.top_k is not None:
+                parts.append(f"topk:{int(request.top_k)}")
+            if request.logits:
+                parts.append("logits")
+            if request.hidden_states:
+                parts.append("hidden")
+            mix["+".join(parts) if parts else "inactive"] += 1
+        return _MemorySignature(
+            topology=self._topology_key(),
+            shared_prefix_max_depth=self.shared_prefix_max_depth,
+            slot_group_count=len(groups),
+            request_mix=tuple((kind, 1) for kind in sorted(mix)),
+        )
+
+    def _topology_key(self) -> tuple[int, int, int, int]:
+        try:
+            topology = self._topology()
+            return (
+                int(topology.dp),
+                int(topology.tp),
+                int(topology.cp),
+                int(topology.pp),
+            )
+        except (AttributeError, ImportError, RuntimeError, ValueError):
+            return (1, 1, 1, 1)
+
+    def _memory_check(self, plan: _FlatForwardPlan) -> _MemoryCheck:
+        required = self._estimate_required_memory_bytes(plan)
+        available = self._available_memory_bytes()
+        if dist.is_available() and dist.is_initialized():
+            values = torch.tensor(
+                [float(required), float(available)],
+                device=self.device if self.device.type == "cuda" else "cpu",
+                dtype=torch.float64,
+            )
+            dist.all_reduce(values[0], op=dist.ReduceOp.MAX)
+            dist.all_reduce(values[1], op=dist.ReduceOp.MIN)
+            required = int(values[0].item())
+            available = int(values[1].item())
+        return _MemoryCheck(
+            estimated_required_bytes=required,
+            available_bytes=available,
+            fits=required <= available,
+        )
+
+    def _raise_if_plan_will_not_fit(
+        self,
+        plan: _FlatForwardPlan,
+        *,
+        context: str,
+    ) -> None:
+        check = self._memory_check(plan)
+        if check.fits:
+            return
+        self._raise_memory_error(
+            plan,
+            check,
+            context=context,
+            message="forward is predicted to exceed available memory",
+        )
+
+    def _raise_memory_error(
+        self,
+        plan: _FlatForwardPlan,
+        check: _MemoryCheck,
+        *,
+        context: str,
+        message: str,
+    ) -> None:
+        raise TrainerRankMemoryError(
+            f"{context}: {message}. "
+            f"packed_tokens={plan.packed_tokens} "
+            f"logical_tokens={plan.logical_tokens} "
+            f"output_gb={plan.output_bytes / 1024**3:.3f} "
+            f"estimated_required_gb={check.estimated_required_bytes / 1024**3:.3f} "
+            f"available_gb={check.available_bytes / 1024**3:.3f}. "
+            "Use smaller top-level items, reduce output requests, or call "
+            "dp_rank_forward with already-DP-local smaller inputs."
+        )
+
+    def _estimate_required_memory_bytes(self, plan: _FlatForwardPlan) -> int:
+        if plan.packed_tokens <= 0:
+            return plan.output_bytes
+        profiled = self._memory_profiles.get(plan.signature)
+        static_compute = self._static_compute_memory_bytes(plan)
+        if profiled is None:
+            compute = static_compute
+        else:
+            compute = max(static_compute, int(profiled * plan.packed_tokens))
+        return int((plan.output_bytes + compute) * self.memory_safety_factor)
+
+    def _static_compute_memory_bytes(self, plan: _FlatForwardPlan) -> int:
+        if plan.packed_tokens <= 0:
+            return 0
+        try:
+            model = _language_model(self.runtime.model[0])
+        except RuntimeError:
+            return 0
+        dtype_size = _dtype_size(next(self.runtime.model[0].parameters()).dtype)
+        hidden_size = _hidden_size(model, self.runtime.provider)
+        layers = int(
+            getattr(getattr(model, "config", None), "num_layers", 0)
+            or getattr(self.runtime.provider, "num_layers", 1)
+            or 1
+        )
+        activation_factor = max(4, min(16, layers // 4 + 4))
+        return int(plan.packed_tokens * hidden_size * dtype_size * activation_factor)
+
+    def _available_memory_bytes(self) -> int:
+        if not (torch.cuda.is_available() and self.device.type == "cuda"):
+            return 1 << 60
+        free, total = torch.cuda.mem_get_info(self.device)
+        allocated = int(torch.cuda.memory_allocated(self.device))
+        reserved = int(torch.cuda.memory_reserved(self.device))
+        reusable_reserved = max(0, reserved - allocated)
+        reserve = int(total * self.memory_reserve_fraction)
+        return max(0, int(free) + reusable_reserved - reserve)
+
+    def _all_ranks_have_memory_profile(self, plan: _FlatForwardPlan) -> bool:
+        local = plan.packed_tokens <= 0 or plan.signature in self._memory_profiles
+        if dist.is_available() and dist.is_initialized():
+            value = torch.tensor(
+                int(local),
+                device=self.device if self.device.type == "cuda" else "cpu",
+                dtype=torch.int32,
+            )
+            dist.all_reduce(value, op=dist.ReduceOp.MIN)
+            return bool(value.item())
+        return local
+
+    def _update_memory_profile(self, plan: _FlatForwardPlan, peak_delta_bytes: int) -> None:
+        if plan.packed_tokens <= 0:
+            return
+        compute_delta = max(0, peak_delta_bytes - plan.output_bytes)
+        bytes_per_token = compute_delta / max(1, plan.packed_tokens)
+        previous = self._memory_profiles.get(plan.signature)
+        if previous is None or bytes_per_token > previous:
+            self._memory_profiles[plan.signature] = bytes_per_token
+
     def _forward_item(self, request: AnyForwardInput) -> _ForwardItem:
-        _validate_top_k(request.top_k, _language_model(self.runtime.model[0]))
+        if request.top_k is not None:
+            _validate_top_k(request.top_k, _language_model(self.runtime.model[0]))
         input_ids = _as_1d_long(request.input_tokens, name="input_tokens")
         labels = (
             _as_target_tokens(request.target_tokens, request.input_tokens, input_ids)
@@ -1835,6 +2263,20 @@ def _padded_vocab_size(model: "GPTModel") -> int:
     return int(vocab_size)
 
 
+def _hidden_size(model: "GPTModel | None", provider: object) -> int:
+    for source in (getattr(model, "config", None), model, provider):
+        if source is None:
+            continue
+        hidden_size = getattr(source, "hidden_size", None)
+        if hidden_size is not None:
+            return int(hidden_size)
+    raise RuntimeError("could not determine hidden size")
+
+
+def _dtype_size(dtype: torch.dtype) -> int:
+    return torch.empty((), dtype=dtype).element_size()
+
+
 def _target_logprobs_from_full_logits(
     logits: torch.Tensor,
     labels: torch.Tensor,
@@ -2456,6 +2898,8 @@ def _unflatten(
     "ForwardInput",
     "ForwardOutput",
     "MicroBatch",
+    "MicroBatchStats",
     "TopK",
     "TrainerRank",
+    "TrainerRankMemoryError",
 ]
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 005ea0757..162605117 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -7,8 +7,11 @@
 
 from art.megatron.trainer_rank import (
     ForwardInput,
+    ForwardOutput,
     TrainerRank,
+    TrainerRankMemoryError,
     Unset,
+    _MemoryCheck,
     _validate_top_k,
 )
 
@@ -17,6 +20,20 @@ class _Model:
     vocab_size = 8
 
 
+def _runtime(model: torch.nn.Module | None = None) -> SimpleNamespace:
+    return SimpleNamespace(
+        model=[model or torch.nn.Linear(1, 1)],
+        optimizer=None,
+        provider=SimpleNamespace(hidden_size=4, num_layers=1),
+        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
+    )
+
+
+def _target_request(token: int) -> ForwardInput[torch.Tensor, None, None, None]:
+    tokens = torch.tensor([token, token + 1], dtype=torch.long)
+    return ForwardInput(input_tokens=tokens, target_tokens=tokens)
+
+
 def test_forward_input_rejects_non_positive_top_k() -> None:
     with pytest.raises(ValueError, match="top_k must be >= 1"):
         ForwardInput(input_tokens=torch.tensor([1]), top_k=0)
@@ -47,36 +64,196 @@ def test_validate_top_k_rejects_values_above_vocab_size() -> None:
 
 
 def test_trainer_rank_accepts_nested_shared_prefix_for_gdn_runtime() -> None:
-    runtime = SimpleNamespace(
-        model=[torch.nn.Linear(1, 1)],
-        optimizer=None,
-        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
-    )
-
-    trainer = TrainerRank(runtime, shared_prefix_max_depth=2)  # type: ignore[arg-type]
+    trainer = TrainerRank(_runtime(), shared_prefix_max_depth=2)  # type: ignore[arg-type]
 
     assert trainer.shared_prefix_max_depth == 2
 
 
 def test_trainer_rank_accepts_zero_depth_shared_prefix_for_gdn_runtime() -> None:
-    runtime = SimpleNamespace(
-        model=[torch.nn.Linear(1, 1)],
-        optimizer=None,
-        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
-    )
-
-    trainer = TrainerRank(runtime, shared_prefix_max_depth=0)  # type: ignore[arg-type]
+    trainer = TrainerRank(_runtime(), shared_prefix_max_depth=0)  # type: ignore[arg-type]
 
     assert trainer.shared_prefix_max_depth == 0
 
 
 def test_trainer_rank_pop_rejects_empty_adapter_stack() -> None:
-    runtime = SimpleNamespace(
-        model=[torch.nn.Linear(1, 1)],
-        optimizer=None,
-        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
-    )
-    trainer = TrainerRank(runtime)  # type: ignore[arg-type]
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
 
     with pytest.raises(RuntimeError, match="No pushed LoRA or checkpoint"):
         trainer.pop_pushed_lora_or_checkpoint()
+
+
+def test_dp_rank_forward_preserves_nested_shape_for_inactive_requests() -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    request_a = ForwardInput(input_tokens=torch.tensor([1]))
+    request_b = ForwardInput(input_tokens=torch.tensor([2]))
+
+    outputs = trainer.dp_rank_forward([[request_a], [request_b]])
+
+    assert len(outputs) == 2
+    assert len(outputs[0]) == 1
+    assert outputs[0][0].target_logprobs is None
+    assert outputs[1][0].target_logprobs is None
+    assert not hasattr(trainer, "forward")
+    assert not hasattr(trainer, "micro_batches")
+
+
+def test_forward_micro_batches_uses_deterministic_dp_windows(monkeypatch: pytest.MonkeyPatch) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (1, 2))
+    monkeypatch.setattr(
+        trainer,
+        "_run_flat_plan_with_memory_tracking",
+        lambda plan: [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ],
+    )
+
+    batches = list(trainer.forward_micro_batches([_target_request(i) for i in range(5)]))
+
+    assert [batch.indices for batch in batches] == [(1,), (3,), ()]
+    assert [len(batch.outputs) for batch in batches] == [1, 1, 0]
+
+
+def test_forward_micro_batches_outputs_match_top_level_nested_inputs(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(
+        trainer,
+        "_run_flat_plan_with_memory_tracking",
+        lambda plan: [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ],
+    )
+
+    nested = [[_target_request(1), _target_request(3)]]
+    batch = next(iter(trainer.forward_micro_batches(nested)))
+
+    assert batch.inputs == nested
+    assert len(batch.outputs) == 1
+    assert len(batch.outputs[0]) == 2
+
+
+def test_forward_micro_batches_ramps_after_first_success(monkeypatch: pytest.MonkeyPatch) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+
+    def run(plan):
+        trainer._memory_profiles[plan.signature] = 0.0
+        return [ForwardOutput(None, None, None, None) for _ in range(plan.request_count)]
+
+    monkeypatch.setattr(trainer, "_run_flat_plan_with_memory_tracking", run)
+
+    batches = list(trainer.forward_micro_batches([_target_request(i) for i in range(8)]))
+
+    assert batches[0].stats.global_count == 1
+    assert batches[0].stats.cold_start
+    assert batches[1].stats.global_count > 1
+    assert not batches[1].stats.cold_start
+
+
+def test_forward_micro_batches_shrinks_to_largest_fitting_window(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    trainer._last_global_micro_batch_size = 4
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(trainer, "_all_ranks_have_memory_profile", lambda plan: True)
+
+    def memory_check(plan):
+        return _MemoryCheck(
+            estimated_required_bytes=plan.request_count,
+            available_bytes=3,
+            fits=plan.request_count <= 3,
+        )
+
+    monkeypatch.setattr(trainer, "_memory_check", memory_check)
+    monkeypatch.setattr(
+        trainer,
+        "_run_flat_plan_with_memory_tracking",
+        lambda plan: [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ],
+    )
+
+    batch = next(iter(trainer.forward_micro_batches([_target_request(i) for i in range(8)])))
+
+    assert batch.stats.global_count == 3
+    assert batch.stats.rejected_candidates >= 1
+
+
+def test_forward_micro_batches_raises_when_smallest_batch_will_not_fit(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(
+        trainer,
+        "_memory_check",
+        lambda plan: _MemoryCheck(
+            estimated_required_bytes=4,
+            available_bytes=3,
+            fits=False,
+        ),
+    )
+
+    with pytest.raises(TrainerRankMemoryError, match="smallest DP microbatch"):
+        next(iter(trainer.forward_micro_batches([_target_request(1)])))
+
+
+def test_forward_micro_batches_rejects_mismatched_replicated_counts(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    import art.megatron.trainer_rank as trainer_rank
+
+    monkeypatch.setattr(trainer_rank.dist, "is_available", lambda: True)
+    monkeypatch.setattr(trainer_rank.dist, "is_initialized", lambda: True)
+    monkeypatch.setattr(trainer_rank.dist, "get_world_size", lambda: 2)
+
+    def gather(output, value):
+        output[:] = [value, value + 1]
+
+    monkeypatch.setattr(trainer_rank.dist, "all_gather_object", gather)
+
+    with pytest.raises(ValueError, match="same top-level input count"):
+        list(trainer.forward_micro_batches([_target_request(1)]))
+
+
+def test_forward_plan_estimates_output_memory_for_request_combo() -> None:
+    class FakeGPT(torch.nn.Module):
+        def __init__(self) -> None:
+            super().__init__()
+            self.weight = torch.nn.Parameter(torch.zeros(()))
+            self.config = SimpleNamespace(
+                hidden_size=4,
+                num_layers=1,
+                padded_vocab_size=10,
+            )
+            self.decoder = object()
+
+        def _preprocess(self, *args: object, **kwargs: object) -> None:
+            return None
+
+    trainer = TrainerRank(_runtime(FakeGPT()))  # type: ignore[arg-type]
+    tokens = torch.tensor([1, 2, 3], dtype=torch.long)
+    labels = torch.stack((tokens, tokens + 1), dim=1)
+
+    plan = trainer._plan_flat_forward(
+        [
+            ForwardInput(
+                input_tokens=tokens,
+                target_tokens=labels,
+                top_k=5,
+                logits=True,
+                hidden_states=True,
+            )
+        ]
+    )
+
+    target_bytes = 3 * 2 * 4
+    topk_bytes = 3 * 5 * (4 + 8)
+    logits_bytes = 3 * 10 * 4
+    hidden_bytes = 3 * 4 * 4
+    assert plan.output_bytes == target_bytes + topk_bytes + logits_bytes + hidden_bytes

From d2942d18dd096b46792fe3e6105c46de36ce4722 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 17:25:24 -0600
Subject: [PATCH 030/114] fix: handle uninitialized trainer rank topology

---
 src/art/megatron/trainer_rank.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 4ef53c853..5b80d210e 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1255,7 +1255,7 @@ def _topology_key(self) -> tuple[int, int, int, int]:
                 int(topology.cp),
                 int(topology.pp),
             )
-        except (AttributeError, ImportError, RuntimeError, ValueError):
+        except (AssertionError, AttributeError, ImportError, RuntimeError, ValueError):
             return (1, 1, 1, 1)
 
     def _memory_check(self, plan: _FlatForwardPlan) -> _MemoryCheck:

From 984e5c2eb9bdff5a80db9efa52f96ed156bae713 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 17:56:35 -0600
Subject: [PATCH 031/114] fix: report trainer rank oom call context

---
 src/art/megatron/trainer_rank.py           | 18 +++++++++++++++---
 tests/unit/test_trainer_rank_validation.py |  8 ++++----
 2 files changed, 19 insertions(+), 7 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 5b80d210e..c78781988 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -691,7 +691,12 @@ def forward_micro_batches(
         start = 0
         while start < len(items):
             candidate = self._select_next_micro_batch(items, start)
-            flat_outputs = iter(self._run_flat_plan_with_memory_tracking(candidate.plan))
+            flat_outputs = iter(
+                self._run_flat_plan_with_memory_tracking(
+                    candidate.plan,
+                    context="forward_micro_batches",
+                )
+            )
             outputs = [_unflatten(item, flat_outputs) for item in candidate.inputs]
             stop = start + candidate.stats_global_count
             self._last_global_micro_batch_size = candidate.stats_global_count
@@ -760,7 +765,12 @@ def dp_rank_forward(self, inputs: ForwardInputs) -> ForwardOutputs:
         materialized = _materialize(inputs)
         plan = self._plan_flat_forward(list(_flatten(materialized)))
         self._raise_if_plan_will_not_fit(plan, context="dp_rank_forward")
-        outputs = iter(self._run_flat_plan_with_memory_tracking(plan))
+        outputs = iter(
+            self._run_flat_plan_with_memory_tracking(
+                plan,
+                context="dp_rank_forward",
+            )
+        )
         return _unflatten(materialized, outputs)
 
     def dp_reduce(
@@ -1150,6 +1160,8 @@ def _plan_flat_forward(self, requests: Sequence[AnyForwardInput]) -> _FlatForwar
     def _run_flat_plan_with_memory_tracking(
         self,
         plan: _FlatForwardPlan,
+        *,
+        context: str,
     ) -> list[AnyForwardOutput]:
         if torch.cuda.is_available() and self.device.type == "cuda":
             torch.cuda.synchronize(self.device)
@@ -1164,7 +1176,7 @@ def _run_flat_plan_with_memory_tracking(
             self._raise_memory_error(
                 plan,
                 check,
-                context="forward",
+                context=context,
                 message="CUDA OOM occurred despite the planner estimate",
             )
             raise AssertionError("unreachable") from exc
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 162605117..36eb1c361 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -103,7 +103,7 @@ def test_forward_micro_batches_uses_deterministic_dp_windows(monkeypatch: pytest
     monkeypatch.setattr(
         trainer,
         "_run_flat_plan_with_memory_tracking",
-        lambda plan: [
+        lambda plan, **_kwargs: [
             ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
         ],
     )
@@ -122,7 +122,7 @@ def test_forward_micro_batches_outputs_match_top_level_nested_inputs(
     monkeypatch.setattr(
         trainer,
         "_run_flat_plan_with_memory_tracking",
-        lambda plan: [
+        lambda plan, **_kwargs: [
             ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
         ],
     )
@@ -139,7 +139,7 @@ def test_forward_micro_batches_ramps_after_first_success(monkeypatch: pytest.Mon
     trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
 
-    def run(plan):
+    def run(plan, **_kwargs):
         trainer._memory_profiles[plan.signature] = 0.0
         return [ForwardOutput(None, None, None, None) for _ in range(plan.request_count)]
 
@@ -172,7 +172,7 @@ def memory_check(plan):
     monkeypatch.setattr(
         trainer,
         "_run_flat_plan_with_memory_tracking",
-        lambda plan: [
+        lambda plan, **_kwargs: [
             ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
         ],
     )

From e47cae3db122bd8acbe31a6f12bce8c6a86cd564 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 18:04:30 -0600
Subject: [PATCH 032/114] bench: add TrainerRank adaptive microbatch perf cases

---
 dev/trainer_rank_perf.py | 386 +++++++++++++++++++++++++++++++++++++++
 1 file changed, 386 insertions(+)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 06ff61a5f..58a8f8370 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -119,15 +119,21 @@ def main(
                 "target_hidden_fwd_bwd",
                 "target_builtin_train_step",
                 "target_trainer_train_step",
+                "target_trainer_fixed_train_step",
+                "target_trainer_adaptive_train_step",
                 "target_hidden_train_step",
                 "trainer_multi_target_fwd_bwd",
                 "trainer_multi_target_train_step",
+                "trainer_multi_target_fixed_train_step",
+                "trainer_multi_target_adaptive_train_step",
                 "trainer_target",
                 "trainer_multi_target",
                 "trainer_topk",
                 "trainer_topk_head",
                 "trainer_topk_fwd_bwd",
                 "trainer_topk_train_step",
+                "trainer_topk_fixed_train_step",
+                "trainer_topk_adaptive_train_step",
                 "trainer_topk_sweep",
                 "trainer_target_topk",
                 "trainer_hidden",
@@ -141,10 +147,14 @@ def main(
                     "trainer_multi_target",
                     "trainer_multi_target_fwd_bwd",
                     "trainer_multi_target_train_step",
+                    "trainer_multi_target_fixed_train_step",
+                    "trainer_multi_target_adaptive_train_step",
                     "trainer_topk",
                     "trainer_topk_head",
                     "trainer_topk_fwd_bwd",
                     "trainer_topk_train_step",
+                    "trainer_topk_fixed_train_step",
+                    "trainer_topk_adaptive_train_step",
                     "trainer_topk_sweep",
                     "trainer_target_topk",
                     "trainer_hidden",
@@ -252,6 +262,8 @@ def register_case(
             "target_hidden_fwd_bwd",
             "target_builtin_train_step",
             "target_trainer_train_step",
+            "target_trainer_fixed_train_step",
+            "target_trainer_adaptive_train_step",
             "target_hidden_train_step",
         ):
             register_case(name, requests, request_stats)
@@ -533,6 +545,44 @@ def register_case(
                 warmup=warmup,
                 repeat=repeat,
             )
+        if "target_trainer_fixed_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            fixed_stats: list[dict[str, int | bool]] = []
+            results["target_trainer_fixed_train_step_ms"] = _bench(
+                lambda: _fixed_micro_batch_training_step(
+                    rank,
+                    requests,
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                    loss_kind="target",
+                    stats_sink=fixed_stats,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
+            _record_micro_batch_stats(
+                metadata, "target_trainer_fixed_train_step", fixed_stats
+            )
+        if "target_trainer_adaptive_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            adaptive_stats: list[dict[str, int | bool]] = []
+            results["target_trainer_adaptive_train_step_ms"] = _bench(
+                lambda: _adaptive_micro_batch_training_step(
+                    rank,
+                    requests,
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                    loss_kind="target",
+                    stats_sink=adaptive_stats,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
+            _record_micro_batch_stats(
+                metadata, "target_trainer_adaptive_train_step", adaptive_stats
+            )
         if "target_hidden_train_step" in benchmarks:
             for chunk in runtime.model:
                 chunk.train()
@@ -609,6 +659,73 @@ def register_case(
                 warmup=warmup,
                 repeat=repeat,
             )
+        if (
+            "trainer_multi_target_fixed_train_step" in benchmarks
+            or "trainer_multi_target_adaptive_train_step" in benchmarks
+        ):
+            items = [rank._forward_item(request) for request in multi_target_requests]
+            batch = _pack_forward_items(
+                items,
+                max_depth=rank.shared_prefix_max_depth,
+            )
+            multi_target_stats = _packed_request_stats(
+                multi_target_requests,
+                items,
+                batch,
+                request_metadata={},
+            )
+            if "trainer_multi_target_fixed_train_step" in benchmarks:
+                register_case(
+                    "trainer_multi_target_fixed_train_step",
+                    multi_target_requests,
+                    multi_target_stats,
+                )
+                for chunk in runtime.model:
+                    chunk.train()
+                fixed_stats = []
+                results["trainer_multi_target_fixed_train_step_ms"] = _bench(
+                    lambda: _fixed_micro_batch_training_step(
+                        rank,
+                        multi_target_requests,
+                        params=train_step_params,
+                        offload_manager=offload_manager,
+                        loss_kind="target",
+                        stats_sink=fixed_stats,
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+                _record_micro_batch_stats(
+                    metadata,
+                    "trainer_multi_target_fixed_train_step",
+                    fixed_stats,
+                )
+            if "trainer_multi_target_adaptive_train_step" in benchmarks:
+                register_case(
+                    "trainer_multi_target_adaptive_train_step",
+                    multi_target_requests,
+                    multi_target_stats,
+                )
+                for chunk in runtime.model:
+                    chunk.train()
+                adaptive_stats = []
+                results["trainer_multi_target_adaptive_train_step_ms"] = _bench(
+                    lambda: _adaptive_micro_batch_training_step(
+                        rank,
+                        multi_target_requests,
+                        params=train_step_params,
+                        offload_manager=offload_manager,
+                        loss_kind="target",
+                        stats_sink=adaptive_stats,
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+                _record_micro_batch_stats(
+                    metadata,
+                    "trainer_multi_target_adaptive_train_step",
+                    adaptive_stats,
+                )
         if "trainer_topk_fwd_bwd" in benchmarks:
             for chunk in runtime.model:
                 chunk.train()
@@ -667,6 +784,72 @@ def register_case(
                 warmup=warmup,
                 repeat=repeat,
             )
+        if (
+            "trainer_topk_fixed_train_step" in benchmarks
+            or "trainer_topk_adaptive_train_step" in benchmarks
+        ):
+            topk_requests = [
+                _with_outputs(request, top_k=top_k) for request in requests
+            ]
+            items = [rank._forward_item(request) for request in topk_requests]
+            batch = _pack_forward_items(
+                items,
+                max_depth=rank.shared_prefix_max_depth,
+            )
+            topk_stats = _packed_request_stats(
+                topk_requests,
+                items,
+                batch,
+                request_metadata={},
+            )
+            if "trainer_topk_fixed_train_step" in benchmarks:
+                register_case(
+                    "trainer_topk_fixed_train_step",
+                    topk_requests,
+                    topk_stats,
+                )
+                for chunk in runtime.model:
+                    chunk.train()
+                fixed_stats = []
+                results["trainer_topk_fixed_train_step_ms"] = _bench(
+                    lambda: _fixed_micro_batch_training_step(
+                        rank,
+                        topk_requests,
+                        params=train_step_params,
+                        offload_manager=offload_manager,
+                        loss_kind="topk",
+                        stats_sink=fixed_stats,
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+                _record_micro_batch_stats(
+                    metadata, "trainer_topk_fixed_train_step", fixed_stats
+                )
+            if "trainer_topk_adaptive_train_step" in benchmarks:
+                register_case(
+                    "trainer_topk_adaptive_train_step",
+                    topk_requests,
+                    topk_stats,
+                )
+                for chunk in runtime.model:
+                    chunk.train()
+                adaptive_stats = []
+                results["trainer_topk_adaptive_train_step_ms"] = _bench(
+                    lambda: _adaptive_micro_batch_training_step(
+                        rank,
+                        topk_requests,
+                        params=train_step_params,
+                        offload_manager=offload_manager,
+                        loss_kind="topk",
+                        stats_sink=adaptive_stats,
+                    ),
+                    warmup=warmup,
+                    repeat=repeat,
+                )
+                _record_micro_batch_stats(
+                    metadata, "trainer_topk_adaptive_train_step", adaptive_stats
+                )
 
         if compare_target_correctness and adapter_slots:
             metadata["target_correctness_skipped"] = "adapter_slots"
@@ -1684,6 +1867,209 @@ def _topk_requests_loss(
     return torch.stack(losses).sum()
 
 
+def _fixed_micro_batch_training_step(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    params: AdamParams,
+    offload_manager: object | None,
+    loss_kind: str,
+    stats_sink: list[dict[str, int | bool]],
+) -> dict[str, float]:
+    def body() -> dict[str, float]:
+        return _fixed_micro_batch_training_step_body(
+            rank,
+            requests,
+            params=params,
+            loss_kind=loss_kind,
+            stats_sink=stats_sink,
+        )
+
+    if offload_manager is None:
+        return body()
+    with offload_manager.job():  # type: ignore[attr-defined]
+        return body()
+
+
+def _fixed_micro_batch_training_step_body(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    params: AdamParams,
+    loss_kind: str,
+    stats_sink: list[dict[str, int | bool]],
+) -> dict[str, float]:
+    rank.zero_grad()
+    dp_rank, dp_size = rank._dp_rank_and_size()
+    stats: list[dict[str, int | bool]] = []
+    for start in range(0, len(requests), dp_size):
+        stop = min(start + dp_size, len(requests))
+        indices = tuple(range(start + dp_rank, stop, dp_size))
+        local_requests = [requests[index] for index in indices]
+        outputs = rank.dp_rank_forward(local_requests)
+        loss = _micro_batch_loss(rank, outputs, loss_kind=loss_kind)
+        if loss.requires_grad:
+            loss.backward()
+        stats.append(
+            {
+                "global_count": stop - start,
+                "local_count": len(local_requests),
+                "packed_tokens": _logical_input_tokens(local_requests),
+                "logical_tokens": _logical_input_tokens(local_requests),
+                "rejected_candidates": 0,
+                "cold_start": False,
+            }
+        )
+    stats_sink[:] = stats
+    return rank.optim_step(params=params, scale_grads=1.0)
+
+
+def _adaptive_micro_batch_training_step(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    params: AdamParams,
+    offload_manager: object | None,
+    loss_kind: str,
+    stats_sink: list[dict[str, int | bool]],
+) -> dict[str, float]:
+    def body() -> dict[str, float]:
+        return _adaptive_micro_batch_training_step_body(
+            rank,
+            requests,
+            params=params,
+            loss_kind=loss_kind,
+            stats_sink=stats_sink,
+        )
+
+    if offload_manager is None:
+        return body()
+    with offload_manager.job():  # type: ignore[attr-defined]
+        return body()
+
+
+def _adaptive_micro_batch_training_step_body(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    params: AdamParams,
+    loss_kind: str,
+    stats_sink: list[dict[str, int | bool]],
+) -> dict[str, float]:
+    rank.zero_grad()
+    stats: list[dict[str, int | bool]] = []
+    for micro_batch in rank.forward_micro_batches(requests):
+        loss = _micro_batch_loss(rank, micro_batch.outputs, loss_kind=loss_kind)
+        if loss.requires_grad:
+            loss.backward()
+        stats.append(
+            {
+                "global_count": int(micro_batch.stats.global_count),
+                "local_count": int(micro_batch.stats.local_count),
+                "packed_tokens": int(micro_batch.stats.packed_tokens),
+                "logical_tokens": int(micro_batch.stats.logical_tokens),
+                "rejected_candidates": int(micro_batch.stats.rejected_candidates),
+                "cold_start": bool(micro_batch.stats.cold_start),
+            }
+        )
+    stats_sink[:] = stats
+    return rank.optim_step(params=params, scale_grads=1.0)
+
+
+def _micro_batch_loss(
+    rank: TrainerRank,
+    outputs: object,
+    *,
+    loss_kind: str,
+) -> torch.Tensor:
+    losses: list[torch.Tensor] = []
+    for output in _iter_outputs(outputs):
+        if loss_kind == "target":
+            target_logprobs = getattr(output, "target_logprobs", None)
+            if target_logprobs is not None:
+                losses.append(-target_logprobs.sum())
+        elif loss_kind == "topk":
+            top_k = getattr(output, "top_k", None)
+            if top_k is not None:
+                losses.append(-top_k.logprobs.sum())
+        else:
+            raise ValueError(f"unknown loss_kind: {loss_kind}")
+    if not losses:
+        return torch.tensor(0.0, device=rank.device)
+    return torch.stack(losses).sum()
+
+
+def _iter_outputs(value: object) -> Sequence[object]:
+    if hasattr(value, "target_logprobs") and hasattr(value, "top_k"):
+        return (value,)
+    if isinstance(value, Sequence):
+        outputs: list[object] = []
+        for item in value:
+            outputs.extend(_iter_outputs(item))
+        return outputs
+    raise TypeError(f"unexpected TrainerRank output value: {type(value)!r}")
+
+
+def _logical_input_tokens(
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+) -> int:
+    return sum(
+        int(request.input_tokens.numel())
+        for request in requests
+        if request.input_tokens is not None
+    )
+
+
+def _record_micro_batch_stats(
+    metadata: dict[str, object],
+    name: str,
+    stats: Sequence[dict[str, int | bool]],
+) -> None:
+    if not stats:
+        metadata[f"{name}_micro_window_count"] = 0
+        return
+    global_counts = [int(stat["global_count"]) for stat in stats]
+    local_counts = [int(stat["local_count"]) for stat in stats]
+    packed_tokens = [int(stat["packed_tokens"]) for stat in stats]
+    rejected = [int(stat["rejected_candidates"]) for stat in stats]
+    metadata[f"{name}_micro_window_count"] = len(stats)
+    metadata[f"{name}_micro_global_count_first"] = global_counts[0]
+    metadata[f"{name}_micro_global_count_last"] = global_counts[-1]
+    metadata[f"{name}_micro_global_count_min"] = min(global_counts)
+    metadata[f"{name}_micro_global_count_max"] = max(global_counts)
+    metadata[f"{name}_micro_local_count_min"] = min(local_counts)
+    metadata[f"{name}_micro_local_count_max"] = max(local_counts)
+    metadata[f"{name}_micro_packed_tokens_min"] = min(packed_tokens)
+    metadata[f"{name}_micro_packed_tokens_max"] = max(packed_tokens)
+    metadata[f"{name}_micro_rejected_candidates_total"] = sum(rejected)
+    metadata[f"{name}_micro_cold_start_count"] = sum(
+        int(bool(stat["cold_start"])) for stat in stats
+    )
+    metadata[f"{name}_micro_global_counts_head"] = ",".join(
+        str(count) for count in global_counts[:8]
+    )
+
+
 def _training_step(
     rank: TrainerRank,
     loss_fn: Callable[[], torch.Tensor],

From c2a4c300b9d868f81d3d8f3478163f38742422f5 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 19:00:16 -0600
Subject: [PATCH 033/114] fix: keep masked TrainerRank outputs graph-connected

---
 src/art/megatron/trainer_rank.py           | 50 ++++++++++++++++++++++
 tests/unit/test_trainer_rank_validation.py | 15 +++++++
 2 files changed, 65 insertions(+)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index c78781988..2def04988 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1651,6 +1651,11 @@ def _project_head(
                 label_rows=label_rows,
             )
 
+        target_logprobs = _anchor_disconnected_target_logprobs(
+            target_logprobs,
+            hidden_by_row,
+        )
+        top_k = _anchor_disconnected_topk(top_k, hidden_by_row)
         return _HeadOutputs(target_logprobs, top_k, logits)
 
     def _project_full_logits(
@@ -2522,6 +2527,51 @@ def _scatter_row_target_logprobs(
         )
 
 
+def _anchor_disconnected_target_logprobs(
+    target_logprobs: list[torch.Tensor | None],
+    hidden_by_row: torch.Tensor,
+) -> list[torch.Tensor | None]:
+    if not hidden_by_row.requires_grad:
+        return target_logprobs
+    anchor: torch.Tensor | None = None
+    anchored: list[torch.Tensor | None] = []
+    for item_logprobs in target_logprobs:
+        if item_logprobs is None or item_logprobs.requires_grad:
+            anchored.append(item_logprobs)
+            continue
+        if anchor is None:
+            anchor = _zero_graph_anchor(hidden_by_row)
+        anchored.append(item_logprobs + anchor)
+    return anchored
+
+
+def _anchor_disconnected_topk(
+    top_k: list[TopK | None],
+    hidden_by_row: torch.Tensor,
+) -> list[TopK | None]:
+    if not hidden_by_row.requires_grad:
+        return top_k
+    anchor: torch.Tensor | None = None
+    anchored: list[TopK | None] = []
+    for item_top_k in top_k:
+        if item_top_k is None or item_top_k.logprobs.requires_grad:
+            anchored.append(item_top_k)
+            continue
+        if anchor is None:
+            anchor = _zero_graph_anchor(hidden_by_row)
+        anchored.append(
+            TopK(
+                logprobs=item_top_k.logprobs + anchor,
+                tokens=item_top_k.tokens,
+            )
+        )
+    return anchored
+
+
+def _zero_graph_anchor(hidden_by_row: torch.Tensor) -> torch.Tensor:
+    return hidden_by_row.reshape(-1)[:1].float().sum() * 0.0
+
+
 def _topk_from_full_logits(
     logits: torch.Tensor,
     *,
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 36eb1c361..0442ea87e 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -11,6 +11,7 @@
     TrainerRank,
     TrainerRankMemoryError,
     Unset,
+    _anchor_disconnected_target_logprobs,
     _MemoryCheck,
     _validate_top_k,
 )
@@ -257,3 +258,17 @@ def _preprocess(self, *args: object, **kwargs: object) -> None:
     logits_bytes = 3 * 10 * 4
     hidden_bytes = 3 * 4 * 4
     assert plan.output_bytes == target_bytes + topk_bytes + logits_bytes + hidden_bytes
+
+
+def test_disconnected_target_logprobs_keep_zero_graph_anchor() -> None:
+    hidden = torch.randn(2, 3, requires_grad=True)
+    disconnected = torch.zeros(4)
+
+    (anchored,) = _anchor_disconnected_target_logprobs([disconnected], hidden)
+
+    assert anchored is not None
+    assert anchored.requires_grad
+    torch.testing.assert_close(anchored, disconnected)
+    anchored.sum().backward()
+    assert hidden.grad is not None
+    torch.testing.assert_close(hidden.grad, torch.zeros_like(hidden))

From d57a3ba99c54779db81216b5f50c86194fddaa10 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 19:24:51 -0600
Subject: [PATCH 034/114] bench: expose TrainerRank adaptive memory knobs

---
 dev/trainer_rank_perf.py | 18 ++++++++++++++++++
 1 file changed, 18 insertions(+)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 58a8f8370..88669cb50 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -53,6 +53,8 @@ def main(
     adapter_slot_rank: int = 1,
     learning_rate: float = 1e-5,
     full_step_offload_reload: bool = False,
+    memory_safety_factor: float = 1.10,
+    memory_reserve_fraction: float = 0.03,
     memory_sample_interval_s: float = 0.05,
     compare_target_correctness: bool = False,
     run_adapter_sanity: bool = False,
@@ -85,6 +87,8 @@ def main(
             runtime,
             head_chunk_tokens=head_chunk_tokens,
             shared_prefix_max_depth=shared_prefix_max_depth,
+            memory_safety_factor=memory_safety_factor,
+            memory_reserve_fraction=memory_reserve_fraction,
         )
         if adapter_slots < 0:
             raise ValueError("adapter_slots must be >= 0")
@@ -904,6 +908,8 @@ def register_case(
                 "adapter_loaded_sites": loaded_sites,
                 "learning_rate": learning_rate,
                 "full_step_offload_reload": full_step_offload_reload,
+                "memory_safety_factor": memory_safety_factor,
+                "memory_reserve_fraction": memory_reserve_fraction,
                 "mtp_num_layers": getattr(model_config, "mtp_num_layers", None),
                 "cross_entropy_loss_fusion": getattr(
                     model_config, "cross_entropy_loss_fusion", None
@@ -1984,6 +1990,10 @@ def _adaptive_micro_batch_training_step_body(
                 "local_count": int(micro_batch.stats.local_count),
                 "packed_tokens": int(micro_batch.stats.packed_tokens),
                 "logical_tokens": int(micro_batch.stats.logical_tokens),
+                "estimated_required_bytes": int(
+                    micro_batch.stats.estimated_required_bytes
+                ),
+                "available_bytes": int(micro_batch.stats.available_bytes),
                 "rejected_candidates": int(micro_batch.stats.rejected_candidates),
                 "cold_start": bool(micro_batch.stats.cold_start),
             }
@@ -2052,6 +2062,10 @@ def _record_micro_batch_stats(
     local_counts = [int(stat["local_count"]) for stat in stats]
     packed_tokens = [int(stat["packed_tokens"]) for stat in stats]
     rejected = [int(stat["rejected_candidates"]) for stat in stats]
+    estimated_required = [
+        int(stat.get("estimated_required_bytes", 0)) for stat in stats
+    ]
+    available = [int(stat.get("available_bytes", 0)) for stat in stats]
     metadata[f"{name}_micro_window_count"] = len(stats)
     metadata[f"{name}_micro_global_count_first"] = global_counts[0]
     metadata[f"{name}_micro_global_count_last"] = global_counts[-1]
@@ -2062,6 +2076,10 @@ def _record_micro_batch_stats(
     metadata[f"{name}_micro_packed_tokens_min"] = min(packed_tokens)
     metadata[f"{name}_micro_packed_tokens_max"] = max(packed_tokens)
     metadata[f"{name}_micro_rejected_candidates_total"] = sum(rejected)
+    metadata[f"{name}_micro_estimated_required_gb_max"] = round(
+        max(estimated_required) / 1024**3, 3
+    )
+    metadata[f"{name}_micro_available_gb_min"] = round(min(available) / 1024**3, 3)
     metadata[f"{name}_micro_cold_start_count"] = sum(
         int(bool(stat["cold_start"])) for stat in stats
     )

From c6891b8117ff905e7c8ecc82885867ee7940fdbd Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Tue, 23 Jun 2026 19:57:02 -0600
Subject: [PATCH 035/114] bench: profile TrainerRank adaptive microbatches

---
 dev/trainer_rank_perf.py | 171 ++++++++++++++++++++++++++++++++++++++-
 1 file changed, 170 insertions(+), 1 deletion(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 88669cb50..c797640ca 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -21,6 +21,7 @@
     _batch_seq_logits,
     _language_model,
     _pack_forward_items,
+    _unflatten,
 )
 
 
@@ -125,6 +126,7 @@ def main(
                 "target_trainer_train_step",
                 "target_trainer_fixed_train_step",
                 "target_trainer_adaptive_train_step",
+                "target_trainer_adaptive_profile_train_step",
                 "target_hidden_train_step",
                 "trainer_multi_target_fwd_bwd",
                 "trainer_multi_target_train_step",
@@ -268,6 +270,7 @@ def register_case(
             "target_trainer_train_step",
             "target_trainer_fixed_train_step",
             "target_trainer_adaptive_train_step",
+            "target_trainer_adaptive_profile_train_step",
             "target_hidden_train_step",
         ):
             register_case(name, requests, request_stats)
@@ -587,6 +590,32 @@ def register_case(
             _record_micro_batch_stats(
                 metadata, "target_trainer_adaptive_train_step", adaptive_stats
             )
+        if "target_trainer_adaptive_profile_train_step" in benchmarks:
+            for chunk in runtime.model:
+                chunk.train()
+            adaptive_stats: list[dict[str, int | bool | float]] = []
+            results["target_trainer_adaptive_profile_train_step_ms"] = _bench(
+                lambda: _profiled_adaptive_micro_batch_training_step(
+                    rank,
+                    requests,
+                    params=train_step_params,
+                    offload_manager=offload_manager,
+                    loss_kind="target",
+                    stats_sink=adaptive_stats,
+                ),
+                warmup=warmup,
+                repeat=repeat,
+            )
+            _record_micro_batch_stats(
+                metadata,
+                "target_trainer_adaptive_profile_train_step",
+                adaptive_stats,
+            )
+            _record_profile_stats(
+                metadata,
+                "target_trainer_adaptive_profile_train_step",
+                adaptive_stats,
+            )
         if "target_hidden_train_step" in benchmarks:
             for chunk in runtime.model:
                 chunk.train()
@@ -2002,6 +2031,124 @@ def _adaptive_micro_batch_training_step_body(
     return rank.optim_step(params=params, scale_grads=1.0)
 
 
+def _profiled_adaptive_micro_batch_training_step(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    params: AdamParams,
+    offload_manager: object | None,
+    loss_kind: str,
+    stats_sink: list[dict[str, int | bool | float]],
+) -> dict[str, float]:
+    def body() -> dict[str, float]:
+        return _profiled_adaptive_micro_batch_training_step_body(
+            rank,
+            requests,
+            params=params,
+            loss_kind=loss_kind,
+            stats_sink=stats_sink,
+        )
+
+    if offload_manager is None:
+        return body()
+    with offload_manager.job():  # type: ignore[attr-defined]
+        return body()
+
+
+def _profiled_adaptive_micro_batch_training_step_body(
+    rank: TrainerRank,
+    requests: Sequence[
+        ForwardInput[
+            torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
+        ]
+    ],
+    *,
+    params: AdamParams,
+    loss_kind: str,
+    stats_sink: list[dict[str, int | bool | float]],
+) -> dict[str, float]:
+    rank.zero_grad()
+    items = list(requests)
+    rank._validate_replicated_top_level_count(len(items))
+    start = 0
+    stats: list[dict[str, int | bool | float]] = []
+    while start < len(items):
+        candidate, select_ms = _timed_cuda(
+            rank, lambda: rank._select_next_micro_batch(items, start)
+        )
+        flat_outputs, execute_ms = _timed_cuda(
+            rank,
+            lambda: rank._run_flat_plan_with_memory_tracking(
+                candidate.plan,
+                context="target_trainer_adaptive_profile_train_step",
+            ),
+        )
+        def unflatten_outputs() -> list[object]:
+            flat_iter = iter(flat_outputs)
+            return [_unflatten(item, flat_iter) for item in candidate.inputs]
+
+        outputs, unflatten_ms = _timed_cuda(
+            rank,
+            unflatten_outputs,
+        )
+        loss, loss_ms = _timed_cuda(
+            rank, lambda: _micro_batch_loss(rank, outputs, loss_kind=loss_kind)
+        )
+        if loss.requires_grad:
+            _, backward_ms = _timed_cuda(rank, loss.backward)
+        else:
+            backward_ms = 0.0
+        stats.append(
+            {
+                "global_count": int(candidate.stats_global_count),
+                "local_count": int(len(candidate.inputs)),
+                "packed_tokens": int(candidate.plan.packed_tokens),
+                "logical_tokens": int(candidate.plan.logical_tokens),
+                "estimated_required_bytes": int(
+                    candidate.check.estimated_required_bytes
+                ),
+                "available_bytes": int(candidate.check.available_bytes),
+                "rejected_candidates": int(candidate.rejected_candidates),
+                "cold_start": bool(candidate.cold_start),
+                "select_ms": select_ms,
+                "execute_ms": execute_ms,
+                "unflatten_ms": unflatten_ms,
+                "loss_ms": loss_ms,
+                "backward_ms": backward_ms,
+                "optim_ms": 0.0,
+            }
+        )
+        rank._last_global_micro_batch_size = candidate.stats_global_count
+        start += candidate.stats_global_count
+    metrics, optim_ms = _timed_cuda(
+        rank, lambda: rank.optim_step(params=params, scale_grads=1.0)
+    )
+    if stats:
+        stats[-1]["optim_ms"] = optim_ms
+    stats_sink[:] = stats
+    return metrics
+
+
+def _timed_cuda(
+    rank: TrainerRank,
+    fn: Callable[[], object],
+) -> tuple[object, float]:
+    _sync_cuda(rank)
+    start = time.perf_counter()
+    result = fn()
+    _sync_cuda(rank)
+    return result, (time.perf_counter() - start) * 1000.0
+
+
+def _sync_cuda(rank: TrainerRank) -> None:
+    if torch.cuda.is_available() and rank.device.type == "cuda":
+        torch.cuda.synchronize(rank.device)
+
+
 def _micro_batch_loss(
     rank: TrainerRank,
     outputs: object,
@@ -2053,7 +2200,7 @@ def _logical_input_tokens(
 def _record_micro_batch_stats(
     metadata: dict[str, object],
     name: str,
-    stats: Sequence[dict[str, int | bool]],
+    stats: Sequence[dict[str, int | bool | float]],
 ) -> None:
     if not stats:
         metadata[f"{name}_micro_window_count"] = 0
@@ -2088,6 +2235,28 @@ def _record_micro_batch_stats(
     )
 
 
+def _record_profile_stats(
+    metadata: dict[str, object],
+    name: str,
+    stats: Sequence[dict[str, int | bool | float]],
+) -> None:
+    fields = (
+        "select_ms",
+        "execute_ms",
+        "unflatten_ms",
+        "loss_ms",
+        "backward_ms",
+        "optim_ms",
+    )
+    for field in fields:
+        total = sum(float(stat.get(field, 0.0)) for stat in stats)
+        metadata[f"{name}_{field}_sum"] = round(total, 3)
+        metadata[f"{name}_{field}_max"] = round(
+            max((float(stat.get(field, 0.0)) for stat in stats), default=0.0),
+            3,
+        )
+
+
 def _training_step(
     rank: TrainerRank,
     loss_fn: Callable[[], torch.Tensor],

From 259ade9f42e5a30603f2883513663a260eb45b01 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 07:10:31 -0600
Subject: [PATCH 036/114] bench: split adaptive selector profile

---
 dev/trainer_rank_perf.py | 190 ++++++++++++++++++++++++++++++++++++---
 1 file changed, 180 insertions(+), 10 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index c797640ca..494be973a 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 
 from collections.abc import Callable, Sequence
-from contextlib import suppress
+from contextlib import contextmanager, suppress
 import json
 import os
 from pathlib import Path
@@ -13,6 +13,7 @@
 import torch.distributed as dist
 import typer
 
+import art.megatron.trainer_rank as trainer_rank_module
 from art.megatron.trainer_rank import (
     AdamParams,
     ForwardInput,
@@ -2077,8 +2078,30 @@ def _profiled_adaptive_micro_batch_training_step_body(
     start = 0
     stats: list[dict[str, int | bool | float]] = []
     while start < len(items):
-        candidate, select_ms = _timed_cuda(
-            rank, lambda: rank._select_next_micro_batch(items, start)
+        with _profile_adaptive_selection(rank) as select_profile:
+            candidate, select_ms = _timed_cuda(
+                rank, lambda: rank._select_next_micro_batch(items, start)
+            )
+        select_profile["select_plan_residual_ms"] = max(
+            0.0,
+            select_profile["select_plan_ms"]
+            - select_profile["select_forward_item_ms"]
+            - select_profile["select_pack_ms"]
+            - select_profile["select_output_estimate_ms"]
+            - select_profile["select_signature_ms"],
+        )
+        select_profile["select_memory_check_residual_ms"] = max(
+            0.0,
+            select_profile["select_memory_check_ms"]
+            - select_profile["select_memory_estimate_ms"]
+            - select_profile["select_available_memory_ms"],
+        )
+        select_profile["select_residual_ms"] = max(
+            0.0,
+            select_ms
+            - select_profile["select_plan_ms"]
+            - select_profile["select_memory_check_ms"]
+            - select_profile["select_profile_check_ms"],
         )
         flat_outputs, execute_ms = _timed_cuda(
             rank,
@@ -2120,6 +2143,7 @@ def unflatten_outputs() -> list[object]:
                 "loss_ms": loss_ms,
                 "backward_ms": backward_ms,
                 "optim_ms": 0.0,
+                **select_profile,
             }
         )
         rank._last_global_micro_batch_size = candidate.stats_global_count
@@ -2133,6 +2157,137 @@ def unflatten_outputs() -> list[object]:
     return metrics
 
 
+@contextmanager
+def _profile_adaptive_selection(rank: TrainerRank) -> Any:
+    stats = {
+        "select_plan_ms": 0.0,
+        "select_plan_calls": 0,
+        "select_forward_item_ms": 0.0,
+        "select_forward_item_calls": 0,
+        "select_pack_ms": 0.0,
+        "select_pack_calls": 0,
+        "select_output_estimate_ms": 0.0,
+        "select_output_estimate_calls": 0,
+        "select_signature_ms": 0.0,
+        "select_signature_calls": 0,
+        "select_memory_check_ms": 0.0,
+        "select_memory_check_calls": 0,
+        "select_memory_estimate_ms": 0.0,
+        "select_memory_estimate_calls": 0,
+        "select_available_memory_ms": 0.0,
+        "select_available_memory_calls": 0,
+        "select_profile_check_ms": 0.0,
+        "select_profile_check_calls": 0,
+    }
+
+    def timed(key: str, calls_key: str, fn: Callable[..., object], *args: object) -> object:
+        start = time.perf_counter()
+        try:
+            return fn(*args)
+        finally:
+            stats[key] += (time.perf_counter() - start) * 1000.0
+            stats[calls_key] += 1
+
+    original_plan = rank._plan_flat_forward
+    original_forward_item = rank._forward_item
+    original_pack = trainer_rank_module._pack_forward_items
+    original_output_estimate = rank._estimate_group_output_bytes
+    original_signature = rank._memory_signature
+    original_memory_check = rank._memory_check
+    original_memory_estimate = rank._estimate_required_memory_bytes
+    original_available = rank._available_memory_bytes
+    original_profile_check = rank._all_ranks_have_memory_profile
+
+    def plan_wrapper(requests: object) -> object:
+        return timed("select_plan_ms", "select_plan_calls", original_plan, requests)
+
+    def forward_item_wrapper(request: object) -> object:
+        return timed(
+            "select_forward_item_ms",
+            "select_forward_item_calls",
+            original_forward_item,
+            request,
+        )
+
+    def pack_wrapper(*args: object, **kwargs: object) -> object:
+        start = time.perf_counter()
+        try:
+            return original_pack(*args, **kwargs)
+        finally:
+            stats["select_pack_ms"] += (time.perf_counter() - start) * 1000.0
+            stats["select_pack_calls"] += 1
+
+    def output_estimate_wrapper(items: object) -> object:
+        return timed(
+            "select_output_estimate_ms",
+            "select_output_estimate_calls",
+            original_output_estimate,
+            items,
+        )
+
+    def signature_wrapper(requests: object, plans: object) -> object:
+        return timed(
+            "select_signature_ms",
+            "select_signature_calls",
+            original_signature,
+            requests,
+            plans,
+        )
+
+    def memory_check_wrapper(plan: object) -> object:
+        return timed(
+            "select_memory_check_ms",
+            "select_memory_check_calls",
+            original_memory_check,
+            plan,
+        )
+
+    def memory_estimate_wrapper(plan: object) -> object:
+        return timed(
+            "select_memory_estimate_ms",
+            "select_memory_estimate_calls",
+            original_memory_estimate,
+            plan,
+        )
+
+    def available_wrapper() -> object:
+        return timed(
+            "select_available_memory_ms",
+            "select_available_memory_calls",
+            original_available,
+        )
+
+    def profile_check_wrapper(plan: object) -> object:
+        return timed(
+            "select_profile_check_ms",
+            "select_profile_check_calls",
+            original_profile_check,
+            plan,
+        )
+
+    rank._plan_flat_forward = plan_wrapper  # type: ignore[method-assign]
+    rank._forward_item = forward_item_wrapper  # type: ignore[method-assign]
+    trainer_rank_module._pack_forward_items = pack_wrapper  # type: ignore[assignment]
+    rank._estimate_group_output_bytes = output_estimate_wrapper  # type: ignore[method-assign]
+    rank._memory_signature = signature_wrapper  # type: ignore[method-assign]
+    rank._memory_check = memory_check_wrapper  # type: ignore[method-assign]
+    rank._estimate_required_memory_bytes = memory_estimate_wrapper  # type: ignore[method-assign]
+    rank._available_memory_bytes = available_wrapper  # type: ignore[method-assign]
+    rank._all_ranks_have_memory_profile = profile_check_wrapper  # type: ignore[method-assign]
+    try:
+        yield stats
+    finally:
+        rank._plan_flat_forward = original_plan  # type: ignore[method-assign]
+        rank._forward_item = original_forward_item  # type: ignore[method-assign]
+        trainer_rank_module._pack_forward_items = original_pack  # type: ignore[assignment]
+        rank._estimate_group_output_bytes = original_output_estimate  # type: ignore[method-assign]
+        rank._memory_signature = original_signature  # type: ignore[method-assign]
+        rank._memory_check = original_memory_check  # type: ignore[method-assign]
+        rank._estimate_required_memory_bytes = original_memory_estimate  # type: ignore[method-assign]
+        rank._available_memory_bytes = original_available  # type: ignore[method-assign]
+        rank._all_ranks_have_memory_profile = original_profile_check  # type: ignore[method-assign]
+
+
 def _timed_cuda(
     rank: TrainerRank,
     fn: Callable[[], object],
@@ -2240,13 +2395,13 @@ def _record_profile_stats(
     name: str,
     stats: Sequence[dict[str, int | bool | float]],
 ) -> None:
-    fields = (
-        "select_ms",
-        "execute_ms",
-        "unflatten_ms",
-        "loss_ms",
-        "backward_ms",
-        "optim_ms",
+    fields = sorted(
+        {
+            key
+            for stat in stats
+            for key, value in stat.items()
+            if key.endswith("_ms") and isinstance(value, int | float)
+        }
     )
     for field in fields:
         total = sum(float(stat.get(field, 0.0)) for stat in stats)
@@ -2255,6 +2410,21 @@ def _record_profile_stats(
             max((float(stat.get(field, 0.0)) for stat in stats), default=0.0),
             3,
         )
+    call_fields = sorted(
+        {
+            key
+            for stat in stats
+            for key, value in stat.items()
+            if key.endswith("_calls") and isinstance(value, int | float)
+        }
+    )
+    for field in call_fields:
+        metadata[f"{name}_{field}_sum"] = int(
+            sum(int(stat.get(field, 0)) for stat in stats)
+        )
+        metadata[f"{name}_{field}_max"] = int(
+            max((int(stat.get(field, 0)) for stat in stats), default=0)
+        )
 
 
 def _training_step(

From 936f0406e396deed6793c789c1b1887d5b2f9133 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 07:41:11 -0600
Subject: [PATCH 037/114] perf: cache adaptive TrainerRank plans

---
 dev/trainer_rank_perf.py                   |  8 ++++
 src/art/megatron/trainer_rank.py           | 40 ++++++++++++++++++-
 tests/unit/test_trainer_rank_validation.py | 45 ++++++++++++++++++++++
 3 files changed, 92 insertions(+), 1 deletion(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 494be973a..a9bb39799 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2103,6 +2103,14 @@ def _profiled_adaptive_micro_batch_training_step_body(
             - select_profile["select_memory_check_ms"]
             - select_profile["select_profile_check_ms"],
         )
+        select_profile["select_plan_cache_miss_calls"] = select_profile[
+            "select_plan_calls"
+        ]
+        select_profile["select_plan_cache_hit_calls"] = max(
+            0,
+            int(select_profile["select_memory_check_calls"])
+            - int(select_profile["select_plan_calls"]),
+        )
         flat_outputs, execute_ms = _timed_cuda(
             rank,
             lambda: rank._run_flat_plan_with_memory_tracking(
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 2def04988..bc100aa1a 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -54,6 +54,7 @@ class TopK:
 R = TypeVar("R")
 
 _COMPILED_FUNCTIONS: dict[Callable[..., object], Callable[..., object]] = {}
+_ADAPTIVE_PLAN_CACHE_MAX_ENTRIES = 256
 
 
 class _Unset:
@@ -433,6 +434,15 @@ class _FlatForwardPlan:
     signature: _MemorySignature
 
 
+@dataclass(frozen=True)
+class _AdaptivePlanCacheKey:
+    top_level_ids: tuple[int, ...]
+    local_indices: tuple[int, ...]
+    default_slot_ref: "LoRASlotRef | None"
+    slot_stack: tuple["LoRASlotRef", ...]
+    shared_prefix_max_depth: int
+
+
 @dataclass(frozen=True)
 class _MemoryCheck:
     estimated_required_bytes: int
@@ -480,6 +490,8 @@ def __init__(
         self._dynamic_optimizers: dict[str, torch.optim.Optimizer] = {}
         self._checkpoint_slot_names: set[str] = set()
         self._memory_profiles: dict[_MemorySignature, float] = {}
+        self._adaptive_plan_cache: dict[_AdaptivePlanCacheKey, _FlatForwardPlan] = {}
+        self._adaptive_plan_cache_top_level_ids: tuple[int, ...] = ()
         self._last_global_micro_batch_size: int | None = None
         self.zero_grad()
 
@@ -1028,7 +1040,7 @@ def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
             stop = start + width
             indices = tuple(range(start + dp_rank, stop, dp_size))
             local_inputs = [items[index] for index in indices]
-            plan = self._plan_flat_forward(list(_flatten(local_inputs)))
+            plan = self._cached_adaptive_plan(items, indices, local_inputs)
             check = self._memory_check(plan)
             cold_start = not self._all_ranks_have_memory_profile(plan)
             item = _CandidateMicroBatch(
@@ -1095,6 +1107,32 @@ def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
             cold_start=best.cold_start,
         )
 
+    def _cached_adaptive_plan(
+        self,
+        items: Sequence[ForwardInputsT],
+        indices: tuple[int, ...],
+        local_inputs: Sequence[ForwardInputsT],
+    ) -> _FlatForwardPlan:
+        top_level_ids = tuple(id(item) for item in items)
+        if top_level_ids != self._adaptive_plan_cache_top_level_ids:
+            self._adaptive_plan_cache.clear()
+            self._adaptive_plan_cache_top_level_ids = top_level_ids
+        key = _AdaptivePlanCacheKey(
+            top_level_ids=top_level_ids,
+            local_indices=indices,
+            default_slot_ref=self._default_slot_ref,
+            slot_stack=tuple(self._slot_stack),
+            shared_prefix_max_depth=self.shared_prefix_max_depth,
+        )
+        cached = self._adaptive_plan_cache.get(key)
+        if cached is not None:
+            return cached
+        plan = self._plan_flat_forward(list(_flatten(local_inputs)))
+        if len(self._adaptive_plan_cache) >= _ADAPTIVE_PLAN_CACHE_MAX_ENTRIES:
+            self._adaptive_plan_cache.pop(next(iter(self._adaptive_plan_cache)))
+        self._adaptive_plan_cache[key] = plan
+        return plan
+
     def _validate_replicated_top_level_count(self, count: int) -> None:
         if not (dist.is_available() and dist.is_initialized()):
             return
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 0442ea87e..1e8d807f4 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -184,6 +184,51 @@ def memory_check(plan):
     assert batch.stats.rejected_candidates >= 1
 
 
+def test_forward_micro_batches_reuses_cached_candidate_plans(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(trainer, "_all_ranks_have_memory_profile", lambda plan: True)
+    monkeypatch.setattr(
+        trainer,
+        "_run_flat_plan_with_memory_tracking",
+        lambda plan, **_kwargs: [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ],
+    )
+    original_plan = trainer._plan_flat_forward
+    plan_calls = 0
+    memory_checks = 0
+
+    def plan(requests):
+        nonlocal plan_calls
+        plan_calls += 1
+        return original_plan(requests)
+
+    def memory_check(plan):
+        nonlocal memory_checks
+        memory_checks += 1
+        return _MemoryCheck(
+            estimated_required_bytes=plan.request_count,
+            available_bytes=10,
+            fits=True,
+        )
+
+    monkeypatch.setattr(trainer, "_plan_flat_forward", plan)
+    monkeypatch.setattr(trainer, "_memory_check", memory_check)
+    inputs = [_target_request(i) for i in range(8)]
+
+    list(trainer.forward_micro_batches(inputs))
+    first_plan_calls = plan_calls
+    first_memory_checks = memory_checks
+    list(trainer.forward_micro_batches(inputs))
+
+    assert first_plan_calls > 0
+    assert plan_calls == first_plan_calls
+    assert memory_checks > first_memory_checks
+
+
 def test_forward_micro_batches_raises_when_smallest_batch_will_not_fit(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:

From 7ff317a5ba24459f3c8458823f02624f384e284e Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 08:39:06 -0600
Subject: [PATCH 038/114] perf: preflight adaptive TrainerRank candidate plans

---
 dev/trainer_rank_perf.py                   |  68 +++++-
 src/art/megatron/shared_prefix_packing.py  |  85 ++++++++
 src/art/megatron/trainer_rank.py           | 228 +++++++++++++++++++--
 tests/unit/test_shared_prefix_packing.py   |  46 +++++
 tests/unit/test_trainer_rank_validation.py |   8 +
 5 files changed, 413 insertions(+), 22 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index a9bb39799..7a91a2025 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2099,18 +2099,12 @@ def _profiled_adaptive_micro_batch_training_step_body(
         select_profile["select_residual_ms"] = max(
             0.0,
             select_ms
+            - select_profile["select_estimate_ms"]
+            - select_profile["select_estimate_memory_check_ms"]
             - select_profile["select_plan_ms"]
             - select_profile["select_memory_check_ms"]
             - select_profile["select_profile_check_ms"],
         )
-        select_profile["select_plan_cache_miss_calls"] = select_profile[
-            "select_plan_calls"
-        ]
-        select_profile["select_plan_cache_hit_calls"] = max(
-            0,
-            int(select_profile["select_memory_check_calls"])
-            - int(select_profile["select_plan_calls"]),
-        )
         flat_outputs, execute_ms = _timed_cuda(
             rank,
             lambda: rank._run_flat_plan_with_memory_tracking(
@@ -2174,6 +2168,16 @@ def _profile_adaptive_selection(rank: TrainerRank) -> Any:
         "select_forward_item_calls": 0,
         "select_pack_ms": 0.0,
         "select_pack_calls": 0,
+        "select_estimate_ms": 0.0,
+        "select_estimate_calls": 0,
+        "select_estimate_memory_check_ms": 0.0,
+        "select_estimate_memory_check_calls": 0,
+        "select_plan_lookup_calls": 0,
+        "select_plan_cache_hit_calls": 0,
+        "select_plan_cache_miss_calls": 0,
+        "select_estimate_lookup_calls": 0,
+        "select_estimate_cache_hit_calls": 0,
+        "select_estimate_cache_miss_calls": 0,
         "select_output_estimate_ms": 0.0,
         "select_output_estimate_calls": 0,
         "select_signature_ms": 0.0,
@@ -2197,11 +2201,15 @@ def timed(key: str, calls_key: str, fn: Callable[..., object], *args: object) ->
             stats[calls_key] += 1
 
     original_plan = rank._plan_flat_forward
+    original_cached_plan = rank._cached_adaptive_plan
+    original_estimate = rank._estimate_flat_forward
+    original_cached_estimate = rank._cached_adaptive_estimate
     original_forward_item = rank._forward_item
     original_pack = trainer_rank_module._pack_forward_items
     original_output_estimate = rank._estimate_group_output_bytes
     original_signature = rank._memory_signature
     original_memory_check = rank._memory_check
+    original_estimate_memory_check = rank._memory_check_estimate
     original_memory_estimate = rank._estimate_required_memory_bytes
     original_available = rank._available_memory_bytes
     original_profile_check = rank._all_ranks_have_memory_profile
@@ -2209,6 +2217,34 @@ def timed(key: str, calls_key: str, fn: Callable[..., object], *args: object) ->
     def plan_wrapper(requests: object) -> object:
         return timed("select_plan_ms", "select_plan_calls", original_plan, requests)
 
+    def cached_plan_wrapper(*args: object, **kwargs: object) -> object:
+        stats["select_plan_lookup_calls"] += 1
+        before = stats["select_plan_calls"]
+        result = original_cached_plan(*args, **kwargs)
+        if stats["select_plan_calls"] == before:
+            stats["select_plan_cache_hit_calls"] += 1
+        else:
+            stats["select_plan_cache_miss_calls"] += 1
+        return result
+
+    def estimate_wrapper(requests: object) -> object:
+        return timed(
+            "select_estimate_ms",
+            "select_estimate_calls",
+            original_estimate,
+            requests,
+        )
+
+    def cached_estimate_wrapper(*args: object, **kwargs: object) -> object:
+        stats["select_estimate_lookup_calls"] += 1
+        before = stats["select_estimate_calls"]
+        result = original_cached_estimate(*args, **kwargs)
+        if stats["select_estimate_calls"] == before:
+            stats["select_estimate_cache_hit_calls"] += 1
+        else:
+            stats["select_estimate_cache_miss_calls"] += 1
+        return result
+
     def forward_item_wrapper(request: object) -> object:
         return timed(
             "select_forward_item_ms",
@@ -2250,6 +2286,14 @@ def memory_check_wrapper(plan: object) -> object:
             plan,
         )
 
+    def estimate_memory_check_wrapper(estimate: object) -> object:
+        return timed(
+            "select_estimate_memory_check_ms",
+            "select_estimate_memory_check_calls",
+            original_estimate_memory_check,
+            estimate,
+        )
+
     def memory_estimate_wrapper(plan: object) -> object:
         return timed(
             "select_memory_estimate_ms",
@@ -2274,11 +2318,15 @@ def profile_check_wrapper(plan: object) -> object:
         )
 
     rank._plan_flat_forward = plan_wrapper  # type: ignore[method-assign]
+    rank._cached_adaptive_plan = cached_plan_wrapper  # type: ignore[method-assign]
+    rank._estimate_flat_forward = estimate_wrapper  # type: ignore[method-assign]
+    rank._cached_adaptive_estimate = cached_estimate_wrapper  # type: ignore[method-assign]
     rank._forward_item = forward_item_wrapper  # type: ignore[method-assign]
     trainer_rank_module._pack_forward_items = pack_wrapper  # type: ignore[assignment]
     rank._estimate_group_output_bytes = output_estimate_wrapper  # type: ignore[method-assign]
     rank._memory_signature = signature_wrapper  # type: ignore[method-assign]
     rank._memory_check = memory_check_wrapper  # type: ignore[method-assign]
+    rank._memory_check_estimate = estimate_memory_check_wrapper  # type: ignore[method-assign]
     rank._estimate_required_memory_bytes = memory_estimate_wrapper  # type: ignore[method-assign]
     rank._available_memory_bytes = available_wrapper  # type: ignore[method-assign]
     rank._all_ranks_have_memory_profile = profile_check_wrapper  # type: ignore[method-assign]
@@ -2286,11 +2334,15 @@ def profile_check_wrapper(plan: object) -> object:
         yield stats
     finally:
         rank._plan_flat_forward = original_plan  # type: ignore[method-assign]
+        rank._cached_adaptive_plan = original_cached_plan  # type: ignore[method-assign]
+        rank._estimate_flat_forward = original_estimate  # type: ignore[method-assign]
+        rank._cached_adaptive_estimate = original_cached_estimate  # type: ignore[method-assign]
         rank._forward_item = original_forward_item  # type: ignore[method-assign]
         trainer_rank_module._pack_forward_items = original_pack  # type: ignore[assignment]
         rank._estimate_group_output_bytes = original_output_estimate  # type: ignore[method-assign]
         rank._memory_signature = original_signature  # type: ignore[method-assign]
         rank._memory_check = original_memory_check  # type: ignore[method-assign]
+        rank._memory_check_estimate = original_estimate_memory_check  # type: ignore[method-assign]
         rank._estimate_required_memory_bytes = original_memory_estimate  # type: ignore[method-assign]
         rank._available_memory_bytes = original_available  # type: ignore[method-assign]
         rank._all_ranks_have_memory_profile = original_profile_check  # type: ignore[method-assign]
diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index 906dff8eb..2b4740ec7 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -172,6 +172,91 @@ def walk(
     )
 
 
+def estimate_shared_prefix_packed_tokens(
+    sequences: Iterable[torch.Tensor],
+    *,
+    max_depth: int,
+) -> int | None:
+    """Return the exact packed token count without building a packed batch.
+
+    The estimator intentionally only handles CPU tensors. For CUDA tensors, many
+    tiny prefix probes would launch many tiny kernels, so callers should fall
+    back to full packing instead.
+    """
+    if max_depth < 0:
+        raise ValueError("max_depth must be >= 0")
+
+    tensors = tuple(_sequence_tensor(sequence) for sequence in sequences)
+    if not tensors:
+        return 0
+    if any(tensor.device.type != "cpu" for tensor in tensors):
+        return None
+
+    lengths = tuple(int(tensor.numel()) for tensor in tensors)
+    if max(lengths, default=0) == 0:
+        return 0
+
+    def shared_end(indices: tuple[int, ...], start: int) -> int:
+        end = min(lengths[index] for index in indices)
+        if start >= end or len(indices) == 1:
+            return end
+        first = tensors[indices[0]]
+        low = start
+        high = end
+        while low < high:
+            mid = (low + high + 1) // 2
+            prefix = first[start:mid]
+            if all(torch.equal(tensors[index][start:mid], prefix) for index in indices[1:]):
+                low = mid
+            else:
+                high = mid - 1
+        return low
+
+    def branch_groups(indices: tuple[int, ...], start: int) -> list[tuple[int, ...]]:
+        groups: dict[int, list[int]] = {}
+        order: list[int] = []
+        for index in indices:
+            symbol = int(tensors[index][start].item())
+            if symbol not in groups:
+                groups[symbol] = []
+                order.append(symbol)
+            groups[symbol].append(index)
+        return [tuple(groups[symbol]) for symbol in order]
+
+    def walk(
+        indices: tuple[int, ...],
+        start: int,
+        *,
+        has_parent: bool,
+        depth: int,
+    ) -> int:
+        active = tuple(index for index in indices if lengths[index] > start)
+        if not active:
+            return 0
+        if (
+            max_depth == 0
+            or len(active) == 1
+            or (has_parent and depth >= max_depth)
+        ):
+            return sum(lengths[index] - start for index in active)
+
+        end = shared_end(active, start)
+        if end > start:
+            return (end - start) + walk(
+                active,
+                end,
+                has_parent=True,
+                depth=depth + 1,
+            )
+
+        return sum(
+            walk(group, start, has_parent=has_parent, depth=depth)
+            for group in branch_groups(active, start)
+        )
+
+    return walk(tuple(range(len(tensors))), 0, has_parent=False, depth=0)
+
+
 def visualize_shared_prefix_pack(pack: SharedPrefixPack) -> str:
     rows = ["pos token group parent source_pos"]
     for position, (token, group, parent, source_pos) in enumerate(
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index bc100aa1a..503e47ebd 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -12,7 +12,10 @@
 from torch._utils import _flatten_dense_tensors, _unflatten_dense_tensors
 import torch.distributed as dist
 
-from art.megatron.shared_prefix_packing import pack_shared_prefixes
+from art.megatron.shared_prefix_packing import (
+    estimate_shared_prefix_packed_tokens,
+    pack_shared_prefixes,
+)
 
 if TYPE_CHECKING:
     from megatron.bridge.models.gpt_provider import GPTModelProvider
@@ -434,6 +437,15 @@ class _FlatForwardPlan:
     signature: _MemorySignature
 
 
+@dataclass(frozen=True)
+class _FlatForwardEstimate:
+    request_count: int
+    packed_tokens: int
+    logical_tokens: int
+    output_bytes: int
+    signature: _MemorySignature
+
+
 @dataclass(frozen=True)
 class _AdaptivePlanCacheKey:
     top_level_ids: tuple[int, ...]
@@ -461,6 +473,12 @@ class _CandidateMicroBatch(Generic[ForwardInputsT]):
     cold_start: bool
 
 
+@dataclass(frozen=True)
+class _EstimatedMemoryCheck:
+    estimate: _FlatForwardEstimate
+    check: _MemoryCheck
+
+
 class TrainerRank:
     def __init__(
         self,
@@ -492,6 +510,9 @@ def __init__(
         self._memory_profiles: dict[_MemorySignature, float] = {}
         self._adaptive_plan_cache: dict[_AdaptivePlanCacheKey, _FlatForwardPlan] = {}
         self._adaptive_plan_cache_top_level_ids: tuple[int, ...] = ()
+        self._adaptive_estimate_cache: dict[
+            _AdaptivePlanCacheKey, _FlatForwardEstimate | None
+        ] = {}
         self._last_global_micro_batch_size: int | None = None
         self.zero_grad()
 
@@ -1031,7 +1052,10 @@ def _select_next_micro_batch(
         cache: dict[int, _CandidateMicroBatch[ForwardInputsT]] = {}
         rejected = 0
 
-        def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
+        def candidate(
+            width: int,
+            estimated_check: _EstimatedMemoryCheck | None = None,
+        ) -> _CandidateMicroBatch[ForwardInputsT]:
             nonlocal rejected
             width = max(min_width, min(width, remaining))
             cached = cache.get(width)
@@ -1041,7 +1065,12 @@ def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
             indices = tuple(range(start + dp_rank, stop, dp_size))
             local_inputs = [items[index] for index in indices]
             plan = self._cached_adaptive_plan(items, indices, local_inputs)
-            check = self._memory_check(plan)
+            check = (
+                estimated_check.check
+                if estimated_check is not None
+                and self._estimate_matches_plan(estimated_check.estimate, plan)
+                else self._memory_check(plan)
+            )
             cold_start = not self._all_ranks_have_memory_profile(plan)
             item = _CandidateMicroBatch(
                 inputs=local_inputs,
@@ -1055,6 +1084,19 @@ def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
             cache[width] = item
             return item
 
+        def estimate_check(width: int) -> _EstimatedMemoryCheck | None:
+            width = max(min_width, min(width, remaining))
+            stop = start + width
+            indices = tuple(range(start + dp_rank, stop, dp_size))
+            local_inputs = [items[index] for index in indices]
+            estimate = self._cached_adaptive_estimate(items, indices, local_inputs)
+            if estimate is None:
+                return None
+            return _EstimatedMemoryCheck(
+                estimate=estimate,
+                check=self._memory_check_estimate(estimate),
+            )
+
         first = candidate(min_width)
         if not first.check.fits:
             self._raise_memory_error(
@@ -1072,7 +1114,12 @@ def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
         best = first
         high_fail: int | None = None
         while width <= remaining:
-            item = candidate(width)
+            check = estimate_check(width)
+            if check is not None and not check.check.fits:
+                rejected += 1
+                high_fail = width
+                break
+            item = candidate(width, check)
             if item.check.fits:
                 best = item
                 if width == remaining:
@@ -1090,7 +1137,12 @@ def candidate(width: int) -> _CandidateMicroBatch[ForwardInputsT]:
         high = high_fail - 1
         while low <= high:
             mid = (low + high) // 2
-            item = candidate(mid)
+            check = estimate_check(mid)
+            if check is not None and not check.check.fits:
+                rejected += 1
+                high = mid - 1
+                continue
+            item = candidate(mid, check)
             if item.check.fits:
                 best = item
                 low = mid + 1
@@ -1116,6 +1168,7 @@ def _cached_adaptive_plan(
         top_level_ids = tuple(id(item) for item in items)
         if top_level_ids != self._adaptive_plan_cache_top_level_ids:
             self._adaptive_plan_cache.clear()
+            self._adaptive_estimate_cache.clear()
             self._adaptive_plan_cache_top_level_ids = top_level_ids
         key = _AdaptivePlanCacheKey(
             top_level_ids=top_level_ids,
@@ -1133,6 +1186,32 @@ def _cached_adaptive_plan(
         self._adaptive_plan_cache[key] = plan
         return plan
 
+    def _cached_adaptive_estimate(
+        self,
+        items: Sequence[ForwardInputsT],
+        indices: tuple[int, ...],
+        local_inputs: Sequence[ForwardInputsT],
+    ) -> _FlatForwardEstimate | None:
+        top_level_ids = tuple(id(item) for item in items)
+        if top_level_ids != self._adaptive_plan_cache_top_level_ids:
+            self._adaptive_plan_cache.clear()
+            self._adaptive_estimate_cache.clear()
+            self._adaptive_plan_cache_top_level_ids = top_level_ids
+        key = _AdaptivePlanCacheKey(
+            top_level_ids=top_level_ids,
+            local_indices=indices,
+            default_slot_ref=self._default_slot_ref,
+            slot_stack=tuple(self._slot_stack),
+            shared_prefix_max_depth=self.shared_prefix_max_depth,
+        )
+        if key in self._adaptive_estimate_cache:
+            return self._adaptive_estimate_cache[key]
+        estimate = self._estimate_flat_forward(list(_flatten(local_inputs)))
+        if len(self._adaptive_estimate_cache) >= _ADAPTIVE_PLAN_CACHE_MAX_ENTRIES:
+            self._adaptive_estimate_cache.pop(next(iter(self._adaptive_estimate_cache)))
+        self._adaptive_estimate_cache[key] = estimate
+        return estimate
+
     def _validate_replicated_top_level_count(self, count: int) -> None:
         if not (dist.is_available() and dist.is_initialized()):
             return
@@ -1195,6 +1274,48 @@ def _plan_flat_forward(self, requests: Sequence[AnyForwardInput]) -> _FlatForwar
             signature=self._memory_signature(requests, plans),
         )
 
+    def _estimate_flat_forward(
+        self, requests: Sequence[AnyForwardInput]
+    ) -> _FlatForwardEstimate | None:
+        active_indices = [
+            index
+            for index, request in enumerate(requests)
+            if request.target_tokens is not None
+            or request.logits
+            or request.top_k is not None
+            or request.hidden_states
+        ]
+
+        groups: dict[LoRASlotRef | None, list[int]] = {}
+        for index in active_indices:
+            groups.setdefault(self._resolve_slot_ref(requests[index]), []).append(index)
+
+        packed_tokens = 0
+        output_bytes = 0
+        logical_tokens = sum(int(request.input_tokens.numel()) for request in requests)
+        for group_indices in groups.values():
+            group_packed_tokens = estimate_shared_prefix_packed_tokens(
+                (requests[index].input_tokens for index in group_indices),
+                max_depth=self.shared_prefix_max_depth,
+            )
+            if group_packed_tokens is None:
+                return None
+            packed_tokens += group_packed_tokens
+            output_bytes += self._estimate_group_request_output_bytes(
+                [requests[index] for index in group_indices]
+            )
+
+        return _FlatForwardEstimate(
+            request_count=len(requests),
+            packed_tokens=packed_tokens,
+            logical_tokens=logical_tokens,
+            output_bytes=output_bytes,
+            signature=self._memory_signature_from_requests(
+                requests,
+                slot_group_count=len(groups),
+            ),
+        )
+
     def _run_flat_plan_with_memory_tracking(
         self,
         plan: _FlatForwardPlan,
@@ -1244,6 +1365,34 @@ def _execute_flat_plan(self, plan: _FlatForwardPlan) -> list[AnyForwardOutput]:
                 outputs[index] = output
         return outputs
 
+    def _estimate_group_request_output_bytes(
+        self,
+        requests: Sequence[AnyForwardInput],
+    ) -> int:
+        model: GPTModel | None
+        try:
+            model = _language_model(self.runtime.model[0])
+        except RuntimeError:
+            model = None
+        dtype_size = _dtype_size(next(self.runtime.model[0].parameters()).dtype)
+        total = 0
+        for request in requests:
+            seq_len = int(request.input_tokens.numel())
+            if request.target_tokens is not None:
+                total += int(request.target_tokens.numel()) * _dtype_size(torch.float32)
+            if request.top_k is not None:
+                total += seq_len * int(request.top_k) * (
+                    _dtype_size(torch.float32) + _dtype_size(torch.long)
+                )
+            if request.logits:
+                if model is None:
+                    raise RuntimeError("logits output memory requires a GPT model")
+                total += seq_len * _padded_vocab_size(model) * dtype_size
+            if request.hidden_states:
+                hidden_size = _hidden_size(model, self.runtime.provider)
+                total += seq_len * hidden_size * dtype_size
+        return total
+
     def _estimate_group_output_bytes(self, items: Sequence[_ForwardItem]) -> int:
         model: GPTModel | None
         try:
@@ -1274,6 +1423,17 @@ def _memory_signature(
         self,
         requests: Sequence[AnyForwardInput],
         groups: Sequence[_ForwardGroupPlan],
+    ) -> _MemorySignature:
+        return self._memory_signature_from_requests(
+            requests,
+            slot_group_count=len(groups),
+        )
+
+    def _memory_signature_from_requests(
+        self,
+        requests: Sequence[AnyForwardInput],
+        *,
+        slot_group_count: int,
     ) -> _MemorySignature:
         mix = Counter[str]()
         for request in requests:
@@ -1292,7 +1452,7 @@ def _memory_signature(
         return _MemorySignature(
             topology=self._topology_key(),
             shared_prefix_max_depth=self.shared_prefix_max_depth,
-            slot_group_count=len(groups),
+            slot_group_count=slot_group_count,
             request_mix=tuple((kind, 1) for kind in sorted(mix)),
         )
 
@@ -1310,6 +1470,17 @@ def _topology_key(self) -> tuple[int, int, int, int]:
 
     def _memory_check(self, plan: _FlatForwardPlan) -> _MemoryCheck:
         required = self._estimate_required_memory_bytes(plan)
+        return self._memory_check_required(required)
+
+    def _memory_check_estimate(self, estimate: _FlatForwardEstimate) -> _MemoryCheck:
+        required = self._estimate_required_memory_bytes_from_values(
+            packed_tokens=estimate.packed_tokens,
+            output_bytes=estimate.output_bytes,
+            signature=estimate.signature,
+        )
+        return self._memory_check_required(required)
+
+    def _memory_check_required(self, required: int) -> _MemoryCheck:
         available = self._available_memory_bytes()
         if dist.is_available() and dist.is_initialized():
             values = torch.tensor(
@@ -1363,18 +1534,34 @@ def _raise_memory_error(
         )
 
     def _estimate_required_memory_bytes(self, plan: _FlatForwardPlan) -> int:
-        if plan.packed_tokens <= 0:
-            return plan.output_bytes
-        profiled = self._memory_profiles.get(plan.signature)
-        static_compute = self._static_compute_memory_bytes(plan)
+        return self._estimate_required_memory_bytes_from_values(
+            packed_tokens=plan.packed_tokens,
+            output_bytes=plan.output_bytes,
+            signature=plan.signature,
+        )
+
+    def _estimate_required_memory_bytes_from_values(
+        self,
+        *,
+        packed_tokens: int,
+        output_bytes: int,
+        signature: _MemorySignature,
+    ) -> int:
+        if packed_tokens <= 0:
+            return output_bytes
+        profiled = self._memory_profiles.get(signature)
+        static_compute = self._static_compute_memory_bytes_for_tokens(packed_tokens)
         if profiled is None:
             compute = static_compute
         else:
-            compute = max(static_compute, int(profiled * plan.packed_tokens))
-        return int((plan.output_bytes + compute) * self.memory_safety_factor)
+            compute = max(static_compute, int(profiled * packed_tokens))
+        return int((output_bytes + compute) * self.memory_safety_factor)
 
     def _static_compute_memory_bytes(self, plan: _FlatForwardPlan) -> int:
-        if plan.packed_tokens <= 0:
+        return self._static_compute_memory_bytes_for_tokens(plan.packed_tokens)
+
+    def _static_compute_memory_bytes_for_tokens(self, packed_tokens: int) -> int:
+        if packed_tokens <= 0:
             return 0
         try:
             model = _language_model(self.runtime.model[0])
@@ -1388,7 +1575,20 @@ def _static_compute_memory_bytes(self, plan: _FlatForwardPlan) -> int:
             or 1
         )
         activation_factor = max(4, min(16, layers // 4 + 4))
-        return int(plan.packed_tokens * hidden_size * dtype_size * activation_factor)
+        return int(packed_tokens * hidden_size * dtype_size * activation_factor)
+
+    @staticmethod
+    def _estimate_matches_plan(
+        estimate: _FlatForwardEstimate,
+        plan: _FlatForwardPlan,
+    ) -> bool:
+        return (
+            estimate.request_count == plan.request_count
+            and estimate.packed_tokens == plan.packed_tokens
+            and estimate.logical_tokens == plan.logical_tokens
+            and estimate.output_bytes == plan.output_bytes
+            and estimate.signature == plan.signature
+        )
 
     def _available_memory_bytes(self) -> int:
         if not (torch.cuda.is_available() and self.device.type == "cuda"):
diff --git a/tests/unit/test_shared_prefix_packing.py b/tests/unit/test_shared_prefix_packing.py
index d1c17d7d8..bea1f1752 100644
--- a/tests/unit/test_shared_prefix_packing.py
+++ b/tests/unit/test_shared_prefix_packing.py
@@ -4,6 +4,7 @@
 import torch
 
 from art.megatron.shared_prefix_packing import (
+    estimate_shared_prefix_packed_tokens,
     pack_shared_prefixes,
     visualize_shared_prefix_pack,
 )
@@ -97,6 +98,51 @@ def test_packing_handles_empty_sequences() -> None:
     assert [positions.tolist() for positions in pack.positions_by_sequence] == [[], []]
 
 
+def test_packed_token_estimator_matches_real_packing() -> None:
+    cases = [
+        (torch.tensor([1, 2, 3]), torch.tensor([1, 2, 4]), torch.tensor([5])),
+        (
+            torch.tensor([1, 2, 3, 4]),
+            torch.tensor([1, 2, 3, 5]),
+            torch.tensor([1, 2, 6, 7]),
+            torch.tensor([1, 8]),
+        ),
+        (
+            torch.tensor([9, 1, 2]),
+            torch.tensor([9, 1, 3]),
+            torch.tensor([9, 4, 5]),
+            torch.tensor([6, 7]),
+            torch.tensor([], dtype=torch.long),
+        ),
+    ]
+
+    for inputs in cases:
+        for depth in range(5):
+            pack = pack_shared_prefixes(inputs, max_depth=depth)
+
+            assert estimate_shared_prefix_packed_tokens(inputs, max_depth=depth) == int(
+                pack.tokens.numel()
+            )
+
+
+def test_packed_token_estimator_matches_randomized_packing() -> None:
+    generator = torch.Generator().manual_seed(123)
+    inputs = []
+    for family in range(5):
+        prefix = torch.randint(1, 100, (4,), generator=generator)
+        for branch in range(4):
+            middle = torch.tensor([family, branch])
+            suffix = torch.randint(1, 100, (3,), generator=generator)
+            inputs.append(torch.cat((prefix, middle, suffix)))
+
+    for depth in range(5):
+        pack = pack_shared_prefixes(inputs, max_depth=depth)
+
+        assert estimate_shared_prefix_packed_tokens(inputs, max_depth=depth) == int(
+            pack.tokens.numel()
+        )
+
+
 def test_packing_rejects_non_1d_sequences() -> None:
     with pytest.raises(ValueError, match="expects 1-D tensors"):
         pack_shared_prefixes((torch.tensor([[1, 2], [3, 4]]),), max_depth=1)
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 1e8d807f4..159718146 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -169,7 +169,15 @@ def memory_check(plan):
             fits=plan.request_count <= 3,
         )
 
+    def estimate_memory_check(estimate):
+        return _MemoryCheck(
+            estimated_required_bytes=estimate.request_count,
+            available_bytes=3,
+            fits=estimate.request_count <= 3,
+        )
+
     monkeypatch.setattr(trainer, "_memory_check", memory_check)
+    monkeypatch.setattr(trainer, "_memory_check_estimate", estimate_memory_check)
     monkeypatch.setattr(
         trainer,
         "_run_flat_plan_with_memory_tracking",

From 41abffc8fffdc66faeab8f0d91b1a78a7255abc2 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 09:27:11 -0600
Subject: [PATCH 039/114] perf: speed up adaptive packed-token estimates

---
 src/art/megatron/shared_prefix_packing.py | 26 +++++++++++++++--------
 1 file changed, 17 insertions(+), 9 deletions(-)

diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index 2b4740ec7..c7253b1a6 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -3,6 +3,7 @@
 from collections.abc import Iterable
 from dataclasses import dataclass
 
+import numpy as np
 import torch
 
 
@@ -186,13 +187,17 @@ def estimate_shared_prefix_packed_tokens(
     if max_depth < 0:
         raise ValueError("max_depth must be >= 0")
 
-    tensors = tuple(_sequence_tensor(sequence) for sequence in sequences)
-    if not tensors:
+    arrays: list[np.ndarray] = []
+    for sequence in sequences:
+        tensor = _sequence_tensor(sequence)
+        if tensor.device.type != "cpu":
+            return None
+        arrays.append(tensor.numpy())
+
+    if not arrays:
         return 0
-    if any(tensor.device.type != "cpu" for tensor in tensors):
-        return None
 
-    lengths = tuple(int(tensor.numel()) for tensor in tensors)
+    lengths = tuple(int(array.shape[0]) for array in arrays)
     if max(lengths, default=0) == 0:
         return 0
 
@@ -200,13 +205,16 @@ def shared_end(indices: tuple[int, ...], start: int) -> int:
         end = min(lengths[index] for index in indices)
         if start >= end or len(indices) == 1:
             return end
-        first = tensors[indices[0]]
+        first = arrays[indices[0]]
         low = start
         high = end
         while low < high:
             mid = (low + high + 1) // 2
             prefix = first[start:mid]
-            if all(torch.equal(tensors[index][start:mid], prefix) for index in indices[1:]):
+            if all(
+                np.array_equal(arrays[index][start:mid], prefix)
+                for index in indices[1:]
+            ):
                 low = mid
             else:
                 high = mid - 1
@@ -216,7 +224,7 @@ def branch_groups(indices: tuple[int, ...], start: int) -> list[tuple[int, ...]]
         groups: dict[int, list[int]] = {}
         order: list[int] = []
         for index in indices:
-            symbol = int(tensors[index][start].item())
+            symbol = int(arrays[index][start])
             if symbol not in groups:
                 groups[symbol] = []
                 order.append(symbol)
@@ -254,7 +262,7 @@ def walk(
             for group in branch_groups(active, start)
         )
 
-    return walk(tuple(range(len(tensors))), 0, has_parent=False, depth=0)
+    return walk(tuple(range(len(arrays))), 0, has_parent=False, depth=0)
 
 
 def visualize_shared_prefix_pack(pack: SharedPrefixPack) -> str:

From e594d8a8985363ac5f2a76a4e5af3898badf6c54 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 10:49:57 -0600
Subject: [PATCH 040/114] perf: defer adaptive TrainerRank plan materialization

---
 dev/trainer_rank_perf.py                   |  11 ++
 src/art/megatron/trainer_rank.py           | 131 +++++++++++++++++----
 tests/unit/test_trainer_rank_validation.py |  16 +++
 3 files changed, 134 insertions(+), 24 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 7a91a2025..8ff218c65 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2213,6 +2213,7 @@ def timed(key: str, calls_key: str, fn: Callable[..., object], *args: object) ->
     original_memory_estimate = rank._estimate_required_memory_bytes
     original_available = rank._available_memory_bytes
     original_profile_check = rank._all_ranks_have_memory_profile
+    original_estimate_profile_check = rank._all_ranks_have_memory_profile_estimate
 
     def plan_wrapper(requests: object) -> object:
         return timed("select_plan_ms", "select_plan_calls", original_plan, requests)
@@ -2317,6 +2318,14 @@ def profile_check_wrapper(plan: object) -> object:
             plan,
         )
 
+    def estimate_profile_check_wrapper(estimate: object) -> object:
+        return timed(
+            "select_profile_check_ms",
+            "select_profile_check_calls",
+            original_estimate_profile_check,
+            estimate,
+        )
+
     rank._plan_flat_forward = plan_wrapper  # type: ignore[method-assign]
     rank._cached_adaptive_plan = cached_plan_wrapper  # type: ignore[method-assign]
     rank._estimate_flat_forward = estimate_wrapper  # type: ignore[method-assign]
@@ -2330,6 +2339,7 @@ def profile_check_wrapper(plan: object) -> object:
     rank._estimate_required_memory_bytes = memory_estimate_wrapper  # type: ignore[method-assign]
     rank._available_memory_bytes = available_wrapper  # type: ignore[method-assign]
     rank._all_ranks_have_memory_profile = profile_check_wrapper  # type: ignore[method-assign]
+    rank._all_ranks_have_memory_profile_estimate = estimate_profile_check_wrapper  # type: ignore[method-assign]
     try:
         yield stats
     finally:
@@ -2346,6 +2356,7 @@ def profile_check_wrapper(plan: object) -> object:
         rank._estimate_required_memory_bytes = original_memory_estimate  # type: ignore[method-assign]
         rank._available_memory_bytes = original_available  # type: ignore[method-assign]
         rank._all_ranks_have_memory_profile = original_profile_check  # type: ignore[method-assign]
+        rank._all_ranks_have_memory_profile_estimate = original_estimate_profile_check  # type: ignore[method-assign]
 
 
 def _timed_cuda(
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 503e47ebd..77edcaa16 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1097,31 +1097,75 @@ def estimate_check(width: int) -> _EstimatedMemoryCheck | None:
                 check=self._memory_check_estimate(estimate),
             )
 
-        first = candidate(min_width)
-        if not first.check.fits:
-            self._raise_memory_error(
-                first.plan,
-                first.check,
-                context="forward_micro_batches",
-                message="smallest DP microbatch is predicted to exceed available memory",
-            )
+        first_estimated_check = estimate_check(min_width)
+        if first_estimated_check is not None:
+            if not first_estimated_check.check.fits:
+                first = candidate(min_width, first_estimated_check)
+                self._raise_memory_error(
+                    first.plan,
+                    first.check,
+                    context="forward_micro_batches",
+                    message=(
+                        "smallest DP microbatch is predicted to exceed "
+                        "available memory"
+                    ),
+                )
+            if self._all_ranks_have_memory_profile_estimate(
+                first_estimated_check.estimate
+            ):
+                best: _CandidateMicroBatch[ForwardInputsT] | None = None
+                best_estimated_check: _EstimatedMemoryCheck | None = (
+                    first_estimated_check
+                )
+                best_width = min_width
+            else:
+                first = candidate(min_width, first_estimated_check)
+                if first.cold_start:
+                    return first
+                best = first
+                best_estimated_check = None
+                best_width = first.stats_global_count
+        else:
+            first = candidate(min_width)
+            if not first.check.fits:
+                self._raise_memory_error(
+                    first.plan,
+                    first.check,
+                    context="forward_micro_batches",
+                    message=(
+                        "smallest DP microbatch is predicted to exceed "
+                        "available memory"
+                    ),
+                )
 
-        if first.cold_start:
-            return first
+            if first.cold_start:
+                return first
 
+            best = first
+            best_estimated_check = None
+            best_width = first.stats_global_count
+        high_fail: int | None = None
         previous = self._last_global_micro_batch_size or min_width
         width = min(remaining, max(min_width, previous * 2))
-        best = first
-        high_fail: int | None = None
         while width <= remaining:
             check = estimate_check(width)
             if check is not None and not check.check.fits:
                 rejected += 1
                 high_fail = width
                 break
+            if check is not None:
+                best_width = width
+                best_estimated_check = check
+                best = None
+                if width == remaining:
+                    break
+                width = min(remaining, max(width + 1, width * 2))
+                continue
             item = candidate(width, check)
             if item.check.fits:
                 best = item
+                best_width = width
+                best_estimated_check = None
                 if width == remaining:
                     break
                 width = min(remaining, max(width + 1, width * 2))
@@ -1130,10 +1174,28 @@ def estimate_check(width: int) -> _EstimatedMemoryCheck | None:
             high_fail = width
             break
 
+        def finalize_best() -> _CandidateMicroBatch[ForwardInputsT]:
+            selected = (
+                candidate(best_width, best_estimated_check)
+                if best is None
+                or best_width != best.stats_global_count
+                or best_estimated_check is not None
+                else best
+            )
+            return _CandidateMicroBatch(
+                inputs=selected.inputs,
+                indices=selected.indices,
+                plan=selected.plan,
+                check=selected.check,
+                stats_global_count=selected.stats_global_count,
+                rejected_candidates=rejected,
+                cold_start=selected.cold_start,
+            )
+
         if high_fail is None:
-            return best
+            return finalize_best()
 
-        low = best.stats_global_count + 1
+        low = best_width + 1
         high = high_fail - 1
         while low <= high:
             mid = (low + high) // 2
@@ -1142,22 +1204,23 @@ def estimate_check(width: int) -> _EstimatedMemoryCheck | None:
                 rejected += 1
                 high = mid - 1
                 continue
+            if check is not None:
+                best_width = mid
+                best_estimated_check = check
+                best = None
+                low = mid + 1
+                continue
             item = candidate(mid, check)
             if item.check.fits:
                 best = item
+                best_width = mid
+                best_estimated_check = None
                 low = mid + 1
             else:
                 rejected += 1
                 high = mid - 1
-        return _CandidateMicroBatch(
-            inputs=best.inputs,
-            indices=best.indices,
-            plan=best.plan,
-            check=best.check,
-            stats_global_count=best.stats_global_count,
-            rejected_candidates=rejected,
-            cold_start=best.cold_start,
-        )
+
+        return finalize_best()
 
     def _cached_adaptive_plan(
         self,
@@ -1601,7 +1664,27 @@ def _available_memory_bytes(self) -> int:
         return max(0, int(free) + reusable_reserved - reserve)
 
     def _all_ranks_have_memory_profile(self, plan: _FlatForwardPlan) -> bool:
-        local = plan.packed_tokens <= 0 or plan.signature in self._memory_profiles
+        return self._all_ranks_have_memory_profile_values(
+            packed_tokens=plan.packed_tokens,
+            signature=plan.signature,
+        )
+
+    def _all_ranks_have_memory_profile_estimate(
+        self,
+        estimate: _FlatForwardEstimate,
+    ) -> bool:
+        return self._all_ranks_have_memory_profile_values(
+            packed_tokens=estimate.packed_tokens,
+            signature=estimate.signature,
+        )
+
+    def _all_ranks_have_memory_profile_values(
+        self,
+        *,
+        packed_tokens: int,
+        signature: _MemorySignature,
+    ) -> bool:
+        local = packed_tokens <= 0 or signature in self._memory_profiles
         if dist.is_available() and dist.is_initialized():
             value = torch.tensor(
                 int(local),
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 159718146..baa71d33d 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -198,6 +198,11 @@ def test_forward_micro_batches_reuses_cached_candidate_plans(
     trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
     monkeypatch.setattr(trainer, "_all_ranks_have_memory_profile", lambda plan: True)
+    monkeypatch.setattr(
+        trainer,
+        "_all_ranks_have_memory_profile_estimate",
+        lambda estimate: True,
+    )
     monkeypatch.setattr(
         trainer,
         "_run_flat_plan_with_memory_tracking",
@@ -225,6 +230,7 @@ def memory_check(plan):
 
     monkeypatch.setattr(trainer, "_plan_flat_forward", plan)
     monkeypatch.setattr(trainer, "_memory_check", memory_check)
+    monkeypatch.setattr(trainer, "_memory_check_estimate", memory_check)
     inputs = [_target_request(i) for i in range(8)]
 
     list(trainer.forward_micro_batches(inputs))
@@ -233,6 +239,7 @@ def memory_check(plan):
     list(trainer.forward_micro_batches(inputs))
 
     assert first_plan_calls > 0
+    assert first_plan_calls == 1
     assert plan_calls == first_plan_calls
     assert memory_checks > first_memory_checks
 
@@ -251,6 +258,15 @@ def test_forward_micro_batches_raises_when_smallest_batch_will_not_fit(
             fits=False,
         ),
     )
+    monkeypatch.setattr(
+        trainer,
+        "_memory_check_estimate",
+        lambda estimate: _MemoryCheck(
+            estimated_required_bytes=4,
+            available_bytes=3,
+            fits=False,
+        ),
+    )
 
     with pytest.raises(TrainerRankMemoryError, match="smallest DP microbatch"):
         next(iter(trainer.forward_micro_batches([_target_request(1)])))

From 2dade941defd6e3f24a3467bbd4d71d713b0fea5 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 10:59:28 -0600
Subject: [PATCH 041/114] fix: restore quality checks

---
 .gitignore                                    |  2 +
 dev/trainer_rank_perf.py                      |  5 ++-
 pyproject.toml                                |  2 +
 .../megatron/context_parallel/block_mask.py   |  5 ++-
 src/art/megatron/shared_prefix_packing.py     |  6 +--
 src/art/megatron/trainer_rank.py              | 34 ++++++++++-------
 tests/unit/test_trainer_rank_validation.py    | 24 +++++++++---
 typings/wandb/__init__.pyi                    | 38 +++++++++++++++++++
 typings/wandb/sdk/__init__.pyi                |  5 +++
 typings/wandb/sdk/wandb_run.pyi               |  3 ++
 10 files changed, 97 insertions(+), 27 deletions(-)
 create mode 100644 typings/wandb/__init__.pyi
 create mode 100644 typings/wandb/sdk/__init__.pyi
 create mode 100644 typings/wandb/sdk/wandb_run.pyi

diff --git a/.gitignore b/.gitignore
index d1f4ebd59..0dfae3afe 100644
--- a/.gitignore
+++ b/.gitignore
@@ -9,6 +9,8 @@ data/cache.db
 streaming-chat-completions/
 unsloth_compiled_cache/
 wandb/
+!/typings/wandb/
+!/typings/wandb/**
 docs/node_modules/
 dist/
 replays/
diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 8ff218c65..3d09e47cd 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2112,6 +2112,7 @@ def _profiled_adaptive_micro_batch_training_step_body(
                 context="target_trainer_adaptive_profile_train_step",
             ),
         )
+
         def unflatten_outputs() -> list[object]:
             flat_iter = iter(flat_outputs)
             return [_unflatten(item, flat_iter) for item in candidate.inputs]
@@ -2192,7 +2193,9 @@ def _profile_adaptive_selection(rank: TrainerRank) -> Any:
         "select_profile_check_calls": 0,
     }
 
-    def timed(key: str, calls_key: str, fn: Callable[..., object], *args: object) -> object:
+    def timed(
+        key: str, calls_key: str, fn: Callable[..., object], *args: object
+    ) -> object:
         start = time.perf_counter()
         try:
             return fn(*args)
diff --git a/pyproject.toml b/pyproject.toml
index bfa06e5d1..dd900d326 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -199,6 +199,7 @@ requires-dist = [
 
 [tool.ty.environment]
 python-version = "3.12"
+extra-paths = ["typings"]
 
 [tool.ty.rules]
 # Ignore unused-ignore-comment warnings because they vary depending on whether
@@ -229,6 +230,7 @@ allowed-unresolved-imports = [
     "peft.**",
     "pyarrow.**",
     "torch.**",
+    "torchvision.**",
     "torchao.**",
     "transformers.**",
     "trl.**",
diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 8af5f9448..219efc40f 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -213,7 +213,10 @@ def _interval_block_has_any(
         if q_state.max_abs < min_abs:
             continue
         in_subtree = (q_state.enter_values >= enter) & (q_state.enter_values < exit)
-        if bool(in_subtree.any()) and int(q_state.abs_values[in_subtree].max()) >= min_abs:
+        if (
+            bool(in_subtree.any())
+            and int(q_state.abs_values[in_subtree].max()) >= min_abs
+        ):
             return True
     return False
 
diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index c7253b1a6..658d0348f 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -241,11 +241,7 @@ def walk(
         active = tuple(index for index in indices if lengths[index] > start)
         if not active:
             return 0
-        if (
-            max_depth == 0
-            or len(active) == 1
-            or (has_parent and depth >= max_depth)
-        ):
+        if max_depth == 0 or len(active) == 1 or (has_parent and depth >= max_depth):
             return sum(lengths[index] - start for index in active)
 
         end = shared_end(active, start)
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 77edcaa16..d9455a7c8 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1106,8 +1106,7 @@ def estimate_check(width: int) -> _EstimatedMemoryCheck | None:
                     first.check,
                     context="forward_micro_batches",
                     message=(
-                        "smallest DP microbatch is predicted to exceed "
-                        "available memory"
+                        "smallest DP microbatch is predicted to exceed available memory"
                     ),
                 )
             if self._all_ranks_have_memory_profile_estimate(
@@ -1133,8 +1132,7 @@ def estimate_check(width: int) -> _EstimatedMemoryCheck | None:
                     first.check,
                     context="forward_micro_batches",
                     message=(
-                        "smallest DP microbatch is predicted to exceed "
-                        "available memory"
+                        "smallest DP microbatch is predicted to exceed available memory"
                     ),
                 )
 
@@ -1298,7 +1296,9 @@ def _dp_rank_and_size(self) -> tuple[int, int]:
         except (AssertionError, ImportError, RuntimeError, ValueError):
             return 0, 1
 
-    def _plan_flat_forward(self, requests: Sequence[AnyForwardInput]) -> _FlatForwardPlan:
+    def _plan_flat_forward(
+        self, requests: Sequence[AnyForwardInput]
+    ) -> _FlatForwardPlan:
         active_indices = [
             index
             for index, request in enumerate(requests)
@@ -1316,7 +1316,9 @@ def _plan_flat_forward(self, requests: Sequence[AnyForwardInput]) -> _FlatForwar
         output_bytes = 0
         logical_tokens = sum(int(request.input_tokens.numel()) for request in requests)
         for slot_ref, group_indices in groups.items():
-            items = tuple(self._forward_item(requests[index]) for index in group_indices)
+            items = tuple(
+                self._forward_item(requests[index]) for index in group_indices
+            )
             packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
             output_bytes += self._estimate_group_output_bytes(items)
             plans.append(
@@ -1422,9 +1424,7 @@ def _execute_flat_plan(self, plan: _FlatForwardPlan) -> list[AnyForwardOutput]:
             with self._use_slot(group.slot_ref):
                 prepared = self._prepare_packed_forward(group.packed)
                 item_outputs = self._forward_packed(group.items, prepared)
-            for index, output in zip(
-                group.request_indices, item_outputs, strict=True
-            ):
+            for index, output in zip(group.request_indices, item_outputs, strict=True):
                 outputs[index] = output
         return outputs
 
@@ -1444,8 +1444,10 @@ def _estimate_group_request_output_bytes(
             if request.target_tokens is not None:
                 total += int(request.target_tokens.numel()) * _dtype_size(torch.float32)
             if request.top_k is not None:
-                total += seq_len * int(request.top_k) * (
-                    _dtype_size(torch.float32) + _dtype_size(torch.long)
+                total += (
+                    seq_len
+                    * int(request.top_k)
+                    * (_dtype_size(torch.float32) + _dtype_size(torch.long))
                 )
             if request.logits:
                 if model is None:
@@ -1470,8 +1472,10 @@ def _estimate_group_output_bytes(self, items: Sequence[_ForwardItem]) -> int:
             if labels is not None:
                 total += int(labels.numel()) * _dtype_size(torch.float32)
             if item.request.top_k is not None:
-                total += seq_len * int(item.request.top_k) * (
-                    _dtype_size(torch.float32) + _dtype_size(torch.long)
+                total += (
+                    seq_len
+                    * int(item.request.top_k)
+                    * (_dtype_size(torch.float32) + _dtype_size(torch.long))
                 )
             if item.request.logits:
                 if model is None:
@@ -1695,7 +1699,9 @@ def _all_ranks_have_memory_profile_values(
             return bool(value.item())
         return local
 
-    def _update_memory_profile(self, plan: _FlatForwardPlan, peak_delta_bytes: int) -> None:
+    def _update_memory_profile(
+        self, plan: _FlatForwardPlan, peak_delta_bytes: int
+    ) -> None:
         if plan.packed_tokens <= 0:
             return
         compute_delta = max(0, peak_delta_bytes - plan.output_bytes)
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index baa71d33d..bdd69ffb3 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -98,7 +98,9 @@ def test_dp_rank_forward_preserves_nested_shape_for_inactive_requests() -> None:
     assert not hasattr(trainer, "micro_batches")
 
 
-def test_forward_micro_batches_uses_deterministic_dp_windows(monkeypatch: pytest.MonkeyPatch) -> None:
+def test_forward_micro_batches_uses_deterministic_dp_windows(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
     trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (1, 2))
     monkeypatch.setattr(
@@ -109,7 +111,9 @@ def test_forward_micro_batches_uses_deterministic_dp_windows(monkeypatch: pytest
         ],
     )
 
-    batches = list(trainer.forward_micro_batches([_target_request(i) for i in range(5)]))
+    batches = list(
+        trainer.forward_micro_batches([_target_request(i) for i in range(5)])
+    )
 
     assert [batch.indices for batch in batches] == [(1,), (3,), ()]
     assert [len(batch.outputs) for batch in batches] == [1, 1, 0]
@@ -136,17 +140,23 @@ def test_forward_micro_batches_outputs_match_top_level_nested_inputs(
     assert len(batch.outputs[0]) == 2
 
 
-def test_forward_micro_batches_ramps_after_first_success(monkeypatch: pytest.MonkeyPatch) -> None:
+def test_forward_micro_batches_ramps_after_first_success(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
     trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
 
     def run(plan, **_kwargs):
         trainer._memory_profiles[plan.signature] = 0.0
-        return [ForwardOutput(None, None, None, None) for _ in range(plan.request_count)]
+        return [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ]
 
     monkeypatch.setattr(trainer, "_run_flat_plan_with_memory_tracking", run)
 
-    batches = list(trainer.forward_micro_batches([_target_request(i) for i in range(8)]))
+    batches = list(
+        trainer.forward_micro_batches([_target_request(i) for i in range(8)])
+    )
 
     assert batches[0].stats.global_count == 1
     assert batches[0].stats.cold_start
@@ -186,7 +196,9 @@ def estimate_memory_check(estimate):
         ],
     )
 
-    batch = next(iter(trainer.forward_micro_batches([_target_request(i) for i in range(8)])))
+    batch = next(
+        iter(trainer.forward_micro_batches([_target_request(i) for i in range(8)]))
+    )
 
     assert batch.stats.global_count == 3
     assert batch.stats.rejected_candidates >= 1
diff --git a/typings/wandb/__init__.pyi b/typings/wandb/__init__.pyi
new file mode 100644
index 000000000..09d1c8d16
--- /dev/null
+++ b/typings/wandb/__init__.pyi
@@ -0,0 +1,38 @@
+from typing import Any
+
+class Settings:
+    def __init__(self, **kwargs: Any) -> None: ...
+
+class Artifact:
+    aliases: list[str]
+    metadata: dict[str, Any]
+    def __init__(self, name: str, type: str, **kwargs: Any) -> None: ...
+    def add_dir(self, local_path: str, **kwargs: Any) -> None: ...
+    def add_file(self, local_path: str, **kwargs: Any) -> None: ...
+    def download(self, **kwargs: Any) -> str: ...
+    def save(self) -> None: ...
+    def wait(self) -> Artifact: ...
+
+class Run:
+    entity: str
+    project: str
+    name: str
+    config: Any
+    _is_finished: bool
+    def finish(self, *args: Any, **kwargs: Any) -> None: ...
+    def define_metric(self, *args: Any, **kwargs: Any) -> None: ...
+    def log(self, *args: Any, **kwargs: Any) -> None: ...
+    def log_artifact(self, *args: Any, **kwargs: Any) -> Artifact: ...
+
+class Api:
+    default_entity: str
+    def __init__(self, *args: Any, **kwargs: Any) -> None: ...
+    def artifact(self, *args: Any, **kwargs: Any) -> Artifact: ...
+    def artifacts(self, *args: Any, **kwargs: Any) -> list[Artifact]: ...
+    def run(self, *args: Any, **kwargs: Any) -> Run: ...
+
+def init(*args: Any, **kwargs: Any) -> Run: ...
+def login(*args: Any, **kwargs: Any) -> Any: ...
+
+class errors:
+    class CommError(Exception): ...
diff --git a/typings/wandb/sdk/__init__.pyi b/typings/wandb/sdk/__init__.pyi
new file mode 100644
index 000000000..1ce9ecf99
--- /dev/null
+++ b/typings/wandb/sdk/__init__.pyi
@@ -0,0 +1,5 @@
+from typing import Any
+
+__all__: list[str]
+
+def __getattr__(name: str) -> Any: ...
diff --git a/typings/wandb/sdk/wandb_run.pyi b/typings/wandb/sdk/wandb_run.pyi
new file mode 100644
index 000000000..416ae101e
--- /dev/null
+++ b/typings/wandb/sdk/wandb_run.pyi
@@ -0,0 +1,3 @@
+from wandb import Run
+
+__all__ = ["Run"]

From 333bc00537ad59da6ba59f5f185ed9d7a67dd2bc Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 11:40:01 -0600
Subject: [PATCH 042/114] test: add TrainerRank weird-shape fast gate

---
 dev/trainer_rank_fast_check.py               |  26 ++
 src/art/megatron/trainer_rank.py             | 146 ++++----
 tests/unit/test_trainer_rank_weird_shapes.py | 342 +++++++++++++++++++
 3 files changed, 441 insertions(+), 73 deletions(-)
 create mode 100644 dev/trainer_rank_fast_check.py
 create mode 100644 tests/unit/test_trainer_rank_weird_shapes.py

diff --git a/dev/trainer_rank_fast_check.py b/dev/trainer_rank_fast_check.py
new file mode 100644
index 000000000..ecd861d2b
--- /dev/null
+++ b/dev/trainer_rank_fast_check.py
@@ -0,0 +1,26 @@
+from __future__ import annotations
+
+import subprocess
+import sys
+
+
+FAST_TESTS = (
+    "tests/unit/test_trainer_rank_validation.py",
+    "tests/unit/test_trainer_rank_weird_shapes.py",
+    "tests/unit/test_shared_prefix_packing.py",
+    "tests/unit/test_shared_prefix_tree.py",
+    "tests/unit/test_shared_prefix_attention_builder.py",
+    "tests/unit/test_shared_prefix_grad_parity.py",
+)
+
+
+def main() -> None:
+    raise SystemExit(
+        subprocess.call(
+            [sys.executable, "-m", "pytest", "--tb=short", *FAST_TESTS, *sys.argv[1:]]
+        )
+    )
+
+
+if __name__ == "__main__":
+    main()
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index d9455a7c8..c81367694 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1,7 +1,14 @@
 from __future__ import annotations
 
 from collections import Counter
-from collections.abc import Callable, Iterable, Iterator, MutableMapping, Sequence
+from collections.abc import (
+    Callable,
+    Iterable,
+    Iterator,
+    Mapping,
+    MutableMapping,
+    Sequence,
+)
 from contextlib import contextmanager
 from dataclasses import dataclass
 from itertools import zip_longest
@@ -1299,28 +1306,18 @@ def _dp_rank_and_size(self) -> tuple[int, int]:
     def _plan_flat_forward(
         self, requests: Sequence[AnyForwardInput]
     ) -> _FlatForwardPlan:
-        active_indices = [
-            index
-            for index, request in enumerate(requests)
-            if request.target_tokens is not None
-            or request.logits
-            or request.top_k is not None
-            or request.hidden_states
-        ]
-
-        groups: dict[LoRASlotRef | None, list[int]] = {}
-        for index in active_indices:
-            groups.setdefault(self._resolve_slot_ref(requests[index]), []).append(index)
-
         plans: list[_ForwardGroupPlan] = []
         output_bytes = 0
         logical_tokens = sum(int(request.input_tokens.numel()) for request in requests)
-        for slot_ref, group_indices in groups.items():
+        groups = self._group_active_request_indices(requests)
+        for slot_ref, group_indices in groups:
             items = tuple(
                 self._forward_item(requests[index]) for index in group_indices
             )
             packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
-            output_bytes += self._estimate_group_output_bytes(items)
+            output_bytes += self._estimate_group_request_output_bytes(
+                [item.request for item in items]
+            )
             plans.append(
                 _ForwardGroupPlan(
                     slot_ref=slot_ref,
@@ -1342,23 +1339,11 @@ def _plan_flat_forward(
     def _estimate_flat_forward(
         self, requests: Sequence[AnyForwardInput]
     ) -> _FlatForwardEstimate | None:
-        active_indices = [
-            index
-            for index, request in enumerate(requests)
-            if request.target_tokens is not None
-            or request.logits
-            or request.top_k is not None
-            or request.hidden_states
-        ]
-
-        groups: dict[LoRASlotRef | None, list[int]] = {}
-        for index in active_indices:
-            groups.setdefault(self._resolve_slot_ref(requests[index]), []).append(index)
-
+        groups = self._group_active_request_indices(requests)
         packed_tokens = 0
         output_bytes = 0
         logical_tokens = sum(int(request.input_tokens.numel()) for request in requests)
-        for group_indices in groups.values():
+        for _, group_indices in groups:
             group_packed_tokens = estimate_shared_prefix_packed_tokens(
                 (requests[index].input_tokens for index in group_indices),
                 max_depth=self.shared_prefix_max_depth,
@@ -1381,6 +1366,16 @@ def _estimate_flat_forward(
             ),
         )
 
+    def _group_active_request_indices(
+        self,
+        requests: Sequence[AnyForwardInput],
+    ) -> tuple[tuple["LoRASlotRef | None", tuple[int, ...]], ...]:
+        groups: dict[LoRASlotRef | None, list[int]] = {}
+        for index, request in enumerate(requests):
+            if _request_has_outputs(request):
+                groups.setdefault(self._resolve_slot_ref(request), []).append(index)
+        return tuple((slot_ref, tuple(indices)) for slot_ref, indices in groups.items())
+
     def _run_flat_plan_with_memory_tracking(
         self,
         plan: _FlatForwardPlan,
@@ -1458,34 +1453,6 @@ def _estimate_group_request_output_bytes(
                 total += seq_len * hidden_size * dtype_size
         return total
 
-    def _estimate_group_output_bytes(self, items: Sequence[_ForwardItem]) -> int:
-        model: GPTModel | None
-        try:
-            model = _language_model(self.runtime.model[0])
-        except RuntimeError:
-            model = None
-        dtype_size = _dtype_size(next(self.runtime.model[0].parameters()).dtype)
-        total = 0
-        for item in items:
-            seq_len = int(item.input_ids.numel())
-            labels = item.labels
-            if labels is not None:
-                total += int(labels.numel()) * _dtype_size(torch.float32)
-            if item.request.top_k is not None:
-                total += (
-                    seq_len
-                    * int(item.request.top_k)
-                    * (_dtype_size(torch.float32) + _dtype_size(torch.long))
-                )
-            if item.request.logits:
-                if model is None:
-                    raise RuntimeError("logits output memory requires a GPT model")
-                total += seq_len * _padded_vocab_size(model) * dtype_size
-            if item.request.hidden_states:
-                hidden_size = _hidden_size(model, self.runtime.provider)
-                total += seq_len * hidden_size * dtype_size
-        return total
-
     def _memory_signature(
         self,
         requests: Sequence[AnyForwardInput],
@@ -1504,18 +1471,7 @@ def _memory_signature_from_requests(
     ) -> _MemorySignature:
         mix = Counter[str]()
         for request in requests:
-            parts = []
-            if request.target_tokens is not None:
-                target = request.target_tokens
-                tail_shape = tuple(target.shape[request.input_tokens.ndim :])
-                parts.append(f"target:{tail_shape or 'single'}")
-            if request.top_k is not None:
-                parts.append(f"topk:{int(request.top_k)}")
-            if request.logits:
-                parts.append("logits")
-            if request.hidden_states:
-                parts.append("hidden")
-            mix["+".join(parts) if parts else "inactive"] += 1
+            mix[_request_mix_key(request)] += 1
         return _MemorySignature(
             topology=self._topology_key(),
             shared_prefix_max_depth=self.shared_prefix_max_depth,
@@ -2503,6 +2459,30 @@ def _validate_top_k(top_k: int | None, model: "GPTModel") -> None:
         raise ValueError(f"top_k={top_k} exceeds vocabulary size {vocab_size}")
 
 
+def _request_has_outputs(request: AnyForwardInput) -> bool:
+    return (
+        request.target_tokens is not None
+        or request.logits
+        or request.top_k is not None
+        or request.hidden_states
+    )
+
+
+def _request_mix_key(request: AnyForwardInput) -> str:
+    parts = []
+    if request.target_tokens is not None:
+        target = request.target_tokens
+        tail_shape = tuple(target.shape[request.input_tokens.ndim :])
+        parts.append(f"target:{tail_shape or 'single'}")
+    if request.top_k is not None:
+        parts.append(f"topk:{int(request.top_k)}")
+    if request.logits:
+        parts.append("logits")
+    if request.hidden_states:
+        parts.append("hidden")
+    return "+".join(parts) if parts else "inactive"
+
+
 def _is_native_target_only(items: Sequence[_ForwardItem]) -> bool:
     return all(
         item.labels is not None
@@ -3263,14 +3243,14 @@ def _batch_seq_logits(logits: torch.Tensor, *, seq_len: int) -> torch.Tensor:
 def _materialize(inputs: ForwardInputs) -> ForwardInputs:
     if isinstance(inputs, ForwardInput):
         return inputs
-    return [_materialize(item) for item in inputs]
+    return [_materialize(item) for item in _nested_forward_children(inputs)]
 
 
 def _flatten(inputs: ForwardInputs) -> Iterator[AnyForwardInput]:
     if isinstance(inputs, ForwardInput):
         yield inputs
         return
-    for item in inputs:
+    for item in _nested_forward_children(inputs):
         yield from _flatten(item)
 
 
@@ -3279,7 +3259,27 @@ def _unflatten(
 ) -> ForwardOutputs:
     if isinstance(template, ForwardInput):
         return next(outputs)
-    return [_unflatten(item, outputs) for item in template]
+    return [_unflatten(item, outputs) for item in _nested_forward_children(template)]
+
+
+def _nested_forward_children(inputs: ForwardInputs) -> Iterator[ForwardInputs]:
+    if isinstance(inputs, Mapping):
+        raise TypeError(
+            "dict was passed directly to TrainerRank; gather or materialize the "
+            "values into a list/tuple so nested forward output ordering is explicit"
+        )
+    if isinstance(inputs, str | bytes):
+        raise TypeError(
+            "TrainerRank forward inputs must be ForwardInput objects or nested "
+            "iterables of ForwardInput objects, not strings"
+        )
+    try:
+        return iter(cast(Iterable[ForwardInputs], inputs))
+    except TypeError as exc:
+        raise TypeError(
+            "TrainerRank forward inputs must be ForwardInput objects or nested "
+            "iterables of ForwardInput objects"
+        ) from exc
 
 
 __all__ = [
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
new file mode 100644
index 000000000..4c240c30a
--- /dev/null
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -0,0 +1,342 @@
+from __future__ import annotations
+
+from collections.abc import Iterable
+from types import SimpleNamespace
+
+import pytest
+import torch
+
+from art.megatron.shared_prefix_packing import (
+    estimate_shared_prefix_packed_tokens,
+    pack_shared_prefixes,
+)
+from art.megatron.trainer_rank import (
+    ForwardInput,
+    ForwardOutput,
+    TopK,
+    TrainerRank,
+    TrainerRankMemoryError,
+    Unset,
+    _MemoryCheck,
+    _flatten,
+)
+
+
+class _FakeGPT(torch.nn.Module):
+    def __init__(self, *, hidden_size: int = 8, vocab_size: int = 32) -> None:
+        super().__init__()
+        self.weight = torch.nn.Parameter(torch.zeros((), dtype=torch.float16))
+        self.config = SimpleNamespace(
+            hidden_size=hidden_size,
+            num_layers=4,
+            padded_vocab_size=vocab_size,
+        )
+        self.decoder = object()
+
+    def _preprocess(self, *args: object, **kwargs: object) -> None:
+        return None
+
+
+def _runtime() -> SimpleNamespace:
+    return SimpleNamespace(
+        model=[_FakeGPT()],
+        optimizer=None,
+        provider=SimpleNamespace(hidden_size=8, num_layers=4),
+        model_support_handler=SimpleNamespace(build_gdn_execution_spec=True),
+    )
+
+
+def _tokens(*values: int) -> torch.Tensor:
+    return torch.tensor(values, dtype=torch.long)
+
+
+def _target_request(
+    tokens: torch.Tensor,
+    *,
+    target_count: int = 1,
+    top_k: int | None = None,
+    logits: bool = False,
+    hidden_states: bool = False,
+    checkpoint: object = Unset,
+    lora: object = Unset,
+) -> ForwardInput:
+    labels = tokens if target_count == 1 else torch.stack(
+        tuple(tokens + offset for offset in range(target_count)),
+        dim=-1,
+    )
+    return ForwardInput(
+        input_tokens=tokens,
+        target_tokens=labels,
+        top_k=top_k,
+        logits=logits,
+        hidden_states=hidden_states,
+        checkpoint=checkpoint,  # type: ignore[arg-type]
+        lora=lora,  # type: ignore[arg-type]
+    )
+
+
+def _ternary_tree_sequences() -> tuple[torch.Tensor, ...]:
+    # Shape: shared root, two continuation branches, and terminal nodes at
+    # several depths. This mirrors prompt -> continuation A/B -> terminal data.
+    root = [10, 11, 12]
+    left = root + [20, 21]
+    right = root + [30, 31, 32]
+    return (
+        _tokens(*(root + [1])),
+        _tokens(*(left + [2])),
+        _tokens(*(left + [3, 4])),
+        _tokens(*(right + [5])),
+        _tokens(*(right + [6, 7])),
+        _tokens(80, 81),
+    )
+
+
+def _vineppo_like_inputs() -> list[list[ForwardInput]]:
+    groups: list[list[ForwardInput]] = []
+    for prompt_index in range(4):
+        prompt = [100 + prompt_index, 200 + prompt_index, 201 + prompt_index]
+        trajectories = []
+        for branch_index, completion_len in enumerate((1, 2, 4)):
+            completion = [300 + branch_index] * completion_len
+            tokens = _tokens(*(prompt + completion))
+            trajectories.append(
+                _target_request(
+                    tokens,
+                    target_count=2 if branch_index == 2 else 1,
+                    top_k=5 if branch_index == 1 else None,
+                    hidden_states=branch_index == 0,
+                )
+            )
+        groups.append(trajectories)
+    return groups
+
+
+def _random_tree_sequences(seed: int, *, max_depth: int) -> tuple[torch.Tensor, ...]:
+    generator = torch.Generator().manual_seed(seed)
+    out: list[torch.Tensor] = []
+
+    def randint(low: int, high: int) -> int:
+        return int(torch.randint(low, high + 1, (), generator=generator).item())
+
+    def segment(depth: int) -> list[int]:
+        return [depth * 100 + randint(1, 40) for _ in range(randint(1, 4))]
+
+    def walk(prefix: list[int], depth: int) -> None:
+        if depth >= max_depth or randint(0, 2) == 0:
+            out.append(_tokens(*(prefix + segment(depth))))
+            return
+        shared = prefix + segment(depth)
+        out.append(_tokens(*shared))
+        walk(shared + [10 + depth], depth + 1)
+        walk(shared + [20 + depth], depth + 1)
+
+    walk([], 0)
+    return tuple(out)
+
+
+@pytest.mark.parametrize("max_depth", (0, 1, 2, 4))
+def test_pack_estimator_matches_ternary_and_random_trees(max_depth: int) -> None:
+    cases = [
+        _ternary_tree_sequences(),
+        _random_tree_sequences(3, max_depth=4),
+        _random_tree_sequences(99, max_depth=5),
+    ]
+
+    for sequences in cases:
+        pack = pack_shared_prefixes(sequences, max_depth=max_depth)
+
+        assert estimate_shared_prefix_packed_tokens(sequences, max_depth=max_depth) == int(
+            pack.tokens.numel()
+        )
+        for sequence, positions in zip(sequences, pack.positions_by_sequence, strict=True):
+            torch.testing.assert_close(pack.tokens.reshape(-1)[positions], sequence)
+
+
+def test_planner_handles_vineppo_nested_shape_and_request_mix() -> None:
+    rank = TrainerRank(_runtime(), shared_prefix_max_depth=3)  # type: ignore[arg-type]
+    inputs = _vineppo_like_inputs()
+    flat = list(_flatten(inputs))
+
+    plan = rank._plan_flat_forward(flat)
+    estimate = rank._estimate_flat_forward(flat)
+
+    assert estimate is not None
+    assert rank._estimate_matches_plan(estimate, plan)
+    assert plan.request_count == 12
+    assert plan.signature.request_mix == (
+        ("target:(2,)", 1),
+        ("target:single+hidden", 1),
+        ("target:single+topk:5", 1),
+    )
+
+
+def test_forward_micro_batches_preserves_nested_vineppo_groups(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime(), shared_prefix_max_depth=2)  # type: ignore[arg-type]
+    monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda plan: True)
+    monkeypatch.setattr(
+        rank,
+        "_all_ranks_have_memory_profile_estimate",
+        lambda estimate: True,
+    )
+    monkeypatch.setattr(
+        rank,
+        "_memory_check_estimate",
+        lambda estimate: _MemoryCheck(estimate.request_count, 10, True),
+    )
+    monkeypatch.setattr(
+        rank,
+        "_memory_check",
+        lambda plan: _MemoryCheck(plan.request_count, 10, True),
+    )
+    monkeypatch.setattr(
+        rank,
+        "_run_flat_plan_with_memory_tracking",
+        lambda plan, **_kwargs: [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ],
+    )
+    groups = _vineppo_like_inputs()
+
+    micro_batches = list(rank.forward_micro_batches(groups))
+
+    assert [batch.indices for batch in micro_batches] == [(0, 1, 2, 3)]
+    assert micro_batches[0].select(groups) == groups
+    assert len(micro_batches[0].outputs) == 4
+    assert all(
+        isinstance(group_outputs, list) and len(group_outputs) == 3
+        for group_outputs in micro_batches[0].outputs
+    )
+
+
+def test_heterogeneous_slots_split_packing_without_losing_output_estimates(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime(), shared_prefix_max_depth=4)  # type: ignore[arg-type]
+    monkeypatch.setattr(
+        TrainerRank,
+        "_slot_ref",
+        staticmethod(lambda kind, name: (kind, name)),
+    )
+    rank.set_checkpoint("student")
+    requests = [
+        _target_request(_tokens(1, 2, 3), top_k=3),
+        _target_request(_tokens(1, 2, 4), checkpoint=None, logits=True),
+        _target_request(_tokens(1, 2, 5), lora="teacher", hidden_states=True),
+        _target_request(_tokens(1, 2, 6), checkpoint="critic", target_count=4),
+    ]
+
+    plan = rank._plan_flat_forward(requests)
+    estimate = rank._estimate_flat_forward(requests)
+
+    assert estimate is not None
+    assert rank._estimate_matches_plan(estimate, plan)
+    assert plan.signature.slot_group_count == 4
+    assert {group.slot_ref for group in plan.groups} == {
+        ("checkpoint", "student"),
+        ("checkpoint", None),
+        ("lora", "teacher"),
+        ("checkpoint", "critic"),
+    }
+
+
+def test_dp_uneven_tail_yields_empty_rank_batch(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (3, 4))
+    monkeypatch.setattr(
+        rank,
+        "_run_flat_plan_with_memory_tracking",
+        lambda plan, **_kwargs: [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ],
+    )
+
+    batches = list(
+        rank.forward_micro_batches(
+            [_target_request(_tokens(i, i + 1)) for i in range(5)]
+        )
+    )
+
+    assert [batch.indices for batch in batches] == [(3,), ()]
+    assert [batch.stats.local_count for batch in batches] == [1, 0]
+
+
+def test_dp_rank_forward_raises_before_expected_oom(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(
+        rank,
+        "_memory_check",
+        lambda plan: _MemoryCheck(
+            estimated_required_bytes=plan.output_bytes + 1,
+            available_bytes=plan.output_bytes,
+            fits=False,
+        ),
+    )
+
+    with pytest.raises(TrainerRankMemoryError, match="dp_rank_forward"):
+        rank.dp_rank_forward(
+            [_target_request(_tokens(1, 2, 3), logits=True, hidden_states=True)]
+        )
+
+
+def test_memory_error_includes_actionable_shape_context(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(
+        rank,
+        "_memory_check_estimate",
+        lambda estimate: _MemoryCheck(99, 1, False),
+    )
+    monkeypatch.setattr(rank, "_memory_check", lambda plan: _MemoryCheck(99, 1, False))
+
+    with pytest.raises(TrainerRankMemoryError) as exc_info:
+        next(
+            iter(
+                rank.forward_micro_batches(
+                    [_target_request(_tokens(1, 2, 3), logits=True)]
+                )
+            )
+        )
+
+    message = str(exc_info.value)
+    assert "packed_tokens=" in message
+    assert "logical_tokens=" in message
+    assert "output_gb=" in message
+    assert "Use smaller top-level items" in message
+
+
+def test_topk_output_memory_scales_with_requested_k() -> None:
+    rank = TrainerRank(_runtime())  # type: ignore[arg-type]
+    tokens = _tokens(1, 2, 3, 4)
+
+    small = rank._plan_flat_forward([_target_request(tokens, top_k=1)])
+    large = rank._plan_flat_forward([_target_request(tokens, top_k=7)])
+
+    assert large.output_bytes - small.output_bytes == 4 * 6 * (4 + 8)
+
+
+def test_flatten_rejects_dicts_to_avoid_silent_top_level_shape_changes() -> None:
+    with pytest.raises(TypeError, match="dict was passed directly"):
+        list(_flatten({"bad": _target_request(_tokens(1, 2))}))  # type: ignore[arg-type]
+
+
+def test_no_output_requests_do_not_pack_or_consume_compute_memory() -> None:
+    rank = TrainerRank(_runtime())  # type: ignore[arg-type]
+    requests: Iterable[ForwardInput] = [
+        ForwardInput(input_tokens=_tokens(1, 2, 3)),
+        ForwardInput(input_tokens=_tokens(1, 2, 4)),
+    ]
+
+    plan = rank._plan_flat_forward(list(requests))
+
+    assert plan.groups == ()
+    assert plan.packed_tokens == 0
+    assert rank._estimate_required_memory_bytes(plan) == 0

From 6581afd77b42e19d474536030735fcddaa35e3b8 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 11:47:06 -0600
Subject: [PATCH 043/114] fix: format TrainerRank fast gate

---
 dev/trainer_rank_fast_check.py               |  1 -
 tests/unit/test_trainer_rank_weird_shapes.py | 22 +++++++++++++-------
 2 files changed, 14 insertions(+), 9 deletions(-)

diff --git a/dev/trainer_rank_fast_check.py b/dev/trainer_rank_fast_check.py
index ecd861d2b..51372d7d8 100644
--- a/dev/trainer_rank_fast_check.py
+++ b/dev/trainer_rank_fast_check.py
@@ -3,7 +3,6 @@
 import subprocess
 import sys
 
-
 FAST_TESTS = (
     "tests/unit/test_trainer_rank_validation.py",
     "tests/unit/test_trainer_rank_weird_shapes.py",
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 4c240c30a..cb69118fe 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -17,8 +17,8 @@
     TrainerRank,
     TrainerRankMemoryError,
     Unset,
-    _MemoryCheck,
     _flatten,
+    _MemoryCheck,
 )
 
 
@@ -60,9 +60,13 @@ def _target_request(
     checkpoint: object = Unset,
     lora: object = Unset,
 ) -> ForwardInput:
-    labels = tokens if target_count == 1 else torch.stack(
-        tuple(tokens + offset for offset in range(target_count)),
-        dim=-1,
+    labels = (
+        tokens
+        if target_count == 1
+        else torch.stack(
+            tuple(tokens + offset for offset in range(target_count)),
+            dim=-1,
+        )
     )
     return ForwardInput(
         input_tokens=tokens,
@@ -145,10 +149,12 @@ def test_pack_estimator_matches_ternary_and_random_trees(max_depth: int) -> None
     for sequences in cases:
         pack = pack_shared_prefixes(sequences, max_depth=max_depth)
 
-        assert estimate_shared_prefix_packed_tokens(sequences, max_depth=max_depth) == int(
-            pack.tokens.numel()
-        )
-        for sequence, positions in zip(sequences, pack.positions_by_sequence, strict=True):
+        assert estimate_shared_prefix_packed_tokens(
+            sequences, max_depth=max_depth
+        ) == int(pack.tokens.numel())
+        for sequence, positions in zip(
+            sequences, pack.positions_by_sequence, strict=True
+        ):
             torch.testing.assert_close(pack.tokens.reshape(-1)[positions], sequence)
 
 

From d48e5768ffdc442db12d49b45bd3a5674a672d1e Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 12:46:32 -0600
Subject: [PATCH 044/114] refactor: extract TrainerRank adaptive planner

---
 src/art/megatron/trainer_rank.py             | 230 +++----------------
 src/art/megatron/trainer_rank_planner.py     | 214 +++++++++++++++++
 tests/unit/test_trainer_rank_weird_shapes.py |  56 +++++
 3 files changed, 300 insertions(+), 200 deletions(-)
 create mode 100644 src/art/megatron/trainer_rank_planner.py

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index c81367694..8bf895fb3 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -23,6 +23,11 @@
     estimate_shared_prefix_packed_tokens,
     pack_shared_prefixes,
 )
+from art.megatron.trainer_rank_planner import (
+    _CandidateMicroBatch,
+    _MemoryCheck,
+    select_next_micro_batch,
+)
 
 if TYPE_CHECKING:
     from megatron.bridge.models.gpt_provider import GPTModelProvider
@@ -462,30 +467,6 @@ class _AdaptivePlanCacheKey:
     shared_prefix_max_depth: int
 
 
-@dataclass(frozen=True)
-class _MemoryCheck:
-    estimated_required_bytes: int
-    available_bytes: int
-    fits: bool
-
-
-@dataclass(frozen=True)
-class _CandidateMicroBatch(Generic[ForwardInputsT]):
-    inputs: Sequence[ForwardInputsT]
-    indices: tuple[int, ...]
-    plan: _FlatForwardPlan
-    check: _MemoryCheck
-    stats_global_count: int
-    rejected_candidates: int
-    cold_start: bool
-
-
-@dataclass(frozen=True)
-class _EstimatedMemoryCheck:
-    estimate: _FlatForwardEstimate
-    check: _MemoryCheck
-
-
 class TrainerRank:
     def __init__(
         self,
@@ -1049,183 +1030,32 @@ def _select_next_micro_batch(
         self,
         items: Sequence[ForwardInputsT],
         start: int,
-    ) -> _CandidateMicroBatch[ForwardInputsT]:
+    ) -> _CandidateMicroBatch[ForwardInputsT, _FlatForwardPlan]:
         dp_rank, dp_size = self._dp_rank_and_size()
-        remaining = len(items) - start
-        min_width = min(dp_size, remaining)
-        if min_width <= 0:
-            raise RuntimeError("cannot select an empty microbatch window")
-
-        cache: dict[int, _CandidateMicroBatch[ForwardInputsT]] = {}
-        rejected = 0
-
-        def candidate(
-            width: int,
-            estimated_check: _EstimatedMemoryCheck | None = None,
-        ) -> _CandidateMicroBatch[ForwardInputsT]:
-            nonlocal rejected
-            width = max(min_width, min(width, remaining))
-            cached = cache.get(width)
-            if cached is not None:
-                return cached
-            stop = start + width
-            indices = tuple(range(start + dp_rank, stop, dp_size))
-            local_inputs = [items[index] for index in indices]
-            plan = self._cached_adaptive_plan(items, indices, local_inputs)
-            check = (
-                estimated_check.check
-                if estimated_check is not None
-                and self._estimate_matches_plan(estimated_check.estimate, plan)
-                else self._memory_check(plan)
-            )
-            cold_start = not self._all_ranks_have_memory_profile(plan)
-            item = _CandidateMicroBatch(
-                inputs=local_inputs,
-                indices=indices,
-                plan=plan,
-                check=check,
-                stats_global_count=width,
-                rejected_candidates=rejected,
-                cold_start=cold_start,
-            )
-            cache[width] = item
-            return item
-
-        def estimate_check(width: int) -> _EstimatedMemoryCheck | None:
-            width = max(min_width, min(width, remaining))
-            stop = start + width
-            indices = tuple(range(start + dp_rank, stop, dp_size))
-            local_inputs = [items[index] for index in indices]
-            estimate = self._cached_adaptive_estimate(items, indices, local_inputs)
-            if estimate is None:
-                return None
-            return _EstimatedMemoryCheck(
-                estimate=estimate,
-                check=self._memory_check_estimate(estimate),
-            )
-
-        first_estimated_check = estimate_check(min_width)
-        if first_estimated_check is not None:
-            if not first_estimated_check.check.fits:
-                first = candidate(min_width, first_estimated_check)
-                self._raise_memory_error(
-                    first.plan,
-                    first.check,
-                    context="forward_micro_batches",
-                    message=(
-                        "smallest DP microbatch is predicted to exceed available memory"
-                    ),
-                )
-            if self._all_ranks_have_memory_profile_estimate(
-                first_estimated_check.estimate
-            ):
-                best: _CandidateMicroBatch[ForwardInputsT] | None = None
-                best_estimated_check: _EstimatedMemoryCheck | None = (
-                    first_estimated_check
-                )
-                best_width = min_width
-            else:
-                first = candidate(min_width, first_estimated_check)
-                if first.cold_start:
-                    return first
-                best = first
-                best_estimated_check = None
-                best_width = first.stats_global_count
-        else:
-            first = candidate(min_width)
-            if not first.check.fits:
-                self._raise_memory_error(
-                    first.plan,
-                    first.check,
-                    context="forward_micro_batches",
-                    message=(
-                        "smallest DP microbatch is predicted to exceed available memory"
-                    ),
-                )
-
-            if first.cold_start:
-                return first
-
-            best = first
-            best_estimated_check = None
-            best_width = first.stats_global_count
-        high_fail: int | None = None
-        previous = self._last_global_micro_batch_size or min_width
-        width = min(remaining, max(min_width, previous * 2))
-        while width <= remaining:
-            check = estimate_check(width)
-            if check is not None and not check.check.fits:
-                rejected += 1
-                high_fail = width
-                break
-            if check is not None:
-                best_width = width
-                best_estimated_check = check
-                best = None
-                if width == remaining:
-                    break
-                width = min(remaining, max(width + 1, width * 2))
-                continue
-            item = candidate(width, check)
-            if item.check.fits:
-                best = item
-                best_width = width
-                best_estimated_check = None
-                if width == remaining:
-                    break
-                width = min(remaining, max(width + 1, width * 2))
-                continue
-            rejected += 1
-            high_fail = width
-            break
-
-        def finalize_best() -> _CandidateMicroBatch[ForwardInputsT]:
-            selected = (
-                candidate(best_width, best_estimated_check)
-                if best is None
-                or best_width != best.stats_global_count
-                or best_estimated_check is not None
-                else best
-            )
-            return _CandidateMicroBatch(
-                inputs=selected.inputs,
-                indices=selected.indices,
-                plan=selected.plan,
-                check=selected.check,
-                stats_global_count=selected.stats_global_count,
-                rejected_candidates=rejected,
-                cold_start=selected.cold_start,
-            )
-
-        if high_fail is None:
-            return finalize_best()
-
-        low = best_width + 1
-        high = high_fail - 1
-        while low <= high:
-            mid = (low + high) // 2
-            check = estimate_check(mid)
-            if check is not None and not check.check.fits:
-                rejected += 1
-                high = mid - 1
-                continue
-            if check is not None:
-                best_width = mid
-                best_estimated_check = check
-                best = None
-                low = mid + 1
-                continue
-            item = candidate(mid, check)
-            if item.check.fits:
-                best = item
-                best_width = mid
-                best_estimated_check = None
-                low = mid + 1
-            else:
-                rejected += 1
-                high = mid - 1
-
-        return finalize_best()
+        return select_next_micro_batch(
+            items,
+            start,
+            dp_rank=dp_rank,
+            dp_size=dp_size,
+            previous_global_micro_batch_size=self._last_global_micro_batch_size,
+            plan_for_local_inputs=lambda indices, local_inputs: (
+                self._cached_adaptive_plan(items, indices, local_inputs)
+            ),
+            estimate_for_local_inputs=lambda indices, local_inputs: (
+                self._cached_adaptive_estimate(items, indices, local_inputs)
+            ),
+            memory_check=self._memory_check,
+            memory_check_estimate=self._memory_check_estimate,
+            estimate_matches_plan=self._estimate_matches_plan,
+            has_memory_profile=self._all_ranks_have_memory_profile,
+            has_memory_profile_estimate=self._all_ranks_have_memory_profile_estimate,
+            raise_smallest_batch_error=lambda plan, check: self._raise_memory_error(
+                plan,
+                check,
+                context="forward_micro_batches",
+                message="smallest DP microbatch is predicted to exceed available memory",
+            ),
+        )
 
     def _cached_adaptive_plan(
         self,
diff --git a/src/art/megatron/trainer_rank_planner.py b/src/art/megatron/trainer_rank_planner.py
new file mode 100644
index 000000000..253487976
--- /dev/null
+++ b/src/art/megatron/trainer_rank_planner.py
@@ -0,0 +1,214 @@
+from __future__ import annotations
+
+from collections.abc import Callable, Sequence
+from dataclasses import dataclass
+from typing import Generic, TypeVar
+
+InputT = TypeVar("InputT")
+PlanT = TypeVar("PlanT")
+EstimateT = TypeVar("EstimateT")
+
+
+@dataclass(frozen=True)
+class _MemoryCheck:
+    estimated_required_bytes: int
+    available_bytes: int
+    fits: bool
+
+
+@dataclass(frozen=True)
+class _CandidateMicroBatch(Generic[InputT, PlanT]):
+    inputs: Sequence[InputT]
+    indices: tuple[int, ...]
+    plan: PlanT
+    check: _MemoryCheck
+    stats_global_count: int
+    rejected_candidates: int
+    cold_start: bool
+
+
+@dataclass(frozen=True)
+class _EstimatedMemoryCheck(Generic[EstimateT]):
+    estimate: EstimateT
+    check: _MemoryCheck
+
+
+def select_next_micro_batch(
+    items: Sequence[InputT],
+    start: int,
+    *,
+    dp_rank: int,
+    dp_size: int,
+    previous_global_micro_batch_size: int | None,
+    plan_for_local_inputs: Callable[[tuple[int, ...], Sequence[InputT]], PlanT],
+    estimate_for_local_inputs: Callable[
+        [tuple[int, ...], Sequence[InputT]], EstimateT | None
+    ],
+    memory_check: Callable[[PlanT], _MemoryCheck],
+    memory_check_estimate: Callable[[EstimateT], _MemoryCheck],
+    estimate_matches_plan: Callable[[EstimateT, PlanT], bool],
+    has_memory_profile: Callable[[PlanT], bool],
+    has_memory_profile_estimate: Callable[[EstimateT], bool],
+    raise_smallest_batch_error: Callable[[PlanT, _MemoryCheck], None],
+) -> _CandidateMicroBatch[InputT, PlanT]:
+    remaining = len(items) - start
+    min_width = min(dp_size, remaining)
+    if min_width <= 0:
+        raise RuntimeError("cannot select an empty microbatch window")
+
+    cache: dict[int, _CandidateMicroBatch[InputT, PlanT]] = {}
+    rejected = 0
+
+    def clamp_width(width: int) -> int:
+        return max(min_width, min(width, remaining))
+
+    def local_slice(width: int) -> tuple[tuple[int, ...], list[InputT]]:
+        stop = start + clamp_width(width)
+        indices = tuple(range(start + dp_rank, stop, dp_size))
+        return indices, [items[index] for index in indices]
+
+    def candidate(
+        width: int,
+        estimated_check: _EstimatedMemoryCheck[EstimateT] | None = None,
+    ) -> _CandidateMicroBatch[InputT, PlanT]:
+        width = clamp_width(width)
+        cached = cache.get(width)
+        if cached is not None:
+            return cached
+        indices, local_inputs = local_slice(width)
+        plan = plan_for_local_inputs(indices, local_inputs)
+        check = (
+            estimated_check.check
+            if estimated_check is not None
+            and estimate_matches_plan(estimated_check.estimate, plan)
+            else memory_check(plan)
+        )
+        item = _CandidateMicroBatch(
+            inputs=local_inputs,
+            indices=indices,
+            plan=plan,
+            check=check,
+            stats_global_count=width,
+            rejected_candidates=rejected,
+            cold_start=not has_memory_profile(plan),
+        )
+        cache[width] = item
+        return item
+
+    def estimate_check(width: int) -> _EstimatedMemoryCheck[EstimateT] | None:
+        indices, local_inputs = local_slice(width)
+        estimate = estimate_for_local_inputs(indices, local_inputs)
+        if estimate is None:
+            return None
+        return _EstimatedMemoryCheck(
+            estimate=estimate,
+            check=memory_check_estimate(estimate),
+        )
+
+    first_estimated_check = estimate_check(min_width)
+    if first_estimated_check is not None:
+        if not first_estimated_check.check.fits:
+            first = candidate(min_width, first_estimated_check)
+            raise_smallest_batch_error(first.plan, first.check)
+        if has_memory_profile_estimate(first_estimated_check.estimate):
+            best: _CandidateMicroBatch[InputT, PlanT] | None = None
+            best_estimated_check: _EstimatedMemoryCheck[EstimateT] | None = (
+                first_estimated_check
+            )
+            best_width = min_width
+        else:
+            first = candidate(min_width, first_estimated_check)
+            if first.cold_start:
+                return first
+            best = first
+            best_estimated_check = None
+            best_width = first.stats_global_count
+    else:
+        first = candidate(min_width)
+        if not first.check.fits:
+            raise_smallest_batch_error(first.plan, first.check)
+        if first.cold_start:
+            return first
+        best = first
+        best_estimated_check = None
+        best_width = first.stats_global_count
+
+    high_fail: int | None = None
+    width = min(
+        remaining,
+        max(min_width, (previous_global_micro_batch_size or min_width) * 2),
+    )
+    while width <= remaining:
+        check = estimate_check(width)
+        if check is not None and not check.check.fits:
+            rejected += 1
+            high_fail = width
+            break
+        if check is not None:
+            best_width = width
+            best_estimated_check = check
+            best = None
+            if width == remaining:
+                break
+            width = min(remaining, max(width + 1, width * 2))
+            continue
+        item = candidate(width, check)
+        if item.check.fits:
+            best = item
+            best_width = width
+            best_estimated_check = None
+            if width == remaining:
+                break
+            width = min(remaining, max(width + 1, width * 2))
+            continue
+        rejected += 1
+        high_fail = width
+        break
+
+    def finalize_best() -> _CandidateMicroBatch[InputT, PlanT]:
+        selected = (
+            candidate(best_width, best_estimated_check)
+            if best is None
+            or best_width != best.stats_global_count
+            or best_estimated_check is not None
+            else best
+        )
+        return _CandidateMicroBatch(
+            inputs=selected.inputs,
+            indices=selected.indices,
+            plan=selected.plan,
+            check=selected.check,
+            stats_global_count=selected.stats_global_count,
+            rejected_candidates=rejected,
+            cold_start=selected.cold_start,
+        )
+
+    if high_fail is None:
+        return finalize_best()
+
+    low = best_width + 1
+    high = high_fail - 1
+    while low <= high:
+        mid = (low + high) // 2
+        check = estimate_check(mid)
+        if check is not None and not check.check.fits:
+            rejected += 1
+            high = mid - 1
+            continue
+        if check is not None:
+            best_width = mid
+            best_estimated_check = check
+            best = None
+            low = mid + 1
+            continue
+        item = candidate(mid, check)
+        if item.check.fits:
+            best = item
+            best_width = mid
+            best_estimated_check = None
+            low = mid + 1
+        else:
+            rejected += 1
+            high = mid - 1
+
+    return finalize_best()
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index cb69118fe..2d83a9e11 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -217,6 +217,62 @@ def test_forward_micro_batches_preserves_nested_vineppo_groups(
     )
 
 
+def test_adaptive_planner_materializes_only_final_large_candidate(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime(), shared_prefix_max_depth=3)  # type: ignore[arg-type]
+    rank._last_global_micro_batch_size = 32
+    monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda plan: True)
+    monkeypatch.setattr(
+        rank,
+        "_all_ranks_have_memory_profile_estimate",
+        lambda estimate: True,
+    )
+    plan_calls = 0
+    estimate_calls = 0
+    original_plan = rank._plan_flat_forward
+    original_estimate = rank._estimate_flat_forward
+
+    def plan(requests):
+        nonlocal plan_calls
+        plan_calls += 1
+        return original_plan(requests)
+
+    def estimate(requests):
+        nonlocal estimate_calls
+        estimate_calls += 1
+        return original_estimate(requests)
+
+    def check(candidate):
+        return _MemoryCheck(
+            estimated_required_bytes=candidate.request_count,
+            available_bytes=40,
+            fits=candidate.request_count <= 40,
+        )
+
+    monkeypatch.setattr(rank, "_plan_flat_forward", plan)
+    monkeypatch.setattr(rank, "_estimate_flat_forward", estimate)
+    monkeypatch.setattr(rank, "_memory_check", check)
+    monkeypatch.setattr(rank, "_memory_check_estimate", check)
+    inputs = [
+        _target_request(
+            _tokens(1, 2, 3, index % 7, index),
+            target_count=2 if index % 5 == 0 else 1,
+            top_k=3 if index % 4 == 0 else None,
+            hidden_states=index % 9 == 0,
+        )
+        for index in range(96)
+    ]
+
+    candidate = rank._select_next_micro_batch(inputs, 0)
+
+    assert candidate.stats_global_count == 40
+    assert plan_calls == 1
+    assert estimate_calls <= 10
+    assert candidate.rejected_candidates <= 8
+
+
 def test_heterogeneous_slots_split_packing_without_losing_output_estimates(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:

From 57aa2a41c473c0ba6d5377871f5efdfb2cefb27c Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 13:13:00 -0600
Subject: [PATCH 045/114] refactor: trim TrainerRank planning surface

---
 dev/trainer_rank_perf.py                     | 52 ++++++++++++++++--
 src/art/megatron/trainer_rank.py             | 31 ++++-------
 tests/unit/test_trainer_rank_weird_shapes.py | 55 +++++++++++++++++++-
 3 files changed, 110 insertions(+), 28 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 3d09e47cd..24790ad10 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2553,7 +2553,7 @@ def _target_correctness_metrics(
         chunk.eval()
     with torch.no_grad():
         labels = _packed_labels(items, prepared)
-        native_outputs = rank._forward_native_target_logprobs(items, prepared, labels)
+        native_logprobs = _native_target_logprobs(rank, items, prepared, labels)
         hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
         head_outputs = rank._project_head(items, prepared, hidden)
         abs_diff_sum = torch.tensor(0.0, device=rank.device)
@@ -2561,17 +2561,17 @@ def _target_correctness_metrics(
         value_count = torch.tensor(0.0, device=rank.device)
         max_abs_diff = torch.tensor(0.0, device=rank.device)
         for native, candidate in zip(
-            native_outputs,
+            native_logprobs,
             head_outputs.target_logprobs,
             strict=True,
         ):
-            if native.target_logprobs is None or candidate is None:
+            if candidate is None:
                 continue
-            diff = (candidate.float() - native.target_logprobs.float()).abs()
+            diff = (candidate.float() - native.float()).abs()
             if int(diff.numel()) == 0:
                 continue
             abs_diff_sum += diff.sum()
-            reference_abs_sum += native.target_logprobs.float().abs().sum()
+            reference_abs_sum += native.float().abs().sum()
             value_count += float(diff.numel())
             max_abs_diff = torch.maximum(max_abs_diff, diff.max())
         sums = torch.stack((abs_diff_sum, reference_abs_sum, value_count))
@@ -2586,6 +2586,48 @@ def _target_correctness_metrics(
     }
 
 
+def _native_target_logprobs(
+    rank: TrainerRank,
+    items: object,
+    prepared: object,
+    labels: torch.Tensor,
+) -> list[torch.Tensor]:
+    from art.megatron.train import _placeholder_attention_mask
+
+    per_token_loss = rank.runtime.model[0](
+        input_ids=prepared.tokens,
+        position_ids=prepared.position_ids,
+        attention_mask=_placeholder_attention_mask(rank.device),
+        labels=labels,
+        packed_seq_params=prepared.packed_seq_params,
+        **rank._handler().get_forward_kwargs(
+            rank.runtime.model[0],
+            attention_bias=prepared.attention_state,
+        ),
+    )
+    flat_logprobs = -per_token_loss.reshape(-1)
+    outputs: list[torch.Tensor] = []
+    for item, positions, source_positions in zip(
+        items,
+        prepared.positions_by_item,
+        prepared.source_positions_by_item,
+        strict=True,
+    ):
+        if item.labels is None:
+            raise RuntimeError("native target oracle requires labels")
+        item_labels = item.labels.to(device=rank.device).index_select(
+            0,
+            source_positions.to(device=rank.device),
+        )
+        outputs.append(
+            flat_logprobs.index_select(0, positions.to(device=rank.device)).masked_fill(
+                item_labels == -100,
+                0.0,
+            )
+        )
+    return outputs
+
+
 def _adapter_sanity_metrics(
     rank: TrainerRank,
     requests: Sequence[
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 8bf895fb3..a7e8563b5 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1163,7 +1163,10 @@ def _plan_flat_forward(
             packed_tokens=sum(int(plan.packed.tokens.numel()) for plan in plans),
             logical_tokens=logical_tokens,
             output_bytes=output_bytes,
-            signature=self._memory_signature(requests, plans),
+            signature=self._memory_signature_from_requests(
+                requests,
+                slot_group_count=len(plans),
+            ),
         )
 
     def _estimate_flat_forward(
@@ -1283,16 +1286,6 @@ def _estimate_group_request_output_bytes(
                 total += seq_len * hidden_size * dtype_size
         return total
 
-    def _memory_signature(
-        self,
-        requests: Sequence[AnyForwardInput],
-        groups: Sequence[_ForwardGroupPlan],
-    ) -> _MemorySignature:
-        return self._memory_signature_from_requests(
-            requests,
-            slot_group_count=len(groups),
-        )
-
     def _memory_signature_from_requests(
         self,
         requests: Sequence[AnyForwardInput],
@@ -1322,7 +1315,11 @@ def _topology_key(self) -> tuple[int, int, int, int]:
             return (1, 1, 1, 1)
 
     def _memory_check(self, plan: _FlatForwardPlan) -> _MemoryCheck:
-        required = self._estimate_required_memory_bytes(plan)
+        required = self._estimate_required_memory_bytes_from_values(
+            packed_tokens=plan.packed_tokens,
+            output_bytes=plan.output_bytes,
+            signature=plan.signature,
+        )
         return self._memory_check_required(required)
 
     def _memory_check_estimate(self, estimate: _FlatForwardEstimate) -> _MemoryCheck:
@@ -1386,13 +1383,6 @@ def _raise_memory_error(
             "dp_rank_forward with already-DP-local smaller inputs."
         )
 
-    def _estimate_required_memory_bytes(self, plan: _FlatForwardPlan) -> int:
-        return self._estimate_required_memory_bytes_from_values(
-            packed_tokens=plan.packed_tokens,
-            output_bytes=plan.output_bytes,
-            signature=plan.signature,
-        )
-
     def _estimate_required_memory_bytes_from_values(
         self,
         *,
@@ -1410,9 +1400,6 @@ def _estimate_required_memory_bytes_from_values(
             compute = max(static_compute, int(profiled * packed_tokens))
         return int((output_bytes + compute) * self.memory_safety_factor)
 
-    def _static_compute_memory_bytes(self, plan: _FlatForwardPlan) -> int:
-        return self._static_compute_memory_bytes_for_tokens(plan.packed_tokens)
-
     def _static_compute_memory_bytes_for_tokens(self, packed_tokens: int) -> int:
         if packed_tokens <= 0:
             return 0
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 2d83a9e11..0f10baf67 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -273,6 +273,59 @@ def check(candidate):
     assert candidate.rejected_candidates <= 8
 
 
+def test_forward_micro_batches_shrinks_when_memory_budget_drops(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime(), shared_prefix_max_depth=2)  # type: ignore[arg-type]
+    monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda plan: True)
+    monkeypatch.setattr(
+        rank,
+        "_all_ranks_have_memory_profile_estimate",
+        lambda estimate: True,
+    )
+    available = {"requests": 8}
+    plan_calls = 0
+    original_plan = rank._plan_flat_forward
+
+    def plan(requests):
+        nonlocal plan_calls
+        plan_calls += 1
+        return original_plan(requests)
+
+    def check(candidate):
+        limit = available["requests"]
+        return _MemoryCheck(
+            estimated_required_bytes=candidate.request_count,
+            available_bytes=limit,
+            fits=candidate.request_count <= limit,
+        )
+
+    def run(plan, **_kwargs):
+        if available["requests"] == 8:
+            available["requests"] = 3
+        return [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ]
+
+    monkeypatch.setattr(rank, "_plan_flat_forward", plan)
+    monkeypatch.setattr(rank, "_memory_check", check)
+    monkeypatch.setattr(rank, "_memory_check_estimate", check)
+    monkeypatch.setattr(rank, "_run_flat_plan_with_memory_tracking", run)
+    inputs = [_target_request(_tokens(1, 2, 3, index)) for index in range(14)]
+
+    batches = list(rank.forward_micro_batches(inputs))
+
+    assert [batch.stats.global_count for batch in batches] == [8, 3, 3]
+    assert [batch.stats.available_bytes for batch in batches] == [8, 3, 3]
+    assert [batch.indices for batch in batches] == [
+        tuple(range(8)),
+        (8, 9, 10),
+        (11, 12, 13),
+    ]
+    assert plan_calls == len(batches)
+
+
 def test_heterogeneous_slots_split_packing_without_losing_output_estimates(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:
@@ -401,4 +454,4 @@ def test_no_output_requests_do_not_pack_or_consume_compute_memory() -> None:
 
     assert plan.groups == ()
     assert plan.packed_tokens == 0
-    assert rank._estimate_required_memory_bytes(plan) == 0
+    assert rank._memory_check(plan).estimated_required_bytes == 0

From 6ef09ac0568ad6535973c4c7f7a828d9bc0aa760 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 13:36:47 -0600
Subject: [PATCH 046/114] fix: preserve masked target logprobs for shared rows

---
 src/art/megatron/trainer_rank.py             |  8 ++++--
 tests/unit/test_trainer_rank_weird_shapes.py | 29 ++++++++++++++++++++
 2 files changed, 34 insertions(+), 3 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index a7e8563b5..94b968815 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -2645,9 +2645,11 @@ def _scatter_row_target_logprobs(
             continue
         if int(match.source_offsets.numel()) == 0:
             continue
-        item_logprobs[match.source_offsets] = row_target_logprobs.index_select(
-            0,
-            match.row_offsets,
+        selected = row_target_logprobs.index_select(0, match.row_offsets)
+        selected_labels = labels.index_select(0, match.source_offsets)
+        item_logprobs[match.source_offsets] = selected.masked_fill(
+            selected_labels == -100,
+            0.0,
         )
 
 
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 0f10baf67..9b974335c 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -19,6 +19,8 @@
     Unset,
     _flatten,
     _MemoryCheck,
+    _RowMatch,
+    _scatter_row_target_logprobs,
 )
 
 
@@ -438,6 +440,33 @@ def test_topk_output_memory_scales_with_requested_k() -> None:
     assert large.output_bytes - small.output_bytes == 4 * 6 * (4 + 8)
 
 
+def test_shared_row_target_scatter_preserves_per_item_label_masks() -> None:
+    item_a = torch.full((2,), -1.0)
+    item_b = torch.full((2,), -1.0)
+
+    _scatter_row_target_logprobs(
+        torch.tensor([-10.0, -20.0]),
+        (
+            _RowMatch(
+                source_offsets=torch.tensor([0, 1]),
+                row_offsets=torch.tensor([0, 1]),
+            ),
+            _RowMatch(
+                source_offsets=torch.tensor([0, 1]),
+                row_offsets=torch.tensor([0, 1]),
+            ),
+        ),
+        (
+            torch.tensor([111, -100]),
+            torch.tensor([-100, 222]),
+        ),
+        [item_a, item_b],
+    )
+
+    torch.testing.assert_close(item_a, torch.tensor([-10.0, 0.0]))
+    torch.testing.assert_close(item_b, torch.tensor([0.0, -20.0]))
+
+
 def test_flatten_rejects_dicts_to_avoid_silent_top_level_shape_changes() -> None:
     with pytest.raises(TypeError, match="dict was passed directly"):
         list(_flatten({"bad": _target_request(_tokens(1, 2))}))  # type: ignore[arg-type]

From 500b4517b7c5a7a60454ed5d7cc9f8503eb8f8a5 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 13:44:52 -0600
Subject: [PATCH 047/114] refactor: collapse TrainerRank adaptive cache key

---
 src/art/megatron/trainer_rank.py | 38 ++++++++++++++------------------
 1 file changed, 16 insertions(+), 22 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 94b968815..58744de77 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -460,7 +460,6 @@ class _FlatForwardEstimate:
 
 @dataclass(frozen=True)
 class _AdaptivePlanCacheKey:
-    top_level_ids: tuple[int, ...]
     local_indices: tuple[int, ...]
     default_slot_ref: "LoRASlotRef | None"
     slot_stack: tuple["LoRASlotRef", ...]
@@ -1063,18 +1062,7 @@ def _cached_adaptive_plan(
         indices: tuple[int, ...],
         local_inputs: Sequence[ForwardInputsT],
     ) -> _FlatForwardPlan:
-        top_level_ids = tuple(id(item) for item in items)
-        if top_level_ids != self._adaptive_plan_cache_top_level_ids:
-            self._adaptive_plan_cache.clear()
-            self._adaptive_estimate_cache.clear()
-            self._adaptive_plan_cache_top_level_ids = top_level_ids
-        key = _AdaptivePlanCacheKey(
-            top_level_ids=top_level_ids,
-            local_indices=indices,
-            default_slot_ref=self._default_slot_ref,
-            slot_stack=tuple(self._slot_stack),
-            shared_prefix_max_depth=self.shared_prefix_max_depth,
-        )
+        key = self._adaptive_cache_key(items, indices)
         cached = self._adaptive_plan_cache.get(key)
         if cached is not None:
             return cached
@@ -1090,25 +1078,31 @@ def _cached_adaptive_estimate(
         indices: tuple[int, ...],
         local_inputs: Sequence[ForwardInputsT],
     ) -> _FlatForwardEstimate | None:
+        key = self._adaptive_cache_key(items, indices)
+        if key in self._adaptive_estimate_cache:
+            return self._adaptive_estimate_cache[key]
+        estimate = self._estimate_flat_forward(list(_flatten(local_inputs)))
+        if len(self._adaptive_estimate_cache) >= _ADAPTIVE_PLAN_CACHE_MAX_ENTRIES:
+            self._adaptive_estimate_cache.pop(next(iter(self._adaptive_estimate_cache)))
+        self._adaptive_estimate_cache[key] = estimate
+        return estimate
+
+    def _adaptive_cache_key(
+        self,
+        items: Sequence[ForwardInputsT],
+        indices: tuple[int, ...],
+    ) -> _AdaptivePlanCacheKey:
         top_level_ids = tuple(id(item) for item in items)
         if top_level_ids != self._adaptive_plan_cache_top_level_ids:
             self._adaptive_plan_cache.clear()
             self._adaptive_estimate_cache.clear()
             self._adaptive_plan_cache_top_level_ids = top_level_ids
-        key = _AdaptivePlanCacheKey(
-            top_level_ids=top_level_ids,
+        return _AdaptivePlanCacheKey(
             local_indices=indices,
             default_slot_ref=self._default_slot_ref,
             slot_stack=tuple(self._slot_stack),
             shared_prefix_max_depth=self.shared_prefix_max_depth,
         )
-        if key in self._adaptive_estimate_cache:
-            return self._adaptive_estimate_cache[key]
-        estimate = self._estimate_flat_forward(list(_flatten(local_inputs)))
-        if len(self._adaptive_estimate_cache) >= _ADAPTIVE_PLAN_CACHE_MAX_ENTRIES:
-            self._adaptive_estimate_cache.pop(next(iter(self._adaptive_estimate_cache)))
-        self._adaptive_estimate_cache[key] = estimate
-        return estimate
 
     def _validate_replicated_top_level_count(self, count: int) -> None:
         if not (dist.is_available() and dist.is_initialized()):

From 2d1fd56306947f7fc8414874a4e629327db45b15 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 13:51:23 -0600
Subject: [PATCH 048/114] refactor: collapse TrainerRank memory profile checks

---
 src/art/megatron/trainer_rank.py             | 27 ++++++++------------
 tests/unit/test_trainer_rank_validation.py   |  9 +++----
 tests/unit/test_trainer_rank_weird_shapes.py | 15 +++--------
 3 files changed, 17 insertions(+), 34 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 58744de77..2790c6482 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1046,8 +1046,16 @@ def _select_next_micro_batch(
             memory_check=self._memory_check,
             memory_check_estimate=self._memory_check_estimate,
             estimate_matches_plan=self._estimate_matches_plan,
-            has_memory_profile=self._all_ranks_have_memory_profile,
-            has_memory_profile_estimate=self._all_ranks_have_memory_profile_estimate,
+            has_memory_profile=lambda plan: self._all_ranks_have_memory_profile_values(
+                packed_tokens=plan.packed_tokens,
+                signature=plan.signature,
+            ),
+            has_memory_profile_estimate=(
+                lambda estimate: self._all_ranks_have_memory_profile_values(
+                    packed_tokens=estimate.packed_tokens,
+                    signature=estimate.signature,
+                )
+            ),
             raise_smallest_batch_error=lambda plan, check: self._raise_memory_error(
                 plan,
                 check,
@@ -1434,21 +1442,6 @@ def _available_memory_bytes(self) -> int:
         reserve = int(total * self.memory_reserve_fraction)
         return max(0, int(free) + reusable_reserved - reserve)
 
-    def _all_ranks_have_memory_profile(self, plan: _FlatForwardPlan) -> bool:
-        return self._all_ranks_have_memory_profile_values(
-            packed_tokens=plan.packed_tokens,
-            signature=plan.signature,
-        )
-
-    def _all_ranks_have_memory_profile_estimate(
-        self,
-        estimate: _FlatForwardEstimate,
-    ) -> bool:
-        return self._all_ranks_have_memory_profile_values(
-            packed_tokens=estimate.packed_tokens,
-            signature=estimate.signature,
-        )
-
     def _all_ranks_have_memory_profile_values(
         self,
         *,
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index bdd69ffb3..3ca5dddc1 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -170,7 +170,9 @@ def test_forward_micro_batches_shrinks_to_largest_fitting_window(
     trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
     trainer._last_global_micro_batch_size = 4
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(trainer, "_all_ranks_have_memory_profile", lambda plan: True)
+    monkeypatch.setattr(
+        trainer, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
+    )
 
     def memory_check(plan):
         return _MemoryCheck(
@@ -209,11 +211,8 @@ def test_forward_micro_batches_reuses_cached_candidate_plans(
 ) -> None:
     trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(trainer, "_all_ranks_have_memory_profile", lambda plan: True)
     monkeypatch.setattr(
-        trainer,
-        "_all_ranks_have_memory_profile_estimate",
-        lambda estimate: True,
+        trainer, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
     )
     monkeypatch.setattr(
         trainer,
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 9b974335c..3edbbe918 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -183,11 +183,8 @@ def test_forward_micro_batches_preserves_nested_vineppo_groups(
 ) -> None:
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=2)  # type: ignore[arg-type]
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda plan: True)
     monkeypatch.setattr(
-        rank,
-        "_all_ranks_have_memory_profile_estimate",
-        lambda estimate: True,
+        rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
     )
     monkeypatch.setattr(
         rank,
@@ -225,11 +222,8 @@ def test_adaptive_planner_materializes_only_final_large_candidate(
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=3)  # type: ignore[arg-type]
     rank._last_global_micro_batch_size = 32
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda plan: True)
     monkeypatch.setattr(
-        rank,
-        "_all_ranks_have_memory_profile_estimate",
-        lambda estimate: True,
+        rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
     )
     plan_calls = 0
     estimate_calls = 0
@@ -280,11 +274,8 @@ def test_forward_micro_batches_shrinks_when_memory_budget_drops(
 ) -> None:
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=2)  # type: ignore[arg-type]
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda plan: True)
     monkeypatch.setattr(
-        rank,
-        "_all_ranks_have_memory_profile_estimate",
-        lambda estimate: True,
+        rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
     )
     available = {"requests": 8}
     plan_calls = 0

From 9c55ce24687dac18a2b3d1dc9435e6a3d4a0ef1b Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 14:09:07 -0600
Subject: [PATCH 049/114] fix: update TrainerRank adaptive perf profiler

---
 dev/trainer_rank_perf.py | 59 ++++++++++++++++++----------------------
 1 file changed, 27 insertions(+), 32 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 24790ad10..f73d25467 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2194,11 +2194,15 @@ def _profile_adaptive_selection(rank: TrainerRank) -> Any:
     }
 
     def timed(
-        key: str, calls_key: str, fn: Callable[..., object], *args: object
+        key: str,
+        calls_key: str,
+        fn: Callable[..., object],
+        *args: object,
+        **kwargs: object,
     ) -> object:
         start = time.perf_counter()
         try:
-            return fn(*args)
+            return fn(*args, **kwargs)
         finally:
             stats[key] += (time.perf_counter() - start) * 1000.0
             stats[calls_key] += 1
@@ -2209,14 +2213,13 @@ def timed(
     original_cached_estimate = rank._cached_adaptive_estimate
     original_forward_item = rank._forward_item
     original_pack = trainer_rank_module._pack_forward_items
-    original_output_estimate = rank._estimate_group_output_bytes
-    original_signature = rank._memory_signature
+    original_output_estimate = rank._estimate_group_request_output_bytes
+    original_signature = rank._memory_signature_from_requests
     original_memory_check = rank._memory_check
     original_estimate_memory_check = rank._memory_check_estimate
-    original_memory_estimate = rank._estimate_required_memory_bytes
+    original_memory_estimate = rank._estimate_required_memory_bytes_from_values
     original_available = rank._available_memory_bytes
-    original_profile_check = rank._all_ranks_have_memory_profile
-    original_estimate_profile_check = rank._all_ranks_have_memory_profile_estimate
+    original_profile_check = rank._all_ranks_have_memory_profile_values
 
     def plan_wrapper(requests: object) -> object:
         return timed("select_plan_ms", "select_plan_calls", original_plan, requests)
@@ -2273,13 +2276,13 @@ def output_estimate_wrapper(items: object) -> object:
             items,
         )
 
-    def signature_wrapper(requests: object, plans: object) -> object:
+    def signature_wrapper(*args: object, **kwargs: object) -> object:
         return timed(
             "select_signature_ms",
             "select_signature_calls",
             original_signature,
-            requests,
-            plans,
+            *args,
+            **kwargs,
         )
 
     def memory_check_wrapper(plan: object) -> object:
@@ -2298,12 +2301,13 @@ def estimate_memory_check_wrapper(estimate: object) -> object:
             estimate,
         )
 
-    def memory_estimate_wrapper(plan: object) -> object:
+    def memory_estimate_wrapper(*args: object, **kwargs: object) -> object:
         return timed(
             "select_memory_estimate_ms",
             "select_memory_estimate_calls",
             original_memory_estimate,
-            plan,
+            *args,
+            **kwargs,
         )
 
     def available_wrapper() -> object:
@@ -2313,20 +2317,13 @@ def available_wrapper() -> object:
             original_available,
         )
 
-    def profile_check_wrapper(plan: object) -> object:
+    def profile_check_wrapper(*args: object, **kwargs: object) -> object:
         return timed(
             "select_profile_check_ms",
             "select_profile_check_calls",
             original_profile_check,
-            plan,
-        )
-
-    def estimate_profile_check_wrapper(estimate: object) -> object:
-        return timed(
-            "select_profile_check_ms",
-            "select_profile_check_calls",
-            original_estimate_profile_check,
-            estimate,
+            *args,
+            **kwargs,
         )
 
     rank._plan_flat_forward = plan_wrapper  # type: ignore[method-assign]
@@ -2335,14 +2332,13 @@ def estimate_profile_check_wrapper(estimate: object) -> object:
     rank._cached_adaptive_estimate = cached_estimate_wrapper  # type: ignore[method-assign]
     rank._forward_item = forward_item_wrapper  # type: ignore[method-assign]
     trainer_rank_module._pack_forward_items = pack_wrapper  # type: ignore[assignment]
-    rank._estimate_group_output_bytes = output_estimate_wrapper  # type: ignore[method-assign]
-    rank._memory_signature = signature_wrapper  # type: ignore[method-assign]
+    rank._estimate_group_request_output_bytes = output_estimate_wrapper  # type: ignore[method-assign]
+    rank._memory_signature_from_requests = signature_wrapper  # type: ignore[method-assign]
     rank._memory_check = memory_check_wrapper  # type: ignore[method-assign]
     rank._memory_check_estimate = estimate_memory_check_wrapper  # type: ignore[method-assign]
-    rank._estimate_required_memory_bytes = memory_estimate_wrapper  # type: ignore[method-assign]
+    rank._estimate_required_memory_bytes_from_values = memory_estimate_wrapper  # type: ignore[method-assign]
     rank._available_memory_bytes = available_wrapper  # type: ignore[method-assign]
-    rank._all_ranks_have_memory_profile = profile_check_wrapper  # type: ignore[method-assign]
-    rank._all_ranks_have_memory_profile_estimate = estimate_profile_check_wrapper  # type: ignore[method-assign]
+    rank._all_ranks_have_memory_profile_values = profile_check_wrapper  # type: ignore[method-assign]
     try:
         yield stats
     finally:
@@ -2352,14 +2348,13 @@ def estimate_profile_check_wrapper(estimate: object) -> object:
         rank._cached_adaptive_estimate = original_cached_estimate  # type: ignore[method-assign]
         rank._forward_item = original_forward_item  # type: ignore[method-assign]
         trainer_rank_module._pack_forward_items = original_pack  # type: ignore[assignment]
-        rank._estimate_group_output_bytes = original_output_estimate  # type: ignore[method-assign]
-        rank._memory_signature = original_signature  # type: ignore[method-assign]
+        rank._estimate_group_request_output_bytes = original_output_estimate  # type: ignore[method-assign]
+        rank._memory_signature_from_requests = original_signature  # type: ignore[method-assign]
         rank._memory_check = original_memory_check  # type: ignore[method-assign]
         rank._memory_check_estimate = original_estimate_memory_check  # type: ignore[method-assign]
-        rank._estimate_required_memory_bytes = original_memory_estimate  # type: ignore[method-assign]
+        rank._estimate_required_memory_bytes_from_values = original_memory_estimate  # type: ignore[method-assign]
         rank._available_memory_bytes = original_available  # type: ignore[method-assign]
-        rank._all_ranks_have_memory_profile = original_profile_check  # type: ignore[method-assign]
-        rank._all_ranks_have_memory_profile_estimate = original_estimate_profile_check  # type: ignore[method-assign]
+        rank._all_ranks_have_memory_profile_values = original_profile_check  # type: ignore[method-assign]
 
 
 def _timed_cuda(

From 54564246a23ef6a41e924a5c32dc2bf23de2fde1 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 14:19:15 -0600
Subject: [PATCH 050/114] refactor: collapse TrainerRank memory checks

---
 dev/trainer_rank_perf.py                     | 14 ----------
 src/art/megatron/trainer_rank.py             | 29 ++++++++++----------
 tests/unit/test_trainer_rank_validation.py   | 19 -------------
 tests/unit/test_trainer_rank_weird_shapes.py | 12 --------
 4 files changed, 15 insertions(+), 59 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index f73d25467..cbe81c86f 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2100,7 +2100,6 @@ def _profiled_adaptive_micro_batch_training_step_body(
             0.0,
             select_ms
             - select_profile["select_estimate_ms"]
-            - select_profile["select_estimate_memory_check_ms"]
             - select_profile["select_plan_ms"]
             - select_profile["select_memory_check_ms"]
             - select_profile["select_profile_check_ms"],
@@ -2171,8 +2170,6 @@ def _profile_adaptive_selection(rank: TrainerRank) -> Any:
         "select_pack_calls": 0,
         "select_estimate_ms": 0.0,
         "select_estimate_calls": 0,
-        "select_estimate_memory_check_ms": 0.0,
-        "select_estimate_memory_check_calls": 0,
         "select_plan_lookup_calls": 0,
         "select_plan_cache_hit_calls": 0,
         "select_plan_cache_miss_calls": 0,
@@ -2216,7 +2213,6 @@ def timed(
     original_output_estimate = rank._estimate_group_request_output_bytes
     original_signature = rank._memory_signature_from_requests
     original_memory_check = rank._memory_check
-    original_estimate_memory_check = rank._memory_check_estimate
     original_memory_estimate = rank._estimate_required_memory_bytes_from_values
     original_available = rank._available_memory_bytes
     original_profile_check = rank._all_ranks_have_memory_profile_values
@@ -2293,14 +2289,6 @@ def memory_check_wrapper(plan: object) -> object:
             plan,
         )
 
-    def estimate_memory_check_wrapper(estimate: object) -> object:
-        return timed(
-            "select_estimate_memory_check_ms",
-            "select_estimate_memory_check_calls",
-            original_estimate_memory_check,
-            estimate,
-        )
-
     def memory_estimate_wrapper(*args: object, **kwargs: object) -> object:
         return timed(
             "select_memory_estimate_ms",
@@ -2335,7 +2323,6 @@ def profile_check_wrapper(*args: object, **kwargs: object) -> object:
     rank._estimate_group_request_output_bytes = output_estimate_wrapper  # type: ignore[method-assign]
     rank._memory_signature_from_requests = signature_wrapper  # type: ignore[method-assign]
     rank._memory_check = memory_check_wrapper  # type: ignore[method-assign]
-    rank._memory_check_estimate = estimate_memory_check_wrapper  # type: ignore[method-assign]
     rank._estimate_required_memory_bytes_from_values = memory_estimate_wrapper  # type: ignore[method-assign]
     rank._available_memory_bytes = available_wrapper  # type: ignore[method-assign]
     rank._all_ranks_have_memory_profile_values = profile_check_wrapper  # type: ignore[method-assign]
@@ -2351,7 +2338,6 @@ def profile_check_wrapper(*args: object, **kwargs: object) -> object:
         rank._estimate_group_request_output_bytes = original_output_estimate  # type: ignore[method-assign]
         rank._memory_signature_from_requests = original_signature  # type: ignore[method-assign]
         rank._memory_check = original_memory_check  # type: ignore[method-assign]
-        rank._memory_check_estimate = original_estimate_memory_check  # type: ignore[method-assign]
         rank._estimate_required_memory_bytes_from_values = original_memory_estimate  # type: ignore[method-assign]
         rank._available_memory_bytes = original_available  # type: ignore[method-assign]
         rank._all_ranks_have_memory_profile_values = original_profile_check  # type: ignore[method-assign]
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 2790c6482..514199ba0 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1031,6 +1031,13 @@ def _select_next_micro_batch(
         start: int,
     ) -> _CandidateMicroBatch[ForwardInputsT, _FlatForwardPlan]:
         dp_rank, dp_size = self._dp_rank_and_size()
+
+        def memory_check(plan: _FlatForwardPlan) -> _MemoryCheck:
+            return self._memory_check(plan)
+
+        def memory_check_estimate(estimate: _FlatForwardEstimate) -> _MemoryCheck:
+            return self._memory_check(estimate)
+
         return select_next_micro_batch(
             items,
             start,
@@ -1043,8 +1050,8 @@ def _select_next_micro_batch(
             estimate_for_local_inputs=lambda indices, local_inputs: (
                 self._cached_adaptive_estimate(items, indices, local_inputs)
             ),
-            memory_check=self._memory_check,
-            memory_check_estimate=self._memory_check_estimate,
+            memory_check=memory_check,
+            memory_check_estimate=memory_check_estimate,
             estimate_matches_plan=self._estimate_matches_plan,
             has_memory_profile=lambda plan: self._all_ranks_have_memory_profile_values(
                 packed_tokens=plan.packed_tokens,
@@ -1316,19 +1323,13 @@ def _topology_key(self) -> tuple[int, int, int, int]:
         except (AssertionError, AttributeError, ImportError, RuntimeError, ValueError):
             return (1, 1, 1, 1)
 
-    def _memory_check(self, plan: _FlatForwardPlan) -> _MemoryCheck:
-        required = self._estimate_required_memory_bytes_from_values(
-            packed_tokens=plan.packed_tokens,
-            output_bytes=plan.output_bytes,
-            signature=plan.signature,
-        )
-        return self._memory_check_required(required)
-
-    def _memory_check_estimate(self, estimate: _FlatForwardEstimate) -> _MemoryCheck:
+    def _memory_check(
+        self, forward: _FlatForwardPlan | _FlatForwardEstimate
+    ) -> _MemoryCheck:
         required = self._estimate_required_memory_bytes_from_values(
-            packed_tokens=estimate.packed_tokens,
-            output_bytes=estimate.output_bytes,
-            signature=estimate.signature,
+            packed_tokens=forward.packed_tokens,
+            output_bytes=forward.output_bytes,
+            signature=forward.signature,
         )
         return self._memory_check_required(required)
 
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 3ca5dddc1..8f07ec2b1 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -181,15 +181,7 @@ def memory_check(plan):
             fits=plan.request_count <= 3,
         )
 
-    def estimate_memory_check(estimate):
-        return _MemoryCheck(
-            estimated_required_bytes=estimate.request_count,
-            available_bytes=3,
-            fits=estimate.request_count <= 3,
-        )
-
     monkeypatch.setattr(trainer, "_memory_check", memory_check)
-    monkeypatch.setattr(trainer, "_memory_check_estimate", estimate_memory_check)
     monkeypatch.setattr(
         trainer,
         "_run_flat_plan_with_memory_tracking",
@@ -241,7 +233,6 @@ def memory_check(plan):
 
     monkeypatch.setattr(trainer, "_plan_flat_forward", plan)
     monkeypatch.setattr(trainer, "_memory_check", memory_check)
-    monkeypatch.setattr(trainer, "_memory_check_estimate", memory_check)
     inputs = [_target_request(i) for i in range(8)]
 
     list(trainer.forward_micro_batches(inputs))
@@ -269,16 +260,6 @@ def test_forward_micro_batches_raises_when_smallest_batch_will_not_fit(
             fits=False,
         ),
     )
-    monkeypatch.setattr(
-        trainer,
-        "_memory_check_estimate",
-        lambda estimate: _MemoryCheck(
-            estimated_required_bytes=4,
-            available_bytes=3,
-            fits=False,
-        ),
-    )
-
     with pytest.raises(TrainerRankMemoryError, match="smallest DP microbatch"):
         next(iter(trainer.forward_micro_batches([_target_request(1)])))
 
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 3edbbe918..78399fe6d 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -186,11 +186,6 @@ def test_forward_micro_batches_preserves_nested_vineppo_groups(
     monkeypatch.setattr(
         rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
     )
-    monkeypatch.setattr(
-        rank,
-        "_memory_check_estimate",
-        lambda estimate: _MemoryCheck(estimate.request_count, 10, True),
-    )
     monkeypatch.setattr(
         rank,
         "_memory_check",
@@ -250,7 +245,6 @@ def check(candidate):
     monkeypatch.setattr(rank, "_plan_flat_forward", plan)
     monkeypatch.setattr(rank, "_estimate_flat_forward", estimate)
     monkeypatch.setattr(rank, "_memory_check", check)
-    monkeypatch.setattr(rank, "_memory_check_estimate", check)
     inputs = [
         _target_request(
             _tokens(1, 2, 3, index % 7, index),
@@ -303,7 +297,6 @@ def run(plan, **_kwargs):
 
     monkeypatch.setattr(rank, "_plan_flat_forward", plan)
     monkeypatch.setattr(rank, "_memory_check", check)
-    monkeypatch.setattr(rank, "_memory_check_estimate", check)
     monkeypatch.setattr(rank, "_run_flat_plan_with_memory_tracking", run)
     inputs = [_target_request(_tokens(1, 2, 3, index)) for index in range(14)]
 
@@ -398,11 +391,6 @@ def test_memory_error_includes_actionable_shape_context(
 ) -> None:
     rank = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(
-        rank,
-        "_memory_check_estimate",
-        lambda estimate: _MemoryCheck(99, 1, False),
-    )
     monkeypatch.setattr(rank, "_memory_check", lambda plan: _MemoryCheck(99, 1, False))
 
     with pytest.raises(TrainerRankMemoryError) as exc_info:

From b54fb7ea81bfa89e0cfe11dc19e69e0a939d039f Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 14:27:40 -0600
Subject: [PATCH 051/114] refactor: trim TrainerRank forwarding checks

---
 src/art/megatron/trainer_rank.py | 41 +++++++++++---------------------
 1 file changed, 14 insertions(+), 27 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 514199ba0..8970467fd 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -784,7 +784,14 @@ def dp_rank_forward(
     def dp_rank_forward(self, inputs: ForwardInputs) -> ForwardOutputs:
         materialized = _materialize(inputs)
         plan = self._plan_flat_forward(list(_flatten(materialized)))
-        self._raise_if_plan_will_not_fit(plan, context="dp_rank_forward")
+        check = self._memory_check(plan)
+        if not check.fits:
+            self._raise_memory_error(
+                plan,
+                check,
+                context="dp_rank_forward",
+                message="forward is predicted to exceed available memory",
+            )
         outputs = iter(
             self._run_flat_plan_with_memory_tracking(
                 plan,
@@ -1214,7 +1221,12 @@ def _group_active_request_indices(
     ) -> tuple[tuple["LoRASlotRef | None", tuple[int, ...]], ...]:
         groups: dict[LoRASlotRef | None, list[int]] = {}
         for index, request in enumerate(requests):
-            if _request_has_outputs(request):
+            if (
+                request.target_tokens is not None
+                or request.logits
+                or request.top_k is not None
+                or request.hidden_states
+            ):
                 groups.setdefault(self._resolve_slot_ref(request), []).append(index)
         return tuple((slot_ref, tuple(indices)) for slot_ref, indices in groups.items())
 
@@ -1351,22 +1363,6 @@ def _memory_check_required(self, required: int) -> _MemoryCheck:
             fits=required <= available,
         )
 
-    def _raise_if_plan_will_not_fit(
-        self,
-        plan: _FlatForwardPlan,
-        *,
-        context: str,
-    ) -> None:
-        check = self._memory_check(plan)
-        if check.fits:
-            return
-        self._raise_memory_error(
-            plan,
-            check,
-            context=context,
-            message="forward is predicted to exceed available memory",
-        )
-
     def _raise_memory_error(
         self,
         plan: _FlatForwardPlan,
@@ -2264,15 +2260,6 @@ def _validate_top_k(top_k: int | None, model: "GPTModel") -> None:
         raise ValueError(f"top_k={top_k} exceeds vocabulary size {vocab_size}")
 
 
-def _request_has_outputs(request: AnyForwardInput) -> bool:
-    return (
-        request.target_tokens is not None
-        or request.logits
-        or request.top_k is not None
-        or request.hidden_states
-    )
-
-
 def _request_mix_key(request: AnyForwardInput) -> str:
     parts = []
     if request.target_tokens is not None:

From 7f3b29eb7bf5132979a5216082001ef9e20ca0a3 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 14:35:02 -0600
Subject: [PATCH 052/114] refactor: simplify TrainerRank memory signature

---
 src/art/megatron/trainer_rank.py             | 10 ++++------
 tests/unit/test_trainer_rank_weird_shapes.py |  6 +++---
 2 files changed, 7 insertions(+), 9 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 8970467fd..ed6af6ddd 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-from collections import Counter
 from collections.abc import (
     Callable,
     Iterable,
@@ -428,7 +427,7 @@ class _MemorySignature:
     topology: tuple[int, int, int, int]
     shared_prefix_max_depth: int
     slot_group_count: int
-    request_mix: tuple[tuple[str, int], ...]
+    request_mix: tuple[str, ...]
 
 
 @dataclass(frozen=True)
@@ -1313,14 +1312,13 @@ def _memory_signature_from_requests(
         *,
         slot_group_count: int,
     ) -> _MemorySignature:
-        mix = Counter[str]()
-        for request in requests:
-            mix[_request_mix_key(request)] += 1
         return _MemorySignature(
             topology=self._topology_key(),
             shared_prefix_max_depth=self.shared_prefix_max_depth,
             slot_group_count=slot_group_count,
-            request_mix=tuple((kind, 1) for kind in sorted(mix)),
+            request_mix=tuple(
+                sorted({_request_mix_key(request) for request in requests})
+            ),
         )
 
     def _topology_key(self) -> tuple[int, int, int, int]:
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 78399fe6d..1c2a36a34 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -172,9 +172,9 @@ def test_planner_handles_vineppo_nested_shape_and_request_mix() -> None:
     assert rank._estimate_matches_plan(estimate, plan)
     assert plan.request_count == 12
     assert plan.signature.request_mix == (
-        ("target:(2,)", 1),
-        ("target:single+hidden", 1),
-        ("target:single+topk:5", 1),
+        "target:(2,)",
+        "target:single+hidden",
+        "target:single+topk:5",
     )
 
 

From 6cb6385c2fc66c52300b4fa72a6d7f32748bb91c Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 14:43:43 -0600
Subject: [PATCH 053/114] refactor: keep target oracle helper in dev

---
 dev/trainer_rank_topology_check.py | 12 +++++++++++-
 src/art/megatron/trainer_rank.py   | 11 -----------
 2 files changed, 11 insertions(+), 12 deletions(-)

diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index 55ad81850..d96c192d3 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -15,7 +15,6 @@
     TopK,
     TrainerRank,
     _empty_logits_like_positions,
-    _gather_target_logprobs,
     _language_model,
     _pack_forward_items,
     _PackedForwardBatch,
@@ -44,6 +43,17 @@ def merge(self, other: DiffStats) -> DiffStats:
         )
 
 
+def _gather_target_logprobs(
+    logprobs: torch.Tensor,
+    labels: torch.Tensor,
+) -> torch.Tensor:
+    if int(labels.shape[0]) == 0:
+        return torch.empty(labels.shape, device=logprobs.device, dtype=logprobs.dtype)
+    flat_labels = labels.clamp_min(0).reshape(int(labels.shape[0]), -1)
+    selected = logprobs.gather(1, flat_labels).reshape(labels.shape)
+    return selected.masked_fill(labels == -100, 0.0)
+
+
 def main(
     model: str = "Qwen/Qwen3-0.6B",
     layers: int = 1,
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index ed6af6ddd..1d6233d8c 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -3007,17 +3007,6 @@ def _select_positions(values: torch.Tensor, positions: torch.Tensor) -> torch.Te
     return values.index_select(0, positions.to(device=values.device))
 
 
-def _gather_target_logprobs(
-    logprobs: torch.Tensor,
-    labels: torch.Tensor,
-) -> torch.Tensor:
-    if int(labels.shape[0]) == 0:
-        return torch.empty(labels.shape, device=logprobs.device, dtype=logprobs.dtype)
-    flat_labels = labels.clamp_min(0).reshape(int(labels.shape[0]), -1)
-    selected = logprobs.gather(1, flat_labels).reshape(labels.shape)
-    return selected.masked_fill(labels == -100, 0.0)
-
-
 def _batch_seq_logits(logits: torch.Tensor, *, seq_len: int) -> torch.Tensor:
     if int(logits.ndim) != 3:
         raise RuntimeError(

From 714a125202fffc51fa59ef46c7f1d5c7e21bdb96 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 14:50:40 -0600
Subject: [PATCH 054/114] refactor: localize topology oracle logits helper

---
 dev/trainer_rank_topology_check.py | 20 +++++++++++++++++++-
 src/art/megatron/trainer_rank.py   | 20 ++++----------------
 2 files changed, 23 insertions(+), 17 deletions(-)

diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index d96c192d3..33750608f 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -14,7 +14,6 @@
     ForwardOutput,
     TopK,
     TrainerRank,
-    _empty_logits_like_positions,
     _language_model,
     _pack_forward_items,
     _PackedForwardBatch,
@@ -54,6 +53,25 @@ def _gather_target_logprobs(
     return selected.masked_fill(labels == -100, 0.0)
 
 
+def _empty_logits_like_positions(
+    positions: torch.Tensor,
+    model: object,
+    like: torch.Tensor,
+) -> torch.Tensor:
+    vocab_size = getattr(
+        getattr(model, "config", None),
+        "padded_vocab_size",
+        None,
+    ) or getattr(model, "vocab_size", None)
+    if vocab_size is None:
+        raise RuntimeError("could not determine full padded vocabulary size")
+    return torch.empty(
+        (int(positions.numel()), int(vocab_size)),
+        device=like.device,
+        dtype=like.dtype,
+    )
+
+
 def main(
     model: str = "Qwen/Qwen3-0.6B",
     layers: int = 1,
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 1d6233d8c..6302ebcfd 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1679,10 +1679,10 @@ def _project_head(
                     if int(valid_offsets.numel()):
                         local_rows.append(positions.index_select(0, valid_offsets))
             if item.request.logits:
-                logits[index] = _empty_logits_like_positions(
-                    positions,
-                    model,
-                    hidden_by_row,
+                logits[index] = torch.empty(
+                    (int(positions.numel()), _padded_vocab_size(model)),
+                    device=hidden_by_row.device,
+                    dtype=hidden_by_row.dtype,
                 )
 
         full_row_tensor = (
@@ -2356,18 +2356,6 @@ def _language_model(model: torch.nn.Module) -> "GPTModel":
     raise RuntimeError("expected a Megatron GPT model")
 
 
-def _empty_logits_like_positions(
-    positions: torch.Tensor,
-    model: "GPTModel",
-    like: torch.Tensor,
-) -> torch.Tensor:
-    return torch.empty(
-        (int(positions.numel()), _padded_vocab_size(model)),
-        device=like.device,
-        dtype=like.dtype,
-    )
-
-
 def _padded_vocab_size(model: "GPTModel") -> int:
     vocab_size = getattr(getattr(model, "config", None), "padded_vocab_size", None)
     if vocab_size is None:

From ee621c9a97f7c6eb4701e5b40a3495064c61dfc6 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 14:59:05 -0600
Subject: [PATCH 055/114] refactor: use hidden head path for target logprobs

---
 src/art/megatron/trainer_rank.py | 97 --------------------------------
 1 file changed, 97 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 6302ebcfd..98168a820 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1481,11 +1481,6 @@ def _forward_packed(
         items: Sequence[_ForwardItem],
         prepared: _PreparedPackedForward,
     ) -> list[AnyForwardOutput]:
-        if _is_native_target_only(items):
-            labels = self._consistent_packed_labels(items, prepared)
-            if labels is not None:
-                return self._forward_native_target_logprobs(items, prepared, labels)
-
         hidden_by_row = self._gather_sequence_parallel_hidden(
             self._decoder_hidden(prepared)
         )
@@ -1509,87 +1504,6 @@ def _forward_packed(
             )
         return outputs
 
-    def _forward_native_target_logprobs(
-        self,
-        items: Sequence[_ForwardItem],
-        prepared: _PreparedPackedForward,
-        labels: torch.Tensor,
-    ) -> list[AnyForwardOutput]:
-        from art.megatron.train import _placeholder_attention_mask
-
-        per_token_loss = self.runtime.model[0](
-            input_ids=prepared.tokens,
-            position_ids=prepared.position_ids,
-            attention_mask=_placeholder_attention_mask(self.device),
-            labels=labels,
-            packed_seq_params=prepared.packed_seq_params,
-            **self._handler().get_forward_kwargs(
-                self.runtime.model[0],
-                attention_bias=prepared.attention_state,
-            ),
-        )
-        flat_logprobs = -per_token_loss.reshape(-1)
-        outputs: list[AnyForwardOutput] = []
-        for item, positions, source_positions in zip(
-            items,
-            prepared.positions_by_item,
-            prepared.source_positions_by_item,
-            strict=True,
-        ):
-            if item.labels is None:
-                raise RuntimeError("native target path requires labels")
-            item_labels = item.labels.to(device=self.device).index_select(
-                0,
-                source_positions.to(device=self.device),
-            )
-            target_logprobs = _select_positions(flat_logprobs, positions).masked_fill(
-                item_labels == -100,
-                0.0,
-            )
-            outputs.append(
-                ForwardOutput(
-                    target_logprobs=target_logprobs,
-                    top_k=None,
-                    logits=None,
-                    hidden_states=None,
-                )
-            )
-        return outputs
-
-    def _consistent_packed_labels(
-        self,
-        items: Sequence[_ForwardItem],
-        prepared: _PreparedPackedForward,
-    ) -> torch.Tensor | None:
-        labels = torch.full_like(prepared.tokens, -100)
-        flat_labels = labels.reshape(-1)
-        has_label = torch.zeros_like(flat_labels, dtype=torch.bool)
-        for item, positions, source_positions in zip(
-            items,
-            prepared.positions_by_item,
-            prepared.source_positions_by_item,
-            strict=True,
-        ):
-            if item.labels is None:
-                continue
-            item_positions = positions.to(device=labels.device)
-            item_labels = item.labels.to(device=labels.device).index_select(
-                0,
-                source_positions.to(device=labels.device),
-            )
-            keep = item_labels != -100
-            if not bool(keep.any().item()):
-                continue
-            kept_positions = item_positions[keep]
-            kept_labels = item_labels[keep]
-            existing = flat_labels.index_select(0, kept_positions)
-            seen = has_label.index_select(0, kept_positions)
-            if bool(((existing != kept_labels) & seen).any().item()):
-                return None
-            flat_labels.index_copy_(0, kept_positions, kept_labels)
-            has_label.index_fill_(0, kept_positions, True)
-        return labels
-
     def _decoder_hidden(
         self,
         prepared: _PreparedPackedForward,
@@ -2273,17 +2187,6 @@ def _request_mix_key(request: AnyForwardInput) -> str:
     return "+".join(parts) if parts else "inactive"
 
 
-def _is_native_target_only(items: Sequence[_ForwardItem]) -> bool:
-    return all(
-        item.labels is not None
-        and item.labels.ndim == 1
-        and item.request.top_k is None
-        and not item.request.logits
-        and not item.request.hidden_states
-        for item in items
-    )
-
-
 def _pack_forward_items(
     items: Sequence[_ForwardItem],
     *,

From 1be2840991ef80bf50a453a59d502cfa8ecc76d9 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 15:11:54 -0600
Subject: [PATCH 056/114] refactor: trim TrainerRank head and planner paths

---
 src/art/megatron/trainer_rank.py             | 171 ++-----------------
 src/art/megatron/trainer_rank_planner.py     |   6 +-
 tests/unit/test_trainer_rank_validation.py   |   8 +-
 tests/unit/test_trainer_rank_weird_shapes.py |  60 ++++---
 4 files changed, 52 insertions(+), 193 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 98168a820..0e7813976 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -450,9 +450,7 @@ class _FlatForwardPlan:
 
 @dataclass(frozen=True)
 class _FlatForwardEstimate:
-    request_count: int
     packed_tokens: int
-    logical_tokens: int
     output_bytes: int
     signature: _MemorySignature
 
@@ -1058,7 +1056,6 @@ def memory_check_estimate(estimate: _FlatForwardEstimate) -> _MemoryCheck:
             ),
             memory_check=memory_check,
             memory_check_estimate=memory_check_estimate,
-            estimate_matches_plan=self._estimate_matches_plan,
             has_memory_profile=lambda plan: self._all_ranks_have_memory_profile_values(
                 packed_tokens=plan.packed_tokens,
                 signature=plan.signature,
@@ -1190,7 +1187,6 @@ def _estimate_flat_forward(
         groups = self._group_active_request_indices(requests)
         packed_tokens = 0
         output_bytes = 0
-        logical_tokens = sum(int(request.input_tokens.numel()) for request in requests)
         for _, group_indices in groups:
             group_packed_tokens = estimate_shared_prefix_packed_tokens(
                 (requests[index].input_tokens for index in group_indices),
@@ -1204,9 +1200,7 @@ def _estimate_flat_forward(
             )
 
         return _FlatForwardEstimate(
-            request_count=len(requests),
             packed_tokens=packed_tokens,
-            logical_tokens=logical_tokens,
             output_bytes=output_bytes,
             signature=self._memory_signature_from_requests(
                 requests,
@@ -1414,19 +1408,6 @@ def _static_compute_memory_bytes_for_tokens(self, packed_tokens: int) -> int:
         activation_factor = max(4, min(16, layers // 4 + 4))
         return int(packed_tokens * hidden_size * dtype_size * activation_factor)
 
-    @staticmethod
-    def _estimate_matches_plan(
-        estimate: _FlatForwardEstimate,
-        plan: _FlatForwardPlan,
-    ) -> bool:
-        return (
-            estimate.request_count == plan.request_count
-            and estimate.packed_tokens == plan.packed_tokens
-            and estimate.logical_tokens == plan.logical_tokens
-            and estimate.output_bytes == plan.output_bytes
-            and estimate.signature == plan.signature
-        )
-
     def _available_memory_bytes(self) -> int:
         if not (torch.cuda.is_available() and self.device.type == "cuda"):
             return 1 << 60
@@ -1770,55 +1751,6 @@ def _project_vocab_parallel(
             )
             return
 
-        reference_target_labels = (
-            _reference_row_labels(
-                label_rows,
-                row_matches,
-                row_count=int(rows.numel()),
-                device=rows.device,
-            )
-            if _can_use_reference_target_ce(items, label_rows)
-            else None
-        )
-        if reference_target_labels is not None:
-            for start in range(0, int(rows.numel()), self.head_chunk_tokens):
-                chunk_rows = rows[start : start + self.head_chunk_tokens]
-                local_logits = self._local_logits_from_hidden_rows(
-                    model,
-                    _select_positions(hidden_by_row, chunk_rows),
-                    output_weight=output_weight,
-                )
-                chunk_reference_labels = reference_target_labels[
-                    start : start + int(chunk_rows.numel())
-                ]
-                reference_loss = model.compute_language_model_loss(
-                    chunk_reference_labels.unsqueeze(0),
-                    local_logits.unsqueeze(1),
-                ).reshape(-1)
-                reference_logits = _vocab_parallel_target_logits(
-                    local_logits,
-                    chunk_reference_labels,
-                )
-                log_z = reference_logits + reference_loss
-                for index, item_logprobs in enumerate(target_logprobs):
-                    labels = label_rows[index]
-                    if item_logprobs is None or labels is None:
-                        continue
-                    offsets, chunk_offsets = _match_chunk_offsets(
-                        row_matches[index],
-                        start=start,
-                        end=start + int(chunk_rows.numel()),
-                    )
-                    if int(offsets.numel()) == 0:
-                        continue
-                    item_logprobs[offsets] = _vocab_parallel_target_logprobs(
-                        local_logits,
-                        labels.index_select(0, offsets),
-                        log_z.index_select(0, chunk_offsets),
-                        row_offsets=chunk_offsets,
-                    )
-            return
-
         max_top_k = max(
             (int(item.request.top_k or 0) for item in items if not item.request.logits),
             default=0,
@@ -2407,58 +2339,6 @@ def _can_use_fused_target_ce(
     )
 
 
-def _can_use_reference_target_ce(
-    items: Sequence[_ForwardItem],
-    label_rows: Sequence[torch.Tensor | None],
-) -> bool:
-    return (
-        os.environ.get("ART_TRAINER_RANK_REFERENCE_TARGET_CE", "0").lower()
-        not in {"0", "false"}
-        and all(
-            item.request.top_k is None and not item.request.logits for item in items
-        )
-        and any(labels is not None and labels.ndim > 1 for labels in label_rows)
-    )
-
-
-def _reference_row_labels(
-    label_rows: Sequence[torch.Tensor | None],
-    row_matches: Sequence[_RowMatch],
-    *,
-    row_count: int,
-    device: torch.device,
-) -> torch.Tensor | None:
-    references = torch.full((row_count,), -100, dtype=torch.long, device=device)
-    for labels, match in zip(label_rows, row_matches, strict=True):
-        if labels is None or int(match.source_offsets.numel()) == 0:
-            continue
-        selected = labels.index_select(0, match.source_offsets).reshape(
-            int(match.source_offsets.numel()),
-            -1,
-        )
-        valid = selected != -100
-        has_label = valid.any(dim=1)
-        if not bool(has_label.any()):
-            continue
-        candidates = selected.gather(
-            1,
-            valid.to(torch.int64).argmax(dim=1, keepdim=True),
-        ).squeeze(1)
-        row_offsets = match.row_offsets.index_select(
-            0,
-            torch.nonzero(has_label, as_tuple=False).reshape(-1),
-        )
-        candidates = candidates.masked_select(has_label)
-        unset = references.index_select(0, row_offsets) == -100
-        if bool(unset.any()):
-            references[row_offsets.masked_select(unset)] = candidates.masked_select(
-                unset
-            )
-    if bool((references == -100).any()):
-        return None
-    return references
-
-
 def _consistent_row_labels(
     label_rows: Sequence[torch.Tensor | None],
     row_matches: Sequence[_RowMatch],
@@ -2583,27 +2463,13 @@ def _vocab_parallel_topk(
     start, _ = _vocab_range(local_logits)
     local_k = min(k, int(local_logits.shape[1]))
     local_values, local_tokens = torch.topk(local_logits.float(), k=local_k, dim=-1)
-    local_values = local_values - log_z.unsqueeze(1)
-    local_tokens = local_tokens + start
-
-    from megatron.core import parallel_state as ps
-
-    tp_size = int(ps.get_tensor_model_parallel_world_size())
-    if tp_size <= 1:
-        return TopK(logprobs=local_values, tokens=local_tokens)
-
-    from torch.distributed.nn.functional import all_gather
-
-    group = ps.get_tensor_model_parallel_group(check_initialized=False)
-    gathered_values = cast(tuple[torch.Tensor, ...], all_gather(local_values, group))
-    gathered_tokens = [torch.empty_like(local_tokens) for _ in range(tp_size)]
-    dist.all_gather(gathered_tokens, local_tokens, group=group)
-    values = torch.cat(gathered_values, dim=1)
-    tokens = torch.cat(gathered_tokens, dim=1)
-    if k > int(values.shape[1]):
-        raise ValueError(f"top_k={k} exceeds vocabulary size {int(values.shape[1])}")
-    top_values, top_offsets = torch.topk(values, k=k, dim=-1)
-    return TopK(logprobs=top_values, tokens=tokens.gather(1, top_offsets))
+    return _vocab_parallel_topk_from_local(
+        local_values,
+        local_tokens,
+        k=k,
+        log_z=log_z,
+        vocab_start=start,
+    )
 
 
 def _try_triton_local_topk_stats(
@@ -2868,27 +2734,10 @@ def _local_position_pairs(
     flat = local_global_positions.reshape(-1).to(device=item_positions.device)
     local_positions = torch.nonzero(flat >= 0, as_tuple=False).reshape(-1)
     global_positions = flat.index_select(0, local_positions)
-    sort_order = global_positions.argsort()
-    sorted_global_positions = global_positions.index_select(0, sort_order)
-    sorted_local_positions = local_positions.index_select(0, sort_order)
-
-    indices = torch.searchsorted(sorted_global_positions, item_positions)
-    in_bounds = indices < int(sorted_global_positions.numel())
-    source_offsets = torch.arange(
-        int(item_positions.numel()),
-        device=item_positions.device,
-        dtype=torch.long,
-    )[in_bounds]
-    found = indices[in_bounds]
-    keep = sorted_global_positions.index_select(
-        0, found
-    ) == item_positions.index_select(
-        0,
-        source_offsets,
-    )
+    source_offsets, local_offsets = _matching_offsets(item_positions, global_positions)
     return (
-        sorted_local_positions.index_select(0, found[keep]).to("cpu"),
-        source_offsets[keep].to("cpu"),
+        local_positions.index_select(0, local_offsets).to("cpu"),
+        source_offsets.to("cpu"),
     )
 
 
diff --git a/src/art/megatron/trainer_rank_planner.py b/src/art/megatron/trainer_rank_planner.py
index 253487976..a7d874e9c 100644
--- a/src/art/megatron/trainer_rank_planner.py
+++ b/src/art/megatron/trainer_rank_planner.py
@@ -46,7 +46,6 @@ def select_next_micro_batch(
     ],
     memory_check: Callable[[PlanT], _MemoryCheck],
     memory_check_estimate: Callable[[EstimateT], _MemoryCheck],
-    estimate_matches_plan: Callable[[EstimateT, PlanT], bool],
     has_memory_profile: Callable[[PlanT], bool],
     has_memory_profile_estimate: Callable[[EstimateT], bool],
     raise_smallest_batch_error: Callable[[PlanT, _MemoryCheck], None],
@@ -78,10 +77,7 @@ def candidate(
         indices, local_inputs = local_slice(width)
         plan = plan_for_local_inputs(indices, local_inputs)
         check = (
-            estimated_check.check
-            if estimated_check is not None
-            and estimate_matches_plan(estimated_check.estimate, plan)
-            else memory_check(plan)
+            estimated_check.check if estimated_check is not None else memory_check(plan)
         )
         item = _CandidateMicroBatch(
             inputs=local_inputs,
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 8f07ec2b1..175417d77 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -176,9 +176,9 @@ def test_forward_micro_batches_shrinks_to_largest_fitting_window(
 
     def memory_check(plan):
         return _MemoryCheck(
-            estimated_required_bytes=plan.request_count,
-            available_bytes=3,
-            fits=plan.request_count <= 3,
+            estimated_required_bytes=plan.packed_tokens,
+            available_bytes=6,
+            fits=plan.packed_tokens <= 6,
         )
 
     monkeypatch.setattr(trainer, "_memory_check", memory_check)
@@ -226,7 +226,7 @@ def memory_check(plan):
         nonlocal memory_checks
         memory_checks += 1
         return _MemoryCheck(
-            estimated_required_bytes=plan.request_count,
+            estimated_required_bytes=plan.packed_tokens,
             available_bytes=10,
             fits=True,
         )
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 1c2a36a34..fa26c98ce 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -169,7 +169,9 @@ def test_planner_handles_vineppo_nested_shape_and_request_mix() -> None:
     estimate = rank._estimate_flat_forward(flat)
 
     assert estimate is not None
-    assert rank._estimate_matches_plan(estimate, plan)
+    assert estimate.packed_tokens == plan.packed_tokens
+    assert estimate.output_bytes == plan.output_bytes
+    assert estimate.signature == plan.signature
     assert plan.request_count == 12
     assert plan.signature.request_mix == (
         "target:(2,)",
@@ -189,7 +191,7 @@ def test_forward_micro_batches_preserves_nested_vineppo_groups(
     monkeypatch.setattr(
         rank,
         "_memory_check",
-        lambda plan: _MemoryCheck(plan.request_count, 10, True),
+        lambda plan: _MemoryCheck(plan.packed_tokens, 10_000, True),
     )
     monkeypatch.setattr(
         rank,
@@ -224,6 +226,17 @@ def test_adaptive_planner_materializes_only_final_large_candidate(
     estimate_calls = 0
     original_plan = rank._plan_flat_forward
     original_estimate = rank._estimate_flat_forward
+    inputs = [
+        _target_request(
+            _tokens(1, 2, 3, index % 7, index),
+            target_count=2 if index % 5 == 0 else 1,
+            top_k=3 if index % 4 == 0 else None,
+            hidden_states=index % 9 == 0,
+        )
+        for index in range(96)
+    ]
+    limit = rank._estimate_flat_forward(inputs[:40])
+    assert limit is not None
 
     def plan(requests):
         nonlocal plan_calls
@@ -237,23 +250,14 @@ def estimate(requests):
 
     def check(candidate):
         return _MemoryCheck(
-            estimated_required_bytes=candidate.request_count,
-            available_bytes=40,
-            fits=candidate.request_count <= 40,
+            estimated_required_bytes=candidate.packed_tokens,
+            available_bytes=limit.packed_tokens,
+            fits=candidate.packed_tokens <= limit.packed_tokens,
         )
 
     monkeypatch.setattr(rank, "_plan_flat_forward", plan)
     monkeypatch.setattr(rank, "_estimate_flat_forward", estimate)
     monkeypatch.setattr(rank, "_memory_check", check)
-    inputs = [
-        _target_request(
-            _tokens(1, 2, 3, index % 7, index),
-            target_count=2 if index % 5 == 0 else 1,
-            top_k=3 if index % 4 == 0 else None,
-            hidden_states=index % 9 == 0,
-        )
-        for index in range(96)
-    ]
 
     candidate = rank._select_next_micro_batch(inputs, 0)
 
@@ -271,7 +275,12 @@ def test_forward_micro_batches_shrinks_when_memory_budget_drops(
     monkeypatch.setattr(
         rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
     )
-    available = {"requests": 8}
+    inputs = [_target_request(_tokens(1, 2, 3, index)) for index in range(14)]
+    first_limit = rank._estimate_flat_forward(inputs[:8])
+    tail_limit = rank._estimate_flat_forward(inputs[8:11])
+    assert first_limit is not None
+    assert tail_limit is not None
+    available = {"packed_tokens": first_limit.packed_tokens}
     plan_calls = 0
     original_plan = rank._plan_flat_forward
 
@@ -281,16 +290,16 @@ def plan(requests):
         return original_plan(requests)
 
     def check(candidate):
-        limit = available["requests"]
+        limit = available["packed_tokens"]
         return _MemoryCheck(
-            estimated_required_bytes=candidate.request_count,
+            estimated_required_bytes=candidate.packed_tokens,
             available_bytes=limit,
-            fits=candidate.request_count <= limit,
+            fits=candidate.packed_tokens <= limit,
         )
 
     def run(plan, **_kwargs):
-        if available["requests"] == 8:
-            available["requests"] = 3
+        if available["packed_tokens"] == first_limit.packed_tokens:
+            available["packed_tokens"] = tail_limit.packed_tokens
         return [
             ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
         ]
@@ -298,12 +307,15 @@ def run(plan, **_kwargs):
     monkeypatch.setattr(rank, "_plan_flat_forward", plan)
     monkeypatch.setattr(rank, "_memory_check", check)
     monkeypatch.setattr(rank, "_run_flat_plan_with_memory_tracking", run)
-    inputs = [_target_request(_tokens(1, 2, 3, index)) for index in range(14)]
 
     batches = list(rank.forward_micro_batches(inputs))
 
     assert [batch.stats.global_count for batch in batches] == [8, 3, 3]
-    assert [batch.stats.available_bytes for batch in batches] == [8, 3, 3]
+    assert [batch.stats.available_bytes for batch in batches] == [
+        first_limit.packed_tokens,
+        tail_limit.packed_tokens,
+        tail_limit.packed_tokens,
+    ]
     assert [batch.indices for batch in batches] == [
         tuple(range(8)),
         (8, 9, 10),
@@ -333,7 +345,9 @@ def test_heterogeneous_slots_split_packing_without_losing_output_estimates(
     estimate = rank._estimate_flat_forward(requests)
 
     assert estimate is not None
-    assert rank._estimate_matches_plan(estimate, plan)
+    assert estimate.packed_tokens == plan.packed_tokens
+    assert estimate.output_bytes == plan.output_bytes
+    assert estimate.signature == plan.signature
     assert plan.signature.slot_group_count == 4
     assert {group.slot_ref for group in plan.groups} == {
         ("checkpoint", "student"),

From 5d032e2ba2427ce13a77168bcb02570d69a1a53d Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 15:39:43 -0600
Subject: [PATCH 057/114] refactor: return full TrainerRank head outputs

---
 dev/trainer_rank_perf.py           |  8 +++---
 dev/trainer_rank_topology_check.py | 18 +-----------
 src/art/megatron/trainer_rank.py   | 45 +++++++++++-------------------
 3 files changed, 22 insertions(+), 49 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index cbe81c86f..4a8170526 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -1828,9 +1828,9 @@ def _target_hidden_loss(
     hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
     outputs = rank._project_head(items, prepared, hidden)
     losses = [
-        -target_logprobs.sum()
-        for target_logprobs in outputs.target_logprobs
-        if target_logprobs is not None
+        -output.target_logprobs.sum()
+        for output in outputs
+        if output.target_logprobs is not None
     ]
     if not losses:
         raise RuntimeError("target logprobs were not produced")
@@ -2543,7 +2543,7 @@ def _target_correctness_metrics(
         max_abs_diff = torch.tensor(0.0, device=rank.device)
         for native, candidate in zip(
             native_logprobs,
-            head_outputs.target_logprobs,
+            (output.target_logprobs for output in head_outputs),
             strict=True,
         ):
             if candidate is None:
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index 33750608f..25f0ef2bf 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -655,23 +655,7 @@ def _outputs_from_hidden(
         torch.Tensor | None, TopK | None, torch.Tensor | None, torch.Tensor | None
     ]
 ]:
-    head_outputs = rank._project_head(items, prepared, hidden)
-    outputs = []
-    for index, (item, positions) in enumerate(
-        zip(items, prepared.positions_by_item, strict=True)
-    ):
-        hidden_states = (
-            _select_positions(hidden, positions) if item.request.hidden_states else None
-        )
-        outputs.append(
-            ForwardOutput(
-                target_logprobs=head_outputs.target_logprobs[index],
-                top_k=head_outputs.top_k[index],
-                logits=head_outputs.logits[index],
-                hidden_states=hidden_states,
-            )
-        )
-    return outputs
+    return rank._project_head(items, prepared, hidden)
 
 
 def _packed_oracle_from_hidden(
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 0e7813976..3819cf740 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -409,13 +409,6 @@ class _PreparedPackedForward:
     source_positions_by_item: tuple[torch.Tensor, ...]
 
 
-@dataclass(frozen=True)
-class _HeadOutputs:
-    target_logprobs: list[torch.Tensor | None]
-    top_k: list[TopK | None]
-    logits: list[torch.Tensor | None]
-
-
 @dataclass(frozen=True)
 class _RowMatch:
     source_offsets: torch.Tensor
@@ -1465,25 +1458,7 @@ def _forward_packed(
         hidden_by_row = self._gather_sequence_parallel_hidden(
             self._decoder_hidden(prepared)
         )
-        head_outputs = self._project_head(items, prepared, hidden_by_row)
-        outputs: list[AnyForwardOutput] = []
-        for index, (item, positions) in enumerate(
-            zip(items, prepared.positions_by_item, strict=True)
-        ):
-            hidden_states = (
-                _select_positions(hidden_by_row, positions)
-                if item.request.hidden_states
-                else None
-            )
-            outputs.append(
-                ForwardOutput(
-                    target_logprobs=head_outputs.target_logprobs[index],
-                    top_k=head_outputs.top_k[index],
-                    logits=head_outputs.logits[index],
-                    hidden_states=hidden_states,
-                )
-            )
-        return outputs
+        return self._project_head(items, prepared, hidden_by_row)
 
     def _decoder_hidden(
         self,
@@ -1537,7 +1512,7 @@ def _project_head(
         items: Sequence[_ForwardItem],
         prepared: _PreparedPackedForward,
         hidden_by_row: torch.Tensor,
-    ) -> "_HeadOutputs":
+    ) -> list[AnyForwardOutput]:
         model = _language_model(self.runtime.model[0])
         output_weight = (
             model.shared_embedding_or_output_weight()
@@ -1633,7 +1608,21 @@ def _project_head(
             hidden_by_row,
         )
         top_k = _anchor_disconnected_topk(top_k, hidden_by_row)
-        return _HeadOutputs(target_logprobs, top_k, logits)
+        return [
+            ForwardOutput(
+                target_logprobs=target_logprobs[index],
+                top_k=top_k[index],
+                logits=logits[index],
+                hidden_states=(
+                    _select_positions(hidden_by_row, positions)
+                    if item.request.hidden_states
+                    else None
+                ),
+            )
+            for index, (item, positions) in enumerate(
+                zip(items, prepared.positions_by_item, strict=True)
+            )
+        ]
 
     def _project_full_logits(
         self,

From 5a61de98bc569d29ed537cd5de3af9e3f7897022 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 15:49:50 -0600
Subject: [PATCH 058/114] refactor: simplify TrainerRank slot grad plumbing

---
 src/art/megatron/trainer_rank.py | 70 ++++++++------------------------
 1 file changed, 17 insertions(+), 53 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 3819cf740..eb39d95ae 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -8,7 +8,6 @@
     MutableMapping,
     Sequence,
 )
-from contextlib import contextmanager
 from dataclasses import dataclass
 from itertools import zip_longest
 import os
@@ -674,24 +673,6 @@ def _resolve_slot_ref(self, request: AnyForwardInput) -> "LoRASlotRef | None":
             return self._slot_stack[-1]
         return self._default_slot_ref
 
-    def _set_current_slot(self, ref: "LoRASlotRef | None") -> object:
-        from art.megatron.lora import set_lora_slot_context
-
-        return set_lora_slot_context(ref)
-
-    def _reset_current_slot(self, token: object) -> None:
-        from art.megatron.lora import reset_lora_slot_context
-
-        reset_lora_slot_context(token)  # type: ignore[arg-type]
-
-    @contextmanager
-    def _use_slot(self, ref: "LoRASlotRef | None") -> Iterator[None]:
-        token = self._set_current_slot(ref)
-        try:
-            yield
-        finally:
-            self._reset_current_slot(token)
-
     def forward_micro_batches(
         self,
         inputs: Iterable[ForwardInputsT],
@@ -878,7 +859,9 @@ def _dynamic_optim_step(
         all_params: list[torch.nn.Parameter] = []
         for name in checkpoint_names:
             slot_params = self._checkpoint_slot_params(name)
-            self._ensure_dynamic_grads(slot_params)
+            for param in slot_params:
+                if param.grad is None:
+                    param.grad = torch.zeros_like(param)
             self._reduce_dynamic_grads(slot_params)
             if scale_grads != 1.0:
                 for param in slot_params:
@@ -932,24 +915,13 @@ def _checkpoint_slot_params(self, name: str) -> list[torch.nn.Parameter]:
             )
         )
 
-    @staticmethod
-    def _ensure_dynamic_grads(params: Sequence[torch.nn.Parameter]) -> None:
-        for param in params:
-            if param.grad is None:
-                param.grad = torch.zeros_like(param)
-
     def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
         from megatron.core import parallel_state as ps
 
-        buckets: list[
-            tuple[
-                object,
-                dist.ReduceOp.RedOpType,
-                torch.dtype,
-                torch.device,
-                list[torch.Tensor],
-            ]
-        ] = []
+        buckets: dict[
+            tuple[int, str, torch.dtype, torch.device],
+            tuple[object, dist.ReduceOp.RedOpType, list[torch.Tensor]],
+        ] = {}
 
         def add_to_bucket(
             *,
@@ -957,22 +929,12 @@ def add_to_bucket(
             op: dist.ReduceOp.RedOpType,
             grad: torch.Tensor,
         ) -> None:
-            for (
-                bucket_group,
-                bucket_op,
-                bucket_dtype,
-                bucket_device,
-                bucket_grads,
-            ) in buckets:
-                if (
-                    bucket_group is group
-                    and bucket_op == op
-                    and bucket_dtype == grad.dtype
-                    and bucket_device == grad.device
-                ):
-                    bucket_grads.append(grad)
-                    return
-            buckets.append((group, op, grad.dtype, grad.device, [grad]))
+            key = (id(group), str(op), grad.dtype, grad.device)
+            bucket = buckets.get(key)
+            if bucket is None:
+                buckets[key] = (group, op, [grad])
+            else:
+                bucket[2].append(grad)
 
         for param in params:
             grad = param.grad
@@ -998,7 +960,7 @@ def add_to_bucket(
             reduce_op = dist.ReduceOp.AVG if op == "avg" else dist.ReduceOp.SUM
             add_to_bucket(group=tp_group, op=reduce_op, grad=grad)
 
-        for group, op, _dtype, _device, grads in buckets:
+        for group, op, grads in buckets.values():
             self._coalesced_all_reduce(grads, group=group, op=op)
 
     @staticmethod
@@ -1256,7 +1218,9 @@ def _execute_flat_plan(self, plan: _FlatForwardPlan) -> list[AnyForwardOutput]:
             for _ in range(plan.request_count)
         ]
         for group in plan.groups:
-            with self._use_slot(group.slot_ref):
+            from art.megatron.lora import use_lora_slot
+
+            with use_lora_slot(group.slot_ref):
                 prepared = self._prepare_packed_forward(group.packed)
                 item_outputs = self._forward_packed(group.items, prepared)
             for index, output in zip(group.request_indices, item_outputs, strict=True):

From fc802ff71f1f1feee47121a4bd73865ca1cadb52 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 16:03:37 -0600
Subject: [PATCH 059/114] refactor: cache TrainerRank checkpoint slot params

---
 dev/trainer_rank_perf.py                      |  6 +-
 src/art/megatron/trainer_rank.py              | 64 ++++++++-----------
 src/art/megatron/trainer_rank_planner.py      | 44 ++++++-------
 .../megatron/lora/test_dynamic_lora_slots.py  | 24 ++++++-
 4 files changed, 72 insertions(+), 66 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 4a8170526..adc375801 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2654,8 +2654,10 @@ def _adapter_sanity_metrics(
             .item()
         )
 
-    slot_params = rank._checkpoint_slot_params("S0")
-    other_params = rank._checkpoint_slot_params("S1") if adapter_slots > 1 else []
+    slot_params = list(rank._checkpoint_slot_params_by_name["S0"])
+    other_params = (
+        list(rank._checkpoint_slot_params_by_name["S1"]) if adapter_slots > 1 else []
+    )
     before = [param.detach().clone() for param in slot_params]
     other_before = [param.detach().clone() for param in other_params]
     for chunk in rank.runtime.model:
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index eb39d95ae..4fd817e66 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -482,7 +482,9 @@ def __init__(
         self._default_slot_ref: LoRASlotRef | None = None
         self._slot_stack: list[LoRASlotRef] = []
         self._dynamic_optimizers: dict[str, torch.optim.Optimizer] = {}
-        self._checkpoint_slot_names: set[str] = set()
+        self._checkpoint_slot_params_by_name: dict[
+            str, tuple[torch.nn.Parameter, ...]
+        ] = {}
         self._memory_profiles: dict[_MemorySignature, float] = {}
         self._adaptive_plan_cache: dict[_AdaptivePlanCacheKey, _FlatForwardPlan] = {}
         self._adaptive_plan_cache_top_level_ids: tuple[int, ...] = ()
@@ -500,8 +502,8 @@ def zero_grad(self) -> None:
         optimizer = cast("MegatronOptimizer | None", self.runtime.optimizer)
         if optimizer is not None:
             optimizer.zero_grad()
-        for name in self._checkpoint_slot_names:
-            for param in self._checkpoint_slot_params(name):
+        for params in self._checkpoint_slot_params_by_name.values():
+            for param in params:
                 param.grad = None
 
     def _optimizer(self) -> "MegatronOptimizer":
@@ -547,8 +549,10 @@ def load_checkpoint_slot(
         loaded = self._load_slot(
             "checkpoint", name, adapter_model, trainable=True, alpha=alpha
         )
-        self._validate_dynamic_slot_consistency("checkpoint", name, loaded)
-        self._checkpoint_slot_names.add(name)
+        self._checkpoint_slot_params_by_name[name] = (
+            self._validate_dynamic_slot_consistency("checkpoint", name, loaded)
+        )
+        self._dynamic_optimizers.pop(name, None)
         return loaded
 
     def load_lora_slot(
@@ -601,14 +605,14 @@ def _validate_dynamic_slot_consistency(
         kind: Literal["checkpoint", "lora"],
         name: str,
         loaded_sites: int,
-    ) -> None:
-        if not (dist.is_available() and dist.is_initialized()):
-            return
-
+    ) -> tuple[torch.nn.Parameter, ...]:
         from art.megatron.lora import iter_lora_slot_parameters
 
         ref = self._slot_ref(kind, name)
-        params = list(iter_lora_slot_parameters(self.runtime.model, ref))
+        params = tuple(iter_lora_slot_parameters(self.runtime.model, ref))
+        if not (dist.is_available() and dist.is_initialized()):
+            return params
+
         local = {
             "rank": dist.get_rank(),
             "loaded_sites": int(loaded_sites),
@@ -636,7 +640,7 @@ def _validate_dynamic_slot_consistency(
             or rank["signature"] != reference["signature"]
         ]
         if not mismatched:
-            return
+            return params
 
         first_mismatch = None
         for left, right in zip_longest(
@@ -829,15 +833,13 @@ def _selected_dynamic_checkpoints(
         checkpoints: Sequence[str] | None,
     ) -> tuple[str, ...]:
         if checkpoints is not None:
-            unknown = set(checkpoints) - self._checkpoint_slot_names
+            unknown = set(checkpoints) - self._checkpoint_slot_params_by_name.keys()
             if unknown:
                 raise ValueError(f"Unknown checkpoint slots: {sorted(unknown)}")
             return tuple(dict.fromkeys(checkpoints))
         names = []
-        for name in sorted(self._checkpoint_slot_names):
-            local_has_grad = any(
-                param.grad is not None for param in self._checkpoint_slot_params(name)
-            )
+        for name, params in sorted(self._checkpoint_slot_params_by_name.items()):
+            local_has_grad = any(param.grad is not None for param in params)
             has_grad = torch.tensor(
                 int(local_has_grad),
                 device=self.device,
@@ -858,7 +860,7 @@ def _dynamic_optim_step(
     ) -> dict[str, float]:
         all_params: list[torch.nn.Parameter] = []
         for name in checkpoint_names:
-            slot_params = self._checkpoint_slot_params(name)
+            slot_params = self._checkpoint_slot_params_by_name[name]
             for param in slot_params:
                 if param.grad is None:
                     param.grad = torch.zeros_like(param)
@@ -892,7 +894,7 @@ def _dynamic_optimizer(
         optimizer = self._dynamic_optimizers.get(name)
         if optimizer is None:
             optimizer = torch.optim.AdamW(
-                self._checkpoint_slot_params(name),
+                self._checkpoint_slot_params_by_name[name],
                 lr=params.learning_rate,
                 betas=(params.beta1, params.beta2),
                 weight_decay=params.weight_decay,
@@ -905,16 +907,6 @@ def _dynamic_optimizer(
             group["weight_decay"] = params.weight_decay
         return optimizer
 
-    def _checkpoint_slot_params(self, name: str) -> list[torch.nn.Parameter]:
-        from art.megatron.lora import iter_lora_slot_parameters
-
-        return list(
-            iter_lora_slot_parameters(
-                self.runtime.model,
-                self._slot_ref("checkpoint", name),
-            )
-        )
-
     def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
         from megatron.core import parallel_state as ps
 
@@ -990,13 +982,6 @@ def _select_next_micro_batch(
         start: int,
     ) -> _CandidateMicroBatch[ForwardInputsT, _FlatForwardPlan]:
         dp_rank, dp_size = self._dp_rank_and_size()
-
-        def memory_check(plan: _FlatForwardPlan) -> _MemoryCheck:
-            return self._memory_check(plan)
-
-        def memory_check_estimate(estimate: _FlatForwardEstimate) -> _MemoryCheck:
-            return self._memory_check(estimate)
-
         return select_next_micro_batch(
             items,
             start,
@@ -1009,8 +994,13 @@ def memory_check_estimate(estimate: _FlatForwardEstimate) -> _MemoryCheck:
             estimate_for_local_inputs=lambda indices, local_inputs: (
                 self._cached_adaptive_estimate(items, indices, local_inputs)
             ),
-            memory_check=memory_check,
-            memory_check_estimate=memory_check_estimate,
+            memory_check=cast(
+                Callable[[_FlatForwardPlan], _MemoryCheck], self._memory_check
+            ),
+            memory_check_estimate=cast(
+                Callable[[_FlatForwardEstimate], _MemoryCheck],
+                self._memory_check,
+            ),
             has_memory_profile=lambda plan: self._all_ranks_have_memory_profile_values(
                 packed_tokens=plan.packed_tokens,
                 signature=plan.signature,
diff --git a/src/art/megatron/trainer_rank_planner.py b/src/art/megatron/trainer_rank_planner.py
index a7d874e9c..1223a5717 100644
--- a/src/art/megatron/trainer_rank_planner.py
+++ b/src/art/megatron/trainer_rank_planner.py
@@ -27,12 +27,6 @@ class _CandidateMicroBatch(Generic[InputT, PlanT]):
     cold_start: bool
 
 
-@dataclass(frozen=True)
-class _EstimatedMemoryCheck(Generic[EstimateT]):
-    estimate: EstimateT
-    check: _MemoryCheck
-
-
 def select_next_micro_batch(
     items: Sequence[InputT],
     start: int,
@@ -68,7 +62,7 @@ def local_slice(width: int) -> tuple[tuple[int, ...], list[InputT]]:
 
     def candidate(
         width: int,
-        estimated_check: _EstimatedMemoryCheck[EstimateT] | None = None,
+        estimated_check: tuple[EstimateT, _MemoryCheck] | None = None,
     ) -> _CandidateMicroBatch[InputT, PlanT]:
         width = clamp_width(width)
         cached = cache.get(width)
@@ -77,7 +71,7 @@ def candidate(
         indices, local_inputs = local_slice(width)
         plan = plan_for_local_inputs(indices, local_inputs)
         check = (
-            estimated_check.check if estimated_check is not None else memory_check(plan)
+            estimated_check[1] if estimated_check is not None else memory_check(plan)
         )
         item = _CandidateMicroBatch(
             inputs=local_inputs,
@@ -91,24 +85,22 @@ def candidate(
         cache[width] = item
         return item
 
-    def estimate_check(width: int) -> _EstimatedMemoryCheck[EstimateT] | None:
+    def estimate_check(width: int) -> tuple[EstimateT, _MemoryCheck] | None:
         indices, local_inputs = local_slice(width)
         estimate = estimate_for_local_inputs(indices, local_inputs)
         if estimate is None:
             return None
-        return _EstimatedMemoryCheck(
-            estimate=estimate,
-            check=memory_check_estimate(estimate),
-        )
+        return estimate, memory_check_estimate(estimate)
 
     first_estimated_check = estimate_check(min_width)
     if first_estimated_check is not None:
-        if not first_estimated_check.check.fits:
+        first_estimate, first_check = first_estimated_check
+        if not first_check.fits:
             first = candidate(min_width, first_estimated_check)
             raise_smallest_batch_error(first.plan, first.check)
-        if has_memory_profile_estimate(first_estimated_check.estimate):
+        if has_memory_profile_estimate(first_estimate):
             best: _CandidateMicroBatch[InputT, PlanT] | None = None
-            best_estimated_check: _EstimatedMemoryCheck[EstimateT] | None = (
+            best_estimated_check: tuple[EstimateT, _MemoryCheck] | None = (
                 first_estimated_check
             )
             best_width = min_width
@@ -135,20 +127,20 @@ def estimate_check(width: int) -> _EstimatedMemoryCheck[EstimateT] | None:
         max(min_width, (previous_global_micro_batch_size or min_width) * 2),
     )
     while width <= remaining:
-        check = estimate_check(width)
-        if check is not None and not check.check.fits:
+        estimated = estimate_check(width)
+        if estimated is not None and not estimated[1].fits:
             rejected += 1
             high_fail = width
             break
-        if check is not None:
+        if estimated is not None:
             best_width = width
-            best_estimated_check = check
+            best_estimated_check = estimated
             best = None
             if width == remaining:
                 break
             width = min(remaining, max(width + 1, width * 2))
             continue
-        item = candidate(width, check)
+        item = candidate(width)
         if item.check.fits:
             best = item
             best_width = width
@@ -186,18 +178,18 @@ def finalize_best() -> _CandidateMicroBatch[InputT, PlanT]:
     high = high_fail - 1
     while low <= high:
         mid = (low + high) // 2
-        check = estimate_check(mid)
-        if check is not None and not check.check.fits:
+        estimated = estimate_check(mid)
+        if estimated is not None and not estimated[1].fits:
             rejected += 1
             high = mid - 1
             continue
-        if check is not None:
+        if estimated is not None:
             best_width = mid
-            best_estimated_check = check
+            best_estimated_check = estimated
             best = None
             low = mid + 1
             continue
-        item = candidate(mid, check)
+        item = candidate(mid)
         if item.check.fits:
             best = item
             best_width = mid
diff --git a/tests/integration/megatron/lora/test_dynamic_lora_slots.py b/tests/integration/megatron/lora/test_dynamic_lora_slots.py
index 49a7f8224..ce3b3b4d1 100644
--- a/tests/integration/megatron/lora/test_dynamic_lora_slots.py
+++ b/tests/integration/megatron/lora/test_dynamic_lora_slots.py
@@ -73,6 +73,7 @@ def test_dynamic_lora_slots_capture_recompute_context_and_step_independently() -
             ref_a, ref_b, lora, megatron_checkpoint, False
         )
         _assert_step_updates_only(ref_a, ref_b, lora, trainer)
+        _assert_reload_replaces_slot_optimizer(ref_a, lora, trainer)
 
 
 def _adapter(prefix: str, *, rank: int, seed: int) -> dict[str, torch.Tensor]:
@@ -136,6 +137,24 @@ def _assert_step_updates_only(
     )
 
 
+def _assert_reload_replaces_slot_optimizer(
+    ref: LoRASlotRef,
+    lora: LoRA,
+    trainer: TrainerRank,
+) -> None:
+    assert ref.name is not None
+    old_params = trainer._checkpoint_slot_params_by_name[ref.name]
+    assert ref.name in trainer._dynamic_optimizers
+
+    trainer.load_checkpoint_slot(ref.name, _adapter("dense", rank=3, seed=9))
+
+    new_params = trainer._checkpoint_slot_params_by_name[ref.name]
+    assert ref.name not in trainer._dynamic_optimizers
+    assert [tuple(param.shape) for param in new_params] == [(4, 3), (3, 5)]
+    assert all(old is not new for old, new in zip(old_params, new_params, strict=True))
+    assert lora._slot(ref).rank == 3  # type: ignore[union-attr]
+
+
 def _trainer_for(lora: LoRA, device: torch.device) -> TrainerRank:
     trainer = TrainerRank.__new__(TrainerRank)
     trainer.runtime = SimpleNamespace(model=[lora], optimizer=None)
@@ -143,7 +162,10 @@ def _trainer_for(lora: LoRA, device: torch.device) -> TrainerRank:
     trainer._slot_stack = []
     trainer._default_slot_ref = None
     trainer._dynamic_optimizers = {}
-    trainer._checkpoint_slot_names = {"A", "B"}
+    trainer._checkpoint_slot_params_by_name = {
+        "A": tuple(lora.lora_slot_params(LoRASlotRef("checkpoint", "A"))),
+        "B": tuple(lora.lora_slot_params(LoRASlotRef("checkpoint", "B"))),
+    }
     return trainer
 
 

From 22ec72d8b894316465c2e906e90693cc785c6c19 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 16:11:03 -0600
Subject: [PATCH 060/114] refactor: collapse LoRA parallel layout builders

---
 src/art/megatron/lora.py | 342 ++++++++++++---------------------------
 1 file changed, 103 insertions(+), 239 deletions(-)

diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index 27fb2b30d..824b6d352 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -1182,6 +1182,59 @@ def _expert_grouped_lora_dual_forward(
     )
 
 
+def _linear_weight(linear: Any) -> torch.Tensor:
+    weight = getattr(linear, "weight0", None)
+    if weight is None:
+        weight = getattr(linear, "weight", None)
+    assert isinstance(weight, torch.Tensor)
+    return weight
+
+
+def _parallel_lora(
+    *,
+    adapter_model_prefix: str,
+    linear: Any,
+    out_features: int,
+    rank: int,
+    alpha: float,
+    layout: Literal["column", "row"],
+    shard_domain: ShardDomain = "tp",
+    grad_sync_domain: GradSyncDomain = TP_DEFAULT_GRAD_SYNC_DOMAIN,
+    allreduce: bool = True,
+    num_local_experts: int = 1,
+) -> LoRA:
+    weight = _linear_weight(linear)
+    row_layout = layout == "row"
+    a_parallel_spec = LoRAParallelSpec(
+        shard_domain=shard_domain,
+        sharded=row_layout,
+        shard_dim=-2 if row_layout else None,
+        grad_sync_domain=grad_sync_domain,
+        grad_sync_op=GRAD_SYNC_OP_NONE if row_layout else GRAD_SYNC_OP_SUM,
+    )
+    b_parallel_spec = a_parallel_spec.model_copy(
+        update={
+            "sharded": not row_layout,
+            "shard_dim": None if row_layout else -1,
+            "grad_sync_domain": grad_sync_domain,
+            "grad_sync_op": GRAD_SYNC_OP_SUM if row_layout else GRAD_SYNC_OP_NONE,
+        }
+    )
+    return LoRA(
+        adapter_model_prefix=adapter_model_prefix,
+        in_features=linear.in_features,
+        out_features=out_features,
+        rank=rank,
+        alpha=alpha,
+        dtype=weight.dtype,
+        device=weight.device,
+        num_local_experts=num_local_experts,
+        a_parallel_spec=a_parallel_spec,
+        b_parallel_spec=b_parallel_spec,
+        allreduce=allreduce,
+    )
+
+
 class SelfAttentionLinearProjLoRA(torch.nn.Module):
     def __init__(
         self,
@@ -1196,33 +1249,13 @@ def __init__(
         self.provider = provider
         self.linear_proj = linear_proj
         self.reduce_output = reduce_output
-        assert isinstance(linear_proj.weight, torch.Tensor)
-        a_parallel_spec = LoRAParallelSpec(
-            shard_domain="tp",
-            sharded=True,
-            shard_dim=-2,
-            grad_sync_domain=TP_DEFAULT_GRAD_SYNC_DOMAIN,
-            grad_sync_op=GRAD_SYNC_OP_NONE,  # only need DP-type reductions
-        )
-        b_parallel_spec = a_parallel_spec.model_copy(
-            update={
-                "sharded": False,
-                "shard_dim": None,
-                "grad_sync_op": GRAD_SYNC_OP_SUM,  # sum replicated TP contributions
-            }
-        )
-        self.lora = LoRA(
+        self.lora = _parallel_lora(
             adapter_model_prefix=adapter_model_prefix,
-            in_features=linear_proj.in_features,
+            linear=linear_proj,
             out_features=linear_proj.out_features,
             rank=rank,
             alpha=alpha,
-            dtype=linear_proj.weight.dtype,
-            device=linear_proj.weight.device,
-            a_parallel_spec=a_parallel_spec,
-            b_parallel_spec=b_parallel_spec,
-            # Non-expert LoRA params use Megatron's dense DP/CP gradient buckets.
-            allreduce=True,
+            layout="row",
         )
 
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor | None]:
@@ -1293,64 +1326,29 @@ def __init__(
             self.provider.num_attention_heads // self.provider.num_query_groups
         )
         self.hidden_size_per_attention_head = self.provider.kv_channels
-        self.q_proj_lora = self._build_qkv_lora(
+        self.q_proj_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.q_proj",
-            linear_qkv=linear_qkv,
+            linear=linear_qkv,
+            out_features=q_and_gate_out_features_per_rank,
             rank=rank,
             alpha=alpha,
-            out_features=q_and_gate_out_features_per_rank,
+            layout="column",
         )
-        self.k_proj_lora = self._build_qkv_lora(
+        self.k_proj_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.k_proj",
-            linear_qkv=linear_qkv,
+            linear=linear_qkv,
+            out_features=kv_out_features_per_rank,
             rank=rank,
             alpha=alpha,
-            out_features=kv_out_features_per_rank,
+            layout="column",
         )
-        self.v_proj_lora = self._build_qkv_lora(
+        self.v_proj_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.v_proj",
-            linear_qkv=linear_qkv,
-            rank=rank,
-            alpha=alpha,
+            linear=linear_qkv,
             out_features=kv_out_features_per_rank,
-        )
-
-    @staticmethod
-    def _build_qkv_lora(
-        *,
-        adapter_model_prefix: str,
-        linear_qkv: TELayerNormColumnParallelLinear,
-        rank: int,
-        alpha: float,
-        out_features: int,
-    ) -> LoRA:
-        assert isinstance(linear_qkv.weight, torch.Tensor)
-        a_parallel_spec = LoRAParallelSpec(
-            shard_domain="tp",
-            sharded=False,
-            shard_dim=None,
-            grad_sync_domain=TP_DEFAULT_GRAD_SYNC_DOMAIN,
-            grad_sync_op=GRAD_SYNC_OP_SUM,  # sum replicated TP contributions
-        )
-        b_parallel_spec = a_parallel_spec.model_copy(
-            update={
-                "sharded": True,
-                "shard_dim": -1,
-                "grad_sync_op": GRAD_SYNC_OP_NONE,  # only need DP-type reductions
-            }
-        )
-        return LoRA(
-            adapter_model_prefix=adapter_model_prefix,
-            in_features=linear_qkv.in_features,
-            out_features=out_features,
             rank=rank,
             alpha=alpha,
-            dtype=linear_qkv.weight.dtype,
-            device=linear_qkv.weight.device,
-            a_parallel_spec=a_parallel_spec,
-            b_parallel_spec=b_parallel_spec,
-            # Non-expert LoRA params use Megatron's dense DP/CP gradient buckets.
-            allreduce=True,
+            layout="column",
         )
 
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor | None]:
@@ -1416,13 +1414,13 @@ def __init__(
         z_out_features_per_partition = (
             gated_delta_net.v_dim // ps.get_tensor_model_parallel_world_size()
         )
-        assert isinstance(in_proj.weight, torch.Tensor)
-        self.qkv_lora = self._build_in_proj_lora(
+        self.qkv_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.in_proj_qkv",
-            in_proj=in_proj,
+            linear=in_proj,
+            out_features=qkv_out_features_per_partition,
             rank=rank,
             alpha=alpha,
-            out_features=qkv_out_features_per_partition,
+            layout="column",
         )
         _set_lora_shard_strategy_metadata(
             self.qkv_lora.B_T,
@@ -1433,49 +1431,13 @@ def __init__(
                 gated_delta_net.v_dim,
             ),
         )
-        self.z_lora = self._build_in_proj_lora(
+        self.z_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.in_proj_z",
-            in_proj=in_proj,
-            rank=rank,
-            alpha=alpha,
+            linear=in_proj,
             out_features=z_out_features_per_partition,
-        )
-
-    @staticmethod
-    def _build_in_proj_lora(
-        *,
-        adapter_model_prefix: str,
-        in_proj: TELayerNormColumnParallelLinear,
-        rank: int,
-        alpha: float,
-        out_features: int,
-    ) -> LoRA:
-        assert isinstance(in_proj.weight, torch.Tensor)
-        a_parallel_spec = LoRAParallelSpec(
-            shard_domain="tp",
-            sharded=False,
-            shard_dim=None,
-            grad_sync_domain=TP_DEFAULT_GRAD_SYNC_DOMAIN,
-            grad_sync_op=GRAD_SYNC_OP_SUM,
-        )
-        b_parallel_spec = a_parallel_spec.model_copy(
-            update={
-                "sharded": True,
-                "shard_dim": -1,
-                "grad_sync_op": GRAD_SYNC_OP_NONE,
-            }
-        )
-        return LoRA(
-            adapter_model_prefix=adapter_model_prefix,
-            in_features=in_proj.in_features,
-            out_features=out_features,
             rank=rank,
             alpha=alpha,
-            dtype=in_proj.weight.dtype,
-            device=in_proj.weight.device,
-            a_parallel_spec=a_parallel_spec,
-            b_parallel_spec=b_parallel_spec,
-            allreduce=True,
+            layout="column",
         )
 
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor | None]:
@@ -1509,62 +1471,31 @@ def __init__(
         super().__init__()
         assert linear_fc1 is not None
         self.linear_fc1 = linear_fc1
-        self.gate_lora = self._build_fc1_lora(
+        self.gate_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.gate_proj",
-            linear_fc1=linear_fc1,
+            linear=linear_fc1,
+            out_features=linear_fc1.out_features // 2,
             rank=rank,
             alpha=alpha,
+            layout="column",
+            shard_domain="expert_tp",
+            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
             num_local_experts=num_local_experts,
+            allreduce=False,
         )
-        self.up_lora = self._build_fc1_lora(
+        self.up_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.up_proj",
-            linear_fc1=linear_fc1,
+            linear=linear_fc1,
+            out_features=linear_fc1.out_features // 2,
             rank=rank,
             alpha=alpha,
-            num_local_experts=num_local_experts,
-        )
-        self.uses_direct_quack_grouped_lora_dual = True
-
-    @staticmethod
-    def _build_fc1_lora(
-        *,
-        adapter_model_prefix: str,
-        linear_fc1: TEColumnParallelGroupedLinear,
-        rank: int,
-        alpha: float,
-        num_local_experts: int,
-    ) -> LoRA:
-        assert linear_fc1 is not None
-        assert isinstance(linear_fc1.weight0, torch.Tensor)
-        a_parallel_spec = LoRAParallelSpec(
+            layout="column",
             shard_domain="expert_tp",
-            sharded=False,
-            shard_dim=None,
             grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
-            grad_sync_op=GRAD_SYNC_OP_SUM,  # we handle this with extended finalize_grads
-        )
-        b_parallel_spec = a_parallel_spec.model_copy(
-            update={
-                "sharded": True,
-                "shard_dim": -1,
-                "grad_sync_domain": EXPERT_TP_GRAD_SYNC_DOMAIN,
-                "grad_sync_op": GRAD_SYNC_OP_NONE,  # only need DP-type reductions
-            }
-        )
-        return LoRA(
-            adapter_model_prefix=adapter_model_prefix,
-            in_features=linear_fc1.in_features,
-            out_features=linear_fc1.out_features // 2,
-            rank=rank,
-            alpha=alpha,
-            dtype=linear_fc1.weight0.dtype,
-            device=linear_fc1.weight0.device,
             num_local_experts=num_local_experts,
-            a_parallel_spec=a_parallel_spec,
-            b_parallel_spec=b_parallel_spec,
-            # Expert LoRA params use Megatron's expert-DP gradient buckets.
             allreduce=False,
         )
+        self.uses_direct_quack_grouped_lora_dual = True
 
     def forward(
         self, x: torch.Tensor, tokens_per_expert: list[int] | torch.Tensor
@@ -1585,34 +1516,17 @@ def __init__(
     ) -> None:
         super().__init__()
         assert linear_fc1 is not None
-        assert isinstance(linear_fc1.weight0, torch.Tensor)
         self.linear_fc1 = linear_fc1
-        a_parallel_spec = LoRAParallelSpec(
-            shard_domain="expert_tp",
-            sharded=False,
-            shard_dim=None,
-            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
-            grad_sync_op=GRAD_SYNC_OP_SUM,
-        )
-        b_parallel_spec = a_parallel_spec.model_copy(
-            update={
-                "sharded": True,
-                "shard_dim": -1,
-                "grad_sync_domain": EXPERT_TP_GRAD_SYNC_DOMAIN,
-                "grad_sync_op": GRAD_SYNC_OP_NONE,
-            }
-        )
-        self.lora = LoRA(
+        self.lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.gate_up_proj",
-            in_features=linear_fc1.in_features,
+            linear=linear_fc1,
             out_features=linear_fc1.out_features,
             rank=rank,
             alpha=alpha,
-            dtype=linear_fc1.weight0.dtype,
-            device=linear_fc1.weight0.device,
+            layout="column",
+            shard_domain="expert_tp",
+            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
             num_local_experts=num_local_experts,
-            a_parallel_spec=a_parallel_spec,
-            b_parallel_spec=b_parallel_spec,
             allreduce=False,
         )
         gate_out_features = linear_fc1.out_features // 2
@@ -1647,35 +1561,17 @@ def __init__(
     ) -> None:
         super().__init__()
         assert linear_fc2 is not None
-        assert isinstance(linear_fc2.weight0, torch.Tensor)
         self.linear_fc2 = linear_fc2
-        a_parallel_spec = LoRAParallelSpec(
-            shard_domain="expert_tp",
-            sharded=True,
-            shard_dim=-2,
-            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
-            grad_sync_op=GRAD_SYNC_OP_NONE,  # only need DP-type reductions
-        )
-        b_parallel_spec = a_parallel_spec.model_copy(
-            update={
-                "sharded": False,
-                "shard_dim": None,
-                "grad_sync_domain": EXPERT_TP_GRAD_SYNC_DOMAIN,
-                "grad_sync_op": GRAD_SYNC_OP_SUM,  # we handle this with extended finalize_grads
-            }
-        )
-        self.lora = LoRA(
+        self.lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.down_proj",
-            in_features=linear_fc2.in_features,
+            linear=linear_fc2,
             out_features=linear_fc2.out_features,
             rank=rank,
             alpha=alpha,
-            dtype=linear_fc2.weight0.dtype,
-            device=linear_fc2.weight0.device,
+            layout="row",
+            shard_domain="expert_tp",
+            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
             num_local_experts=num_local_experts,
-            a_parallel_spec=a_parallel_spec,
-            b_parallel_spec=b_parallel_spec,
-            # Expert LoRA params use Megatron's expert-DP gradient buckets.
             allreduce=False,
         )
 
@@ -1704,53 +1600,21 @@ def __init__(
             linear_fc1.return_layernorm_output = True
             linear_fc1.return_layernorm_output_gathered = True
         self.linear_fc1 = linear_fc1
-        self.gate_lora = self._build_fc1_lora(
+        self.gate_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.gate_proj",
-            linear_fc1=linear_fc1,
+            linear=linear_fc1,
+            out_features=linear_fc1.out_features // 2,
             rank=rank,
             alpha=alpha,
+            layout="column",
         )
-        self.up_lora = self._build_fc1_lora(
+        self.up_lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.up_proj",
-            linear_fc1=linear_fc1,
-            rank=rank,
-            alpha=alpha,
-        )
-
-    @staticmethod
-    def _build_fc1_lora(
-        *,
-        adapter_model_prefix: str,
-        linear_fc1: TEColumnParallelLinear | TELayerNormColumnParallelLinear,
-        rank: int,
-        alpha: float,
-    ) -> LoRA:
-        assert isinstance(linear_fc1.weight, torch.Tensor)
-        a_parallel_spec = LoRAParallelSpec(
-            shard_domain="tp",
-            sharded=False,
-            shard_dim=None,
-            grad_sync_domain=TP_DEFAULT_GRAD_SYNC_DOMAIN,
-            grad_sync_op=GRAD_SYNC_OP_SUM,
-        )
-        b_parallel_spec = a_parallel_spec.model_copy(
-            update={
-                "sharded": True,
-                "shard_dim": -1,
-                "grad_sync_op": GRAD_SYNC_OP_NONE,
-            }
-        )
-        return LoRA(
-            adapter_model_prefix=adapter_model_prefix,
-            in_features=linear_fc1.in_features,
+            linear=linear_fc1,
             out_features=linear_fc1.out_features // 2,
             rank=rank,
             alpha=alpha,
-            dtype=linear_fc1.weight.dtype,
-            device=linear_fc1.weight.device,
-            a_parallel_spec=a_parallel_spec,
-            b_parallel_spec=b_parallel_spec,
-            allreduce=True,
+            layout="column",
         )
 
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor | None]:

From 9e406474707bc0ece09316e74d83248436d13c72 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 16:19:35 -0600
Subject: [PATCH 061/114] refactor: unify shared-prefix planning

---
 src/art/megatron/shared_prefix_packing.py | 215 +++++++++-------------
 src/art/megatron/shared_prefix_state.py   |  87 +++------
 src/art/megatron/trainer_rank_planner.py  | 113 +++++-------
 3 files changed, 156 insertions(+), 259 deletions(-)

diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index 658d0348f..9255053b7 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -3,7 +3,6 @@
 from collections.abc import Iterable
 from dataclasses import dataclass
 
-import numpy as np
 import torch
 
 
@@ -16,6 +15,15 @@ class SharedPrefixPack:
     positions_by_sequence: tuple[torch.Tensor, ...]
 
 
+@dataclass(frozen=True)
+class _PrefixSegment:
+    sequence_indices: tuple[int, ...]
+    start: int
+    end: int
+    group_id: int
+    parent_id: int
+
+
 def pack_shared_prefixes(
     sequences: Iterable[torch.Tensor],
     *,
@@ -62,102 +70,28 @@ def pack_shared_prefixes(
         return _empty_pack()
 
     device = tensors[0].device
-    lengths = torch.tensor([len(tensor) for tensor in tensors], device=device)
-    if int(lengths.max().item()) == 0:
+    rows = tuple(tensor.detach().cpu().tolist() for tensor in tensors)
+    segments = _prefix_segments(rows, max_depth=max_depth)
+    if not segments:
         return _empty_pack(len(tensors), device=device)
 
-    padded = torch.nn.utils.rnn.pad_sequence(list(tensors), batch_first=True)
     token_chunks: list[torch.Tensor] = []
     group_chunks: list[torch.Tensor] = []
     parent_chunks: list[torch.Tensor] = []
     position_chunks: list[torch.Tensor] = []
     positions_by_sequence: list[list[torch.Tensor]] = [[] for _ in tensors]
     cursor = 0
-    next_group_id = 1
 
-    def emit(
-        indices: torch.Tensor,
-        start: int,
-        end: int,
-        parent_group_id: int | None,
-    ) -> int:
-        nonlocal cursor, next_group_id
-        segment = tensors[int(indices[0].item())][start:end]
-        group_id = next_group_id
-        next_group_id += 1
-        parent_id = group_id if parent_group_id is None else parent_group_id
+    for planned in segments:
+        segment = tensors[planned.sequence_indices[0]][planned.start : planned.end]
         packed_positions = torch.arange(cursor, cursor + len(segment), device=device)
-
         token_chunks.append(segment)
-        group_chunks.append(torch.full_like(segment, group_id))
-        parent_chunks.append(torch.full_like(segment, parent_id))
-        position_chunks.append(torch.arange(start, end, device=device))
-        for sequence_index in indices.tolist():
+        group_chunks.append(torch.full_like(segment, planned.group_id))
+        parent_chunks.append(torch.full_like(segment, planned.parent_id))
+        position_chunks.append(torch.arange(planned.start, planned.end, device=device))
+        for sequence_index in planned.sequence_indices:
             positions_by_sequence[sequence_index].append(packed_positions)
         cursor += len(segment)
-        return group_id
-
-    def shared_end(indices: torch.Tensor, start: int) -> int:
-        end = int(lengths.index_select(0, indices).min().item())
-        if start >= end:
-            return start
-        shared = (
-            padded.index_select(0, indices)[:, start:end]
-            == padded[indices[0], start:end]
-        ).all(dim=0)
-        return (
-            end
-            if bool(shared.all().item())
-            else start + int(shared.logical_not().nonzero()[0])
-        )
-
-    def branch_groups(indices: torch.Tensor, start: int) -> list[torch.Tensor]:
-        groups: dict[int, list[int]] = {}
-        order: list[int] = []
-        symbols = padded.index_select(0, indices)[:, start].tolist()
-        for symbol, index in zip(symbols, indices.tolist(), strict=True):
-            if symbol not in groups:
-                groups[symbol] = []
-                order.append(symbol)
-            groups[symbol].append(index)
-        return [
-            torch.tensor(groups[symbol], dtype=torch.long, device=device)
-            for symbol in order
-        ]
-
-    def walk(
-        indices: torch.Tensor,
-        start: int,
-        parent_group_id: int | None,
-        depth: int,
-    ) -> None:
-        active = indices[lengths.index_select(0, indices) > start]
-        if int(active.numel()) == 0:
-            return
-        if (
-            max_depth == 0
-            or int(active.numel()) == 1
-            or (parent_group_id is not None and depth >= max_depth)
-        ):
-            for sequence_index in active:
-                emit(
-                    sequence_index[None],
-                    start,
-                    int(lengths[sequence_index].item()),
-                    parent_group_id,
-                )
-            return
-
-        end = shared_end(active, start)
-        if end > start:
-            group_id = emit(active, start, end, parent_group_id)
-            walk(active, end, group_id, depth + 1)
-            return
-
-        for group in branch_groups(active, start):
-            walk(group, start, parent_group_id, depth)
-
-    walk(torch.arange(len(tensors), device=device), 0, None, 0)
 
     return SharedPrefixPack(
         tokens=torch.cat(token_chunks).unsqueeze(0),
@@ -187,78 +121,97 @@ def estimate_shared_prefix_packed_tokens(
     if max_depth < 0:
         raise ValueError("max_depth must be >= 0")
 
-    arrays: list[np.ndarray] = []
+    rows: list[list[int]] = []
     for sequence in sequences:
         tensor = _sequence_tensor(sequence)
         if tensor.device.type != "cpu":
             return None
-        arrays.append(tensor.numpy())
+        rows.append(tensor.tolist())
+
+    return sum(
+        segment.end - segment.start
+        for segment in _prefix_segments(tuple(rows), max_depth=max_depth)
+    )
+
 
-    if not arrays:
-        return 0
+def _prefix_segments(
+    rows: tuple[list[int], ...],
+    *,
+    max_depth: int,
+) -> tuple[_PrefixSegment, ...]:
+    if max_depth < 0:
+        raise ValueError("max_depth must be >= 0")
+    lengths = tuple(len(row) for row in rows)
+    segments: list[_PrefixSegment] = []
+    next_group_id = 1
 
-    lengths = tuple(int(array.shape[0]) for array in arrays)
-    if max(lengths, default=0) == 0:
-        return 0
+    def emit(
+        indices: tuple[int, ...],
+        start: int,
+        end: int,
+        parent_group_id: int | None,
+    ) -> int:
+        nonlocal next_group_id
+        group_id = next_group_id
+        next_group_id += 1
+        segments.append(
+            _PrefixSegment(
+                sequence_indices=indices,
+                start=start,
+                end=end,
+                group_id=group_id,
+                parent_id=group_id if parent_group_id is None else parent_group_id,
+            )
+        )
+        return group_id
 
     def shared_end(indices: tuple[int, ...], start: int) -> int:
         end = min(lengths[index] for index in indices)
-        if start >= end or len(indices) == 1:
-            return end
-        first = arrays[indices[0]]
-        low = start
-        high = end
-        while low < high:
-            mid = (low + high + 1) // 2
-            prefix = first[start:mid]
-            if all(
-                np.array_equal(arrays[index][start:mid], prefix)
-                for index in indices[1:]
-            ):
-                low = mid
-            else:
-                high = mid - 1
-        return low
+        while start < end:
+            token = rows[indices[0]][start]
+            if any(rows[index][start] != token for index in indices[1:]):
+                break
+            start += 1
+        return start
 
     def branch_groups(indices: tuple[int, ...], start: int) -> list[tuple[int, ...]]:
         groups: dict[int, list[int]] = {}
         order: list[int] = []
         for index in indices:
-            symbol = int(arrays[index][start])
-            if symbol not in groups:
-                groups[symbol] = []
-                order.append(symbol)
-            groups[symbol].append(index)
-        return [tuple(groups[symbol]) for symbol in order]
+            token = rows[index][start]
+            if token not in groups:
+                groups[token] = []
+                order.append(token)
+            groups[token].append(index)
+        return [tuple(groups[token]) for token in order]
 
     def walk(
         indices: tuple[int, ...],
         start: int,
-        *,
-        has_parent: bool,
+        parent_group_id: int | None,
         depth: int,
-    ) -> int:
+    ) -> None:
         active = tuple(index for index in indices if lengths[index] > start)
         if not active:
-            return 0
-        if max_depth == 0 or len(active) == 1 or (has_parent and depth >= max_depth):
-            return sum(lengths[index] - start for index in active)
+            return
+        if (
+            max_depth == 0
+            or len(active) == 1
+            or (parent_group_id is not None and depth >= max_depth)
+        ):
+            for index in active:
+                emit((index,), start, lengths[index], parent_group_id)
+            return
 
         end = shared_end(active, start)
         if end > start:
-            return (end - start) + walk(
-                active,
-                end,
-                has_parent=True,
-                depth=depth + 1,
-            )
-
-        return sum(
-            walk(group, start, has_parent=has_parent, depth=depth)
-            for group in branch_groups(active, start)
-        )
+            walk(active, end, emit(active, start, end, parent_group_id), depth + 1)
+            return
+        for group in branch_groups(active, start):
+            walk(group, start, parent_group_id, depth)
 
-    return walk(tuple(range(len(arrays))), 0, has_parent=False, depth=0)
+    walk(tuple(range(len(rows))), 0, None, 0)
+    return tuple(segments)
 
 
 def visualize_shared_prefix_pack(pack: SharedPrefixPack) -> str:
diff --git a/src/art/megatron/shared_prefix_state.py b/src/art/megatron/shared_prefix_state.py
index 4221a3e0d..adbd9e514 100644
--- a/src/art/megatron/shared_prefix_state.py
+++ b/src/art/megatron/shared_prefix_state.py
@@ -75,14 +75,13 @@ def create_shared_prefix_state(
             attention_value_head_dim=attention_value_head_dim,
         ),
     )
-    cp_rank, cp_size, cp_group = _gdn_cp_rank_size_group()
-    gdn_execution_spec = _build_gdn_execution_spec_once(
-        group_ids_cpu,
-        parent_ids_cpu,
-        build=build_gdn_execution_spec,
-        cp_rank=cp_rank,
-        cp_size=cp_size,
-        cp_group=cp_group,
+    cp_rank, cp_size = _gdn_cp_rank_size()
+    gdn_execution_spec = (
+        parse_gdn_shared_prefix_segments(
+            group_ids_cpu, parent_ids_cpu, min_completions_per_family=0
+        )
+        if build_gdn_execution_spec
+        else None
     )
     return SharedPrefixAttentionState(
         block_mask=block_mask,
@@ -94,7 +93,6 @@ def create_shared_prefix_state(
             device=device,
             cp_rank=cp_rank,
             cp_size=cp_size,
-            cp_group=cp_group,
             attention_token_layout_index=attention_token_layout_index,
         ),
     )
@@ -123,13 +121,21 @@ def _build_sparse_shared_prefix_block_mask(
     token_indices = torch.arange(seq_len, dtype=torch.int64)
     for row_spec in batch_spec.rows:
         row_index = int(row_spec.row_index)
-        slices = _row_local_slices(
-            _full_row_slices_with_padding(
-                row_slices=row_spec.slices,
-                valid_tokens=int(row_spec.valid_tokens),
-                seq_len=seq_len,
-            )
+        slices = tuple(
+            slice_.model_copy(update={"row_index": 0}) for slice_ in row_spec.slices
         )
+        if int(row_spec.valid_tokens) < seq_len:
+            padding_range = TokenRange(start=int(row_spec.valid_tokens), end=seq_len)
+            slices = (
+                *slices,
+                AttnSlice(
+                    q_range=padding_range,
+                    k_range=padding_range,
+                    mask_kind=AttnMaskKind.CAUSAL,
+                    row_index=0,
+                    family_index=None,
+                ),
+            )
         if not slices:
             row_masks.append(
                 _empty_block_mask(seq_len=seq_len, block_size=block_size, device=device)
@@ -162,10 +168,6 @@ def _build_sparse_shared_prefix_block_mask(
     )
 
 
-def _row_local_slices(slices: tuple[AttnSlice, ...]) -> tuple[AttnSlice, ...]:
-    return tuple(slice_.model_copy(update={"row_index": 0}) for slice_ in slices)
-
-
 def _stack_optional_block_tensors(
     masks: list[BlockMask],
     name: str,
@@ -216,29 +218,6 @@ def mask_mod(
     )
 
 
-def _full_row_slices_with_padding(
-    *,
-    row_slices: tuple[AttnSlice, ...],
-    valid_tokens: int,
-    seq_len: int,
-) -> tuple[AttnSlice, ...]:
-    if valid_tokens >= seq_len:
-        return row_slices
-    padding_range = TokenRange(start=int(valid_tokens), end=int(seq_len))
-    if padding_range.is_empty():
-        return row_slices
-    return (
-        *row_slices,
-        AttnSlice(
-            q_range=padding_range,
-            k_range=padding_range,
-            mask_kind=AttnMaskKind.CAUSAL,
-            row_index=0,
-            family_index=None,
-        ),
-    )
-
-
 def _empty_block_mask(
     *,
     seq_len: int,
@@ -294,36 +273,17 @@ def _shared_prefix_block_size(
     )
 
 
-def _build_gdn_execution_spec_once(
-    group_ids: Tensor,
-    parent_ids: Tensor,
-    *,
-    build: bool,
-    cp_rank: int,
-    cp_size: int,
-    cp_group: Any | None,
-) -> GdnPackedExecutionSpec | None:
-    del cp_rank, cp_size, cp_group
-    if not build:
-        return None
-    return parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=0
-    )
-
-
 def _build_gdn_execution_plan_once(
     spec: GdnPackedExecutionSpec | None,
     *,
     device: torch.device,
     cp_rank: int,
     cp_size: int,
-    cp_group: Any | None,
     attention_token_layout_index: TokenLayoutIndex | None,
 ) -> GdnRankExecutionPlan | None:
     if spec is None:
         return None
     planner_device = torch.device("cpu") if device.type == "cuda" else device
-    del cp_group
     gc_was_enabled = gc.isenabled()
     if gc_was_enabled:
         gc.disable()
@@ -341,7 +301,7 @@ def _build_gdn_execution_plan_once(
     return move_gdn_rank_execution_plan_to_device(plan, device)
 
 
-def _gdn_cp_rank_size_group() -> tuple[int, int, Any | None]:
+def _gdn_cp_rank_size() -> tuple[int, int]:
     try:
         from megatron.core import parallel_state as ps
 
@@ -349,8 +309,7 @@ def _gdn_cp_rank_size_group() -> tuple[int, int, Any | None]:
             return (
                 int(ps.get_context_parallel_rank()),
                 int(ps.get_context_parallel_world_size()),
-                ps.get_context_parallel_group(),
             )
     except Exception:
         pass
-    return 0, 1, None
+    return 0, 1
diff --git a/src/art/megatron/trainer_rank_planner.py b/src/art/megatron/trainer_rank_planner.py
index 1223a5717..3cba06993 100644
--- a/src/art/megatron/trainer_rank_planner.py
+++ b/src/art/megatron/trainer_rank_planner.py
@@ -50,6 +50,7 @@ def select_next_micro_batch(
         raise RuntimeError("cannot select an empty microbatch window")
 
     cache: dict[int, _CandidateMicroBatch[InputT, PlanT]] = {}
+    estimate_cache: dict[int, tuple[EstimateT, _MemoryCheck] | None] = {}
     rejected = 0
 
     def clamp_width(width: int) -> int:
@@ -86,40 +87,58 @@ def candidate(
         return item
 
     def estimate_check(width: int) -> tuple[EstimateT, _MemoryCheck] | None:
+        width = clamp_width(width)
+        if width in estimate_cache:
+            return estimate_cache[width]
         indices, local_inputs = local_slice(width)
         estimate = estimate_for_local_inputs(indices, local_inputs)
         if estimate is None:
+            estimate_cache[width] = None
             return None
-        return estimate, memory_check_estimate(estimate)
+        estimate_cache[width] = estimate, memory_check_estimate(estimate)
+        return estimate_cache[width]
 
-    first_estimated_check = estimate_check(min_width)
-    if first_estimated_check is not None:
-        first_estimate, first_check = first_estimated_check
-        if not first_check.fits:
-            first = candidate(min_width, first_estimated_check)
-            raise_smallest_batch_error(first.plan, first.check)
-        if has_memory_profile_estimate(first_estimate):
-            best: _CandidateMicroBatch[InputT, PlanT] | None = None
-            best_estimated_check: tuple[EstimateT, _MemoryCheck] | None = (
-                first_estimated_check
-            )
-            best_width = min_width
-        else:
-            first = candidate(min_width, first_estimated_check)
-            if first.cold_start:
-                return first
-            best = first
-            best_estimated_check = None
-            best_width = first.stats_global_count
+    def probe(
+        width: int,
+    ) -> tuple[
+        bool,
+        tuple[EstimateT, _MemoryCheck] | None,
+        _CandidateMicroBatch[InputT, PlanT] | None,
+    ]:
+        estimated = estimate_check(width)
+        if estimated is not None:
+            return estimated[1].fits, estimated, None
+        item = candidate(width)
+        return item.check.fits, None, item
+
+    first_estimated = estimate_check(min_width)
+    if first_estimated is not None and not first_estimated[1].fits:
+        first = candidate(min_width, first_estimated)
+        raise_smallest_batch_error(first.plan, first.check)
+
+    if first_estimated is not None and has_memory_profile_estimate(first_estimated[0]):
+        best_width = min_width
+        best_estimated: tuple[EstimateT, _MemoryCheck] | None = first_estimated
+        best_item: _CandidateMicroBatch[InputT, PlanT] | None = None
     else:
-        first = candidate(min_width)
+        first = candidate(min_width, first_estimated)
         if not first.check.fits:
             raise_smallest_batch_error(first.plan, first.check)
         if first.cold_start:
             return first
-        best = first
-        best_estimated_check = None
         best_width = first.stats_global_count
+        best_estimated = None
+        best_item = first
+
+    def remember_fit(
+        width: int,
+        estimated: tuple[EstimateT, _MemoryCheck] | None,
+        item: _CandidateMicroBatch[InputT, PlanT] | None,
+    ) -> None:
+        nonlocal best_width, best_estimated, best_item
+        best_width = clamp_width(width)
+        best_estimated = estimated
+        best_item = item
 
     high_fail: int | None = None
     width = min(
@@ -127,24 +146,9 @@ def estimate_check(width: int) -> tuple[EstimateT, _MemoryCheck] | None:
         max(min_width, (previous_global_micro_batch_size or min_width) * 2),
     )
     while width <= remaining:
-        estimated = estimate_check(width)
-        if estimated is not None and not estimated[1].fits:
-            rejected += 1
-            high_fail = width
-            break
-        if estimated is not None:
-            best_width = width
-            best_estimated_check = estimated
-            best = None
-            if width == remaining:
-                break
-            width = min(remaining, max(width + 1, width * 2))
-            continue
-        item = candidate(width)
-        if item.check.fits:
-            best = item
-            best_width = width
-            best_estimated_check = None
+        fits, estimated, item = probe(width)
+        if fits:
+            remember_fit(width, estimated, item)
             if width == remaining:
                 break
             width = min(remaining, max(width + 1, width * 2))
@@ -154,13 +158,7 @@ def estimate_check(width: int) -> tuple[EstimateT, _MemoryCheck] | None:
         break
 
     def finalize_best() -> _CandidateMicroBatch[InputT, PlanT]:
-        selected = (
-            candidate(best_width, best_estimated_check)
-            if best is None
-            or best_width != best.stats_global_count
-            or best_estimated_check is not None
-            else best
-        )
+        selected = best_item or candidate(best_width, best_estimated)
         return _CandidateMicroBatch(
             inputs=selected.inputs,
             indices=selected.indices,
@@ -178,22 +176,9 @@ def finalize_best() -> _CandidateMicroBatch[InputT, PlanT]:
     high = high_fail - 1
     while low <= high:
         mid = (low + high) // 2
-        estimated = estimate_check(mid)
-        if estimated is not None and not estimated[1].fits:
-            rejected += 1
-            high = mid - 1
-            continue
-        if estimated is not None:
-            best_width = mid
-            best_estimated_check = estimated
-            best = None
-            low = mid + 1
-            continue
-        item = candidate(mid)
-        if item.check.fits:
-            best = item
-            best_width = mid
-            best_estimated_check = None
+        fits, estimated, item = probe(mid)
+        if fits:
+            remember_fit(mid, estimated, item)
             low = mid + 1
         else:
             rejected += 1

From 9e2c3966fe0a7af1dea34f9f7db793344af9a934 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 16:29:17 -0600
Subject: [PATCH 062/114] refactor: collapse GDN bucket builders

---
 src/art/megatron/gdn/gdn_shared_prefix.py | 267 ++++++++--------------
 src/art/megatron/gdn/operator.py          |   6 -
 src/art/megatron/shared_prefix_tree.py    |  21 --
 3 files changed, 91 insertions(+), 203 deletions(-)

diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 85e30fed2..ef8c36613 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -638,17 +638,6 @@ def parse_gdn_shared_prefix_segments(
     )
 
 
-def _build_segment_bucket_plans(
-    segment_buckets: tuple[tuple[GdnSegmentSpec, ...], ...],
-    *,
-    device: torch.device | str,
-) -> tuple[GdnSegmentBucketPlan, ...]:
-    return tuple(
-        _build_segment_bucket_plan(bucket[0].length, bucket, device=device)
-        for bucket in segment_buckets
-    )
-
-
 def _attention_source_layout(
     spec: GdnPackedExecutionSpec,
     *,
@@ -678,25 +667,6 @@ def _attention_source_layout(
     )
 
 
-def _can_chain_segment(
-    segment: GdnSegmentSpec,
-    *,
-    cp_size: int,
-    planner_config: GdnPlannerConfig,
-) -> bool:
-    min_tokens = (
-        planner_config.cp_chain_min_prefix_only_tokens
-        if segment.kind == "prefix"
-        else planner_config.cp_chain_min_total_tokens
-    )
-    return _can_chain_segment_with_min_tokens(
-        segment,
-        cp_size=cp_size,
-        min_tokens=min_tokens,
-        planner_config=planner_config,
-    )
-
-
 def _can_chain_tree_segment(
     segment: GdnSegmentSpec,
     *,
@@ -1191,16 +1161,15 @@ def _build_tree_segment_bucket_plans(
         max_padding_ratio=planner_config.max_padding_ratio,
         max_segments_per_batch=planner_config.max_segments_per_batch,
     )
-    plans = _build_segment_bucket_plans(segment_buckets, device=device)
     return tuple(
         _bucket_with_tree_parent_indices(
-            plan,
+            _build_segment_bucket_plan(bucket, device=device),
             bucket,
             tree_parent_indices,
             tree_has_children,
             device=device,
         )
-        for plan, bucket in zip(plans, segment_buckets, strict=True)
+        for bucket in segment_buckets
     )
 
 
@@ -1230,22 +1199,21 @@ def _build_tree_position_bucket_plans(
             max_segments_per_batch=planner_config.max_segments_per_batch,
         )
     )
-    plans = _build_position_bucket_plans(
-        segment_buckets,
-        local_token_ranges,
-        sequence_length=sequence_length,
-        device=device,
-        token_ranges_by_rank=token_ranges_by_rank,
-    )
     return tuple(
         _bucket_with_tree_parent_indices(
-            plan,
+            _build_position_bucket_plan(
+                bucket,
+                local_token_ranges,
+                sequence_length=sequence_length,
+                device=device,
+                token_ranges_by_rank=token_ranges_by_rank,
+            ),
             bucket,
             tree_parent_indices,
             tree_has_children,
             device=device,
         )
-        for plan, bucket in zip(plans, segment_buckets, strict=True)
+        for bucket in segment_buckets
     )
 
 
@@ -1272,26 +1240,6 @@ def _bucket_with_tree_parent_indices(
     )
 
 
-def _build_position_bucket_plans(
-    segment_buckets: tuple[tuple[GdnSegmentSpec, ...], ...],
-    local_token_ranges: tuple[tuple[int, int, int], ...],
-    *,
-    sequence_length: int,
-    device: torch.device | str,
-    token_ranges_by_rank: tuple[tuple[tuple[int, int, int], ...], ...] | None = None,
-) -> tuple[GdnSegmentBucketPlan, ...]:
-    return tuple(
-        _build_position_bucket_plan(
-            bucket,
-            local_token_ranges,
-            sequence_length=sequence_length,
-            device=device,
-            token_ranges_by_rank=token_ranges_by_rank,
-        )
-        for bucket in segment_buckets
-    )
-
-
 def _build_position_bucket_plan(
     segments: tuple[GdnSegmentSpec, ...],
     local_token_ranges: tuple[tuple[int, int, int], ...],
@@ -1300,17 +1248,42 @@ def _build_position_bucket_plan(
     device: torch.device | str,
     token_ranges_by_rank: tuple[tuple[tuple[int, int, int], ...], ...] | None = None,
 ) -> GdnSegmentBucketPlan:
-    exact_plan = _build_exact_range_position_bucket_plan(
-        segments,
-        local_token_ranges,
-        sequence_length=sequence_length,
-        device=device,
-        token_ranges_by_rank=token_ranges_by_rank,
-    )
-    if exact_plan is not None:
-        return exact_plan
-    local_positions_by_segment = []
-    lengths = []
+    range_positions = {
+        (start, end): position for start, end, position in local_token_ranges
+    }
+    starts: list[int] = []
+    lengths: list[int] = []
+    for segment in segments:
+        token_start = _segment_token_start(segment, sequence_length)
+        token_end = token_start + segment.length
+        position_start = range_positions.get((token_start, token_end))
+        if position_start is None:
+            break
+        starts.append(position_start)
+        lengths.append(segment.length)
+    else:
+        starts_cpu = torch.tensor(starts, dtype=torch.long)
+        lengths_cpu = torch.tensor(lengths, dtype=torch.long)
+        offsets_cpu = torch.arange(max(lengths), dtype=torch.long).unsqueeze(1)
+        position_indices_cpu = torch.where(
+            offsets_cpu < lengths_cpu.unsqueeze(0),
+            starts_cpu.unsqueeze(0) + offsets_cpu,
+            torch.zeros_like(offsets_cpu),
+        )
+        return _build_bucket_plan(
+            segments,
+            lengths_cpu=lengths_cpu,
+            row_indices_cpu=torch.zeros_like(position_indices_cpu),
+            position_indices_cpu=position_indices_cpu,
+            lengths_by_rank_cpu=_bucket_lengths_by_rank_cpu(
+                segments,
+                token_ranges_by_rank,
+                sequence_length=sequence_length,
+            ),
+            device=device,
+        )
+
+    local_positions_by_segment: list[torch.Tensor] = []
     local_range_ends = tuple(token_end for _, token_end, _ in local_token_ranges)
     for segment in segments:
         positions = _local_positions_for_segment(
@@ -1319,107 +1292,32 @@ def _build_position_bucket_plan(
             local_token_ranges=local_token_ranges,
             local_range_ends=local_range_ends,
         )
-        length = int(positions.numel())
-        if not length:
+        if not int(positions.numel()):
             raise ValueError(
                 "planned GDN bucket contains a segment with no local tokens; "
                 f"family={segment.family_index} kind={segment.kind}"
             )
         local_positions_by_segment.append(positions)
-        lengths.append(length)
-    max_length = max(lengths)
-    lengths_cpu = torch.tensor(lengths, dtype=torch.long)
-    offsets_cpu = torch.arange(max_length, dtype=torch.long).unsqueeze(1)
-    real_mask_cpu = offsets_cpu < lengths_cpu.unsqueeze(0)
+
+    lengths_cpu = torch.tensor(
+        [int(positions.numel()) for positions in local_positions_by_segment],
+        dtype=torch.long,
+    )
+    max_length = int(lengths_cpu.max().item())
     position_indices_cpu = torch.zeros(max_length, len(segments), dtype=torch.long)
     for column, positions in enumerate(local_positions_by_segment):
         position_indices_cpu[: int(positions.numel()), column] = positions
-    cu_seqlens_cpu = torch.cat(
-        [lengths_cpu.new_zeros(1), torch.cumsum(lengths_cpu, dim=0)]
-    )
-    lengths_by_rank_cpu = _bucket_lengths_by_rank_cpu(
+    return _build_bucket_plan(
         segments,
-        token_ranges_by_rank,
-        sequence_length=sequence_length,
-    )
-    row_indices_cpu = torch.zeros(max_length, len(segments), dtype=torch.long)
-    family_indices_cpu = torch.tensor(
-        [segment.family_index for segment in segments],
-        dtype=torch.long,
-    )
-    return GdnSegmentBucketPlan.model_construct(
-        length=max_length,
-        lengths=_move_planner_tensor(lengths_cpu, device),
-        lengths_cpu=lengths_cpu,
-        lengths_by_rank_cpu=lengths_by_rank_cpu,
-        real_mask=_move_planner_tensor(real_mask_cpu, device),
-        cu_seqlens=_move_planner_tensor(cu_seqlens_cpu, device),
-        cu_seqlens_cpu=cu_seqlens_cpu,
-        row_indices=_move_planner_tensor(row_indices_cpu, device),
-        position_indices=_move_planner_tensor(position_indices_cpu, device),
-        family_indices=_move_planner_tensor(family_indices_cpu, device),
-        family_indices_cpu=family_indices_cpu,
-        real_token_count_static=sum(lengths),
-    )
-
-
-def _build_exact_range_position_bucket_plan(
-    segments: tuple[GdnSegmentSpec, ...],
-    local_token_ranges: tuple[tuple[int, int, int], ...],
-    *,
-    sequence_length: int,
-    device: torch.device | str,
-    token_ranges_by_rank: tuple[tuple[tuple[int, int, int], ...], ...] | None = None,
-) -> GdnSegmentBucketPlan | None:
-    range_positions = {
-        (start, end): position for start, end, position in local_token_ranges
-    }
-    starts = []
-    lengths = []
-    for segment in segments:
-        token_start = _segment_token_start(segment, sequence_length)
-        token_end = token_start + segment.length
-        position_start = range_positions.get((token_start, token_end))
-        if position_start is None:
-            return None
-        starts.append(position_start)
-        lengths.append(segment.length)
-    max_length = max(lengths)
-    starts_cpu = torch.tensor(starts, dtype=torch.long)
-    lengths_cpu = torch.tensor(lengths, dtype=torch.long)
-    offsets_cpu = torch.arange(max_length, dtype=torch.long).unsqueeze(1)
-    real_mask_cpu = offsets_cpu < lengths_cpu.unsqueeze(0)
-    position_indices_cpu = torch.where(
-        real_mask_cpu,
-        starts_cpu.unsqueeze(0) + offsets_cpu,
-        torch.zeros_like(offsets_cpu),
-    )
-    cu_seqlens_cpu = torch.cat(
-        [lengths_cpu.new_zeros(1), torch.cumsum(lengths_cpu, dim=0)]
-    )
-    lengths_by_rank_cpu = _bucket_lengths_by_rank_cpu(
-        segments,
-        token_ranges_by_rank,
-        sequence_length=sequence_length,
-    )
-    row_indices_cpu = torch.zeros(max_length, len(segments), dtype=torch.long)
-    family_indices_cpu = torch.tensor(
-        [segment.family_index for segment in segments],
-        dtype=torch.long,
-    )
-    return GdnSegmentBucketPlan.model_construct(
-        length=max_length,
-        lengths=_move_planner_tensor(lengths_cpu, device),
         lengths_cpu=lengths_cpu,
-        lengths_by_rank_cpu=lengths_by_rank_cpu,
-        real_mask=_move_planner_tensor(real_mask_cpu, device),
-        cu_seqlens=_move_planner_tensor(cu_seqlens_cpu, device),
-        cu_seqlens_cpu=cu_seqlens_cpu,
-        row_indices=_move_planner_tensor(row_indices_cpu, device),
-        position_indices=_move_planner_tensor(position_indices_cpu, device),
-        family_indices=_move_planner_tensor(family_indices_cpu, device),
-        family_indices_cpu=family_indices_cpu,
-        real_token_count_static=sum(lengths),
+        row_indices_cpu=torch.zeros_like(position_indices_cpu),
+        position_indices_cpu=position_indices_cpu,
+        lengths_by_rank_cpu=_bucket_lengths_by_rank_cpu(
+            segments,
+            token_ranges_by_rank,
+            sequence_length=sequence_length,
+        ),
+        device=device,
     )
 
 
@@ -1524,41 +1422,58 @@ def _batch_tree_segments_by_padded_work(
 
 
 def _build_segment_bucket_plan(
-    length: int, segments: tuple[GdnSegmentSpec, ...], *, device: torch.device | str
+    segments: tuple[GdnSegmentSpec, ...], *, device: torch.device | str
 ) -> GdnSegmentBucketPlan:
-    max_length = max(segment.length for segment in segments)
     lengths_cpu = torch.tensor(
         [segment.length for segment in segments], dtype=torch.long
     )
+    max_length = int(lengths_cpu.max().item())
     starts_cpu = torch.tensor([segment.start for segment in segments], dtype=torch.long)
     rows_cpu = torch.tensor(
         [segment.row_index for segment in segments], dtype=torch.long
     )
     offsets_cpu = torch.arange(max_length, dtype=torch.long).unsqueeze(1)
+    return _build_bucket_plan(
+        segments,
+        lengths_cpu=lengths_cpu,
+        row_indices_cpu=rows_cpu.unsqueeze(0).expand(max_length, -1).contiguous(),
+        position_indices_cpu=starts_cpu.unsqueeze(0) + offsets_cpu,
+        device=device,
+    )
+
+
+def _build_bucket_plan(
+    segments: tuple[GdnSegmentSpec, ...],
+    *,
+    lengths_cpu: torch.Tensor,
+    row_indices_cpu: torch.Tensor,
+    position_indices_cpu: torch.Tensor,
+    device: torch.device | str,
+    lengths_by_rank_cpu: torch.Tensor | None = None,
+) -> GdnSegmentBucketPlan:
+    max_length = int(lengths_cpu.max().item())
+    offsets_cpu = torch.arange(max_length, dtype=torch.long).unsqueeze(1)
     real_mask_cpu = offsets_cpu < lengths_cpu.unsqueeze(0)
-    positions_cpu = starts_cpu.unsqueeze(0) + offsets_cpu
+    cu_seqlens_cpu = torch.cat(
+        [lengths_cpu.new_zeros(1), torch.cumsum(lengths_cpu, dim=0)]
+    )
     family_indices_cpu = torch.tensor(
         [segment.family_index for segment in segments],
         dtype=torch.long,
     )
-    cu_seqlens_cpu = torch.cat(
-        [lengths_cpu.new_zeros(1), torch.cumsum(lengths_cpu, dim=0)]
-    )
     return GdnSegmentBucketPlan.model_construct(
         length=max_length,
         lengths=_move_planner_tensor(lengths_cpu, device),
         lengths_cpu=lengths_cpu,
-        lengths_by_rank_cpu=None,
+        lengths_by_rank_cpu=lengths_by_rank_cpu,
         real_mask=_move_planner_tensor(real_mask_cpu, device),
         cu_seqlens=_move_planner_tensor(cu_seqlens_cpu, device),
         cu_seqlens_cpu=cu_seqlens_cpu,
-        row_indices=_move_planner_tensor(
-            rows_cpu.unsqueeze(0).expand(max_length, -1).contiguous(), device
-        ),
-        position_indices=_move_planner_tensor(positions_cpu, device),
+        row_indices=_move_planner_tensor(row_indices_cpu, device),
+        position_indices=_move_planner_tensor(position_indices_cpu, device),
         family_indices=_move_planner_tensor(family_indices_cpu, device),
         family_indices_cpu=family_indices_cpu,
-        real_token_count_static=sum(segment.length for segment in segments),
+        real_token_count_static=int(lengths_cpu.sum().item()),
     )
 
 
diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index c7c3aed96..96871a1f9 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -1560,12 +1560,6 @@ def _local_layout_token_count_for_hidden(
     return (real_count + _tp_world_size(projection) - 1) // _tp_world_size(projection)
 
 
-def _attention_original_shape_from_plan(
-    hidden_states: Tensor, plan: GdnRankExecutionPlan
-) -> tuple[int, int, int]:
-    return (int(plan.attention_token_count), 1, int(hidden_states.shape[-1]))
-
-
 def _restore_hidden_from_cp_flat(
     flat: Tensor, original_shape: tuple[int, int, int]
 ) -> Tensor:
diff --git a/src/art/megatron/shared_prefix_tree.py b/src/art/megatron/shared_prefix_tree.py
index 6d68ed10b..850384b20 100644
--- a/src/art/megatron/shared_prefix_tree.py
+++ b/src/art/megatron/shared_prefix_tree.py
@@ -36,33 +36,12 @@ class SharedPrefixRowTree:
     def max_depth(self) -> int:
         return max((segment.depth for segment in self.segments), default=0)
 
-    @property
-    def is_flat_family_tree(self) -> bool:
-        return self.max_depth <= 1
-
     def segment_by_group_id(self) -> dict[int, SharedPrefixSegment]:
         segments: dict[int, SharedPrefixSegment] = {}
         for segment in self.segments:
             segments.setdefault(segment.group_id, segment)
         return segments
 
-    def group_can_attend_matrix(
-        self,
-    ) -> tuple[tuple[int, ...], tuple[tuple[bool, ...], ...]]:
-        group_ids = tuple(sorted({segment.group_id for segment in self.segments}))
-        group_index = {group_id: index + 1 for index, group_id in enumerate(group_ids)}
-        matrix = [
-            [False for _ in range(len(group_ids) + 1)]
-            for _ in range(len(group_ids) + 1)
-        ]
-        for segment in self.segments:
-            query_index = group_index[segment.group_id]
-            for group_id in (*segment.ancestors, segment.group_id):
-                key_index = group_index.get(group_id)
-                if key_index is not None:
-                    matrix[query_index][key_index] = True
-        return group_ids, tuple(tuple(row) for row in matrix)
-
 
 def parse_shared_prefix_tree(
     *,

From 9ce5b564a4286fc89ddd68255b03cc5c6179ceee Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 16:47:33 -0600
Subject: [PATCH 063/114] refactor: remove stale context parallel helpers

---
 src/art/megatron/context_parallel/comm.py     |  23 ---
 src/art/megatron/context_parallel/executor.py |  24 ----
 src/art/megatron/context_parallel/runtime.py  | 134 ------------------
 src/art/megatron/gdn/layout.py                |  11 --
 4 files changed, 192 deletions(-)

diff --git a/src/art/megatron/context_parallel/comm.py b/src/art/megatron/context_parallel/comm.py
index c1767a4dc..abcbb6afd 100644
--- a/src/art/megatron/context_parallel/comm.py
+++ b/src/art/megatron/context_parallel/comm.py
@@ -449,29 +449,6 @@ def range_gather_per_peer(
     return torch.cat(chunks, dim=0).contiguous()
 
 
-def _split_tensor_to_peer(
-    input_tensor: torch.Tensor,
-    splits: tuple[int, ...],
-) -> torch.Tensor:
-    if int(sum(splits)) == 0:
-        return input_tensor.new_empty((0, *input_tensor.shape[1:]))
-    if int(input_tensor.shape[0]) == int(sum(splits)):
-        return input_tensor.contiguous()
-    if len([split for split in splits if split > 0]) > 1:
-        raise RuntimeError(
-            f"Expected at most one non-zero send split for dKV reduce, got {splits}"
-        )
-    pieces: list[torch.Tensor] = []
-    cursor = 0
-    for split in splits:
-        if split == 0:
-            pieces.append(input_tensor.new_empty((0, *input_tensor.shape[1:])))
-            continue
-        pieces.append(input_tensor[cursor : cursor + split])
-        cursor += split
-    return torch.cat(pieces, dim=0).contiguous()
-
-
 def _pack_gathered_tensors_per_peer(
     *,
     left_tensor: torch.Tensor,
diff --git a/src/art/megatron/context_parallel/executor.py b/src/art/megatron/context_parallel/executor.py
index 3cb0779da..24915921c 100644
--- a/src/art/megatron/context_parallel/executor.py
+++ b/src/art/megatron/context_parallel/executor.py
@@ -781,30 +781,6 @@ def prepare_context_parallel_execution_state(
         )
 
 
-def _causal_slice_pair_count(slice_: AttnSlice) -> int:
-    q_start = int(slice_.q_range.start)
-    q_end = int(slice_.q_range.end)
-    k_start = int(slice_.k_range.start)
-    k_end = int(slice_.k_range.end)
-    if q_end <= q_start or k_end <= k_start:
-        return 0
-
-    k_len = k_end - k_start
-    partial_q_start = max(q_start, k_start)
-    partial_q_end = min(q_end - 1, k_end - 2)
-    partial = 0
-    if partial_q_start <= partial_q_end:
-        count = partial_q_end - partial_q_start + 1
-        partial = count * (partial_q_start + partial_q_end + 2 - 2 * k_start) // 2
-
-    full_q_start = max(q_start, k_end - 1)
-    full_q_end = q_end - 1
-    full = 0
-    if full_q_start <= full_q_end:
-        full = (full_q_end - full_q_start + 1) * k_len
-    return int(partial + full)
-
-
 def _validate_stage_block_alignment(
     *,
     q_len: int,
diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index f8888f0fd..f98dff1e2 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -445,20 +445,6 @@ def _indexed_intersections(
     return intersections
 
 
-def _slice_pair_count(
-    *,
-    mask_kind: AttnMaskKind,
-    q_range: TokenRange,
-    k_range: TokenRange,
-) -> int:
-    if mask_kind is AttnMaskKind.FULL:
-        return int(q_range.size()) * int(k_range.size())
-    return _causal_piece_pair_count(
-        q_range=q_range,
-        k_range=k_range,
-    )
-
-
 def _causal_piece_pair_count(
     *,
     q_range: TokenRange,
@@ -1127,31 +1113,6 @@ def _chunk_mask_stats(
     return token_count, range_count
 
 
-def _merge_chunk_ranges_from_mask(
-    *,
-    chunk_ranges: tuple[TokenRange, ...],
-    chunk_mask: torch.Tensor,
-) -> tuple[TokenRange, ...]:
-    chunk_indices = torch.nonzero(chunk_mask, as_tuple=False).flatten()
-    if int(chunk_indices.numel()) == 0:
-        return tuple()
-    ordered_chunk_indices = chunk_indices.tolist()
-    first_range = chunk_ranges[int(ordered_chunk_indices[0])]
-    current_start = int(first_range.start)
-    current_end = int(first_range.end)
-    merged: list[TokenRange] = []
-    for chunk_index in ordered_chunk_indices[1:]:
-        range_ = chunk_ranges[int(chunk_index)]
-        if int(range_.start) <= current_end:
-            current_end = max(current_end, int(range_.end))
-            continue
-        merged.append(TokenRange(start=current_start, end=current_end))
-        current_start = int(range_.start)
-        current_end = int(range_.end)
-    merged.append(TokenRange(start=current_start, end=current_end))
-    return tuple(merged)
-
-
 def _stage_cost_ms(
     *,
     pair_count: int,
@@ -2692,101 +2653,6 @@ def _set_stage_token_indices(
     current_indices.copy_(source_indices)
 
 
-def _token_costs(row_spec: PackedRowAttentionSpec) -> list[float]:
-    costs = [0.0] * row_spec.valid_tokens
-    for slice_ in row_spec.slices:
-        q_range = slice_.q_range
-        k_range = slice_.k_range
-        if slice_.mask_kind is AttnMaskKind.FULL:
-            cost = float(k_range.size())
-            for q_idx in range(q_range.start, q_range.end):
-                costs[q_idx] += cost
-            continue
-        if q_range.size() != k_range.size():
-            raise RuntimeError(
-                "The current planner only supports causal slices with matched q/k sizes, got "
-                f"{q_range} vs {k_range}"
-            )
-        for q_idx in range(q_range.start, q_range.end):
-            costs[q_idx] += float(q_idx - q_range.start + 1)
-    return costs
-
-
-def _split_row_by_cost(
-    row_spec: PackedRowAttentionSpec,
-    *,
-    cp_size: int,
-    block_size: int,
-) -> tuple[TokenRange | None, ...]:
-    if cp_size == 1:
-        return (TokenRange(start=0, end=row_spec.valid_tokens),)
-    if row_spec.valid_tokens == 0:
-        return tuple(None for _ in range(cp_size))
-
-    costs = _token_costs(row_spec)
-    prefix = [0.0]
-    for cost in costs:
-        prefix.append(prefix[-1] + cost)
-    total_cost = prefix[-1]
-    boundaries = [0]
-    block_aligned_split = int(block_size) > 1 and row_spec.valid_tokens >= (
-        cp_size * int(block_size)
-    )
-    for split_index in range(1, cp_size):
-        remaining_ranks = cp_size - split_index
-        min_boundary = boundaries[-1]
-        max_boundary = row_spec.valid_tokens - remaining_ranks
-        if max_boundary <= min_boundary:
-            boundaries.append(min_boundary)
-            continue
-        target = (
-            total_cost * split_index / cp_size
-            if total_cost > 0.0
-            else row_spec.valid_tokens * split_index / cp_size
-        )
-        best_boundary = min_boundary + 1
-        best_error = float("inf")
-        candidate_boundaries = range(min_boundary + 1, max_boundary + 1)
-        if block_aligned_split:
-            aligned_start = (
-                (min_boundary + 1 + block_size - 1) // block_size
-            ) * block_size
-            aligned_end = (max_boundary // block_size) * block_size
-            if aligned_start <= aligned_end:
-                candidate_boundaries = range(aligned_start, aligned_end + 1, block_size)
-        for boundary in candidate_boundaries:
-            current = prefix[boundary] if total_cost > 0.0 else float(boundary)
-            error = abs(current - target)
-            if error < best_error:
-                best_error = error
-                best_boundary = boundary
-        boundaries.append(best_boundary)
-    boundaries.append(row_spec.valid_tokens)
-
-    ranges: list[TokenRange | None] = []
-    for start, end in zip(boundaries[:-1], boundaries[1:]):
-        if end <= start:
-            ranges.append(None)
-        else:
-            ranges.append(TokenRange(start=start, end=end))
-    return tuple(ranges)
-
-
-def _intersections(
-    base_range: TokenRange,
-    owner_ranges: tuple[TokenRange | None, ...],
-) -> list[tuple[int, TokenRange]]:
-    intersections: list[tuple[int, TokenRange]] = []
-    for rank, owner_range in enumerate(owner_ranges):
-        if owner_range is None:
-            continue
-        start = max(base_range.start, owner_range.start)
-        end = min(base_range.end, owner_range.end)
-        if end > start:
-            intersections.append((rank, TokenRange(start=start, end=end)))
-    return intersections
-
-
 def _resolve_stage_mask_kind(
     *,
     mask_kind: AttnMaskKind,
diff --git a/src/art/megatron/gdn/layout.py b/src/art/megatron/gdn/layout.py
index bd2ece79e..b97abd6cc 100644
--- a/src/art/megatron/gdn/layout.py
+++ b/src/art/megatron/gdn/layout.py
@@ -920,17 +920,6 @@ def _exchange_rank_tensor_local(
     )
 
 
-def _copy_rank_self_transfers(
-    local_tensor: Tensor,
-    plan: GdnCpExchangePlan,
-    *,
-    rank: int,
-) -> Tensor:
-    return _init_rank_exchange_output(
-        local_tensor, plan, rank=rank, accumulate=False, zero_init=False
-    )
-
-
 def _init_rank_exchange_output(
     local_tensor: Tensor,
     plan: GdnCpExchangePlan,

From 1b02e79691efc64dcfbf2342bcf669fd9557a980 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 17:03:34 -0600
Subject: [PATCH 064/114] refactor: unify context parallel peer exchange

---
 src/art/megatron/context_parallel/comm.py     | 541 +++++++-----------
 src/art/megatron/context_parallel/runtime.py  |  19 -
 .../model_support/handlers/qwen3_5.py         |   4 -
 src/art/megatron/service.py                   |   4 -
 src/art/megatron/weights/adapter_export.py    | 240 ++++----
 5 files changed, 354 insertions(+), 454 deletions(-)

diff --git a/src/art/megatron/context_parallel/comm.py b/src/art/megatron/context_parallel/comm.py
index abcbb6afd..8ea97067d 100644
--- a/src/art/megatron/context_parallel/comm.py
+++ b/src/art/megatron/context_parallel/comm.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+from collections.abc import Callable
 from dataclasses import dataclass
 from typing import Any, Protocol, cast
 
@@ -141,37 +142,27 @@ def wait_post_process(self) -> tuple[torch.Tensor, torch.Tensor]:
                 if range_.size() > 0
             )
 
-            def _apply_reduce() -> None:
-                dk_reduce = (
-                    dk_remote
-                    if dk_remote.dtype == self.dk_local.dtype
-                    else dk_remote.to(dtype=self.dk_local.dtype)
-                )
-                dv_reduce = (
-                    dv_remote
-                    if dv_remote.dtype == self.dv_local.dtype
-                    else dv_remote.to(dtype=self.dv_local.dtype)
-                )
-                reduce_fn = (
-                    range_reduce_sum_head_major_
-                    if self.input_layout == "head_major"
-                    else range_reduce_sum_
-                )
-                reduce_fn(
-                    dk_reduce,
-                    output_tensor=self.dk_local,
-                    ranges=flattened_ranges,
-                    range_meta_cache=self.range_meta_cache,
-                )
-                reduce_fn(
-                    dv_reduce,
-                    output_tensor=self.dv_local,
-                    ranges=flattened_ranges,
-                    range_meta_cache=self.range_meta_cache,
-                )
-                return
-
-            _apply_reduce()
+            reduce_fn = (
+                range_reduce_sum_head_major_
+                if self.input_layout == "head_major"
+                else range_reduce_sum_
+            )
+            reduce_fn(
+                dk_remote
+                if dk_remote.dtype == self.dk_local.dtype
+                else dk_remote.to(dtype=self.dk_local.dtype),
+                output_tensor=self.dk_local,
+                ranges=flattened_ranges,
+                range_meta_cache=self.range_meta_cache,
+            )
+            reduce_fn(
+                dv_remote
+                if dv_remote.dtype == self.dv_local.dtype
+                else dv_remote.to(dtype=self.dv_local.dtype),
+                output_tensor=self.dv_local,
+                ranges=flattened_ranges,
+                range_meta_cache=self.range_meta_cache,
+            )
         return self.dk_local, self.dv_local
 
 
@@ -191,6 +182,60 @@ def _get_stream(self, tensor: torch.Tensor) -> torch.cuda.Stream | None:
             self._streams[device_index] = stream
         return stream
 
+    def _launch_exchange(
+        self,
+        *,
+        tensor: torch.Tensor,
+        recv_buffer: torch.Tensor,
+        total_send_rows: int,
+        make_send_buffer: Callable[[], torch.Tensor],
+        output_split_sizes: list[int],
+        input_split_sizes: list[int],
+        group: Any,
+        async_op: bool,
+        input_layout: str,
+    ) -> tuple[_Waitable | None, torch.Tensor, torch.cuda.Stream | None]:
+        stream = self._get_stream(tensor) if async_op else None
+        send_buffer = (
+            tensor.new_empty(
+                _packed_peer_tensor_shape(
+                    tensor=tensor,
+                    total_rows=0,
+                    input_layout=input_layout,
+                )
+            )
+            if total_send_rows <= 0
+            else make_send_buffer()
+        )
+        if stream is None:
+            return (
+                _launch_peer_exchange(
+                    recv_buffer=recv_buffer,
+                    send_buffer=send_buffer,
+                    output_split_sizes=output_split_sizes,
+                    input_split_sizes=input_split_sizes,
+                    group=group,
+                    async_op=async_op,
+                ),
+                send_buffer,
+                None,
+            )
+
+        current_stream = torch.cuda.current_stream(tensor.device)
+        stream.wait_stream(current_stream)
+        send_buffer.record_stream(stream)
+        recv_buffer.record_stream(stream)
+        with torch.cuda.stream(stream):
+            handle = _launch_peer_exchange(
+                recv_buffer=recv_buffer,
+                send_buffer=send_buffer,
+                output_split_sizes=output_split_sizes,
+                input_split_sizes=input_split_sizes,
+                group=group,
+                async_op=True,
+            )
+        return handle, send_buffer, stream
+
     def launch_kv_fetch(
         self,
         *,
@@ -230,70 +275,23 @@ def launch_kv_fetch(
         )
         input_split_sizes = [split * 2 for split in plan.send_splits]
         output_split_sizes = [split * 2 for split in plan.recv_splits]
-        stream = self._get_stream(k_local) if async_op else None
-        if stream is not None:
-            current_stream = torch.cuda.current_stream(k_local.device)
-            if total_send_rows <= 0:
-                send_buffer = k_local.new_empty(
-                    _packed_peer_tensor_shape(
-                        tensor=k_local,
-                        total_rows=0,
-                        input_layout=input_layout,
-                    )
-                )
-            else:
-                send_buffer = _pack_gathered_tensors_per_peer(
-                    left_tensor=k_local,
-                    right_tensor=v_local,
-                    ranges_by_peer=plan.send_ranges_by_peer,
-                    range_meta_cache=range_meta_cache,
-                    input_layout=input_layout,
-                )
-            stream.wait_stream(current_stream)
-            send_buffer.record_stream(stream)
-            recv_packed.record_stream(stream)
-            with torch.cuda.stream(stream):
-                handle = _launch_peer_exchange(
-                    recv_buffer=recv_packed,
-                    send_buffer=send_buffer,
-                    output_split_sizes=output_split_sizes,
-                    input_split_sizes=input_split_sizes,
-                    group=group,
-                    async_op=True,
-                )
-        else:
-            if total_send_rows <= 0:
-                send_buffer = k_local.new_empty(
-                    _packed_peer_tensor_shape(
-                        tensor=k_local,
-                        total_rows=0,
-                        input_layout=input_layout,
-                    )
-                )
-                handle = _launch_peer_exchange(
-                    recv_buffer=recv_packed,
-                    send_buffer=send_buffer,
-                    output_split_sizes=output_split_sizes,
-                    input_split_sizes=input_split_sizes,
-                    group=group,
-                    async_op=async_op,
-                )
-            else:
-                send_buffer = _pack_gathered_tensors_per_peer(
-                    left_tensor=k_local,
-                    right_tensor=v_local,
-                    ranges_by_peer=plan.send_ranges_by_peer,
-                    range_meta_cache=range_meta_cache,
-                    input_layout=input_layout,
-                )
-                handle = _launch_peer_exchange(
-                    recv_buffer=recv_packed,
-                    send_buffer=send_buffer,
-                    output_split_sizes=output_split_sizes,
-                    input_split_sizes=input_split_sizes,
-                    group=group,
-                    async_op=async_op,
-                )
+        handle, send_buffer, stream = self._launch_exchange(
+            tensor=k_local,
+            recv_buffer=recv_packed,
+            total_send_rows=total_send_rows,
+            make_send_buffer=lambda: _pack_gathered_tensors_per_peer(
+                left_tensor=k_local,
+                right_tensor=v_local,
+                ranges_by_peer=plan.send_ranges_by_peer,
+                range_meta_cache=range_meta_cache,
+                input_layout=input_layout,
+            ),
+            output_split_sizes=output_split_sizes,
+            input_split_sizes=input_split_sizes,
+            group=group,
+            async_op=async_op,
+            input_layout=input_layout,
+        )
         return KvFetchWork(
             packed_buffer=recv_packed,
             recv_splits=plan.recv_splits,
@@ -333,89 +331,33 @@ def launch_dkv_reduce(
 
         total_send_rows = int(sum(plan.send_splits))
         recv_total = int(sum(plan.recv_splits))
-        recv_packed = (
-            dk_remote.new_empty(
-                _packed_peer_tensor_shape(
-                    tensor=dk_remote,
-                    total_rows=recv_total,
-                    input_layout=input_layout,
-                )
-            )
-            if recv_total > 0
-            else dk_remote.new_empty(
-                _packed_peer_tensor_shape(
-                    tensor=dk_remote,
-                    total_rows=0,
-                    input_layout=input_layout,
-                )
+        recv_packed = dk_remote.new_empty(
+            _packed_peer_tensor_shape(
+                tensor=dk_remote,
+                total_rows=recv_total,
+                input_layout=input_layout,
             )
         )
         input_split_sizes = [split * 2 for split in plan.send_splits]
         output_split_sizes = [split * 2 for split in plan.recv_splits]
-        stream = self._get_stream(dk_remote) if async_op else None
-        if stream is not None:
-            current_stream = torch.cuda.current_stream(dk_remote.device)
-            if total_send_rows <= 0:
-                send_buffer = dk_remote.new_empty(
-                    _packed_peer_tensor_shape(
-                        tensor=dk_remote,
-                        total_rows=0,
-                        input_layout=input_layout,
-                    )
-                )
-            else:
-                send_buffer = _pack_split_tensors_by_peer(
-                    left_tensor=dk_remote,
-                    right_tensor=dv_remote,
-                    splits=plan.send_splits,
-                    input_layout=input_layout,
-                )
-            stream.wait_stream(current_stream)
-            send_buffer.record_stream(stream)
-            recv_packed.record_stream(stream)
-            with torch.cuda.stream(stream):
-                handle = _launch_peer_exchange(
-                    recv_buffer=recv_packed,
-                    send_buffer=send_buffer,
-                    output_split_sizes=output_split_sizes,
-                    input_split_sizes=input_split_sizes,
-                    group=group,
-                    async_op=True,
-                )
-        else:
-            if total_send_rows <= 0:
-                send_buffer = dk_remote.new_empty(
-                    _packed_peer_tensor_shape(
-                        tensor=dk_remote,
-                        total_rows=0,
-                        input_layout=input_layout,
-                    )
-                )
-                handle = _launch_peer_exchange(
-                    recv_buffer=recv_packed,
-                    send_buffer=send_buffer,
-                    output_split_sizes=output_split_sizes,
-                    input_split_sizes=input_split_sizes,
-                    group=group,
-                    async_op=async_op,
-                )
-            else:
-                send_buffer = _pack_split_tensors_by_peer(
-                    left_tensor=dk_remote,
-                    right_tensor=dv_remote,
-                    splits=plan.send_splits,
-                    input_layout=input_layout,
-                )
-                handle = _launch_peer_exchange(
-                    recv_buffer=recv_packed,
-                    send_buffer=send_buffer,
-                    output_split_sizes=output_split_sizes,
-                    input_split_sizes=input_split_sizes,
-                    group=group,
-                    async_op=async_op,
-                )
+        handle, send_buffer, stream = self._launch_exchange(
+            tensor=dk_remote,
+            recv_buffer=recv_packed,
+            total_send_rows=total_send_rows,
+            make_send_buffer=lambda: _pack_split_tensors_by_peer(
+                left_tensor=dk_remote,
+                right_tensor=dv_remote,
+                splits=plan.send_splits,
+                input_layout=input_layout,
+            ),
+            output_split_sizes=output_split_sizes,
+            input_split_sizes=input_split_sizes,
+            group=group,
+            async_op=async_op,
+            input_layout=input_layout,
+        )
         return DkvReduceWork(
-            packed_buffer=recv_packed if recv_total > 0 else None,
+            packed_buffer=recv_packed,
             handle=handle,
             send_buffer=send_buffer,
             stream=stream,
@@ -457,56 +399,16 @@ def _pack_gathered_tensors_per_peer(
     range_meta_cache: dict[Any, Any] | None = None,
     input_layout: str = "token_major",
 ) -> torch.Tensor:
-    if input_layout == "head_major":
-        return _pack_gathered_tensors_per_peer_head_major(
-            left_tensor=left_tensor,
-            right_tensor=right_tensor,
-            ranges_by_peer=ranges_by_peer,
-            range_meta_cache=range_meta_cache,
-        )
-    if input_layout != "token_major":
-        raise ValueError(f"Unsupported gathered-pack input layout: {input_layout}")
+    _validate_peer_layout(input_layout, context="gathered-pack input")
     total_rows = sum(
         range_.size() for peer_ranges in ranges_by_peer for range_ in peer_ranges
     )
-    if total_rows == 0:
-        return left_tensor.new_empty((0, *left_tensor.shape[1:]))
-    packed = left_tensor.new_empty((total_rows * 2, *left_tensor.shape[1:]))
-    cursor = 0
-    for peer_ranges in ranges_by_peer:
-        split = sum(range_.size() for range_ in peer_ranges)
-        if split <= 0:
-            continue
-        range_gather(
-            left_tensor,
-            peer_ranges,
-            output=packed[cursor : cursor + split],
-            range_meta_cache=range_meta_cache,
-        )
-        range_gather(
-            right_tensor,
-            peer_ranges,
-            output=packed[cursor + split : cursor + split * 2],
-            range_meta_cache=range_meta_cache,
-        )
-        cursor += split * 2
-    return packed
-
-
-def _pack_gathered_tensors_per_peer_head_major(
-    *,
-    left_tensor: torch.Tensor,
-    right_tensor: torch.Tensor,
-    ranges_by_peer: tuple[tuple[TokenRange, ...], ...],
-    range_meta_cache: dict[Any, Any] | None = None,
-) -> torch.Tensor:
-    total_rows = sum(
-        range_.size() for peer_ranges in ranges_by_peer for range_ in peer_ranges
-    )
-    if total_rows == 0:
-        return left_tensor.new_empty((0, left_tensor.shape[0], left_tensor.shape[2]))
     packed = left_tensor.new_empty(
-        (total_rows * 2, left_tensor.shape[0], left_tensor.shape[2])
+        _packed_peer_tensor_shape(
+            tensor=left_tensor,
+            total_rows=total_rows,
+            input_layout=input_layout,
+        )
     )
     cursor = 0
     for peer_ranges in ranges_by_peer:
@@ -514,18 +416,20 @@ def _pack_gathered_tensors_per_peer_head_major(
         if split <= 0:
             continue
         packed[cursor : cursor + split].copy_(
-            range_gather_head_major(
+            _gather_peer_rows(
                 left_tensor,
                 peer_ranges,
+                input_layout=input_layout,
                 range_meta_cache=range_meta_cache,
-            ).permute(1, 0, 2)
+            )
         )
         packed[cursor + split : cursor + split * 2].copy_(
-            range_gather_head_major(
+            _gather_peer_rows(
                 right_tensor,
                 peer_ranges,
+                input_layout=input_layout,
                 range_meta_cache=range_meta_cache,
-            ).permute(1, 0, 2)
+            )
         )
         cursor += split * 2
     return packed
@@ -538,79 +442,83 @@ def _pack_split_tensors_by_peer(
     splits: tuple[int, ...],
     input_layout: str = "token_major",
 ) -> torch.Tensor:
-    if input_layout == "head_major":
-        return _pack_split_tensors_by_peer_head_major(
-            left_tensor=left_tensor,
-            right_tensor=right_tensor,
-            splits=splits,
-        )
-    if input_layout != "token_major":
-        raise ValueError(f"Unsupported split-pack input layout: {input_layout}")
+    _validate_peer_layout(input_layout, context="split-pack input")
     total_rows = int(sum(splits))
-    if total_rows == 0:
-        return left_tensor.new_empty((0, *left_tensor.shape[1:]))
-    packed = left_tensor.new_empty((total_rows * 2, *left_tensor.shape[1:]))
+    packed = left_tensor.new_empty(
+        _packed_peer_tensor_shape(
+            tensor=left_tensor,
+            total_rows=total_rows,
+            input_layout=input_layout,
+        )
+    )
     cursor = 0
     for split in splits:
         if split <= 0:
             continue
         packed[cursor * 2 : cursor * 2 + split].copy_(
-            left_tensor[cursor : cursor + split]
+            _slice_peer_rows(left_tensor, cursor, cursor + split, layout=input_layout)
         )
         packed[cursor * 2 + split : cursor * 2 + split * 2].copy_(
-            right_tensor[cursor : cursor + split]
+            _slice_peer_rows(right_tensor, cursor, cursor + split, layout=input_layout)
         )
         cursor += split
-    if cursor != int(left_tensor.shape[0]) or cursor != int(right_tensor.shape[0]):
+    left_rows = _peer_row_count(left_tensor, layout=input_layout)
+    right_rows = _peer_row_count(right_tensor, layout=input_layout)
+    if cursor != left_rows or cursor != right_rows:
         raise RuntimeError(
             "Packed split consumed the wrong number of rows: "
-            f"consumed={cursor}, left={int(left_tensor.shape[0])}, right={int(right_tensor.shape[0])}"
+            f"consumed={cursor}, left={left_rows}, right={right_rows}"
         )
     return packed
 
 
+def _validate_peer_layout(layout: str, *, context: str) -> None:
+    if layout not in {"token_major", "head_major"}:
+        raise ValueError(f"Unsupported {context} layout: {layout}")
+
+
 def _packed_peer_tensor_shape(
     *,
     tensor: torch.Tensor,
     total_rows: int,
     input_layout: str,
 ) -> tuple[int, ...]:
+    _validate_peer_layout(input_layout, context="peer tensor input")
     if input_layout == "head_major":
         return (total_rows * 2, int(tensor.shape[0]), int(tensor.shape[2]))
-    if input_layout != "token_major":
-        raise ValueError(f"Unsupported split-pack input layout: {input_layout}")
     return (total_rows * 2, *tuple(int(dim) for dim in tensor.shape[1:]))
 
 
-def _pack_split_tensors_by_peer_head_major(
+def _peer_row_count(tensor: torch.Tensor, *, layout: str) -> int:
+    return int(tensor.shape[1] if layout == "head_major" else tensor.shape[0])
+
+
+def _slice_peer_rows(
+    tensor: torch.Tensor,
+    start: int,
+    end: int,
     *,
-    left_tensor: torch.Tensor,
-    right_tensor: torch.Tensor,
-    splits: tuple[int, ...],
+    layout: str,
 ) -> torch.Tensor:
-    total_rows = int(sum(splits))
-    if total_rows == 0:
-        return left_tensor.new_empty((0, left_tensor.shape[0], left_tensor.shape[2]))
-    packed = left_tensor.new_empty(
-        (total_rows * 2, left_tensor.shape[0], left_tensor.shape[2])
-    )
-    cursor = 0
-    for split in splits:
-        if split <= 0:
-            continue
-        packed[cursor * 2 : cursor * 2 + split].copy_(
-            left_tensor[:, cursor : cursor + split].permute(1, 0, 2)
-        )
-        packed[cursor * 2 + split : cursor * 2 + split * 2].copy_(
-            right_tensor[:, cursor : cursor + split].permute(1, 0, 2)
-        )
-        cursor += split
-    if cursor != int(left_tensor.shape[1]) or cursor != int(right_tensor.shape[1]):
-        raise RuntimeError(
-            "Head-major split pack consumed the wrong number of rows: "
-            f"consumed={cursor}, left={int(left_tensor.shape[1])}, right={int(right_tensor.shape[1])}"
-        )
-    return packed
+    if layout == "head_major":
+        return tensor[:, start:end].movedim(1, 0)
+    return tensor[start:end]
+
+
+def _gather_peer_rows(
+    tensor: torch.Tensor,
+    ranges: tuple[TokenRange, ...],
+    *,
+    input_layout: str,
+    range_meta_cache: dict[Any, Any] | None,
+) -> torch.Tensor:
+    if input_layout == "head_major":
+        return range_gather_head_major(
+            tensor,
+            ranges,
+            range_meta_cache=range_meta_cache,
+        ).movedim(1, 0)
+    return range_gather(tensor, ranges, range_meta_cache=range_meta_cache)
 
 
 def _unpack_packed_tensor_per_peer(
@@ -619,15 +527,13 @@ def _unpack_packed_tensor_per_peer(
     *,
     output_layout: str = "token_major",
 ) -> tuple[torch.Tensor, torch.Tensor]:
-    if output_layout == "head_major":
-        return _unpack_packed_tensor_per_peer_head_major(
+    _validate_peer_layout(output_layout, context="packed-tensor output")
+    if int(packed_tensor.shape[0]) == 0:
+        empty = _new_unpacked_peer_tensor(
             packed_tensor,
-            splits,
+            total_rows=0,
+            output_layout=output_layout,
         )
-    if output_layout != "token_major":
-        raise ValueError(f"Unsupported packed-tensor output layout: {output_layout}")
-    if int(packed_tensor.shape[0]) == 0:
-        empty = packed_tensor.new_empty((0, *packed_tensor.shape[1:]))
         return empty, empty
     total_rows = 0
     cursor = 0
@@ -641,62 +547,59 @@ def _unpack_packed_tensor_per_peer(
             "Packed tensor unpack consumed the wrong number of rows: "
             f"consumed={cursor}, input={int(packed_tensor.shape[0])}"
         )
-    left = packed_tensor.new_empty((total_rows, *packed_tensor.shape[1:]))
-    right = packed_tensor.new_empty((total_rows, *packed_tensor.shape[1:]))
+    left = _new_unpacked_peer_tensor(
+        packed_tensor,
+        total_rows=total_rows,
+        output_layout=output_layout,
+    )
+    right = _new_unpacked_peer_tensor(
+        packed_tensor,
+        total_rows=total_rows,
+        output_layout=output_layout,
+    )
     in_cursor = 0
     out_cursor = 0
     for split in splits:
         if split <= 0:
             continue
-        left[out_cursor : out_cursor + split].copy_(
-            packed_tensor[in_cursor : in_cursor + split]
+        _copy_from_peer_rows(
+            left,
+            out_cursor,
+            packed_tensor[in_cursor : in_cursor + split],
+            output_layout=output_layout,
         )
-        right[out_cursor : out_cursor + split].copy_(
-            packed_tensor[in_cursor + split : in_cursor + split * 2]
+        _copy_from_peer_rows(
+            right,
+            out_cursor,
+            packed_tensor[in_cursor + split : in_cursor + split * 2],
+            output_layout=output_layout,
         )
         in_cursor += split * 2
         out_cursor += split
     return left, right
 
 
-def _unpack_packed_tensor_per_peer_head_major(
+def _new_unpacked_peer_tensor(
     packed_tensor: torch.Tensor,
-    splits: tuple[int, ...],
-) -> tuple[torch.Tensor, torch.Tensor]:
-    if int(packed_tensor.shape[0]) == 0:
-        empty = packed_tensor.new_empty(
-            (packed_tensor.shape[1], 0, packed_tensor.shape[2])
-        )
-        return empty, empty
-    total_rows = 0
-    cursor = 0
-    for split in splits:
-        if split <= 0:
-            continue
-        cursor += split * 2
-        total_rows += split
-    if cursor != int(packed_tensor.shape[0]):
-        raise RuntimeError(
-            "Packed tensor unpack consumed the wrong number of rows: "
-            f"consumed={cursor}, input={int(packed_tensor.shape[0])}"
-        )
-    left = packed_tensor.new_empty(
-        (packed_tensor.shape[1], total_rows, packed_tensor.shape[2])
-    )
-    right = packed_tensor.new_empty(
-        (packed_tensor.shape[1], total_rows, packed_tensor.shape[2])
-    )
-    in_cursor = 0
-    out_cursor = 0
-    for split in splits:
-        if split <= 0:
-            continue
-        left[:, out_cursor : out_cursor + split].copy_(
-            packed_tensor[in_cursor : in_cursor + split].permute(1, 0, 2)
-        )
-        right[:, out_cursor : out_cursor + split].copy_(
-            packed_tensor[in_cursor + split : in_cursor + split * 2].permute(1, 0, 2)
+    *,
+    total_rows: int,
+    output_layout: str,
+) -> torch.Tensor:
+    if output_layout == "head_major":
+        return packed_tensor.new_empty(
+            (packed_tensor.shape[1], total_rows, *packed_tensor.shape[2:])
         )
-        in_cursor += split * 2
-        out_cursor += split
-    return left, right
+    return packed_tensor.new_empty((total_rows, *packed_tensor.shape[1:]))
+
+
+def _copy_from_peer_rows(
+    output: torch.Tensor,
+    start: int,
+    rows: torch.Tensor,
+    *,
+    output_layout: str,
+) -> None:
+    if output_layout == "head_major":
+        output[:, start : start + int(rows.shape[0])].copy_(rows.movedim(0, 1))
+    else:
+        output[start : start + int(rows.shape[0])].copy_(rows)
diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index f98dff1e2..4cc015dbf 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -445,19 +445,6 @@ def _indexed_intersections(
     return intersections
 
 
-def _causal_piece_pair_count(
-    *,
-    q_range: TokenRange,
-    k_range: TokenRange,
-) -> int:
-    return _causal_piece_pair_count_from_bounds(
-        q_start=int(q_range.start),
-        q_end=int(q_range.end),
-        k_start=int(k_range.start),
-        k_end=int(k_range.end),
-    )
-
-
 def _causal_piece_pair_count_from_bounds(
     *,
     q_start: int,
@@ -1694,12 +1681,6 @@ def _best_wave_assignment_for_owners(
     return best_owners, best_waves, best_eval
 
 
-def _concatenate_peer_ranges(
-    ranges_by_peer: list[tuple[TokenRange, ...]] | tuple[tuple[TokenRange, ...], ...],
-) -> tuple[tuple[TokenRange, ...], ...]:
-    return tuple(tuple(ranges) for ranges in ranges_by_peer)
-
-
 def _flatten_ranges_by_peer(
     ranges_by_peer: tuple[tuple[TokenRange, ...], ...],
 ) -> tuple[TokenRange, ...]:
diff --git a/src/art/megatron/model_support/handlers/qwen3_5.py b/src/art/megatron/model_support/handlers/qwen3_5.py
index ad200499a..a5ea1dc46 100644
--- a/src/art/megatron/model_support/handlers/qwen3_5.py
+++ b/src/art/megatron/model_support/handlers/qwen3_5.py
@@ -573,10 +573,6 @@ def _from_vllm_key(key: str) -> str:
     )
 
 
-def _is_lora_weight_key(key: str) -> bool:
-    return key.endswith((".lora_A.weight", ".lora_B.weight"))
-
-
 def _is_self_attn_q_proj_lora_b(key: str) -> bool:
     return key.endswith(".self_attn.q_proj.lora_B.weight")
 
diff --git a/src/art/megatron/service.py b/src/art/megatron/service.py
index 884188a8d..f8cc0d311 100644
--- a/src/art/megatron/service.py
+++ b/src/art/megatron/service.py
@@ -241,10 +241,6 @@ def rollout_weights_mode(self) -> Literal["lora", "merged"]:
     def _vllm_base_url(self) -> str:
         return self._vllm_runtime.base_url
 
-    @property
-    def _vllm_host(self) -> str:
-        return self._vllm_runtime.host
-
     @property
     def _vllm_port(self) -> int:
         return self._vllm_runtime.port
diff --git a/src/art/megatron/weights/adapter_export.py b/src/art/megatron/weights/adapter_export.py
index cce081188..abe048f7d 100644
--- a/src/art/megatron/weights/adapter_export.py
+++ b/src/art/megatron/weights/adapter_export.py
@@ -1,3 +1,4 @@
+from collections.abc import Callable
 import math
 from typing import Any
 
@@ -162,6 +163,31 @@ def _fused_pair_adapter_weight(
     )
 
 
+def _set_adapter_weights(
+    out: dict[str, list[Any]],
+    base_prefix: str,
+    *weights: AdapterWeight,
+    weight_suffix: str = ".weight",
+) -> None:
+    out[f"{base_prefix}{weight_suffix}"] = list(weights)
+
+
+def _set_expert_adapter_weights(
+    out: dict[str, list[Any]],
+    base_prefix: str,
+    lora: LoRA,
+    build_weight: Callable[[int], AdapterWeight],
+) -> None:
+    for local_expert_idx in range(lora.num_local_experts):
+        global_expert_idx = local_expert_idx + lora._expert_offset
+        _set_adapter_weights(
+            out,
+            base_prefix,
+            build_weight(local_expert_idx),
+            weight_suffix=f".weight{global_expert_idx}",
+        )
+
+
 def add_standard_self_attention_adapter_weights(
     adapter_weights_by_base: dict[str, list[Any]],
     *,
@@ -171,30 +197,27 @@ def add_standard_self_attention_adapter_weights(
     linear_proj = getattr(self_attention, "linear_proj", None)
     if isinstance(linear_proj, SelfAttentionLinearProjLoRA):
         base_prefix = f"{layer_prefix}.self_attention.linear_proj"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
-            _simple_adapter_weight(base_prefix, linear_proj.lora)
-        ]
+        _set_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
+            _simple_adapter_weight(base_prefix, linear_proj.lora),
+        )
 
     linear_qkv = getattr(self_attention, "linear_qkv", None)
     if isinstance(linear_qkv, SelfAttentionLinearQKVLoRA):
         base_prefix = f"{layer_prefix}.self_attention.linear_qkv"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
-            _simple_adapter_weight(
-                base_prefix,
-                linear_qkv.q_proj_lora,
-                adapter_key="adapter_q",
-            ),
-            _simple_adapter_weight(
-                base_prefix,
-                linear_qkv.k_proj_lora,
-                adapter_key="adapter_k",
-            ),
-            _simple_adapter_weight(
-                base_prefix,
-                linear_qkv.v_proj_lora,
-                adapter_key="adapter_v",
+        _set_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
+            *(
+                _simple_adapter_weight(base_prefix, lora, adapter_key=key)
+                for lora, key in (
+                    (linear_qkv.q_proj_lora, "adapter_q"),
+                    (linear_qkv.k_proj_lora, "adapter_k"),
+                    (linear_qkv.v_proj_lora, "adapter_v"),
+                )
             ),
-        ]
+        )
 
 
 def add_gated_delta_net_adapter_weights(
@@ -206,14 +229,20 @@ def add_gated_delta_net_adapter_weights(
     out_proj = getattr(self_attention, "out_proj", None)
     if isinstance(out_proj, SelfAttentionLinearProjLoRA):
         base_prefix = f"{layer_prefix}.self_attention.out_proj"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
-            _simple_adapter_weight(base_prefix, out_proj.lora)
-        ]
+        _set_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
+            _simple_adapter_weight(base_prefix, out_proj.lora),
+        )
 
     in_proj = getattr(self_attention, "in_proj", None)
     if isinstance(in_proj, GatedDeltaNetInProjLoRA):
         base_prefix = f"{layer_prefix}.self_attention.in_proj"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
+        input_dim = int(in_proj.qkv_lora.A_T.shape[-2])
+        output_dim = int(in_proj.num_value_heads_per_partition)
+        _set_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
             _simple_adapter_weight(
                 base_prefix,
                 in_proj.qkv_lora,
@@ -224,21 +253,17 @@ def add_gated_delta_net_adapter_weights(
                 in_proj.z_lora,
                 adapter_key="adapter_z",
             ),
-            _zero_adapter_weight(
-                base_prefix=base_prefix,
-                adapter_key="adapter_b",
-                input_dim=int(in_proj.qkv_lora.A_T.shape[-2]),
-                output_dim=int(in_proj.num_value_heads_per_partition),
-                like=in_proj.qkv_lora.B_T,
-            ),
-            _zero_adapter_weight(
-                base_prefix=base_prefix,
-                adapter_key="adapter_a",
-                input_dim=int(in_proj.qkv_lora.A_T.shape[-2]),
-                output_dim=int(in_proj.num_value_heads_per_partition),
-                like=in_proj.qkv_lora.B_T,
+            *(
+                _zero_adapter_weight(
+                    base_prefix=base_prefix,
+                    adapter_key=adapter_key,
+                    input_dim=input_dim,
+                    output_dim=output_dim,
+                    like=in_proj.qkv_lora.B_T,
+                )
+                for adapter_key in ("adapter_b", "adapter_a")
             ),
-        ]
+        )
 
 
 def add_grouped_moe_adapter_weights(
@@ -248,73 +273,89 @@ def add_grouped_moe_adapter_weights(
     experts: Any,
 ) -> None:
     linear_fc1 = getattr(experts, "linear_fc1", None)
+    base_prefix = f"{layer_prefix}.mlp.experts.linear_fc1"
     if isinstance(linear_fc1, MLPExpertsLinearFC1FusedLoRA):
-        base_prefix = f"{layer_prefix}.mlp.experts.linear_fc1"
-        for local_expert_idx in range(linear_fc1.lora.num_local_experts):
-            global_expert_idx = local_expert_idx + linear_fc1.lora._expert_offset
-            adapter_weights_by_base[f"{base_prefix}.weight{global_expert_idx}"] = [
-                _simple_adapter_weight(
-                    base_prefix,
-                    linear_fc1.lora,
-                    expert_idx=local_expert_idx,
-                )
-            ]
+        _set_expert_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
+            linear_fc1.lora,
+            lambda local_expert_idx: _simple_adapter_weight(
+                base_prefix,
+                linear_fc1.lora,
+                expert_idx=local_expert_idx,
+            ),
+        )
     elif isinstance(linear_fc1, MLPExpertsLinearFC1LoRA):
-        base_prefix = f"{layer_prefix}.mlp.experts.linear_fc1"
-        for local_expert_idx in range(linear_fc1.gate_lora.num_local_experts):
-            global_expert_idx = local_expert_idx + linear_fc1.gate_lora._expert_offset
-            adapter_weights_by_base[f"{base_prefix}.weight{global_expert_idx}"] = [
-                _fused_pair_adapter_weight(
-                    base_prefix,
-                    linear_fc1.gate_lora,
-                    linear_fc1.up_lora,
-                    first_expert_idx=local_expert_idx,
-                    second_expert_idx=local_expert_idx,
-                )
-            ]
+        _set_expert_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
+            linear_fc1.gate_lora,
+            lambda local_expert_idx: _fused_pair_adapter_weight(
+                base_prefix,
+                linear_fc1.gate_lora,
+                linear_fc1.up_lora,
+                first_expert_idx=local_expert_idx,
+                second_expert_idx=local_expert_idx,
+            ),
+        )
 
     linear_fc2 = getattr(experts, "linear_fc2", None)
     if isinstance(linear_fc2, MLPExpertsLinearFC2LoRA):
         base_prefix = f"{layer_prefix}.mlp.experts.linear_fc2"
-        for local_expert_idx in range(linear_fc2.lora.num_local_experts):
-            global_expert_idx = local_expert_idx + linear_fc2.lora._expert_offset
-            adapter_weights_by_base[f"{base_prefix}.weight{global_expert_idx}"] = [
-                _simple_adapter_weight(
-                    base_prefix,
-                    linear_fc2.lora,
-                    expert_idx=local_expert_idx,
-                )
-            ]
+        _set_expert_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
+            linear_fc2.lora,
+            lambda local_expert_idx: _simple_adapter_weight(
+                base_prefix,
+                linear_fc2.lora,
+                expert_idx=local_expert_idx,
+            ),
+        )
 
 
-def add_dense_mlp_adapter_weights(
+def _add_split_mlp_adapter_weights(
     adapter_weights_by_base: dict[str, list[Any]],
     *,
-    layer_prefix: str,
+    base_prefix: str,
     mlp: Any,
 ) -> None:
     linear_fc1 = getattr(mlp, "linear_fc1", None)
     if isinstance(linear_fc1, SharedExpertsLinearFC1LoRA):
-        base_prefix = f"{layer_prefix}.mlp.linear_fc1"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
-            _simple_adapter_weight(
-                base_prefix,
-                linear_fc1.gate_lora,
-                adapter_key="adapter_gate",
-            ),
-            _simple_adapter_weight(
-                base_prefix,
-                linear_fc1.up_lora,
-                adapter_key="adapter_up",
+        fc1_prefix = f"{base_prefix}.linear_fc1"
+        _set_adapter_weights(
+            adapter_weights_by_base,
+            fc1_prefix,
+            *(
+                _simple_adapter_weight(fc1_prefix, lora, adapter_key=adapter_key)
+                for lora, adapter_key in (
+                    (linear_fc1.gate_lora, "adapter_gate"),
+                    (linear_fc1.up_lora, "adapter_up"),
+                )
             ),
-        ]
+        )
 
     linear_fc2 = getattr(mlp, "linear_fc2", None)
     if isinstance(linear_fc2, SharedExpertsLinearFC2LoRA):
-        base_prefix = f"{layer_prefix}.mlp.linear_fc2"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
-            _simple_adapter_weight(base_prefix, linear_fc2.row_parallel_lora.lora)
-        ]
+        fc2_prefix = f"{base_prefix}.linear_fc2"
+        _set_adapter_weights(
+            adapter_weights_by_base,
+            fc2_prefix,
+            _simple_adapter_weight(fc2_prefix, linear_fc2.row_parallel_lora.lora),
+        )
+
+
+def add_dense_mlp_adapter_weights(
+    adapter_weights_by_base: dict[str, list[Any]],
+    *,
+    layer_prefix: str,
+    mlp: Any,
+) -> None:
+    _add_split_mlp_adapter_weights(
+        adapter_weights_by_base,
+        base_prefix=f"{layer_prefix}.mlp",
+        mlp=mlp,
+    )
 
 
 def add_shared_experts_adapter_weights(
@@ -323,25 +364,8 @@ def add_shared_experts_adapter_weights(
     layer_prefix: str,
     shared_experts: Any,
 ) -> None:
-    linear_fc1 = getattr(shared_experts, "linear_fc1", None)
-    if isinstance(linear_fc1, SharedExpertsLinearFC1LoRA):
-        base_prefix = f"{layer_prefix}.mlp.shared_experts.linear_fc1"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
-            _simple_adapter_weight(
-                base_prefix,
-                linear_fc1.gate_lora,
-                adapter_key="adapter_gate",
-            ),
-            _simple_adapter_weight(
-                base_prefix,
-                linear_fc1.up_lora,
-                adapter_key="adapter_up",
-            ),
-        ]
-
-    linear_fc2 = getattr(shared_experts, "linear_fc2", None)
-    if isinstance(linear_fc2, SharedExpertsLinearFC2LoRA):
-        base_prefix = f"{layer_prefix}.mlp.shared_experts.linear_fc2"
-        adapter_weights_by_base[f"{base_prefix}.weight"] = [
-            _simple_adapter_weight(base_prefix, linear_fc2.row_parallel_lora.lora)
-        ]
+    _add_split_mlp_adapter_weights(
+        adapter_weights_by_base,
+        base_prefix=f"{layer_prefix}.mlp.shared_experts",
+        mlp=shared_experts,
+    )

From 0d419f4613fba73a562e795148442b8553d388a8 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 17:16:48 -0600
Subject: [PATCH 065/114] refactor: centralize adapter export traversal

---
 .../model_support/handlers/default_dense.py   |  62 +-----
 .../model_support/handlers/qwen3_5.py         |  83 +------
 src/art/megatron/weights/adapter_export.py    | 203 ++++++++++--------
 3 files changed, 124 insertions(+), 224 deletions(-)

diff --git a/src/art/megatron/model_support/handlers/default_dense.py b/src/art/megatron/model_support/handlers/default_dense.py
index bd79332ae..c2289a2e6 100644
--- a/src/art/megatron/model_support/handlers/default_dense.py
+++ b/src/art/megatron/model_support/handlers/default_dense.py
@@ -168,32 +168,9 @@ def build_adapter_weights_by_base(
         self,
         model_chunks: Sequence[Any],
     ) -> dict[str, list[Any]]:
-        from megatron.core.transformer.transformer_layer import TransformerLayer
-
-        from art.megatron.weights.adapter_export import (
-            add_dense_mlp_adapter_weights,
-            add_standard_self_attention_adapter_weights,
-            layer_base_prefix,
-        )
+        from art.megatron.weights import adapter_export
 
-        adapter_weights_by_base: dict[str, list[Any]] = {}
-        for chunk in model_chunks:
-            for module_name, module in chunk.named_modules():
-                if not isinstance(module, TransformerLayer):
-                    continue
-                layer_prefix = layer_base_prefix(module, module_name=module_name)
-                _require_dense_mlp(module)
-                add_standard_self_attention_adapter_weights(
-                    adapter_weights_by_base,
-                    layer_prefix=layer_prefix,
-                    self_attention=module.self_attention,
-                )
-                add_dense_mlp_adapter_weights(
-                    adapter_weights_by_base,
-                    layer_prefix=layer_prefix,
-                    mlp=module.mlp,
-                )
-        return adapter_weights_by_base
+        return adapter_export.build_transformer_layer_adapter_weights(model_chunks)
 
     def compile_workaround_config(
         self,
@@ -276,40 +253,13 @@ def build_adapter_weights_by_base(
         self,
         model_chunks: Sequence[Any],
     ) -> dict[str, list[Any]]:
-        from megatron.core.transformer.transformer_layer import TransformerLayer
+        from art.megatron.weights import adapter_export
 
-        from art.megatron.weights.adapter_export import (
-            add_grouped_moe_adapter_weights,
-            add_shared_experts_adapter_weights,
-            add_standard_self_attention_adapter_weights,
-            layer_base_prefix,
+        return adapter_export.build_transformer_layer_adapter_weights(
+            model_chunks,
+            grouped_moe=True,
         )
 
-        adapter_weights_by_base: dict[str, list[Any]] = {}
-        for chunk in model_chunks:
-            for module_name, module in chunk.named_modules():
-                if not isinstance(module, TransformerLayer):
-                    continue
-                layer_prefix = layer_base_prefix(module, module_name=module_name)
-                add_standard_self_attention_adapter_weights(
-                    adapter_weights_by_base,
-                    layer_prefix=layer_prefix,
-                    self_attention=module.self_attention,
-                )
-                add_grouped_moe_adapter_weights(
-                    adapter_weights_by_base,
-                    layer_prefix=layer_prefix,
-                    experts=_require_moe_experts(module),
-                )
-                shared_experts = getattr(module.mlp, "shared_experts", None)
-                if shared_experts is not None:
-                    add_shared_experts_adapter_weights(
-                        adapter_weights_by_base,
-                        layer_prefix=layer_prefix,
-                        shared_experts=shared_experts,
-                    )
-        return adapter_weights_by_base
-
 
 def _require_dense_mlp(module: Any) -> None:
     if getattr(module.mlp, "experts", None) is not None:
diff --git a/src/art/megatron/model_support/handlers/qwen3_5.py b/src/art/megatron/model_support/handlers/qwen3_5.py
index a5ea1dc46..138f25d7b 100644
--- a/src/art/megatron/model_support/handlers/qwen3_5.py
+++ b/src/art/megatron/model_support/handlers/qwen3_5.py
@@ -313,44 +313,14 @@ def build_adapter_weights_by_base(
         self,
         model_chunks: Sequence[Any],
     ) -> dict[str, list[Any]]:
-        from megatron.core.ssm.gated_delta_net import GatedDeltaNet
-        from megatron.core.transformer.attention import SelfAttention
-        from megatron.core.transformer.transformer_layer import TransformerLayer
-
-        from art.megatron.lora import _is_language_transformer_layer_name
-        from art.megatron.weights.adapter_export import (
-            add_gated_delta_net_adapter_weights,
-            add_standard_self_attention_adapter_weights,
-            layer_base_prefix,
-        )
+        from art.megatron.weights import adapter_export
 
         _ensure_bridge_qwen35_adapter_name_map()
-        adapter_weights_by_base: dict[str, list[Any]] = {}
-        for chunk in model_chunks:
-            for module_name, module in chunk.named_modules():
-                if not isinstance(module, TransformerLayer):
-                    continue
-                if not _is_language_transformer_layer_name(module_name):
-                    continue
-                layer_prefix = layer_base_prefix(module, module_name=module_name)
-                if isinstance(module.self_attention, SelfAttention):
-                    add_standard_self_attention_adapter_weights(
-                        adapter_weights_by_base,
-                        layer_prefix=layer_prefix,
-                        self_attention=module.self_attention,
-                    )
-                elif isinstance(module.self_attention, GatedDeltaNet):
-                    add_gated_delta_net_adapter_weights(
-                        adapter_weights_by_base,
-                        layer_prefix=layer_prefix,
-                        self_attention=module.self_attention,
-                    )
-                self._add_mlp_adapter_weights(
-                    adapter_weights_by_base,
-                    layer_prefix=layer_prefix,
-                    module=module,
-                )
-        return adapter_weights_by_base
+        return adapter_export.build_transformer_layer_adapter_weights(
+            model_chunks,
+            grouped_moe=self.is_moe,
+            language_layers_only=True,
+        )
 
     def _wrap_mlp_lora(
         self,
@@ -374,22 +344,6 @@ def _wrap_mlp_lora(
             alpha=alpha,
         )
 
-    def _add_mlp_adapter_weights(
-        self,
-        adapter_weights_by_base: dict[str, list[Any]],
-        *,
-        layer_prefix: str,
-        module: Any,
-    ) -> None:
-        from art.megatron.weights.adapter_export import add_dense_mlp_adapter_weights
-
-        _require_dense_mlp(module)
-        add_dense_mlp_adapter_weights(
-            adapter_weights_by_base,
-            layer_prefix=layer_prefix,
-            mlp=module.mlp,
-        )
-
     def get_forward_kwargs(self, model: Any, **kwargs: Any) -> dict[str, Any]:
         unwrapped = model
         while hasattr(unwrapped, "module"):
@@ -506,31 +460,6 @@ def _wrap_mlp_lora(
                 alpha=alpha,
             )
 
-    def _add_mlp_adapter_weights(
-        self,
-        adapter_weights_by_base: dict[str, list[Any]],
-        *,
-        layer_prefix: str,
-        module: Any,
-    ) -> None:
-        from art.megatron.weights.adapter_export import (
-            add_grouped_moe_adapter_weights,
-            add_shared_experts_adapter_weights,
-        )
-
-        add_grouped_moe_adapter_weights(
-            adapter_weights_by_base,
-            layer_prefix=layer_prefix,
-            experts=_require_moe_experts(module),
-        )
-        shared_experts = getattr(module.mlp, "shared_experts", None)
-        if shared_experts is not None:
-            add_shared_experts_adapter_weights(
-                adapter_weights_by_base,
-                layer_prefix=layer_prefix,
-                shared_experts=shared_experts,
-            )
-
     def compile_workaround_config(
         self,
         provider: Any,
diff --git a/src/art/megatron/weights/adapter_export.py b/src/art/megatron/weights/adapter_export.py
index abe048f7d..f75c021dc 100644
--- a/src/art/megatron/weights/adapter_export.py
+++ b/src/art/megatron/weights/adapter_export.py
@@ -1,4 +1,4 @@
-from collections.abc import Callable
+from collections.abc import Callable, Sequence
 import math
 from typing import Any
 
@@ -21,20 +21,6 @@
 from art.megatron.weights.param_name_canonicalization import canonical_art_param_name
 
 
-def layer_base_prefix(
-    module: TransformerLayer,
-    *,
-    module_name: str | None = None,
-) -> str:
-    if module_name is not None:
-        canonical_name = canonical_art_param_name(module_name)
-        if canonical_name.startswith(
-            ("decoder.layers.", "language_model.decoder.layers.")
-        ):
-            return canonical_name
-    return f"language_model.decoder.layers.{module.layer_number - 1}"
-
-
 def _adapter_alpha_dim(lora: LoRA) -> tuple[int, int]:
     dim = int(lora.A_T.shape[-1])
     alpha = float(lora.scale) * dim
@@ -188,51 +174,86 @@ def _set_expert_adapter_weights(
         )
 
 
-def add_standard_self_attention_adapter_weights(
-    adapter_weights_by_base: dict[str, list[Any]],
-    *,
-    layer_prefix: str,
-    self_attention: Any,
+def _set_lora_weights(
+    out: dict[str, list[Any]],
+    base_prefix: str,
+    *items: tuple[LoRA, str | None],
 ) -> None:
-    linear_proj = getattr(self_attention, "linear_proj", None)
-    if isinstance(linear_proj, SelfAttentionLinearProjLoRA):
-        base_prefix = f"{layer_prefix}.self_attention.linear_proj"
-        _set_adapter_weights(
-            adapter_weights_by_base,
-            base_prefix,
-            _simple_adapter_weight(base_prefix, linear_proj.lora),
-        )
+    _set_adapter_weights(
+        out,
+        base_prefix,
+        *(
+            _simple_adapter_weight(base_prefix, lora, adapter_key=adapter_key)
+            for lora, adapter_key in items
+        ),
+    )
 
-    linear_qkv = getattr(self_attention, "linear_qkv", None)
-    if isinstance(linear_qkv, SelfAttentionLinearQKVLoRA):
-        base_prefix = f"{layer_prefix}.self_attention.linear_qkv"
-        _set_adapter_weights(
-            adapter_weights_by_base,
-            base_prefix,
-            *(
-                _simple_adapter_weight(base_prefix, lora, adapter_key=key)
-                for lora, key in (
-                    (linear_qkv.q_proj_lora, "adapter_q"),
-                    (linear_qkv.k_proj_lora, "adapter_k"),
-                    (linear_qkv.v_proj_lora, "adapter_v"),
-                )
-            ),
-        )
 
+def build_transformer_layer_adapter_weights(
+    model_chunks: Sequence[Any],
+    grouped_moe: bool = False,
+    language_layers_only: bool = False,
+) -> dict[str, list[Any]]:
+    layer_filter = None
+    if language_layers_only:
+        from art.megatron.lora import (
+            _is_language_transformer_layer_name as layer_filter,
+        )
 
-def add_gated_delta_net_adapter_weights(
+    add_mlp_adapter_weights = (
+        _add_moe_mlp_adapter_weights_for_layer
+        if grouped_moe
+        else _add_dense_mlp_adapter_weights_for_layer
+    )
+    adapter_weights_by_base: dict[str, list[Any]] = {}
+    for chunk in model_chunks:
+        for module_name, module in chunk.named_modules():
+            if not isinstance(module, TransformerLayer):
+                continue
+            if layer_filter is not None and not layer_filter(module_name):
+                continue
+            canonical_name = canonical_art_param_name(module_name)
+            layer_prefix = (
+                canonical_name
+                if canonical_name.startswith(
+                    ("decoder.layers.", "language_model.decoder.layers.")
+                )
+                else f"language_model.decoder.layers.{module.layer_number - 1}"
+            )
+            add_self_attention_adapter_weights(
+                adapter_weights_by_base,
+                layer_prefix=layer_prefix,
+                self_attention=module.self_attention,
+            )
+            add_mlp_adapter_weights(adapter_weights_by_base, layer_prefix, module)
+    return adapter_weights_by_base
+
+
+def add_self_attention_adapter_weights(
     adapter_weights_by_base: dict[str, list[Any]],
     *,
     layer_prefix: str,
     self_attention: Any,
 ) -> None:
-    out_proj = getattr(self_attention, "out_proj", None)
-    if isinstance(out_proj, SelfAttentionLinearProjLoRA):
-        base_prefix = f"{layer_prefix}.self_attention.out_proj"
-        _set_adapter_weights(
+    for attr in ("linear_proj", "out_proj"):
+        linear_proj = getattr(self_attention, attr, None)
+        if isinstance(linear_proj, SelfAttentionLinearProjLoRA):
+            base_prefix = f"{layer_prefix}.self_attention.{attr}"
+            _set_lora_weights(
+                adapter_weights_by_base,
+                base_prefix,
+                (linear_proj.lora, None),
+            )
+
+    linear_qkv = getattr(self_attention, "linear_qkv", None)
+    if isinstance(linear_qkv, SelfAttentionLinearQKVLoRA):
+        base_prefix = f"{layer_prefix}.self_attention.linear_qkv"
+        _set_lora_weights(
             adapter_weights_by_base,
             base_prefix,
-            _simple_adapter_weight(base_prefix, out_proj.lora),
+            (linear_qkv.q_proj_lora, "adapter_q"),
+            (linear_qkv.k_proj_lora, "adapter_k"),
+            (linear_qkv.v_proj_lora, "adapter_v"),
         )
 
     in_proj = getattr(self_attention, "in_proj", None)
@@ -244,14 +265,10 @@ def add_gated_delta_net_adapter_weights(
             adapter_weights_by_base,
             base_prefix,
             _simple_adapter_weight(
-                base_prefix,
-                in_proj.qkv_lora,
-                adapter_key="adapter_qkv",
+                base_prefix, in_proj.qkv_lora, adapter_key="adapter_qkv"
             ),
             _simple_adapter_weight(
-                base_prefix,
-                in_proj.z_lora,
-                adapter_key="adapter_z",
+                base_prefix, in_proj.z_lora, adapter_key="adapter_z"
             ),
             *(
                 _zero_adapter_weight(
@@ -266,6 +283,42 @@ def add_gated_delta_net_adapter_weights(
         )
 
 
+def _add_dense_mlp_adapter_weights_for_layer(
+    adapter_weights_by_base: dict[str, list[Any]],
+    layer_prefix: str,
+    module: Any,
+) -> None:
+    from art.megatron.model_support.handlers.default_dense import _require_dense_mlp
+
+    _require_dense_mlp(module)
+    add_split_mlp_adapter_weights(
+        adapter_weights_by_base,
+        f"{layer_prefix}.mlp",
+        module.mlp,
+    )
+
+
+def _add_moe_mlp_adapter_weights_for_layer(
+    adapter_weights_by_base: dict[str, list[Any]],
+    layer_prefix: str,
+    module: Any,
+) -> None:
+    from art.megatron.model_support.handlers.default_dense import _require_moe_experts
+
+    add_grouped_moe_adapter_weights(
+        adapter_weights_by_base,
+        layer_prefix=layer_prefix,
+        experts=_require_moe_experts(module),
+    )
+    shared_experts = getattr(module.mlp, "shared_experts", None)
+    if shared_experts is not None:
+        add_split_mlp_adapter_weights(
+            adapter_weights_by_base,
+            f"{layer_prefix}.mlp.shared_experts",
+            shared_experts,
+        )
+
+
 def add_grouped_moe_adapter_weights(
     adapter_weights_by_base: dict[str, list[Any]],
     *,
@@ -314,25 +367,19 @@ def add_grouped_moe_adapter_weights(
         )
 
 
-def _add_split_mlp_adapter_weights(
+def add_split_mlp_adapter_weights(
     adapter_weights_by_base: dict[str, list[Any]],
-    *,
     base_prefix: str,
     mlp: Any,
 ) -> None:
     linear_fc1 = getattr(mlp, "linear_fc1", None)
     if isinstance(linear_fc1, SharedExpertsLinearFC1LoRA):
         fc1_prefix = f"{base_prefix}.linear_fc1"
-        _set_adapter_weights(
+        _set_lora_weights(
             adapter_weights_by_base,
             fc1_prefix,
-            *(
-                _simple_adapter_weight(fc1_prefix, lora, adapter_key=adapter_key)
-                for lora, adapter_key in (
-                    (linear_fc1.gate_lora, "adapter_gate"),
-                    (linear_fc1.up_lora, "adapter_up"),
-                )
-            ),
+            (linear_fc1.gate_lora, "adapter_gate"),
+            (linear_fc1.up_lora, "adapter_up"),
         )
 
     linear_fc2 = getattr(mlp, "linear_fc2", None)
@@ -343,29 +390,3 @@ def _add_split_mlp_adapter_weights(
             fc2_prefix,
             _simple_adapter_weight(fc2_prefix, linear_fc2.row_parallel_lora.lora),
         )
-
-
-def add_dense_mlp_adapter_weights(
-    adapter_weights_by_base: dict[str, list[Any]],
-    *,
-    layer_prefix: str,
-    mlp: Any,
-) -> None:
-    _add_split_mlp_adapter_weights(
-        adapter_weights_by_base,
-        base_prefix=f"{layer_prefix}.mlp",
-        mlp=mlp,
-    )
-
-
-def add_shared_experts_adapter_weights(
-    adapter_weights_by_base: dict[str, list[Any]],
-    *,
-    layer_prefix: str,
-    shared_experts: Any,
-) -> None:
-    _add_split_mlp_adapter_weights(
-        adapter_weights_by_base,
-        base_prefix=f"{layer_prefix}.mlp.shared_experts",
-        mlp=shared_experts,
-    )

From edb0009f0c699fd9e148a8a7a0c1d621f6ad37fd Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 17:30:04 -0600
Subject: [PATCH 066/114] refactor: use generic context parallel pair planning

---
 src/art/megatron/context_parallel/runtime.py  | 271 +-----------------
 src/art/megatron/context_parallel/types.py    |   2 -
 src/art/megatron/lora.py                      | 218 ++++++++------
 .../model_support/handlers/qwen3_5.py         | 218 ++++++++------
 4 files changed, 261 insertions(+), 448 deletions(-)

diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index 4cc015dbf..0a2e16a9e 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -471,91 +471,15 @@ def _causal_piece_pair_count_from_bounds(
     return int(partial + full)
 
 
-def _chunk_piece_decomposition(
-    *,
-    start: int,
-    end: int,
-    chunk_size: int,
-) -> tuple[
-    int, tuple[int, ...], tuple[int, ...], tuple[int, ...], tuple[int, ...], int
-]:
-    first = start // chunk_size
-    last = (end - 1) // chunk_size
-    piece_starts: list[int] = []
-    piece_ends: list[int] = []
-    piece_lengths: list[int] = []
-    piece_prefix_lengths: list[int] = []
-    running_len = 0
-    for chunk_index in range(first, last + 1):
-        piece_start = start if chunk_index == first else chunk_index * chunk_size
-        piece_end = end if chunk_index == last else (chunk_index + 1) * chunk_size
-        piece_len = piece_end - piece_start
-        if piece_len <= 0:
-            continue
-        running_len += piece_len
-        piece_starts.append(piece_start)
-        piece_ends.append(piece_end)
-        piece_lengths.append(piece_len)
-        piece_prefix_lengths.append(running_len)
-    return (
-        first,
-        tuple(piece_starts),
-        tuple(piece_ends),
-        tuple(piece_lengths),
-        tuple(piece_prefix_lengths),
-        running_len,
-    )
-
-
-def _can_use_shared_prefix_chunk_pair_program(
-    row_spec: PackedRowAttentionSpec,
-) -> bool:
-    slices = row_spec.slices
-    index = 0
-    while index < len(slices):
-        prompt_slice = slices[index]
-        if (
-            prompt_slice.family_index is None
-            or prompt_slice.mask_kind is not AttnMaskKind.CAUSAL
-            or prompt_slice.q_range != prompt_slice.k_range
-        ):
-            return False
-        prompt_family_index = prompt_slice.family_index
-        if prompt_family_index is None:
-            raise RuntimeError("shared-prefix prompt slices must carry family_index")
-        family_index = int(prompt_family_index)
-        prompt_start = int(prompt_slice.q_range.start)
-        prompt_end = int(prompt_slice.q_range.end)
-        index += 1
-        while index < len(slices):
-            family_value = slices[index].family_index
-            if family_value is None or int(family_value) != family_index:
-                break
-            if index + 1 >= len(slices):
-                return False
-            full_slice = slices[index]
-            causal_slice = slices[index + 1]
-            if (
-                full_slice.family_index != prompt_slice.family_index
-                or causal_slice.family_index != prompt_slice.family_index
-                or full_slice.mask_kind is not AttnMaskKind.FULL
-                or causal_slice.mask_kind is not AttnMaskKind.CAUSAL
-                or full_slice.q_range != causal_slice.q_range
-                or causal_slice.q_range != causal_slice.k_range
-                or int(full_slice.k_range.start) != prompt_start
-                or int(full_slice.k_range.end) != prompt_end
-            ):
-                return False
-            index += 2
-    return True
-
-
-def _build_chunk_pair_program_generic(
+def _build_chunk_pair_program(
     row_spec: PackedRowAttentionSpec,
     *,
-    chunk_count: int,
-    chunk_size: int,
+    chunk_ranges: tuple[TokenRange, ...],
 ) -> tuple[torch.Tensor, list[float]]:
+    chunk_count = len(chunk_ranges)
+    if chunk_count == 0:
+        return torch.zeros((0, 0), dtype=torch.int64), []
+    chunk_size = int(chunk_ranges[0].size())
     pair_rows = [[0 for _ in range(chunk_count)] for _ in range(chunk_count)]
     q_weights = [0.0 for _ in range(chunk_count)]
 
@@ -654,138 +578,6 @@ def _build_chunk_pair_program_generic(
     return torch.tensor(pair_rows, dtype=torch.int64), q_weights
 
 
-def _build_chunk_pair_program(
-    row_spec: PackedRowAttentionSpec,
-    *,
-    chunk_ranges: tuple[TokenRange, ...],
-) -> tuple[torch.Tensor, list[float]]:
-    chunk_count = len(chunk_ranges)
-    if chunk_count == 0:
-        return torch.zeros((0, 0), dtype=torch.int64), []
-    chunk_size = int(chunk_ranges[0].size())
-    if not _can_use_shared_prefix_chunk_pair_program(row_spec):
-        return _build_chunk_pair_program_generic(
-            row_spec,
-            chunk_count=chunk_count,
-            chunk_size=chunk_size,
-        )
-
-    pair_rows = [[0 for _ in range(chunk_count)] for _ in range(chunk_count)]
-    q_weights = [0.0 for _ in range(chunk_count)]
-    slices = row_spec.slices
-    index = 0
-    while index < len(slices):
-        prompt_slice = slices[index]
-        (
-            prompt_first,
-            prompt_starts,
-            prompt_ends,
-            prompt_lengths,
-            prompt_prefix,
-            prompt_total,
-        ) = _chunk_piece_decomposition(
-            start=int(prompt_slice.q_range.start),
-            end=int(prompt_slice.q_range.end),
-            chunk_size=chunk_size,
-        )
-        for offset, q_chunk_index in enumerate(
-            range(prompt_first, prompt_first + len(prompt_lengths))
-        ):
-            q_piece_len = prompt_lengths[offset]
-            row = pair_rows[q_chunk_index]
-            q_total = 0
-            if offset > 0:
-                for k_offset in range(offset):
-                    row[prompt_first + k_offset] += (
-                        q_piece_len * prompt_lengths[k_offset]
-                    )
-                q_total += q_piece_len * prompt_prefix[offset - 1]
-            pair_count = _causal_piece_pair_count_from_bounds(
-                q_start=prompt_starts[offset],
-                q_end=prompt_ends[offset],
-                k_start=prompt_starts[offset],
-                k_end=prompt_ends[offset],
-            )
-            if pair_count > 0:
-                row[q_chunk_index] += pair_count
-                q_total += pair_count
-            if q_total > 0:
-                q_weights[q_chunk_index] += float(q_total)
-
-        prompt_family_index = prompt_slice.family_index
-        if prompt_family_index is None:
-            raise RuntimeError("shared-prefix prompt slices must carry family_index")
-        family_index = int(prompt_family_index)
-        index += 1
-        completion_chunk_indices: list[int] = []
-        completion_chunk_totals: list[int] = []
-        while index < len(slices):
-            family_value = slices[index].family_index
-            if family_value is None or int(family_value) != family_index:
-                break
-            full_slice = slices[index]
-            (
-                completion_first,
-                completion_starts,
-                completion_ends,
-                completion_lengths,
-                completion_prefix,
-                _,
-            ) = _chunk_piece_decomposition(
-                start=int(full_slice.q_range.start),
-                end=int(full_slice.q_range.end),
-                chunk_size=chunk_size,
-            )
-            for offset, q_chunk_index in enumerate(
-                range(completion_first, completion_first + len(completion_lengths))
-            ):
-                q_piece_len = completion_lengths[offset]
-                if (
-                    completion_chunk_indices
-                    and completion_chunk_indices[-1] == q_chunk_index
-                ):
-                    completion_chunk_totals[-1] += q_piece_len
-                else:
-                    completion_chunk_indices.append(q_chunk_index)
-                    completion_chunk_totals.append(q_piece_len)
-
-            for offset, q_chunk_index in enumerate(
-                range(completion_first, completion_first + len(completion_lengths))
-            ):
-                q_piece_len = completion_lengths[offset]
-                row = pair_rows[q_chunk_index]
-                q_total = 0
-                if offset > 0:
-                    for k_offset in range(offset):
-                        row[completion_first + k_offset] += (
-                            q_piece_len * completion_lengths[k_offset]
-                        )
-                    q_total += q_piece_len * completion_prefix[offset - 1]
-                pair_count = _causal_piece_pair_count_from_bounds(
-                    q_start=completion_starts[offset],
-                    q_end=completion_ends[offset],
-                    k_start=completion_starts[offset],
-                    k_end=completion_ends[offset],
-                )
-                if pair_count > 0:
-                    row[q_chunk_index] += pair_count
-                    q_total += pair_count
-                if q_total > 0:
-                    q_weights[q_chunk_index] += float(q_total)
-            index += 2
-
-        for q_chunk_index, total_q_len in zip(
-            completion_chunk_indices,
-            completion_chunk_totals,
-            strict=True,
-        ):
-            row = pair_rows[q_chunk_index]
-            for k_offset, k_piece_len in enumerate(prompt_lengths):
-                row[prompt_first + k_offset] += total_q_len * k_piece_len
-            q_weights[q_chunk_index] += float(total_q_len * prompt_total)
-    return torch.tensor(pair_rows, dtype=torch.int64), q_weights
-
-
 def _collect_rank_stage_pieces(
     row_spec: PackedRowAttentionSpec,
     *,
@@ -966,22 +758,6 @@ def _bucket_chunk_assignment(
     return tuple(int(owner) for owner in owners)
 
 
-def _striped_chunk_assignment(
-    *,
-    chunk_count: int,
-    cp_size: int,
-    group_size: int,
-) -> tuple[int, ...]:
-    if chunk_count == 0:
-        return tuple()
-    if cp_size <= 1:
-        return tuple(0 for _ in range(chunk_count))
-    group_size = max(1, int(group_size))
-    return tuple(
-        ((chunk_index // group_size) % cp_size) for chunk_index in range(chunk_count)
-    )
-
-
 def _assignment_uses_all_ranks(
     owners: tuple[int, ...],
     *,
@@ -1469,31 +1245,6 @@ def _evaluate_plan(
     }
 
 
-def _evaluate_plan_for_search(
-    *,
-    chunk_ranges: tuple[TokenRange, ...],
-    pair_matrix: list[list[int]] | torch.Tensor,
-    owners: tuple[int, ...],
-    wave_assignment: tuple[int, ...],
-    cp_size: int,
-    config: ContextParallelConfig,
-    pair_positive: torch.Tensor | None = None,
-    chunk_lengths: tuple[int, ...] | None = None,
-    chunk_lengths_tensor: torch.Tensor | None = None,
-) -> dict[str, Any]:
-    return _evaluate_plan(
-        chunk_ranges=chunk_ranges,
-        pair_matrix=pair_matrix,
-        owners=owners,
-        wave_assignment=wave_assignment,
-        cp_size=cp_size,
-        config=config,
-        pair_positive=pair_positive,
-        chunk_lengths=chunk_lengths,
-        chunk_lengths_tensor=chunk_lengths_tensor,
-    )
-
-
 def _search_chunk_assignment(
     *,
     chunk_ranges: tuple[TokenRange, ...],
@@ -1533,7 +1284,7 @@ def _evaluate_candidate(
         cached = eval_cache.get(cache_key)
         if cached is not None:
             return cached
-        cached = _evaluate_plan_for_search(
+        cached = _evaluate_plan(
             chunk_ranges=chunk_ranges,
             pair_matrix=pair_counts,
             owners=owners,
@@ -1571,23 +1322,17 @@ def _best_wave_assignment_for_owners(
         return best_wave_assignment, best_eval_local
 
     strategy = str(config.planner_assignment_strategy).strip().lower()
-    striped_owners = _striped_chunk_assignment(
-        chunk_count=len(chunk_ranges),
-        cp_size=cp_size,
-        group_size=int(config.planner_stripe_group_size),
-    )
     fixed_owners_by_strategy = {
         "contiguous": _contiguous_chunk_assignment(
             q_weights=q_weights, cp_size=cp_size
         ),
         "bucket": _bucket_chunk_assignment(q_weights=q_weights, cp_size=cp_size),
-        "striped": striped_owners,
     }
     if strategy in fixed_owners_by_strategy:
         owners = fixed_owners_by_strategy[strategy]
         best_waves, best_eval = _best_wave_assignment_for_owners(owners)
         return owners, best_waves, best_eval
-    if strategy not in {"search", "search_with_striped_seed"}:
+    if strategy != "search":
         raise ValueError(
             "Unsupported planner_assignment_strategy="
             f"{config.planner_assignment_strategy!r}."
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index 2bc5eb657..e9a6c1e65 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -69,7 +69,6 @@ class PlannerCpOverride(BaseModel):
     planner_chunk_budget_base: int | None = None
     planner_chunk_budget_per_cp_rank: int | None = None
     planner_assignment_strategy: str | None = None
-    planner_stripe_group_size: int | None = None
     planner_max_search_steps: int | None = None
     planner_candidate_chunk_limit: int | None = None
     planner_max_remote_waves: int | None = None
@@ -100,7 +99,6 @@ class ContextParallelConfig(BaseModel):
     planner_chunk_budget_base: int = 128
     planner_chunk_budget_per_cp_rank: int = 16
     planner_assignment_strategy: str = "search"
-    planner_stripe_group_size: int = 16
     planner_max_search_steps: int = 8
     planner_candidate_chunk_limit: int = 8
     planner_max_remote_waves: int = 4
diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index 824b6d352..637340fc5 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -1235,6 +1235,64 @@ def _parallel_lora(
     )
 
 
+def _expert_parallel_lora(
+    *,
+    adapter_model_prefix: str,
+    linear: Any,
+    out_features: int,
+    rank: int,
+    alpha: float,
+    layout: Literal["column", "row"],
+    num_local_experts: int,
+) -> LoRA:
+    return _parallel_lora(
+        adapter_model_prefix=adapter_model_prefix,
+        linear=linear,
+        out_features=out_features,
+        rank=rank,
+        alpha=alpha,
+        layout=layout,
+        shard_domain="expert_tp",
+        grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
+        num_local_experts=num_local_experts,
+        allreduce=False,
+    )
+
+
+def _parallel_lora_pair(
+    *,
+    adapter_model_prefix: str,
+    linear: Any,
+    out_features: int,
+    rank: int,
+    alpha: float,
+    layout: Literal["column", "row"],
+    suffixes: tuple[str, str],
+    num_local_experts: int = 1,
+) -> tuple[LoRA, LoRA]:
+    make_lora = _expert_parallel_lora if num_local_experts > 1 else _parallel_lora
+    return (
+        make_lora(
+            adapter_model_prefix=f"{adapter_model_prefix}.{suffixes[0]}",
+            linear=linear,
+            out_features=out_features,
+            rank=rank,
+            alpha=alpha,
+            layout=layout,
+            num_local_experts=num_local_experts,
+        ),
+        make_lora(
+            adapter_model_prefix=f"{adapter_model_prefix}.{suffixes[1]}",
+            linear=linear,
+            out_features=out_features,
+            rank=rank,
+            alpha=alpha,
+            layout=layout,
+            num_local_experts=num_local_experts,
+        ),
+    )
+
+
 class SelfAttentionLinearProjLoRA(torch.nn.Module):
     def __init__(
         self,
@@ -1471,29 +1529,15 @@ def __init__(
         super().__init__()
         assert linear_fc1 is not None
         self.linear_fc1 = linear_fc1
-        self.gate_lora = _parallel_lora(
-            adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.gate_proj",
+        self.gate_lora, self.up_lora = _parallel_lora_pair(
+            adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}",
             linear=linear_fc1,
             out_features=linear_fc1.out_features // 2,
             rank=rank,
             alpha=alpha,
             layout="column",
-            shard_domain="expert_tp",
-            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
+            suffixes=("gate_proj", "up_proj"),
             num_local_experts=num_local_experts,
-            allreduce=False,
-        )
-        self.up_lora = _parallel_lora(
-            adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.up_proj",
-            linear=linear_fc1,
-            out_features=linear_fc1.out_features // 2,
-            rank=rank,
-            alpha=alpha,
-            layout="column",
-            shard_domain="expert_tp",
-            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
-            num_local_experts=num_local_experts,
-            allreduce=False,
         )
         self.uses_direct_quack_grouped_lora_dual = True
 
@@ -1517,17 +1561,14 @@ def __init__(
         super().__init__()
         assert linear_fc1 is not None
         self.linear_fc1 = linear_fc1
-        self.lora = _parallel_lora(
+        self.lora = _expert_parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.gate_up_proj",
             linear=linear_fc1,
             out_features=linear_fc1.out_features,
             rank=rank,
             alpha=alpha,
             layout="column",
-            shard_domain="expert_tp",
-            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
             num_local_experts=num_local_experts,
-            allreduce=False,
         )
         gate_out_features = linear_fc1.out_features // 2
         expert_tp_world_size = _get_shard_world_size("expert_tp")
@@ -1562,17 +1603,14 @@ def __init__(
         super().__init__()
         assert linear_fc2 is not None
         self.linear_fc2 = linear_fc2
-        self.lora = _parallel_lora(
+        self.lora = _expert_parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.down_proj",
             linear=linear_fc2,
             out_features=linear_fc2.out_features,
             rank=rank,
             alpha=alpha,
             layout="row",
-            shard_domain="expert_tp",
-            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
             num_local_experts=num_local_experts,
-            allreduce=False,
         )
 
     def forward(
@@ -1600,21 +1638,14 @@ def __init__(
             linear_fc1.return_layernorm_output = True
             linear_fc1.return_layernorm_output_gathered = True
         self.linear_fc1 = linear_fc1
-        self.gate_lora = _parallel_lora(
-            adapter_model_prefix=f"{adapter_model_prefix}.gate_proj",
-            linear=linear_fc1,
-            out_features=linear_fc1.out_features // 2,
-            rank=rank,
-            alpha=alpha,
-            layout="column",
-        )
-        self.up_lora = _parallel_lora(
-            adapter_model_prefix=f"{adapter_model_prefix}.up_proj",
+        self.gate_lora, self.up_lora = _parallel_lora_pair(
+            adapter_model_prefix=adapter_model_prefix,
             linear=linear_fc1,
             out_features=linear_fc1.out_features // 2,
             rank=rank,
             alpha=alpha,
             layout="column",
+            suffixes=("gate_proj", "up_proj"),
         )
 
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor | None]:
@@ -1783,17 +1814,11 @@ def wrap_grouped_moe_experts(
             num_local_experts=experts.num_local_experts,
         )
     if _targets_include(target_modules, "down_proj"):
-        mlp_experts_linear_fc2 = _unwrap_attr(
-            experts.linear_fc2,
-            "linear_fc2",
-            TERowParallelGroupedLinear,  # type: ignore[arg-type]
-        )
-        experts.linear_fc2 = MLPExpertsLinearFC2LoRA(
-            adapter_model_prefix=f"{adapter_model_prefix}.mlp.experts",
-            linear_fc2=mlp_experts_linear_fc2,
+        _wrap_grouped_moe_fc2_lora(
+            experts,
+            adapter_model_prefix=adapter_model_prefix,
             rank=rank,
             alpha=alpha,
-            num_local_experts=experts.num_local_experts,
         )
 
 
@@ -1818,20 +1843,35 @@ def wrap_grouped_moe_experts_3d(
             alpha=alpha,
             num_local_experts=experts.num_local_experts,
         )
-        mlp_experts_linear_fc2 = _unwrap_attr(
-            experts.linear_fc2,
-            "linear_fc2",
-            TERowParallelGroupedLinear,  # type: ignore[arg-type]
-        )
-        experts.linear_fc2 = MLPExpertsLinearFC2LoRA(
-            adapter_model_prefix=f"{adapter_model_prefix}.mlp.experts",
-            linear_fc2=mlp_experts_linear_fc2,
+        _wrap_grouped_moe_fc2_lora(
+            experts,
+            adapter_model_prefix=adapter_model_prefix,
             rank=rank,
             alpha=alpha,
-            num_local_experts=experts.num_local_experts,
         )
 
 
+def _wrap_grouped_moe_fc2_lora(
+    experts: TEGroupedMLP,
+    *,
+    adapter_model_prefix: str,
+    rank: int,
+    alpha: int,
+) -> None:
+    linear_fc2 = _unwrap_attr(
+        experts.linear_fc2,
+        "linear_fc2",
+        TERowParallelGroupedLinear,  # type: ignore[arg-type]
+    )
+    experts.linear_fc2 = MLPExpertsLinearFC2LoRA(
+        adapter_model_prefix=f"{adapter_model_prefix}.mlp.experts",
+        linear_fc2=linear_fc2,
+        rank=rank,
+        alpha=alpha,
+        num_local_experts=experts.num_local_experts,
+    )
+
+
 def wrap_dense_mlp(
     mlp: Any,
     *,
@@ -1841,31 +1881,14 @@ def wrap_dense_mlp(
     rank: int,
     alpha: int,
 ) -> None:
-    if _targets_include(target_modules, "gate_proj", "up_proj"):
-        mlp_linear_fc1 = _unwrap_attr(
-            mlp.linear_fc1,
-            "linear_fc1",
-            (TEColumnParallelLinear, TELayerNormColumnParallelLinear),
-        )
-        mlp.linear_fc1 = SharedExpertsLinearFC1LoRA(
-            adapter_model_prefix=f"{adapter_model_prefix}.mlp",
-            linear_fc1=mlp_linear_fc1,
-            rank=rank,
-            alpha=alpha,
-        )
-    if _targets_include(target_modules, "down_proj"):
-        mlp_linear_fc2 = _unwrap_attr(
-            mlp.linear_fc2,
-            "linear_fc2",
-            TERowParallelLinear,
-        )
-        mlp.linear_fc2 = SharedExpertsLinearFC2LoRA(
-            adapter_model_prefix=f"{adapter_model_prefix}.mlp",
-            linear_fc2=mlp_linear_fc2,
-            rank=rank,
-            alpha=alpha,
-            provider=provider,
-        )
+    _wrap_split_mlp_lora(
+        mlp,
+        adapter_model_prefix=f"{adapter_model_prefix}.mlp",
+        provider=provider,
+        target_modules=target_modules,
+        rank=rank,
+        alpha=alpha,
+    )
 
 
 def wrap_shared_experts_mlp(
@@ -1876,28 +1899,47 @@ def wrap_shared_experts_mlp(
     target_modules: set[str],
     rank: int,
     alpha: int,
+) -> None:
+    _wrap_split_mlp_lora(
+        shared_experts,
+        adapter_model_prefix=f"{adapter_model_prefix}.mlp.shared_expert",
+        provider=provider,
+        target_modules=target_modules,
+        rank=rank,
+        alpha=alpha,
+    )
+
+
+def _wrap_split_mlp_lora(
+    mlp: Any,
+    *,
+    adapter_model_prefix: str,
+    provider: GPTModelProvider,
+    target_modules: set[str],
+    rank: int,
+    alpha: int,
 ) -> None:
     if _targets_include(target_modules, "gate_proj", "up_proj"):
-        shared_experts_linear_fc1 = _unwrap_attr(
-            shared_experts.linear_fc1,
+        linear_fc1 = _unwrap_attr(
+            mlp.linear_fc1,
             "linear_fc1",
             (TEColumnParallelLinear, TELayerNormColumnParallelLinear),
         )
-        shared_experts.linear_fc1 = SharedExpertsLinearFC1LoRA(
-            adapter_model_prefix=f"{adapter_model_prefix}.mlp.shared_expert",
-            linear_fc1=shared_experts_linear_fc1,
+        mlp.linear_fc1 = SharedExpertsLinearFC1LoRA(
+            adapter_model_prefix=adapter_model_prefix,
+            linear_fc1=linear_fc1,
             rank=rank,
             alpha=alpha,
         )
     if _targets_include(target_modules, "down_proj"):
-        shared_experts_linear_fc2 = _unwrap_attr(
-            shared_experts.linear_fc2,
+        linear_fc2 = _unwrap_attr(
+            mlp.linear_fc2,
             "linear_fc2",
             TERowParallelLinear,
         )
-        shared_experts.linear_fc2 = SharedExpertsLinearFC2LoRA(
-            adapter_model_prefix=f"{adapter_model_prefix}.mlp.shared_expert",
-            linear_fc2=shared_experts_linear_fc2,
+        mlp.linear_fc2 = SharedExpertsLinearFC2LoRA(
+            adapter_model_prefix=adapter_model_prefix,
+            linear_fc2=linear_fc2,
             rank=rank,
             alpha=alpha,
             provider=provider,
diff --git a/src/art/megatron/model_support/handlers/qwen3_5.py b/src/art/megatron/model_support/handlers/qwen3_5.py
index 138f25d7b..e2dce6085 100644
--- a/src/art/megatron/model_support/handlers/qwen3_5.py
+++ b/src/art/megatron/model_support/handlers/qwen3_5.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+from collections.abc import Callable
 from copy import copy
 from functools import lru_cache
 import re
@@ -50,6 +51,9 @@
     r"^(?P<prefix>.*\.mlp\.experts)\.(?P<expert>\d+)\."
     r"(?P<module>gate_proj|up_proj|down_proj)\.(?P<lora>lora_[AB])\.weight$"
 )
+_ART_MOE_MODULES = ("gate_up_proj", "down_proj")
+_VLLM_EXPERT_MODULES = ("gate_proj", "up_proj", "down_proj")
+_LORA_NAMES = ("lora_A", "lora_B")
 
 
 class Qwen35BaseHandler(DefaultDenseHandler):
@@ -80,7 +84,7 @@ def to_vllm_lora_tensors(
         *,
         adapter_config: dict[str, Any],
     ) -> tuple[dict[str, torch.Tensor], dict[str, Any]]:
-        if _group_art_moe_tensors(tensors):
+        if _group_expert_lora_tensors(tensors, _ART_MOE_EXPERT_KEY_RE):
             raise TypeError("Dense Qwen3.5 handler received MoE LoRA tensors")
         transformed: dict[str, torch.Tensor] = {}
         for key, tensor in tensors.items():
@@ -650,12 +654,16 @@ def _vllm_moe_config(
     return config
 
 
-def _group_art_moe_tensors(
+type _ExpertLoraGroups = dict[str, dict[int, dict[str, dict[str, torch.Tensor]]]]
+
+
+def _group_expert_lora_tensors(
     tensors: dict[str, torch.Tensor],
-) -> dict[str, dict[int, dict[str, dict[str, torch.Tensor]]]]:
-    grouped: dict[str, dict[int, dict[str, dict[str, torch.Tensor]]]] = {}
+    pattern: re.Pattern[str],
+) -> _ExpertLoraGroups:
+    grouped: _ExpertLoraGroups = {}
     for key, tensor in tensors.items():
-        match = _ART_MOE_EXPERT_KEY_RE.match(key)
+        match = pattern.match(key)
         if match is None:
             continue
         grouped.setdefault(match.group("prefix"), {}).setdefault(
@@ -665,27 +673,57 @@ def _group_art_moe_tensors(
     return grouped
 
 
+def _expert_lora_key(prefix: str, expert: int, module: str, lora_name: str) -> str:
+    return f"{prefix}.{expert}.{module}.{lora_name}.weight"
+
+
+def _convert_remaining_lora_tensors(
+    transformed: dict[str, torch.Tensor],
+    tensors: dict[str, torch.Tensor],
+    *,
+    used_keys: set[str],
+    convert: Callable[
+        [str, torch.Tensor],
+        tuple[str, torch.Tensor],
+    ],
+    reject_fused_moe: bool = False,
+) -> None:
+    for key, tensor in tensors.items():
+        if key in used_keys:
+            continue
+        if reject_fused_moe and _VLLM_MOE_KEY_RE.match(key) is not None:
+            raise RuntimeError(
+                "Mixed fused and per-expert Qwen3.5 vLLM MoE LoRA tensors"
+            )
+        converted_key, converted = convert(key, tensor)
+        if converted_key in transformed:
+            raise RuntimeError(
+                f"Duplicate Qwen3.5 LoRA tensor after conversion: {converted_key}"
+            )
+        transformed[converted_key] = converted
+
+
 def _to_vllm_lora_tensors(
     tensors: dict[str, torch.Tensor],
     *,
     adapter_config: dict[str, Any],
 ) -> tuple[dict[str, torch.Tensor], dict[str, Any]]:
-    grouped = _group_art_moe_tensors(tensors)
+    grouped = _group_expert_lora_tensors(tensors, _ART_MOE_EXPERT_KEY_RE)
     has_shared_experts = _has_shared_expert_lora_tensors(tensors)
     transformed: dict[str, torch.Tensor] = {}
+    convert = lambda key, tensor: _to_vllm_lora_tensor(
+        key,
+        tensor,
+        adapter_config=adapter_config,
+    )
     if not grouped:
         has_fused_experts = any(_VLLM_MOE_KEY_RE.match(key) for key in tensors)
-        for key, tensor in tensors.items():
-            vllm_key, tensor = _to_vllm_lora_tensor(
-                key,
-                tensor,
-                adapter_config=adapter_config,
-            )
-            if vllm_key in transformed:
-                raise RuntimeError(
-                    f"Duplicate Qwen3.5 LoRA tensor after conversion: {vllm_key}"
-                )
-            transformed[vllm_key] = tensor
+        _convert_remaining_lora_tensors(
+            transformed,
+            tensors,
+            used_keys=set(),
+            convert=convert,
+        )
         return transformed, (
             _vllm_moe_config(
                 adapter_config,
@@ -697,17 +735,21 @@ def _to_vllm_lora_tensors(
     used_keys: set[str] = set()
     for prefix, experts in grouped.items():
         vllm_prefix = _to_vllm_key(prefix)
-        gate_up_a: list[torch.Tensor] = []
-        gate_up_b: list[torch.Tensor] = []
-        down_a: list[torch.Tensor] = []
-        down_b: list[torch.Tensor] = []
+        blocks = {
+            ("gate_up_proj", "lora_A"): [],
+            ("gate_up_proj", "lora_B"): [],
+            ("down_proj", "lora_A"): [],
+            ("down_proj", "lora_B"): [],
+        }
         for expert in sorted(experts):
             modules = experts[expert]
             try:
-                gate_up_a_tensor = modules["gate_up_proj"]["lora_A"]
                 gate_up_b_tensor = modules["gate_up_proj"]["lora_B"]
-                d_a = modules["down_proj"]["lora_A"]
-                d_b = modules["down_proj"]["lora_B"]
+                expert_tensors = {
+                    (module_name, lora_name): modules[module_name][lora_name]
+                    for module_name in _ART_MOE_MODULES
+                    for lora_name in _LORA_NAMES
+                }
             except KeyError as exc:
                 raise RuntimeError(
                     f"Incomplete Qwen3.5 MoE LoRA block for {prefix}.{expert}"
@@ -717,34 +759,29 @@ def _to_vllm_lora_tensors(
                     f"{prefix}.{expert}: gate/up lora_B rows "
                     f"{gate_up_b_tensor.shape[0]} are not even"
                 )
-            gate_up_a.append(gate_up_a_tensor.contiguous())
-            gate_up_b.append(gate_up_b_tensor.contiguous())
-            down_a.append(d_a.contiguous())
-            down_b.append(d_b.contiguous())
-            for module_name in ("gate_up_proj", "down_proj"):
-                for lora_name in ("lora_A", "lora_B"):
-                    used_keys.add(f"{prefix}.{expert}.{module_name}.{lora_name}.weight")
+            for slot, tensor in expert_tensors.items():
+                blocks[slot].append(tensor.contiguous())
+                used_keys.add(_expert_lora_key(prefix, expert, *slot))
         transformed[f"{vllm_prefix}.base_layer.lora_A.weight"] = torch.cat(
-            gate_up_a,
+            blocks[("gate_up_proj", "lora_A")],
             dim=0,
         ).contiguous()
         transformed[f"{vllm_prefix}.base_layer.lora_B.weight"] = _pack_vllm_3d_lora_b(
-            gate_up_b
+            blocks[("gate_up_proj", "lora_B")]
         )
         transformed[f"{vllm_prefix}.lora_A.weight"] = torch.cat(
-            down_a,
+            blocks[("down_proj", "lora_A")],
             dim=0,
         ).contiguous()
-        transformed[f"{vllm_prefix}.lora_B.weight"] = _pack_vllm_3d_lora_b(down_b)
-    for key, tensor in tensors.items():
-        if key in used_keys:
-            continue
-        vllm_key, tensor = _to_vllm_lora_tensor(
-            key,
-            tensor,
-            adapter_config=adapter_config,
+        transformed[f"{vllm_prefix}.lora_B.weight"] = _pack_vllm_3d_lora_b(
+            blocks[("down_proj", "lora_B")]
         )
-        transformed[vllm_key] = tensor
+    _convert_remaining_lora_tensors(
+        transformed,
+        tensors,
+        used_keys=used_keys,
+        convert=convert,
+    )
     return transformed, _vllm_moe_config(
         adapter_config,
         has_shared_experts=has_shared_experts,
@@ -756,15 +793,12 @@ def _from_vllm_lora_tensors(
     *,
     adapter_config: dict[str, Any],
 ) -> dict[str, torch.Tensor]:
-    expert_grouped: dict[str, dict[int, dict[str, dict[str, torch.Tensor]]]] = {}
-    for key, tensor in tensors.items():
-        match = _VLLM_MOE_EXPERT_KEY_RE.match(key)
-        if match is None:
-            continue
-        expert_grouped.setdefault(match.group("prefix"), {}).setdefault(
-            int(match.group("expert")),
-            {},
-        ).setdefault(match.group("module"), {})[match.group("lora")] = tensor
+    convert = lambda key, tensor: _from_vllm_lora_tensor(
+        key,
+        tensor,
+        adapter_config=adapter_config,
+    )
+    expert_grouped = _group_expert_lora_tensors(tensors, _VLLM_MOE_EXPERT_KEY_RE)
     if expert_grouped:
         transformed: dict[str, torch.Tensor] = {}
         used_keys: set[str] = set()
@@ -772,16 +806,17 @@ def _from_vllm_lora_tensors(
             art_prefix = _from_vllm_key(prefix)
             for expert, modules in experts.items():
                 try:
-                    gate_a = modules["gate_proj"]["lora_A"]
-                    gate_b = modules["gate_proj"]["lora_B"]
-                    up_a = modules["up_proj"]["lora_A"]
-                    up_b = modules["up_proj"]["lora_B"]
-                    down_a = modules["down_proj"]["lora_A"]
-                    down_b = modules["down_proj"]["lora_B"]
+                    expert_tensors = {
+                        (module_name, lora_name): modules[module_name][lora_name]
+                        for module_name in _VLLM_EXPERT_MODULES
+                        for lora_name in _LORA_NAMES
+                    }
                 except KeyError as exc:
                     raise RuntimeError(
                         f"Incomplete Qwen3.5 vLLM MoE LoRA block for {prefix}.{expert}"
                     ) from exc
+                gate_a = expert_tensors[("gate_proj", "lora_A")]
+                up_a = expert_tensors[("up_proj", "lora_A")]
                 if not torch.equal(gate_a, up_a):
                     raise RuntimeError(
                         "Qwen3.5 Megatron gate_up_proj requires gate/up "
@@ -791,32 +826,29 @@ def _from_vllm_lora_tensors(
                     _clone(gate_a)
                 )
                 transformed[f"{art_prefix}.{expert}.gate_up_proj.lora_B.weight"] = (
-                    torch.cat([gate_b, up_b], dim=0).contiguous()
+                    torch.cat(
+                        [
+                            expert_tensors[("gate_proj", "lora_B")],
+                            expert_tensors[("up_proj", "lora_B")],
+                        ],
+                        dim=0,
+                    ).contiguous()
                 )
                 transformed[f"{art_prefix}.{expert}.down_proj.lora_A.weight"] = _clone(
-                    down_a
+                    expert_tensors[("down_proj", "lora_A")]
                 )
                 transformed[f"{art_prefix}.{expert}.down_proj.lora_B.weight"] = _clone(
-                    down_b
-                )
-                for module_name in ("gate_proj", "up_proj", "down_proj"):
-                    for lora_name in ("lora_A", "lora_B"):
-                        used_keys.add(
-                            f"{prefix}.{expert}.{module_name}.{lora_name}.weight"
-                        )
-        for key, tensor in tensors.items():
-            if key in used_keys:
-                continue
-            if _VLLM_MOE_KEY_RE.match(key) is not None:
-                raise RuntimeError(
-                    "Mixed fused and per-expert Qwen3.5 vLLM MoE LoRA tensors"
+                    expert_tensors[("down_proj", "lora_B")]
                 )
-            art_key, tensor = _from_vllm_lora_tensor(
-                key,
-                tensor,
-                adapter_config=adapter_config,
-            )
-            transformed[art_key] = tensor
+                for slot in expert_tensors:
+                    used_keys.add(_expert_lora_key(prefix, expert, *slot))
+        _convert_remaining_lora_tensors(
+            transformed,
+            tensors,
+            used_keys=used_keys,
+            convert=convert,
+            reject_fused_moe=True,
+        )
         return transformed
 
     grouped: dict[str, dict[str, torch.Tensor]] = {}
@@ -830,13 +862,12 @@ def _from_vllm_lora_tensors(
         grouped.setdefault(match.group("prefix"), {})[slot] = tensor
     if not grouped:
         transformed: dict[str, torch.Tensor] = {}
-        for key, tensor in tensors.items():
-            art_key, tensor = _from_vllm_lora_tensor(
-                key,
-                tensor,
-                adapter_config=adapter_config,
-            )
-            transformed[art_key] = tensor
+        _convert_remaining_lora_tensors(
+            transformed,
+            tensors,
+            used_keys=set(),
+            convert=convert,
+        )
         return transformed
 
     rank = int(adapter_config["r"])
@@ -895,15 +926,12 @@ def _from_vllm_lora_tensors(
                 f"{prefix}.lora_B.weight",
             }
         )
-    for key, tensor in tensors.items():
-        if key in used_keys:
-            continue
-        art_key, tensor = _from_vllm_lora_tensor(
-            key,
-            tensor,
-            adapter_config=adapter_config,
-        )
-        transformed[art_key] = tensor
+    _convert_remaining_lora_tensors(
+        transformed,
+        tensors,
+        used_keys=used_keys,
+        convert=convert,
+    )
     return transformed
 
 

From 404e2d39484310847261c56784daab28c971b041 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 17:39:20 -0600
Subject: [PATCH 067/114] refactor: remove unused context planner metadata

---
 src/art/megatron/context_parallel/runtime.py  | 175 +-----------------
 src/art/megatron/context_parallel/types.py    |  52 ------
 .../gdn_shared_prefix/distributed_init.py     |   7 +
 .../test_fla_cp_native_recurrent.py           |  24 +--
 .../test_gdn_cp_packed_correctness.py         |  36 ++--
 .../test_gdn_cp_train_prepare.py              |  16 +-
 ...en35_full_model_cp1_packed_vs_flattened.py |  47 +++--
 .../test_real_gdn_cp1_packed_vs_flattened.py  |  56 ++----
 .../test_real_gdn_native_fla_cp.py            |  24 +--
 .../test_real_gdn_tp_lora.py                  |  16 +-
 10 files changed, 95 insertions(+), 358 deletions(-)
 create mode 100644 tests/integration/megatron/gdn_shared_prefix/distributed_init.py

diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index 0a2e16a9e..d1ef9353d 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -4,7 +4,6 @@
 import hashlib
 import json
 from typing import Any, cast
-import warnings
 
 from pydantic import BaseModel, ConfigDict
 import torch
@@ -28,17 +27,12 @@
     PackedBatchAttentionSpec,
     PackedRowAttentionSpec,
     ParallelTopology,
-    PlannerProvenance,
     PreparedMegatronBatch,
     RankRuntimePlan,
     StagePlan,
     TokenRange,
 )
 
-_PLANNER_RUNTIME_BACKEND = "art_context_parallel"
-_PLANNER_BEST_EFFORT_WARNING_KEYS: set[
-    tuple[str, str, int, str, str, tuple[int, ...]]
-] = set()
 _CHUNK_MASK_STATS_TORCH_THRESHOLD = 1024
 _CP4_SEARCH_PROBE_CANDIDATE_LIMIT = 2
 _CP4_SEARCH_PROBE_IMPROVEMENT_MS = 1.0
@@ -128,157 +122,6 @@ def _rank_plan_cache_key(
     return (planning_key, device.type, device.index, int(cp_rank))
 
 
-def _config_for_runtime_cp(
-    *,
-    topology: ParallelTopology,
-    config: ContextParallelConfig,
-) -> ContextParallelConfig:
-    cp_size = max(int(topology.cp), 1)
-    updates: dict[str, Any] = {}
-    applied_override = False
-    for override in config.planner_cp_overrides:
-        if int(override.cp_size) != cp_size:
-            continue
-        override_updates = override.model_dump(mode="python", exclude_none=True)
-        override_updates.pop("cp_size", None)
-        updates.update(override_updates)
-        applied_override = True
-    if not applied_override:
-        return config
-    updates.setdefault("planner_tuned_cp_sizes", (cp_size,))
-    return config.model_copy(update=updates)
-
-
-def _normalized_planner_metadata_value(value: str | None) -> str:
-    if value is None:
-        return ""
-    normalized = "".join(
-        character.lower() if character.isalnum() else " "
-        for character in str(value).strip()
-    )
-    return " ".join(part for part in normalized.split() if part)
-
-
-def _planner_metadata_matches(
-    expected: str | None,
-    actual: str | None,
-    *,
-    fuzzy: bool,
-) -> bool:
-    normalized_expected = _normalized_planner_metadata_value(expected)
-    normalized_actual = _normalized_planner_metadata_value(actual)
-    if not normalized_expected or not normalized_actual:
-        return False
-    if normalized_expected == normalized_actual:
-        return True
-    return bool(
-        fuzzy
-        and (
-            normalized_expected in normalized_actual
-            or normalized_actual in normalized_expected
-        )
-    )
-
-
-def _planner_runtime_hardware() -> str | None:
-    if not torch.cuda.is_available():
-        return None
-    try:
-        return str(torch.cuda.get_device_name(torch.cuda.current_device()))
-    except Exception:
-        return str(torch.cuda.get_device_name(0))
-
-
-def _planner_best_effort_warning_message(provenance: PlannerProvenance) -> str:
-    mismatch_reasons: list[str] = []
-    if not provenance.backend_match:
-        mismatch_reasons.append(
-            f"backend runtime={provenance.runtime_backend!r} tuned={provenance.tuned_backend!r}"
-        )
-    if not provenance.hardware_match:
-        mismatch_reasons.append(
-            f"hardware runtime={provenance.runtime_hardware!r} tuned={provenance.tuned_hardware!r}"
-        )
-    if not provenance.cp_size_match:
-        mismatch_reasons.append(
-            f"cp_size runtime={int(provenance.runtime_cp_size)} tuned={list(provenance.tuned_cp_sizes)}"
-        )
-    mismatch_text = (
-        "; ".join(mismatch_reasons) if mismatch_reasons else "metadata missing"
-    )
-    return (
-        "ART context parallel planner coefficients are running in best-effort mode; "
-        f"{mismatch_text}. The runtime will continue with the configured coefficients."
-    )
-
-
-def _planner_provenance(
-    *,
-    topology: ParallelTopology,
-    config: ContextParallelConfig,
-    warn: bool = True,
-) -> PlannerProvenance:
-    runtime_hardware = _planner_runtime_hardware()
-    tuned_cp_sizes = tuple(
-        sorted(
-            {
-                int(cp_size)
-                for cp_size in config.planner_tuned_cp_sizes
-                if int(cp_size) > 0
-            }
-        )
-    )
-    provenance = PlannerProvenance(
-        runtime_backend=_PLANNER_RUNTIME_BACKEND,
-        runtime_hardware=runtime_hardware,
-        runtime_cp_size=max(int(topology.cp), 1),
-        tuned_backend=config.planner_tuned_backend,
-        tuned_hardware=config.planner_tuned_hardware,
-        tuned_cp_sizes=tuned_cp_sizes,
-        backend_match=_planner_metadata_matches(
-            config.planner_tuned_backend,
-            _PLANNER_RUNTIME_BACKEND,
-            fuzzy=False,
-        ),
-        hardware_match=_planner_metadata_matches(
-            config.planner_tuned_hardware,
-            runtime_hardware,
-            fuzzy=True,
-        ),
-        cp_size_match=bool(tuned_cp_sizes)
-        and max(int(topology.cp), 1) in tuned_cp_sizes,
-        using_best_effort=False,
-    )
-    if (
-        provenance.backend_match
-        and provenance.hardware_match
-        and provenance.cp_size_match
-    ):
-        return provenance
-
-    warning_message = _planner_best_effort_warning_message(provenance)
-    warning_key = (
-        _normalized_planner_metadata_value(provenance.runtime_backend),
-        _normalized_planner_metadata_value(provenance.runtime_hardware),
-        int(provenance.runtime_cp_size),
-        _normalized_planner_metadata_value(provenance.tuned_backend),
-        _normalized_planner_metadata_value(provenance.tuned_hardware),
-        provenance.tuned_cp_sizes,
-    )
-    warning_emitted = False
-    if warn and warning_key not in _PLANNER_BEST_EFFORT_WARNING_KEYS:
-        _PLANNER_BEST_EFFORT_WARNING_KEYS.add(warning_key)
-        warnings.warn(warning_message, RuntimeWarning, stacklevel=3)
-        warning_emitted = True
-    return provenance.model_copy(
-        update={
-            "using_best_effort": True,
-            "warning_message": warning_message,
-            "warning_emitted": warning_emitted,
-        }
-    )
-
-
 def _normalized_chunk_size(
     *,
     valid_tokens: int,
@@ -1804,11 +1647,10 @@ def build_context_parallel_token_layout_index(
             ownership_ranges_by_rank=(((0, valid_tokens, 0),) if valid_tokens else (),),
             token_counts_by_rank=(valid_tokens,),
         )
-    runtime_config = _config_for_runtime_cp(topology=topology, config=config)
     _row_spec, chunk_ranges, owners, _wave_assignment = _runtime_plan_assignment(
         spec,
         topology=topology,
-        config=runtime_config,
+        config=config,
     )
     del original_seq_len
     return _build_runtime_token_layout_index(
@@ -1909,12 +1751,11 @@ def prepare_megatron_context_parallel_state(
         )
     group_ids_cpu = _planning_metadata_cpu(micro["group_ids"])
     parent_ids_cpu = _planning_metadata_cpu(micro["parent_ids"])
-    runtime_config = _config_for_runtime_cp(topology=topology, config=config)
     planning_key = _planning_bundle_cache_key(
         group_ids=group_ids_cpu,
         parent_ids=parent_ids_cpu,
         topology=topology,
-        config=runtime_config,
+        config=config,
         original_seq_len=int(micro["tokens"].shape[1]),
         build_gdn_execution_spec=build_gdn_execution_spec,
     )
@@ -1924,11 +1765,11 @@ def prepare_megatron_context_parallel_state(
             group_ids=group_ids_cpu,
             parent_ids=parent_ids_cpu,
         )
-        runtime_key = make_runtime_key(spec, topology=topology, config=runtime_config)
+        runtime_key = make_runtime_key(spec, topology=topology, config=config)
         runtime_plan = get_or_build_runtime_plan(
             spec,
             topology=topology,
-            config=runtime_config,
+            config=config,
             runtime_key=runtime_key,
             original_seq_len=int(micro["tokens"].shape[1]),
         )
@@ -1975,22 +1816,16 @@ def prepare_megatron_context_parallel_state(
                 attention_token_layout_index=rank_plan.token_layout_index,
             )
             _cache_put(_GDN_RANK_PLAN_CACHE, rank_gdn_key, gdn_execution_plan)
-    planner_provenance = _planner_provenance(
-        topology=topology,
-        config=runtime_config,
-        warn=int(cp_rank) == 0,
-    )
     pad_multiple = int(topology.tp) if bool(topology.sp) and int(topology.tp) > 1 else 1
     state = ArtContextParallelState(
         runtime_key=bundle.runtime_key,
         rank_plan=rank_plan,
         cp_group=cp_group,
-        config=runtime_config,
+        config=config,
         group_ids=group_ids_cpu[0].contiguous(),
         parent_ids=parent_ids_cpu[0].contiguous(),
         gdn_execution_spec=bundle.gdn_execution_spec,
         gdn_execution_plan=gdn_execution_plan,
-        planner_provenance=planner_provenance,
         trace_token_uids=None,
     )
     return state, rank_plan, bundle.spec, pad_multiple
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index e9a6c1e65..5974a38d3 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -60,36 +60,6 @@ class SharedPrefixBuilderConfig(BaseModel):
     require_contiguous_group_runs: bool = True
 
 
-class PlannerCpOverride(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
-    cp_size: int
-    block_size: int | None = None
-    planner_chunk_size: int | None = None
-    planner_chunk_budget_base: int | None = None
-    planner_chunk_budget_per_cp_rank: int | None = None
-    planner_assignment_strategy: str | None = None
-    planner_max_search_steps: int | None = None
-    planner_candidate_chunk_limit: int | None = None
-    planner_max_remote_waves: int | None = None
-    planner_stage_overhead_ms: float | None = None
-    planner_comm_stage_overhead_ms: float | None = None
-    planner_interval_overhead_ms: float | None = None
-    planner_merge_q_token_ms: float | None = None
-    planner_fetch_token_ms: float | None = None
-    planner_reduce_token_ms: float | None = None
-    planner_local_pair_ms: float | None = None
-    planner_remote_pair_ms: float | None = None
-    planner_local_backward_pair_ms: float | None = None
-    planner_remote_backward_pair_ms: float | None = None
-    planner_remote_stage_token_floor: int | None = None
-    planner_remote_stage_pair_floor: int | None = None
-    planner_remote_stage_underfill_ms: float | None = None
-    planner_tuned_backend: str | None = None
-    planner_tuned_hardware: str | None = None
-    planner_tuned_cp_sizes: tuple[int, ...] | None = None
-
-
 class ContextParallelConfig(BaseModel):
     model_config = ConfigDict(frozen=True, extra="forbid")
 
@@ -115,10 +85,6 @@ class ContextParallelConfig(BaseModel):
     planner_remote_stage_token_floor: int = 4096
     planner_remote_stage_pair_floor: int = 4_000_000
     planner_remote_stage_underfill_ms: float = 0.287151
-    planner_tuned_backend: str | None = "art_context_parallel"
-    planner_tuned_hardware: str | None = "NVIDIA H200"
-    planner_tuned_cp_sizes: tuple[int, ...] = (2, 4)
-    planner_cp_overrides: tuple[PlannerCpOverride, ...] = ()
 
 
 class ParallelTopology(BaseModel):
@@ -239,23 +205,6 @@ class StageExecutionSpec(BaseModel):
     mask_metadata: "ExactMaskMetadata | None" = None
 
 
-class PlannerProvenance(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
-    runtime_backend: str
-    runtime_hardware: str | None = None
-    runtime_cp_size: int
-    tuned_backend: str | None = None
-    tuned_hardware: str | None = None
-    tuned_cp_sizes: tuple[int, ...] = ()
-    backend_match: bool
-    hardware_match: bool
-    cp_size_match: bool
-    using_best_effort: bool
-    warning_message: str | None = None
-    warning_emitted: bool = False
-
-
 class ArtContextParallelState(BaseModel):
     model_config = ConfigDict(arbitrary_types_allowed=True)
 
@@ -276,7 +225,6 @@ class ArtContextParallelState(BaseModel):
     )
     gdn_attention_token_uids: torch.Tensor | None = None
     gdn_active_module: Any | None = None
-    planner_provenance: PlannerProvenance
     trace_token_uids: torch.Tensor | None = None
     execution_cache: ContextParallelExecutionCache = Field(
         default_factory=ContextParallelExecutionCache
diff --git a/tests/integration/megatron/gdn_shared_prefix/distributed_init.py b/tests/integration/megatron/gdn_shared_prefix/distributed_init.py
new file mode 100644
index 000000000..b9b4075c8
--- /dev/null
+++ b/tests/integration/megatron/gdn_shared_prefix/distributed_init.py
@@ -0,0 +1,7 @@
+from pathlib import Path
+
+
+def file_init_method(tmp_path: Path, name: str) -> str:
+    path = tmp_path / f"{name}.dist"
+    path.unlink(missing_ok=True)
+    return f"file://{path}"
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_fla_cp_native_recurrent.py b/tests/integration/megatron/gdn_shared_prefix/test_fla_cp_native_recurrent.py
index bcf3a0cfb..6f5eefc17 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_fla_cp_native_recurrent.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_fla_cp_native_recurrent.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
 
 from pathlib import Path
-import socket
 from typing import Any, cast
 
 import pytest
@@ -20,6 +19,7 @@
     chunk_gated_delta_rule_native_cp,
 )
 
+from .distributed_init import file_init_method  # noqa: E402
 from .metrics import GDN_CORRECTNESS_DTYPE, assert_mean_abs_pct  # noqa: E402
 
 _CP_SIZES = (
@@ -43,10 +43,10 @@
 def test_native_fla_cp_recurrent_matches_single_rank(
     cp_size: int, tmp_path: Path
 ) -> None:
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, f"native_fla_recurrent_cp{cp_size}")
     mp.spawn(
         _native_fla_cp_worker,
-        args=(cp_size, port, str(tmp_path)),
+        args=(cp_size, init_method, str(tmp_path)),
         nprocs=cp_size,
         join=True,
     )
@@ -62,10 +62,10 @@ def test_native_fla_cp_recurrent_matches_single_rank(
 def test_native_fla_cp_recurrent_varlen_multichain_matches_single_rank(
     cp_size: int, tmp_path: Path
 ) -> None:
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, f"native_fla_varlen_cp{cp_size}")
     mp.spawn(
         _native_fla_cp_varlen_multichain_worker,
-        args=(cp_size, port, str(tmp_path)),
+        args=(cp_size, init_method, str(tmp_path)),
         nprocs=cp_size,
         join=True,
     )
@@ -119,13 +119,13 @@ def test_native_fla_summary_affine_debug_matches_final_state() -> None:
 def _native_fla_cp_worker(
     rank: int,
     cp_size: int,
-    port: int,
+    init_method: str,
     output_dir: str,
 ) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -201,13 +201,13 @@ def _native_fla_cp_worker(
 def _native_fla_cp_varlen_multichain_worker(
     rank: int,
     cp_size: int,
-    port: int,
+    init_method: str,
     output_dir: str,
 ) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -519,9 +519,3 @@ def _cat_varlen_slices(
 def _assert_grad_close(left: torch.Tensor, right_grad: torch.Tensor, name: str) -> None:
     assert left.grad is not None, name
     assert_mean_abs_pct(right_grad, left.grad, name)
-
-
-def _find_free_port() -> int:
-    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
-        sock.bind(("127.0.0.1", 0))
-        return int(sock.getsockname()[1])
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
index 53d5d62e8..489eeec0c 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
@@ -2,7 +2,6 @@
 
 from collections.abc import Callable
 from pathlib import Path
-import socket
 from typing import Any
 
 import pytest
@@ -30,6 +29,7 @@
     default_phase0_cases,
 )
 from .distributed_grad import all_reduce_parameter_grads_coalesced  # noqa: E402
+from .distributed_init import file_init_method  # noqa: E402
 from .metrics import (  # noqa: E402
     GDN_CORRECTNESS_DTYPE,
     REAL_GDN_GRAD_MEAN_ABS_PCT_THRESHOLD,
@@ -51,10 +51,10 @@ def test_gdn_cp_packed_matches_cp1_oracle_all_edge_cases(
     cp_size: int, tmp_path: Path
 ) -> None:
     _skip_without_gpus(cp_size)
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, f"cp1_oracle_cp{cp_size}")
     mp.spawn(
         _cp1_oracle_worker,
-        args=(cp_size, port, str(tmp_path), False),
+        args=(cp_size, init_method, str(tmp_path), False),
         nprocs=cp_size,
         join=True,
     )
@@ -67,10 +67,10 @@ def test_gdn_cp_packed_sibling_order_matches_cp1_oracle(
     cp_size: int, tmp_path: Path
 ) -> None:
     _skip_without_gpus(cp_size)
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, f"cp1_oracle_sibling_cp{cp_size}")
     mp.spawn(
         _cp1_oracle_worker,
-        args=(cp_size, port, str(tmp_path), True),
+        args=(cp_size, init_method, str(tmp_path), True),
         nprocs=cp_size,
         join=True,
     )
@@ -81,10 +81,10 @@ def test_gdn_cp_packed_sibling_order_matches_cp1_oracle(
 @pytest.mark.parametrize("cp_size", (2, 4))
 def test_gdn_cp_tree_chain_matches_cp1_oracle(cp_size: int, tmp_path: Path) -> None:
     _skip_without_gpus(cp_size)
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, f"tree_chain_cp{cp_size}")
     mp.spawn(
         _tree_chain_oracle_worker,
-        args=(cp_size, port, str(tmp_path)),
+        args=(cp_size, init_method, str(tmp_path)),
         nprocs=cp_size,
         join=True,
     )
@@ -95,10 +95,10 @@ def test_gdn_cp_tree_chain_matches_cp1_oracle(cp_size: int, tmp_path: Path) -> N
 def test_gdn_cp_tree_fuzz_matches_cp1_oracle(tmp_path: Path) -> None:
     cp_size = 4
     _skip_without_gpus(cp_size)
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, "tree_fuzz_cp4")
     mp.spawn(
         _tree_fuzz_oracle_worker,
-        args=(cp_size, port, str(tmp_path)),
+        args=(cp_size, init_method, str(tmp_path)),
         nprocs=cp_size,
         join=True,
     )
@@ -109,14 +109,14 @@ def test_gdn_cp_tree_fuzz_matches_cp1_oracle(tmp_path: Path) -> None:
 def _cp1_oracle_worker(
     rank: int,
     cp_size: int,
-    port: int,
+    init_method: str,
     output_dir: str,
     sibling_only: bool,
 ) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -158,13 +158,13 @@ def _cp1_oracle_worker(
 def _tree_chain_oracle_worker(
     rank: int,
     cp_size: int,
-    port: int,
+    init_method: str,
     output_dir: str,
 ) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -197,13 +197,13 @@ def _tree_chain_oracle_worker(
 def _tree_fuzz_oracle_worker(
     rank: int,
     cp_size: int,
-    port: int,
+    init_method: str,
     output_dir: str,
 ) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -754,9 +754,3 @@ def _swap_siblings(tensor: torch.Tensor) -> torch.Tensor:
 def _skip_without_gpus(cp_size: int) -> None:
     if not torch.cuda.is_available() or torch.cuda.device_count() < cp_size:
         pytest.skip(f"Need {cp_size} CUDA devices for CP{cp_size} packed GDN.")
-
-
-def _find_free_port() -> int:
-    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
-        sock.bind(("127.0.0.1", 0))
-        return int(sock.getsockname()[1])
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_train_prepare.py b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_train_prepare.py
index e0d2e831f..6ef5a8890 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_train_prepare.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_train_prepare.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
 
 from pathlib import Path
-import socket
 from typing import Any, cast
 
 import pytest
@@ -24,6 +23,7 @@
 from art.preprocessing.pack import PackedTensors  # noqa: E402
 
 from .cases import default_phase0_cases  # noqa: E402
+from .distributed_init import file_init_method  # noqa: E402
 from .packed_layout import build_phase0_packed_tensors  # noqa: E402
 
 
@@ -31,10 +31,10 @@ def test_gdn_cp_training_batch_carries_prebuilt_rank_plan(tmp_path: Path) -> Non
     cp_size = 2
     if not torch.cuda.is_available() or torch.cuda.device_count() < cp_size:
         pytest.skip(f"requires {cp_size} CUDA devices")
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, "gdn_cp_train_prepare")
     mp.spawn(
         _worker,
-        args=(cp_size, port, str(tmp_path)),
+        args=(cp_size, init_method, str(tmp_path)),
         nprocs=cp_size,
         join=True,
     )
@@ -42,11 +42,11 @@ def test_gdn_cp_training_batch_carries_prebuilt_rank_plan(tmp_path: Path) -> Non
         assert (tmp_path / f"rank_{rank}.ok").read_text() == "ok\n"
 
 
-def _worker(rank: int, cp_size: int, port: int, output_dir: str) -> None:
+def _worker(rank: int, cp_size: int, init_method: str, output_dir: str) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -101,12 +101,6 @@ def _worker(rank: int, cp_size: int, port: int, output_dir: str) -> None:
         destroy_process_group()
 
 
-def _find_free_port() -> int:
-    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
-        sock.bind(("127.0.0.1", 0))
-        return int(sock.getsockname()[1])
-
-
 def test_main_loss_matches_shifted_dispatched_loss_inputs() -> None:
     packed = cast(
         Any,
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
index fe1159a65..6306ca4b8 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
@@ -2,7 +2,8 @@
 
 from collections.abc import Iterator
 from contextlib import ExitStack, contextmanager
-import socket
+from pathlib import Path
+import tempfile
 from typing import Any
 
 import pytest
@@ -31,6 +32,7 @@
     _apply_test_flex_inner_fp32_patch,
 )
 from .cases import default_phase0_cases
+from .distributed_init import file_init_method
 from .metrics import (
     GDN_CORRECTNESS_DTYPE,
     MEAN_ABS_PCT_THRESHOLD,
@@ -431,28 +433,23 @@ def _single_rank_model_parallel() -> Iterator[None]:
     if is_initialized():
         pytest.skip("torch.distributed is already initialized in this process.")
     torch.cuda.set_device(0)
-    init_process_group(
-        backend="nccl",
-        init_method=f"tcp://127.0.0.1:{_find_free_port()}",
-        rank=0,
-        world_size=1,
-    )
-    try:
-        ps.initialize_model_parallel(
-            tensor_model_parallel_size=1,
-            pipeline_model_parallel_size=1,
-            context_parallel_size=1,
-            expert_model_parallel_size=1,
+    with tempfile.TemporaryDirectory(prefix="art_dist_") as tmp:
+        init_process_group(
+            backend="nccl",
+            init_method=file_init_method(Path(tmp), "qwen35_full_model_cp1"),
+            rank=0,
+            world_size=1,
         )
-        yield
-    finally:
-        if getattr(ps, "model_parallel_is_initialized", lambda: False)():
-            ps.destroy_model_parallel()
-        if is_initialized():
-            destroy_process_group()
-
-
-def _find_free_port() -> int:
-    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
-        sock.bind(("127.0.0.1", 0))
-        return int(sock.getsockname()[1])
+        try:
+            ps.initialize_model_parallel(
+                tensor_model_parallel_size=1,
+                pipeline_model_parallel_size=1,
+                context_parallel_size=1,
+                expert_model_parallel_size=1,
+            )
+            yield
+        finally:
+            if getattr(ps, "model_parallel_is_initialized", lambda: False)():
+                ps.destroy_model_parallel()
+            if is_initialized():
+                destroy_process_group()
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_cp1_packed_vs_flattened.py b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_cp1_packed_vs_flattened.py
index de6933582..f026b90c9 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_cp1_packed_vs_flattened.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_cp1_packed_vs_flattened.py
@@ -2,7 +2,8 @@
 
 from collections.abc import Iterator
 from contextlib import contextmanager
-import socket
+from pathlib import Path
+import tempfile
 
 import pytest
 
@@ -18,13 +19,13 @@
 from megatron.core.ssm.gated_delta_net import GatedDeltaNet
 from megatron.core.tensor_parallel.random import model_parallel_cuda_manual_seed
 from torch.distributed import (
-    DistNetworkError,
     destroy_process_group,
     init_process_group,
     is_initialized,
 )
 
 from .cases import default_phase0_cases
+from .distributed_init import file_init_method
 from .metrics import (
     GDN_CORRECTNESS_DTYPE,
     MEAN_ABS_PCT_MISMATCH_THRESHOLD,
@@ -232,44 +233,23 @@ def _single_rank_model_parallel() -> Iterator[None]:
     if is_initialized():
         pytest.skip("torch.distributed is already initialized in this process.")
     torch.cuda.set_device(0)
-    _init_single_rank_process_group()
-    try:
-        ps.initialize_model_parallel(
-            tensor_model_parallel_size=1,
-            pipeline_model_parallel_size=1,
-            context_parallel_size=1,
-            expert_model_parallel_size=1,
+    with tempfile.TemporaryDirectory(prefix="art_dist_") as tmp:
+        init_process_group(
+            backend="nccl",
+            init_method=file_init_method(Path(tmp), "single_rank"),
+            rank=0,
+            world_size=1,
         )
-        yield
-    finally:
-        if getattr(ps, "model_parallel_is_initialized", lambda: False)():
-            ps.destroy_model_parallel()
-        if is_initialized():
-            destroy_process_group()
-
-
-def _init_single_rank_process_group() -> None:
-    last_error: DistNetworkError | None = None
-    for _ in range(16):
         try:
-            init_process_group(
-                backend="nccl",
-                init_method=f"tcp://127.0.0.1:{_find_free_port()}",
-                rank=0,
-                world_size=1,
+            ps.initialize_model_parallel(
+                tensor_model_parallel_size=1,
+                pipeline_model_parallel_size=1,
+                context_parallel_size=1,
+                expert_model_parallel_size=1,
             )
-            return
-        except DistNetworkError as error:
-            if "EADDRINUSE" not in str(error):
-                raise
-            last_error = error
+            yield
+        finally:
+            if getattr(ps, "model_parallel_is_initialized", lambda: False)():
+                ps.destroy_model_parallel()
             if is_initialized():
                 destroy_process_group()
-    if last_error is not None:
-        raise last_error
-
-
-def _find_free_port() -> int:
-    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
-        sock.bind(("127.0.0.1", 0))
-        return int(sock.getsockname()[1])
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
index 2148e3053..5882bbd3d 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
 
 from pathlib import Path
-import socket
 from typing import cast
 
 import pytest
@@ -37,6 +36,7 @@
 )
 
 from .cases import GdnFamilyShape, GdnPackedRowShape, GdnPhase0Case  # noqa: E402
+from .distributed_init import file_init_method  # noqa: E402
 from .metrics import (  # noqa: E402
     GDN_CORRECTNESS_DTYPE,
     MEAN_ABS_PCT_THRESHOLD,
@@ -70,10 +70,10 @@
 def test_real_qwen35_gdn_native_fla_cp_prepared_varlen_batch_matches_single_rank(
     cp_size: int, tmp_path: Path
 ) -> None:
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, f"native_gdn_prepared_cp{cp_size}")
     mp.spawn(
         _native_gdn_cp_prepared_varlen_worker,
-        args=(cp_size, port, str(tmp_path)),
+        args=(cp_size, init_method, str(tmp_path)),
         nprocs=cp_size,
         join=True,
     )
@@ -89,10 +89,10 @@ def test_real_qwen35_gdn_native_fla_cp_prepared_varlen_batch_matches_single_rank
 def test_real_qwen35_gdn_native_cp_packed_layer_matches_cp1(
     cp_size: int, tmp_path: Path
 ) -> None:
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, f"native_gdn_packed_cp{cp_size}")
     mp.spawn(
         _native_gdn_cp_packed_layer_worker,
-        args=(cp_size, port, str(tmp_path)),
+        args=(cp_size, init_method, str(tmp_path)),
         nprocs=cp_size,
         join=True,
     )
@@ -103,13 +103,13 @@ def test_real_qwen35_gdn_native_cp_packed_layer_matches_cp1(
 def _native_gdn_cp_packed_layer_worker(
     rank: int,
     cp_size: int,
-    port: int,
+    init_method: str,
     output_dir: str,
 ) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -207,13 +207,13 @@ def _native_gdn_cp_packed_layer_worker(
 def _native_gdn_cp_prepared_varlen_worker(
     rank: int,
     cp_size: int,
-    port: int,
+    init_method: str,
     output_dir: str,
 ) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=cp_size,
     )
@@ -591,9 +591,3 @@ def _all_reduce_parameter_grads(module: torch.nn.Module) -> None:
         main_grad = getattr(parameter, "main_grad", None)
         if main_grad is not None:
             torch.distributed.all_reduce(main_grad)
-
-
-def _find_free_port() -> int:
-    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
-        sock.bind(("127.0.0.1", 0))
-        return int(sock.getsockname()[1])
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_tp_lora.py b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_tp_lora.py
index c4bd99abc..62e217daf 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_tp_lora.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_tp_lora.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
 
 from pathlib import Path
-import socket
 
 import pytest
 
@@ -26,6 +25,7 @@
 from art.megatron.model_support.handlers import QWEN3_5_MOE_HANDLER  # noqa: E402
 
 from .cases import GdnPhase0Case, default_phase0_cases  # noqa: E402
+from .distributed_init import file_init_method  # noqa: E402
 from .metrics import GDN_CORRECTNESS_DTYPE, assert_real_gdn_metrics  # noqa: E402
 from .packed_layout import build_phase0_packed_tensors  # noqa: E402
 from .real_gdn_oracle import (  # noqa: E402
@@ -68,10 +68,10 @@ def test_real_qwen35_gdn_lora_gradients_match_flattened() -> None:
     reason="At least two CUDA devices are required for TP2 GDN coverage.",
 )
 def test_real_qwen35_gdn_tp2_gradients_match_flattened(tmp_path: Path) -> None:
-    port = _find_free_port()
+    init_method = file_init_method(tmp_path, "real_gdn_tp2_lora")
     mp.spawn(
         _tp2_worker,
-        args=(port, str(tmp_path)),
+        args=(init_method, str(tmp_path)),
         nprocs=2,
         join=True,
     )
@@ -79,11 +79,11 @@ def test_real_qwen35_gdn_tp2_gradients_match_flattened(tmp_path: Path) -> None:
         assert (tmp_path / f"rank_{rank}.ok").read_text() == "ok\n"
 
 
-def _tp2_worker(rank: int, port: int, output_dir: str) -> None:
+def _tp2_worker(rank: int, init_method: str, output_dir: str) -> None:
     torch.cuda.set_device(rank)
     init_process_group(
         backend="nccl",
-        init_method=f"tcp://127.0.0.1:{port}",
+        init_method=init_method,
         rank=rank,
         world_size=2,
     )
@@ -229,9 +229,3 @@ def _gdn_lora_grad_names(gdn: torch.nn.Module) -> tuple[str, ...]:
         and parameter.grad is not None
         and bool(parameter.grad.abs().max().item() > 0)
     )
-
-
-def _find_free_port() -> int:
-    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
-        sock.bind(("127.0.0.1", 0))
-        return int(sock.getsockname()[1])

From 4399cb91b4a3245b1bbef972de909a657ceea61b Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 18:27:14 -0600
Subject: [PATCH 068/114] chore: fix review perf harness

---
 dev/trainer_rank_review_perf.py | 60 +--------------------------------
 1 file changed, 1 insertion(+), 59 deletions(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index ca71a3d4b..583d1d891 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -13,8 +13,6 @@
 import typer
 
 from art.megatron.context_parallel.block_mask import (
-    _remap_group_values,
-    _select_with_invalid_np,
     build_block_mask_from_context,
     prepare_block_mask_context,
 )
@@ -58,7 +56,7 @@ def main(
     flex_token_cap: int = 8192,
     flex_heads: int = 2,
     flex_head_dim: int = 128,
-    flex_mask_variants: str = "current,ancestor_slots,causal_abs_only",
+    flex_mask_variants: str = "current,causal_abs_only",
     output_jsonl: Path = Path(".local/trainer_rank_review/block_mask_flex.jsonl"),
 ) -> None:
     if warmup < 0 or repeat < 1:
@@ -500,9 +498,6 @@ class _StageFlexCase:
     block_mask: BlockMask
     q_abs: np.ndarray
     k_abs: np.ndarray
-    q_group_index: np.ndarray
-    k_group_index: np.ndarray
-    group_can_attend: np.ndarray
 
 
 def _build_stage_flex_cases(
@@ -551,16 +546,6 @@ def _build_stage_flex_cases(
                 .reshape(-1)
                 .numpy()
             )
-            q_group = _select_with_invalid_np(
-                context.group_ids_np,
-                q_abs,
-                invalid_value=-1,
-            )
-            k_group = _select_with_invalid_np(
-                context.group_ids_np,
-                k_abs,
-                invalid_value=-1,
-            )
             cases.append(
                 _StageFlexCase(
                     rank=int(rank_plan.rank),
@@ -572,15 +557,6 @@ def _build_stage_flex_cases(
                     block_mask=mask,
                     q_abs=q_abs,
                     k_abs=k_abs,
-                    q_group_index=_remap_group_values(
-                        q_group,
-                        sorted_group_ids=context.sorted_group_ids,
-                    ),
-                    k_group_index=_remap_group_values(
-                        k_group,
-                        sorted_group_ids=context.sorted_group_ids,
-                    ),
-                    group_can_attend=context.group_can_attend,
                 )
             )
     return tuple(cases)
@@ -630,44 +606,10 @@ def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
             del batch_idx, head_idx
             return q_abs[query_idx] >= k_abs[kv_idx]
 
-        return _replace_block_mask_mod(case.block_mask, mask_mod)
-    if variant == "ancestor_slots":
-        q_group = torch.as_tensor(case.q_group_index, device=device, dtype=torch.int32)
-        k_group = torch.as_tensor(case.k_group_index, device=device, dtype=torch.int32)
-        ancestor_slots = torch.as_tensor(
-            _ancestor_slots(case.group_can_attend),
-            device=device,
-            dtype=torch.int32,
-        )
-        slot_columns = tuple(
-            ancestor_slots[:, index] for index in range(ancestor_slots.shape[1])
-        )
-
-        def mask_mod(batch_idx, head_idx, query_idx, kv_idx):
-            del batch_idx, head_idx
-            q_group_local = q_group[query_idx]
-            k_group_local = k_group[kv_idx]
-            allowed = torch.zeros_like(q_group_local, dtype=torch.bool)
-            for slot_values in slot_columns:
-                allowed = allowed | (k_group_local == slot_values[q_group_local])
-            return (q_abs[query_idx] >= k_abs[kv_idx]) & allowed
-
         return _replace_block_mask_mod(case.block_mask, mask_mod)
     raise ValueError(f"unknown flex_mask_variant {variant!r}")
 
 
-def _ancestor_slots(group_can_attend: np.ndarray) -> np.ndarray:
-    max_ancestors = max(
-        1,
-        max(int(np.count_nonzero(row)) for row in group_can_attend),
-    )
-    slots = np.full((group_can_attend.shape[0], max_ancestors), -1, dtype=np.int32)
-    for group_index, row in enumerate(group_can_attend):
-        ancestors = np.flatnonzero(row).astype(np.int32, copy=False)
-        slots[group_index, : int(ancestors.size)] = ancestors
-    return slots
-
-
 def _stage_flex_stats(cases: Sequence[_StageFlexCase]) -> dict[str, object]:
     return {
         "flex_stage_count": len(cases),

From 49f40cd6a0903b7bbb9fd99f67e6fa4f92e4f66c Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 18:48:06 -0600
Subject: [PATCH 069/114] refactor: inline trainer rank microbatch planner

---
 dev/trainer_rank_perf.py                     |   6 +-
 src/art/megatron/trainer_rank.py             | 263 ++++++++++++-------
 src/art/megatron/trainer_rank_planner.py     | 187 -------------
 tests/unit/test_trainer_rank_validation.py   |  31 ++-
 tests/unit/test_trainer_rank_weird_shapes.py |  82 +++---
 5 files changed, 250 insertions(+), 319 deletions(-)
 delete mode 100644 src/art/megatron/trainer_rank_planner.py

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index adc375801..c40ee005f 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2215,7 +2215,7 @@ def timed(
     original_memory_check = rank._memory_check
     original_memory_estimate = rank._estimate_required_memory_bytes_from_values
     original_available = rank._available_memory_bytes
-    original_profile_check = rank._all_ranks_have_memory_profile_values
+    original_profile_check = rank._all_ranks_have_memory_profile
 
     def plan_wrapper(requests: object) -> object:
         return timed("select_plan_ms", "select_plan_calls", original_plan, requests)
@@ -2325,7 +2325,7 @@ def profile_check_wrapper(*args: object, **kwargs: object) -> object:
     rank._memory_check = memory_check_wrapper  # type: ignore[method-assign]
     rank._estimate_required_memory_bytes_from_values = memory_estimate_wrapper  # type: ignore[method-assign]
     rank._available_memory_bytes = available_wrapper  # type: ignore[method-assign]
-    rank._all_ranks_have_memory_profile_values = profile_check_wrapper  # type: ignore[method-assign]
+    rank._all_ranks_have_memory_profile = profile_check_wrapper  # type: ignore[method-assign]
     try:
         yield stats
     finally:
@@ -2340,7 +2340,7 @@ def profile_check_wrapper(*args: object, **kwargs: object) -> object:
         rank._memory_check = original_memory_check  # type: ignore[method-assign]
         rank._estimate_required_memory_bytes_from_values = original_memory_estimate  # type: ignore[method-assign]
         rank._available_memory_bytes = original_available  # type: ignore[method-assign]
-        rank._all_ranks_have_memory_profile_values = original_profile_check  # type: ignore[method-assign]
+        rank._all_ranks_have_memory_profile = original_profile_check  # type: ignore[method-assign]
 
 
 def _timed_cuda(
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 4fd817e66..59cbe1311 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -9,7 +9,6 @@
     Sequence,
 )
 from dataclasses import dataclass
-from itertools import zip_longest
 import os
 from typing import TYPE_CHECKING, Generic, Literal, ParamSpec, TypeVar, cast, overload
 
@@ -21,11 +20,6 @@
     estimate_shared_prefix_packed_tokens,
     pack_shared_prefixes,
 )
-from art.megatron.trainer_rank_planner import (
-    _CandidateMicroBatch,
-    _MemoryCheck,
-    select_next_micro_batch,
-)
 
 if TYPE_CHECKING:
     from megatron.bridge.models.gpt_provider import GPTModelProvider
@@ -67,7 +61,6 @@ class TopK:
 R = TypeVar("R")
 
 _COMPILED_FUNCTIONS: dict[Callable[..., object], Callable[..., object]] = {}
-_ADAPTIVE_PLAN_CACHE_MAX_ENTRIES = 256
 
 
 class _Unset:
@@ -356,6 +349,24 @@ class MicroBatchStats:
     cold_start: bool
 
 
+@dataclass(frozen=True)
+class _MemoryCheck:
+    estimated_required_bytes: int
+    available_bytes: int
+    fits: bool
+
+
+@dataclass(frozen=True)
+class _CandidateMicroBatch(Generic[ForwardInputsT]):
+    inputs: Sequence[ForwardInputsT]
+    indices: tuple[int, ...]
+    plan: "_FlatForwardPlan"
+    check: _MemoryCheck
+    stats_global_count: int
+    rejected_candidates: int
+    cold_start: bool
+
+
 class TrainerRankMemoryError(RuntimeError):
     pass
 
@@ -440,19 +451,7 @@ class _FlatForwardPlan:
     signature: _MemorySignature
 
 
-@dataclass(frozen=True)
-class _FlatForwardEstimate:
-    packed_tokens: int
-    output_bytes: int
-    signature: _MemorySignature
-
-
-@dataclass(frozen=True)
-class _AdaptivePlanCacheKey:
-    local_indices: tuple[int, ...]
-    default_slot_ref: "LoRASlotRef | None"
-    slot_stack: tuple["LoRASlotRef", ...]
-    shared_prefix_max_depth: int
+type _AdaptivePlanCacheKey = tuple[tuple[int, ...], object, tuple[object, ...], int]
 
 
 class TrainerRank:
@@ -489,7 +488,7 @@ def __init__(
         self._adaptive_plan_cache: dict[_AdaptivePlanCacheKey, _FlatForwardPlan] = {}
         self._adaptive_plan_cache_top_level_ids: tuple[int, ...] = ()
         self._adaptive_estimate_cache: dict[
-            _AdaptivePlanCacheKey, _FlatForwardEstimate | None
+            _AdaptivePlanCacheKey, tuple[_MemoryCheck, bool] | None
         ] = {}
         self._last_global_micro_batch_size: int | None = None
         self.zero_grad()
@@ -642,15 +641,6 @@ def _validate_dynamic_slot_consistency(
         if not mismatched:
             return params
 
-        first_mismatch = None
-        for left, right in zip_longest(
-            cast(list[object], reference["signature"]),
-            cast(list[object], mismatched[0]["signature"]),
-            fillvalue=None,
-        ):
-            if left != right:
-                first_mismatch = {"expected": left, "actual": right}
-                break
         summary = [
             {
                 "rank": rank["rank"],
@@ -665,7 +655,7 @@ def _validate_dynamic_slot_consistency(
             "distributed ranks. This usually means a sharded/exported LoRA state "
             "dict was passed directly to TrainerRank; gather or materialize the "
             "full adapter state before loading a dynamic slot. "
-            f"Rank summary: {summary}. First mismatch: {first_mismatch}."
+            f"Rank summary: {summary}."
         )
 
     def _resolve_slot_ref(self, request: AnyForwardInput) -> "LoRASlotRef | None":
@@ -980,44 +970,131 @@ def _select_next_micro_batch(
         self,
         items: Sequence[ForwardInputsT],
         start: int,
-    ) -> _CandidateMicroBatch[ForwardInputsT, _FlatForwardPlan]:
+    ) -> _CandidateMicroBatch[ForwardInputsT]:
         dp_rank, dp_size = self._dp_rank_and_size()
-        return select_next_micro_batch(
-            items,
-            start,
-            dp_rank=dp_rank,
-            dp_size=dp_size,
-            previous_global_micro_batch_size=self._last_global_micro_batch_size,
-            plan_for_local_inputs=lambda indices, local_inputs: (
-                self._cached_adaptive_plan(items, indices, local_inputs)
-            ),
-            estimate_for_local_inputs=lambda indices, local_inputs: (
-                self._cached_adaptive_estimate(items, indices, local_inputs)
-            ),
-            memory_check=cast(
-                Callable[[_FlatForwardPlan], _MemoryCheck], self._memory_check
-            ),
-            memory_check_estimate=cast(
-                Callable[[_FlatForwardEstimate], _MemoryCheck],
-                self._memory_check,
-            ),
-            has_memory_profile=lambda plan: self._all_ranks_have_memory_profile_values(
-                packed_tokens=plan.packed_tokens,
-                signature=plan.signature,
-            ),
-            has_memory_profile_estimate=(
-                lambda estimate: self._all_ranks_have_memory_profile_values(
-                    packed_tokens=estimate.packed_tokens,
-                    signature=estimate.signature,
-                )
-            ),
-            raise_smallest_batch_error=lambda plan, check: self._raise_memory_error(
+        remaining = len(items) - start
+        min_width = min(dp_size, remaining)
+        if min_width <= 0:
+            raise RuntimeError("cannot select an empty microbatch window")
+
+        estimate_cache: dict[int, tuple[_MemoryCheck, bool] | None] = {}
+        rejected = 0
+
+        def clamp_width(width: int) -> int:
+            return max(min_width, min(width, remaining))
+
+        def local_slice(width: int) -> tuple[tuple[int, ...], list[ForwardInputsT]]:
+            stop = start + clamp_width(width)
+            indices = tuple(range(start + dp_rank, stop, dp_size))
+            return indices, [items[index] for index in indices]
+
+        def raise_smallest(plan: _FlatForwardPlan, check: _MemoryCheck) -> None:
+            self._raise_memory_error(
                 plan,
                 check,
                 context="forward_micro_batches",
                 message="smallest DP microbatch is predicted to exceed available memory",
-            ),
+            )
+
+        def candidate(
+            width: int,
+            estimated_check: _MemoryCheck | None = None,
+        ) -> _CandidateMicroBatch[ForwardInputsT]:
+            width = clamp_width(width)
+            indices, local_inputs = local_slice(width)
+            plan = self._cached_adaptive_plan(items, indices, local_inputs)
+            return _CandidateMicroBatch(
+                inputs=local_inputs,
+                indices=indices,
+                plan=plan,
+                check=estimated_check or self._memory_check(plan),
+                stats_global_count=width,
+                rejected_candidates=rejected,
+                cold_start=not self._all_ranks_have_memory_profile(
+                    packed_tokens=plan.packed_tokens,
+                    signature=plan.signature,
+                ),
+            )
+
+        def estimate_check(width: int) -> tuple[_MemoryCheck, bool] | None:
+            width = clamp_width(width)
+            if width not in estimate_cache:
+                indices, local_inputs = local_slice(width)
+                estimate_cache[width] = self._cached_adaptive_estimate(
+                    items,
+                    indices,
+                    local_inputs,
+                )
+            return estimate_cache[width]
+
+        first_estimated = estimate_check(min_width)
+        if first_estimated is not None and not first_estimated[0].fits:
+            first = candidate(min_width, first_estimated[0])
+            raise_smallest(first.plan, first.check)
+
+        if first_estimated is not None and first_estimated[1]:
+            best_width = min_width
+            best_check: _MemoryCheck | None = first_estimated[0]
+        else:
+            first = candidate(
+                min_width,
+                first_estimated[0] if first_estimated is not None else None,
+            )
+            if not first.check.fits:
+                raise_smallest(first.plan, first.check)
+            if first.cold_start:
+                return first
+            best_width = first.stats_global_count
+            best_check = None
+
+        def probe(
+            width: int,
+        ) -> tuple[bool, _MemoryCheck | None]:
+            estimated = estimate_check(width)
+            if estimated is not None:
+                return estimated[0].fits, estimated[0]
+            item = candidate(width)
+            return item.check.fits, None
+
+        def remember_fit(
+            width: int,
+            check: _MemoryCheck | None,
+        ) -> None:
+            nonlocal best_width, best_check
+            best_width = clamp_width(width)
+            best_check = check
+
+        high_fail: int | None = None
+        width = min(
+            remaining,
+            max(min_width, (self._last_global_micro_batch_size or min_width) * 2),
         )
+        while width <= remaining:
+            fits, check = probe(width)
+            if fits:
+                remember_fit(width, check)
+                if width == remaining:
+                    break
+                width = min(remaining, max(width + 1, width * 2))
+                continue
+            rejected += 1
+            high_fail = width
+            break
+
+        if high_fail is not None:
+            low = best_width + 1
+            high = high_fail - 1
+            while low <= high:
+                mid = (low + high) // 2
+                fits, check = probe(mid)
+                if fits:
+                    remember_fit(mid, check)
+                    low = mid + 1
+                else:
+                    rejected += 1
+                    high = mid - 1
+
+        return candidate(best_width, best_check)
 
     def _cached_adaptive_plan(
         self,
@@ -1030,8 +1107,6 @@ def _cached_adaptive_plan(
         if cached is not None:
             return cached
         plan = self._plan_flat_forward(list(_flatten(local_inputs)))
-        if len(self._adaptive_plan_cache) >= _ADAPTIVE_PLAN_CACHE_MAX_ENTRIES:
-            self._adaptive_plan_cache.pop(next(iter(self._adaptive_plan_cache)))
         self._adaptive_plan_cache[key] = plan
         return plan
 
@@ -1040,13 +1115,26 @@ def _cached_adaptive_estimate(
         items: Sequence[ForwardInputsT],
         indices: tuple[int, ...],
         local_inputs: Sequence[ForwardInputsT],
-    ) -> _FlatForwardEstimate | None:
+    ) -> tuple[_MemoryCheck, bool] | None:
         key = self._adaptive_cache_key(items, indices)
         if key in self._adaptive_estimate_cache:
             return self._adaptive_estimate_cache[key]
         estimate = self._estimate_flat_forward(list(_flatten(local_inputs)))
-        if len(self._adaptive_estimate_cache) >= _ADAPTIVE_PLAN_CACHE_MAX_ENTRIES:
-            self._adaptive_estimate_cache.pop(next(iter(self._adaptive_estimate_cache)))
+        if estimate is not None:
+            packed_tokens, output_bytes, signature = estimate
+            estimate = (
+                self._memory_check_required(
+                    self._estimate_required_memory_bytes_from_values(
+                        packed_tokens=packed_tokens,
+                        output_bytes=output_bytes,
+                        signature=signature,
+                    )
+                ),
+                self._all_ranks_have_memory_profile(
+                    packed_tokens=packed_tokens,
+                    signature=signature,
+                ),
+            )
         self._adaptive_estimate_cache[key] = estimate
         return estimate
 
@@ -1060,11 +1148,11 @@ def _adaptive_cache_key(
             self._adaptive_plan_cache.clear()
             self._adaptive_estimate_cache.clear()
             self._adaptive_plan_cache_top_level_ids = top_level_ids
-        return _AdaptivePlanCacheKey(
-            local_indices=indices,
-            default_slot_ref=self._default_slot_ref,
-            slot_stack=tuple(self._slot_stack),
-            shared_prefix_max_depth=self.shared_prefix_max_depth,
+        return (
+            indices,
+            self._default_slot_ref,
+            tuple(self._slot_stack),
+            self.shared_prefix_max_depth,
         )
 
     def _validate_replicated_top_level_count(self, count: int) -> None:
@@ -1128,7 +1216,7 @@ def _plan_flat_forward(
 
     def _estimate_flat_forward(
         self, requests: Sequence[AnyForwardInput]
-    ) -> _FlatForwardEstimate | None:
+    ) -> tuple[int, int, _MemorySignature] | None:
         groups = self._group_active_request_indices(requests)
         packed_tokens = 0
         output_bytes = 0
@@ -1144,10 +1232,10 @@ def _estimate_flat_forward(
                 [requests[index] for index in group_indices]
             )
 
-        return _FlatForwardEstimate(
-            packed_tokens=packed_tokens,
-            output_bytes=output_bytes,
-            signature=self._memory_signature_from_requests(
+        return (
+            packed_tokens,
+            output_bytes,
+            self._memory_signature_from_requests(
                 requests,
                 slot_group_count=len(groups),
             ),
@@ -1275,14 +1363,16 @@ def _topology_key(self) -> tuple[int, int, int, int]:
             return (1, 1, 1, 1)
 
     def _memory_check(
-        self, forward: _FlatForwardPlan | _FlatForwardEstimate
+        self,
+        forward: _FlatForwardPlan,
     ) -> _MemoryCheck:
-        required = self._estimate_required_memory_bytes_from_values(
-            packed_tokens=forward.packed_tokens,
-            output_bytes=forward.output_bytes,
-            signature=forward.signature,
+        return self._memory_check_required(
+            self._estimate_required_memory_bytes_from_values(
+                packed_tokens=forward.packed_tokens,
+                output_bytes=forward.output_bytes,
+                signature=forward.signature,
+            )
         )
-        return self._memory_check_required(required)
 
     def _memory_check_required(self, required: int) -> _MemoryCheck:
         available = self._available_memory_bytes()
@@ -1365,7 +1455,7 @@ def _available_memory_bytes(self) -> int:
         reserve = int(total * self.memory_reserve_fraction)
         return max(0, int(free) + reusable_reserved - reserve)
 
-    def _all_ranks_have_memory_profile_values(
+    def _all_ranks_have_memory_profile(
         self,
         *,
         packed_tokens: int,
@@ -2476,13 +2566,10 @@ def _triton_topk_strict() -> bool:
 
 
 def _triton_fused_topk_max() -> int:
-    # H200 measurements: fused top-k wins through k=10; above that the
-    # logsumexp-only Triton path plus torch.topk scales better.
     return int(os.environ.get("ART_TRAINER_RANK_TRITON_FUSED_TOPK_MAX", "10"))
 
 
 def _triton_min_rows() -> int:
-    # Below this, Triton launch overhead usually costs more than the memory saved.
     return int(os.environ.get("ART_TRAINER_RANK_TRITON_MIN_ROWS", "64"))
 
 
diff --git a/src/art/megatron/trainer_rank_planner.py b/src/art/megatron/trainer_rank_planner.py
deleted file mode 100644
index 3cba06993..000000000
--- a/src/art/megatron/trainer_rank_planner.py
+++ /dev/null
@@ -1,187 +0,0 @@
-from __future__ import annotations
-
-from collections.abc import Callable, Sequence
-from dataclasses import dataclass
-from typing import Generic, TypeVar
-
-InputT = TypeVar("InputT")
-PlanT = TypeVar("PlanT")
-EstimateT = TypeVar("EstimateT")
-
-
-@dataclass(frozen=True)
-class _MemoryCheck:
-    estimated_required_bytes: int
-    available_bytes: int
-    fits: bool
-
-
-@dataclass(frozen=True)
-class _CandidateMicroBatch(Generic[InputT, PlanT]):
-    inputs: Sequence[InputT]
-    indices: tuple[int, ...]
-    plan: PlanT
-    check: _MemoryCheck
-    stats_global_count: int
-    rejected_candidates: int
-    cold_start: bool
-
-
-def select_next_micro_batch(
-    items: Sequence[InputT],
-    start: int,
-    *,
-    dp_rank: int,
-    dp_size: int,
-    previous_global_micro_batch_size: int | None,
-    plan_for_local_inputs: Callable[[tuple[int, ...], Sequence[InputT]], PlanT],
-    estimate_for_local_inputs: Callable[
-        [tuple[int, ...], Sequence[InputT]], EstimateT | None
-    ],
-    memory_check: Callable[[PlanT], _MemoryCheck],
-    memory_check_estimate: Callable[[EstimateT], _MemoryCheck],
-    has_memory_profile: Callable[[PlanT], bool],
-    has_memory_profile_estimate: Callable[[EstimateT], bool],
-    raise_smallest_batch_error: Callable[[PlanT, _MemoryCheck], None],
-) -> _CandidateMicroBatch[InputT, PlanT]:
-    remaining = len(items) - start
-    min_width = min(dp_size, remaining)
-    if min_width <= 0:
-        raise RuntimeError("cannot select an empty microbatch window")
-
-    cache: dict[int, _CandidateMicroBatch[InputT, PlanT]] = {}
-    estimate_cache: dict[int, tuple[EstimateT, _MemoryCheck] | None] = {}
-    rejected = 0
-
-    def clamp_width(width: int) -> int:
-        return max(min_width, min(width, remaining))
-
-    def local_slice(width: int) -> tuple[tuple[int, ...], list[InputT]]:
-        stop = start + clamp_width(width)
-        indices = tuple(range(start + dp_rank, stop, dp_size))
-        return indices, [items[index] for index in indices]
-
-    def candidate(
-        width: int,
-        estimated_check: tuple[EstimateT, _MemoryCheck] | None = None,
-    ) -> _CandidateMicroBatch[InputT, PlanT]:
-        width = clamp_width(width)
-        cached = cache.get(width)
-        if cached is not None:
-            return cached
-        indices, local_inputs = local_slice(width)
-        plan = plan_for_local_inputs(indices, local_inputs)
-        check = (
-            estimated_check[1] if estimated_check is not None else memory_check(plan)
-        )
-        item = _CandidateMicroBatch(
-            inputs=local_inputs,
-            indices=indices,
-            plan=plan,
-            check=check,
-            stats_global_count=width,
-            rejected_candidates=rejected,
-            cold_start=not has_memory_profile(plan),
-        )
-        cache[width] = item
-        return item
-
-    def estimate_check(width: int) -> tuple[EstimateT, _MemoryCheck] | None:
-        width = clamp_width(width)
-        if width in estimate_cache:
-            return estimate_cache[width]
-        indices, local_inputs = local_slice(width)
-        estimate = estimate_for_local_inputs(indices, local_inputs)
-        if estimate is None:
-            estimate_cache[width] = None
-            return None
-        estimate_cache[width] = estimate, memory_check_estimate(estimate)
-        return estimate_cache[width]
-
-    def probe(
-        width: int,
-    ) -> tuple[
-        bool,
-        tuple[EstimateT, _MemoryCheck] | None,
-        _CandidateMicroBatch[InputT, PlanT] | None,
-    ]:
-        estimated = estimate_check(width)
-        if estimated is not None:
-            return estimated[1].fits, estimated, None
-        item = candidate(width)
-        return item.check.fits, None, item
-
-    first_estimated = estimate_check(min_width)
-    if first_estimated is not None and not first_estimated[1].fits:
-        first = candidate(min_width, first_estimated)
-        raise_smallest_batch_error(first.plan, first.check)
-
-    if first_estimated is not None and has_memory_profile_estimate(first_estimated[0]):
-        best_width = min_width
-        best_estimated: tuple[EstimateT, _MemoryCheck] | None = first_estimated
-        best_item: _CandidateMicroBatch[InputT, PlanT] | None = None
-    else:
-        first = candidate(min_width, first_estimated)
-        if not first.check.fits:
-            raise_smallest_batch_error(first.plan, first.check)
-        if first.cold_start:
-            return first
-        best_width = first.stats_global_count
-        best_estimated = None
-        best_item = first
-
-    def remember_fit(
-        width: int,
-        estimated: tuple[EstimateT, _MemoryCheck] | None,
-        item: _CandidateMicroBatch[InputT, PlanT] | None,
-    ) -> None:
-        nonlocal best_width, best_estimated, best_item
-        best_width = clamp_width(width)
-        best_estimated = estimated
-        best_item = item
-
-    high_fail: int | None = None
-    width = min(
-        remaining,
-        max(min_width, (previous_global_micro_batch_size or min_width) * 2),
-    )
-    while width <= remaining:
-        fits, estimated, item = probe(width)
-        if fits:
-            remember_fit(width, estimated, item)
-            if width == remaining:
-                break
-            width = min(remaining, max(width + 1, width * 2))
-            continue
-        rejected += 1
-        high_fail = width
-        break
-
-    def finalize_best() -> _CandidateMicroBatch[InputT, PlanT]:
-        selected = best_item or candidate(best_width, best_estimated)
-        return _CandidateMicroBatch(
-            inputs=selected.inputs,
-            indices=selected.indices,
-            plan=selected.plan,
-            check=selected.check,
-            stats_global_count=selected.stats_global_count,
-            rejected_candidates=rejected,
-            cold_start=selected.cold_start,
-        )
-
-    if high_fail is None:
-        return finalize_best()
-
-    low = best_width + 1
-    high = high_fail - 1
-    while low <= high:
-        mid = (low + high) // 2
-        fits, estimated, item = probe(mid)
-        if fits:
-            remember_fit(mid, estimated, item)
-            low = mid + 1
-        else:
-            rejected += 1
-            high = mid - 1
-
-    return finalize_best()
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 175417d77..8ce06a372 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -171,17 +171,23 @@ def test_forward_micro_batches_shrinks_to_largest_fitting_window(
     trainer._last_global_micro_batch_size = 4
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
     monkeypatch.setattr(
-        trainer, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
+        trainer, "_all_ranks_have_memory_profile", lambda **_kwargs: True
     )
 
-    def memory_check(plan):
+    def required_memory(**kwargs):
+        return kwargs["packed_tokens"]
+
+    def memory_check(required):
         return _MemoryCheck(
-            estimated_required_bytes=plan.packed_tokens,
+            estimated_required_bytes=required,
             available_bytes=6,
-            fits=plan.packed_tokens <= 6,
+            fits=required <= 6,
         )
 
-    monkeypatch.setattr(trainer, "_memory_check", memory_check)
+    monkeypatch.setattr(
+        trainer, "_estimate_required_memory_bytes_from_values", required_memory
+    )
+    monkeypatch.setattr(trainer, "_memory_check_required", memory_check)
     monkeypatch.setattr(
         trainer,
         "_run_flat_plan_with_memory_tracking",
@@ -204,7 +210,7 @@ def test_forward_micro_batches_reuses_cached_candidate_plans(
     trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
     monkeypatch.setattr(
-        trainer, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
+        trainer, "_all_ranks_have_memory_profile", lambda **_kwargs: True
     )
     monkeypatch.setattr(
         trainer,
@@ -243,7 +249,7 @@ def memory_check(plan):
     assert first_plan_calls > 0
     assert first_plan_calls == 1
     assert plan_calls == first_plan_calls
-    assert memory_checks > first_memory_checks
+    assert memory_checks == first_memory_checks == 0
 
 
 def test_forward_micro_batches_raises_when_smallest_batch_will_not_fit(
@@ -253,9 +259,14 @@ def test_forward_micro_batches_raises_when_smallest_batch_will_not_fit(
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
     monkeypatch.setattr(
         trainer,
-        "_memory_check",
-        lambda plan: _MemoryCheck(
-            estimated_required_bytes=4,
+        "_estimate_required_memory_bytes_from_values",
+        lambda **_kwargs: 4,
+    )
+    monkeypatch.setattr(
+        trainer,
+        "_memory_check_required",
+        lambda required: _MemoryCheck(
+            estimated_required_bytes=required,
             available_bytes=3,
             fits=False,
         ),
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index fa26c98ce..4843a8f51 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -169,9 +169,10 @@ def test_planner_handles_vineppo_nested_shape_and_request_mix() -> None:
     estimate = rank._estimate_flat_forward(flat)
 
     assert estimate is not None
-    assert estimate.packed_tokens == plan.packed_tokens
-    assert estimate.output_bytes == plan.output_bytes
-    assert estimate.signature == plan.signature
+    packed_tokens, output_bytes, signature = estimate
+    assert packed_tokens == plan.packed_tokens
+    assert output_bytes == plan.output_bytes
+    assert signature == plan.signature
     assert plan.request_count == 12
     assert plan.signature.request_mix == (
         "target:(2,)",
@@ -185,9 +186,7 @@ def test_forward_micro_batches_preserves_nested_vineppo_groups(
 ) -> None:
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=2)  # type: ignore[arg-type]
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(
-        rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
-    )
+    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda **_kwargs: True)
     monkeypatch.setattr(
         rank,
         "_memory_check",
@@ -219,9 +218,7 @@ def test_adaptive_planner_materializes_only_final_large_candidate(
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=3)  # type: ignore[arg-type]
     rank._last_global_micro_batch_size = 32
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(
-        rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
-    )
+    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda **_kwargs: True)
     plan_calls = 0
     estimate_calls = 0
     original_plan = rank._plan_flat_forward
@@ -237,6 +234,7 @@ def test_adaptive_planner_materializes_only_final_large_candidate(
     ]
     limit = rank._estimate_flat_forward(inputs[:40])
     assert limit is not None
+    limit_packed_tokens = limit[0]
 
     def plan(requests):
         nonlocal plan_calls
@@ -248,16 +246,22 @@ def estimate(requests):
         estimate_calls += 1
         return original_estimate(requests)
 
-    def check(candidate):
+    def required_memory(**kwargs):
+        return kwargs["packed_tokens"]
+
+    def check(required):
         return _MemoryCheck(
-            estimated_required_bytes=candidate.packed_tokens,
-            available_bytes=limit.packed_tokens,
-            fits=candidate.packed_tokens <= limit.packed_tokens,
+            estimated_required_bytes=required,
+            available_bytes=limit_packed_tokens,
+            fits=required <= limit_packed_tokens,
         )
 
     monkeypatch.setattr(rank, "_plan_flat_forward", plan)
     monkeypatch.setattr(rank, "_estimate_flat_forward", estimate)
-    monkeypatch.setattr(rank, "_memory_check", check)
+    monkeypatch.setattr(
+        rank, "_estimate_required_memory_bytes_from_values", required_memory
+    )
+    monkeypatch.setattr(rank, "_memory_check_required", check)
 
     candidate = rank._select_next_micro_batch(inputs, 0)
 
@@ -272,15 +276,15 @@ def test_forward_micro_batches_shrinks_when_memory_budget_drops(
 ) -> None:
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=2)  # type: ignore[arg-type]
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(
-        rank, "_all_ranks_have_memory_profile_values", lambda **_kwargs: True
-    )
+    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda **_kwargs: True)
     inputs = [_target_request(_tokens(1, 2, 3, index)) for index in range(14)]
     first_limit = rank._estimate_flat_forward(inputs[:8])
     tail_limit = rank._estimate_flat_forward(inputs[8:11])
     assert first_limit is not None
     assert tail_limit is not None
-    available = {"packed_tokens": first_limit.packed_tokens}
+    first_limit_packed_tokens = first_limit[0]
+    tail_limit_packed_tokens = tail_limit[0]
+    available = {"packed_tokens": first_limit_packed_tokens}
     plan_calls = 0
     original_plan = rank._plan_flat_forward
 
@@ -289,32 +293,38 @@ def plan(requests):
         plan_calls += 1
         return original_plan(requests)
 
-    def check(candidate):
+    def required_memory(**kwargs):
+        return kwargs["packed_tokens"]
+
+    def check(required):
         limit = available["packed_tokens"]
         return _MemoryCheck(
-            estimated_required_bytes=candidate.packed_tokens,
+            estimated_required_bytes=required,
             available_bytes=limit,
-            fits=candidate.packed_tokens <= limit,
+            fits=required <= limit,
         )
 
     def run(plan, **_kwargs):
-        if available["packed_tokens"] == first_limit.packed_tokens:
-            available["packed_tokens"] = tail_limit.packed_tokens
+        if available["packed_tokens"] == first_limit_packed_tokens:
+            available["packed_tokens"] = tail_limit_packed_tokens
         return [
             ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
         ]
 
     monkeypatch.setattr(rank, "_plan_flat_forward", plan)
-    monkeypatch.setattr(rank, "_memory_check", check)
+    monkeypatch.setattr(
+        rank, "_estimate_required_memory_bytes_from_values", required_memory
+    )
+    monkeypatch.setattr(rank, "_memory_check_required", check)
     monkeypatch.setattr(rank, "_run_flat_plan_with_memory_tracking", run)
 
     batches = list(rank.forward_micro_batches(inputs))
 
     assert [batch.stats.global_count for batch in batches] == [8, 3, 3]
     assert [batch.stats.available_bytes for batch in batches] == [
-        first_limit.packed_tokens,
-        tail_limit.packed_tokens,
-        tail_limit.packed_tokens,
+        first_limit_packed_tokens,
+        tail_limit_packed_tokens,
+        tail_limit_packed_tokens,
     ]
     assert [batch.indices for batch in batches] == [
         tuple(range(8)),
@@ -345,9 +355,10 @@ def test_heterogeneous_slots_split_packing_without_losing_output_estimates(
     estimate = rank._estimate_flat_forward(requests)
 
     assert estimate is not None
-    assert estimate.packed_tokens == plan.packed_tokens
-    assert estimate.output_bytes == plan.output_bytes
-    assert estimate.signature == plan.signature
+    packed_tokens, output_bytes, signature = estimate
+    assert packed_tokens == plan.packed_tokens
+    assert output_bytes == plan.output_bytes
+    assert signature == plan.signature
     assert plan.signature.slot_group_count == 4
     assert {group.slot_ref for group in plan.groups} == {
         ("checkpoint", "student"),
@@ -405,7 +416,16 @@ def test_memory_error_includes_actionable_shape_context(
 ) -> None:
     rank = TrainerRank(_runtime())  # type: ignore[arg-type]
     monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
-    monkeypatch.setattr(rank, "_memory_check", lambda plan: _MemoryCheck(99, 1, False))
+    monkeypatch.setattr(
+        rank,
+        "_estimate_required_memory_bytes_from_values",
+        lambda **_kwargs: 99,
+    )
+    monkeypatch.setattr(
+        rank,
+        "_memory_check_required",
+        lambda required: _MemoryCheck(required, 1, False),
+    )
 
     with pytest.raises(TrainerRankMemoryError) as exc_info:
         next(

From 97ee6aab61e4dd65716a97490b792277ccc11e44 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 19:07:25 -0600
Subject: [PATCH 070/114] perf: prune shared-prefix block-mask refinement

---
 .../megatron/context_parallel/block_mask.py   | 187 +++++++++++++++---
 1 file changed, 160 insertions(+), 27 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 219efc40f..6632f8141 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -178,26 +178,32 @@ def _build_k_block_state(
     valid_abs = abs_block[valid]
     valid_enter = enter_block[valid]
     valid_exit = exit_block[valid]
-    min_abs_by_interval: dict[tuple[int, int], int] = {}
-    for abs_value, enter_value, exit_value in zip(
-        valid_abs,
-        valid_enter,
-        valid_exit,
-        strict=True,
+    if bool(
+        (valid_enter == valid_enter[0]).all() and (valid_exit == valid_exit[0]).all()
     ):
-        interval = (int(enter_value), int(exit_value))
-        prior = min_abs_by_interval.get(interval)
-        min_abs_by_interval[interval] = (
-            int(abs_value) if prior is None else min(prior, int(abs_value))
+        intervals = ((int(valid_enter[0]), int(valid_exit[0]), int(valid_abs.min())),)
+    else:
+        min_abs_by_interval: dict[tuple[int, int], int] = {}
+        for abs_value, enter_value, exit_value in zip(
+            valid_abs,
+            valid_enter,
+            valid_exit,
+            strict=True,
+        ):
+            interval = (int(enter_value), int(exit_value))
+            prior = min_abs_by_interval.get(interval)
+            min_abs_by_interval[interval] = (
+                int(abs_value) if prior is None else min(prior, int(abs_value))
+            )
+        intervals = tuple(
+            (enter, exit, min_abs)
+            for (enter, exit), min_abs in min_abs_by_interval.items()
         )
     return _KBlockState(
         max_abs=int(valid_abs.max()),
         max_enter=int(valid_enter.max()),
         min_exit=int(valid_exit.min()),
-        intervals=tuple(
-            (enter, exit, min_abs)
-            for (enter, exit), min_abs in min_abs_by_interval.items()
-        ),
+        intervals=intervals,
         all_valid=all_valid,
     )
 
@@ -250,10 +256,117 @@ def _refine_interval_blocks(
     q_block: int,
     k_block: int,
 ) -> None:
-    candidate_blocks = partial_blocks | full_blocks
+    if not bool((partial_blocks | full_blocks).any()):
+        return
+
+    q_abs_blocks = _block_matrix(
+        q_abs,
+        block_size=q_block,
+        block_count=int(partial_blocks.shape[0]),
+        fill_value=_INVALID_ABS,
+    )
+    q_enter_blocks = _block_matrix(
+        q_enter,
+        block_size=q_block,
+        block_count=int(partial_blocks.shape[0]),
+        fill_value=_INVALID_ENTER,
+    )
+    k_abs_blocks = _block_matrix(
+        k_abs,
+        block_size=k_block,
+        block_count=int(partial_blocks.shape[1]),
+        fill_value=_INVALID_ABS,
+    )
+    k_enter_blocks = _block_matrix(
+        k_enter,
+        block_size=k_block,
+        block_count=int(partial_blocks.shape[1]),
+        fill_value=_INVALID_ENTER,
+    )
+    k_exit_blocks = _block_matrix(
+        k_exit,
+        block_size=k_block,
+        block_count=int(partial_blocks.shape[1]),
+        fill_value=_INVALID_EXIT,
+    )
+
+    q_valid = (q_abs_blocks >= 0) & (q_enter_blocks >= 0)
+    k_valid = (
+        (k_abs_blocks >= 0) & (k_enter_blocks >= 0) & (k_exit_blocks > k_enter_blocks)
+    )
+    q_all_valid = q_valid.all(axis=1)
+    k_all_valid = k_valid.all(axis=1)
+    q_min_abs = np.where(q_valid, q_abs_blocks, np.iinfo(np.int64).max).min(axis=1)
+    q_min_enter = np.where(
+        q_valid,
+        q_enter_blocks,
+        np.iinfo(np.int64).max,
+    ).min(axis=1)
+    q_max_enter = np.where(q_valid, q_enter_blocks, _INVALID_ENTER).max(axis=1)
+    k_max_abs = np.where(k_valid, k_abs_blocks, _INVALID_ABS).max(axis=1)
+    k_max_enter = np.where(k_valid, k_enter_blocks, _INVALID_ENTER).max(axis=1)
+    k_min_exit = np.where(k_valid, k_exit_blocks, np.iinfo(np.int64).max).min(axis=1)
+    safe_full = (
+        q_all_valid[:, None]
+        & k_all_valid[None, :]
+        & (q_min_abs[:, None] >= k_max_abs[None, :])
+        & (k_max_enter[None, :] <= q_min_enter[:, None])
+        & (q_max_enter[:, None] < k_min_exit[None, :])
+    )
+    candidate_blocks = partial_blocks | (full_blocks & ~safe_full)
+    q_indices, k_indices = np.nonzero(candidate_blocks)
+    if int(q_indices.size) == 0:
+        return
+
+    rows = np.arange(int(k_valid.shape[0]))
+    first_valid_offsets = k_valid.argmax(axis=1)
+    first_enter = k_enter_blocks[rows, first_valid_offsets]
+    first_exit = k_exit_blocks[rows, first_valid_offsets]
+    k_single_interval = k_valid.any(axis=1) & (
+        (~k_valid)
+        | (
+            (k_enter_blocks == first_enter[:, None])
+            & (k_exit_blocks == first_exit[:, None])
+        )
+    ).all(axis=1)
+
+    single_pair = k_single_interval[k_indices]
+    if bool(single_pair.any()):
+        single_q = q_indices[single_pair]
+        single_k = k_indices[single_pair]
+        q_abs_selected = q_abs_blocks[single_q]
+        q_enter_selected = q_enter_blocks[single_q]
+        in_subtree = (
+            q_valid[single_q]
+            & (q_enter_selected >= first_enter[single_k, None])
+            & (q_enter_selected < first_exit[single_k, None])
+        )
+        max_abs_in_subtree = np.where(
+            in_subtree,
+            q_abs_selected,
+            _INVALID_ABS,
+        ).max(axis=1)
+        k_min_abs = np.where(k_valid, k_abs_blocks, np.iinfo(np.int64).max).min(axis=1)
+        has_any = max_abs_in_subtree >= k_min_abs[single_k]
+
+        is_full = (
+            has_any
+            & q_all_valid[single_q]
+            & k_all_valid[single_k]
+            & (q_min_abs[single_q] >= k_max_abs[single_k])
+            & (first_enter[single_k] <= q_min_enter[single_q])
+            & (q_max_enter[single_q] < first_exit[single_k])
+        )
+        partial_blocks[single_q, single_k] = has_any & ~is_full
+        full_blocks[single_q, single_k] = is_full
+
     q_state_cache: dict[int, _QBlockState] = {}
     k_state_cache: dict[int, _KBlockState] = {}
-    for q_idx, k_idx in np.argwhere(candidate_blocks):
+    for q_idx, k_idx in zip(
+        q_indices[~single_pair],
+        k_indices[~single_pair],
+        strict=True,
+    ):
         q_state = q_state_cache.get(int(q_idx))
         if q_state is None:
             q_state = _build_q_block_state(
@@ -296,6 +409,18 @@ def _block_min_max(
     return mins, maxes
 
 
+def _block_matrix(
+    values: np.ndarray,
+    *,
+    block_size: int,
+    block_count: int,
+    fill_value: int,
+) -> np.ndarray:
+    padded = np.full(block_count * block_size, fill_value, dtype=np.int64)
+    padded[: int(values.size)] = values
+    return padded.reshape(block_count, block_size)
+
+
 def _build_group_interval_arrays(
     *,
     row_tree,
@@ -348,6 +473,7 @@ def _build_sparse_block_mask(
     k_blocks = (int(spec.k_len) + k_block - 1) // k_block
     partial_blocks = np.zeros((q_blocks, k_blocks), dtype=bool)
     full_blocks = np.zeros((q_blocks, k_blocks), dtype=bool)
+    touch_counts = np.zeros((q_blocks, k_blocks), dtype=np.int16)
     q_abs_tensor = spec.exact_mask.q_token_indices.detach().to(
         device="cpu",
         dtype=torch.int64,
@@ -455,21 +581,28 @@ def _build_sparse_block_mask(
 
         q_slice = slice(int(q_block_indices[0]), int(q_block_indices[-1]) + 1)
         k_slice = slice(int(k_block_indices[0]), int(k_block_indices[-1]) + 1)
+        touch_counts[q_slice, k_slice] += has_any.astype(np.int16)
         partial_blocks[q_slice, k_slice] |= has_any
         full_blocks[q_slice, k_slice] |= is_full
 
     partial_blocks &= ~full_blocks
-    _refine_interval_blocks(
-        partial_blocks=partial_blocks,
-        full_blocks=full_blocks,
-        q_abs=q_abs,
-        k_abs=k_abs,
-        q_enter=q_enter,
-        k_enter=k_enter,
-        k_exit=k_exit,
-        q_block=q_block,
-        k_block=k_block,
-    )
+    needs_refine = full_blocks | ((touch_counts > 1) & partial_blocks)
+    if bool(needs_refine.any()):
+        refined_partial = partial_blocks & needs_refine
+        refined_full = full_blocks & needs_refine
+        _refine_interval_blocks(
+            partial_blocks=refined_partial,
+            full_blocks=refined_full,
+            q_abs=q_abs,
+            k_abs=k_abs,
+            q_enter=q_enter,
+            k_enter=k_enter,
+            k_exit=k_exit,
+            q_block=q_block,
+            k_block=k_block,
+        )
+        partial_blocks = (partial_blocks & ~needs_refine) | refined_partial
+        full_blocks = (full_blocks & ~needs_refine) | refined_full
     kv_num_blocks, kv_indices = _dense_blocks_to_ordered(
         partial_blocks,
         device=device,

From 33f7dffb923de6e901391e5fe28eb64d89ac9967 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 19:23:49 -0600
Subject: [PATCH 071/114] refactor: simplify trainer rank planning records

---
 src/art/megatron/context_parallel/executor.py |   2 +-
 src/art/megatron/context_parallel/runtime.py  |  33 ++-
 src/art/megatron/context_parallel/types.py    |  95 ++++----
 src/art/megatron/gdn/gdn_shared_prefix.py     | 172 ++++++---------
 src/art/megatron/gdn/layout.py                |  53 ++---
 src/art/megatron/shared_prefix_state.py       |   5 +-
 src/art/megatron/trainer_rank.py              | 202 ------------------
 .../gdn_shared_prefix/layout_reference.py     |   2 +-
 8 files changed, 162 insertions(+), 402 deletions(-)

diff --git a/src/art/megatron/context_parallel/executor.py b/src/art/megatron/context_parallel/executor.py
index 24915921c..5beaec9f4 100644
--- a/src/art/megatron/context_parallel/executor.py
+++ b/src/art/megatron/context_parallel/executor.py
@@ -697,7 +697,7 @@ def _build_stage_block_mask(
             k_len=int(execution_spec.k_len),
             block_size=resolved_block_size,
             slices=stage_plan.slices,
-            exact_mask=mask_metadata.model_dump(mode="python"),
+            exact_mask=mask_metadata,
         ),
         context=block_mask_context,
         device=device,
diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index d1ef9353d..79d45422c 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -1,6 +1,7 @@
 from __future__ import annotations
 
 from bisect import bisect_left, bisect_right
+from dataclasses import replace
 import hashlib
 import json
 from typing import Any, cast
@@ -105,8 +106,8 @@ def _planning_bundle_cache_key(
         {
             "group_ids": _metadata_tensor_digest(group_ids),
             "parent_ids": _metadata_tensor_digest(parent_ids),
-            "topology": topology.model_dump(mode="json"),
-            "config": config.model_dump(mode="json"),
+            "topology": _dataclass_payload(topology),
+            "config": _dataclass_payload(config),
             "original_seq_len": int(original_seq_len),
             "build_gdn_execution_spec": bool(build_gdn_execution_spec),
         }
@@ -194,7 +195,7 @@ def _search_config_for_chunk_count(
         return config
     if all(int(getattr(config, key)) == int(value) for key, value in updates.items()):
         return config
-    return config.model_copy(update=updates)
+    return replace(config, **updates)
 
 
 def _best_improving_move(
@@ -1992,7 +1993,7 @@ def get_or_build_runtime_plan(
     original_seq_len: int,
 ) -> ContextParallelRuntimePlan:
     key = (
-        _json_cache_key(runtime_key.model_dump(mode="json")),
+        _json_cache_key(_runtime_key_payload(runtime_key)),
         int(original_seq_len),
     )
     cached = _RUNTIME_PLAN_CACHE.get(key)
@@ -2168,11 +2169,33 @@ def _build_runtime_token_layout_index(
 def _row_signature(row_spec: PackedRowAttentionSpec) -> str:
     payload = {
         "valid_tokens": row_spec.valid_tokens,
-        "slices": [slice_.model_dump(mode="json") for slice_ in row_spec.slices],
+        "slices": [_attn_slice_payload(slice_) for slice_ in row_spec.slices],
     }
     return json.dumps(payload, sort_keys=True)
 
 
+def _dataclass_payload(value: Any) -> dict[str, Any]:
+    return dict(value.__dict__)
+
+
+def _runtime_key_payload(runtime_key: ContextParallelRuntimeKey) -> dict[str, Any]:
+    return {
+        "topology": _dataclass_payload(runtime_key.topology),
+        "config": _dataclass_payload(runtime_key.config),
+        "row_signatures": runtime_key.row_signatures,
+    }
+
+
+def _attn_slice_payload(slice_: AttnSlice) -> dict[str, Any]:
+    return {
+        "q_range": _dataclass_payload(slice_.q_range),
+        "k_range": _dataclass_payload(slice_.k_range),
+        "mask_kind": slice_.mask_kind.value,
+        "row_index": slice_.row_index,
+        "family_index": slice_.family_index,
+    }
+
+
 def _range_key(range_: TokenRange) -> tuple[int, int]:
     return (int(range_.start), int(range_.end))
 
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index 5974a38d3..a5f21fd0b 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+from dataclasses import dataclass
 from enum import Enum
 from typing import Any
 
@@ -16,9 +17,8 @@ class AttnMaskKind(str, Enum):
     CAUSAL = "causal"
 
 
-class TokenRange(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class TokenRange:
     start: int
     end: int
 
@@ -29,9 +29,8 @@ def is_empty(self) -> bool:
         return self.end <= self.start
 
 
-class AttnSlice(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class AttnSlice:
     q_range: TokenRange
     k_range: TokenRange
     mask_kind: AttnMaskKind
@@ -39,30 +38,26 @@ class AttnSlice(BaseModel):
     family_index: int | None = None
 
 
-class PackedRowAttentionSpec(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class PackedRowAttentionSpec:
     row_index: int
     valid_tokens: int
     slices: tuple[AttnSlice, ...]
 
 
-class PackedBatchAttentionSpec(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class PackedBatchAttentionSpec:
     rows: tuple[PackedRowAttentionSpec, ...]
 
 
-class SharedPrefixBuilderConfig(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class SharedPrefixBuilderConfig:
     ignore_padding_group_id: int = -1
     require_contiguous_group_runs: bool = True
 
 
-class ContextParallelConfig(BaseModel):
-    model_config = ConfigDict(frozen=True, extra="forbid")
-
+@dataclass(frozen=True)
+class ContextParallelConfig:
     block_size: int = 128
     attention_sparse_block_size: tuple[int, int] | None = None
     planner_chunk_size: int = 512
@@ -87,9 +82,8 @@ class ContextParallelConfig(BaseModel):
     planner_remote_stage_underfill_ms: float = 0.287151
 
 
-class ParallelTopology(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class ParallelTopology:
     tp: int = 1
     cp: int = 1
     dp: int = 1
@@ -97,54 +91,49 @@ class ParallelTopology(BaseModel):
     sp: bool = False
 
 
-class ContextParallelRuntimeKey(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class ContextParallelRuntimeKey:
     topology: ParallelTopology
     config: ContextParallelConfig
     row_signatures: tuple[str, ...]
 
 
-class KvFetchPlan(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class KvFetchPlan:
     send_splits: tuple[int, ...]
     recv_splits: tuple[int, ...]
     send_ranges_by_peer: tuple[tuple[TokenRange, ...], ...]
 
 
-class DkvReducePlan(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class DkvReducePlan:
     send_splits: tuple[int, ...]
     recv_splits: tuple[int, ...]
     recv_ranges_by_peer: tuple[tuple[TokenRange, ...], ...]
 
 
-class StagePlan(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class StagePlan:
     stage_index: int
     source_rank: int
-    source_ranks: tuple[int, ...] = ()
     is_local_stage: bool
-    wave_index: int | None = None
     slices: tuple[AttnSlice, ...]
-    global_q_ranges: tuple[TokenRange, ...] = ()
-    global_k_ranges: tuple[TokenRange, ...] = ()
     owner_local_q_ranges: tuple[TokenRange, ...]
     owner_local_k_ranges: tuple[TokenRange, ...]
-    mask_metadata: "ExactMaskMetadata | None" = None
-    remote_buffer_range: TokenRange | None = None
     q_len: int
     k_len: int
+    source_ranks: tuple[int, ...] = ()
+    wave_index: int | None = None
+    global_q_ranges: tuple[TokenRange, ...] = ()
+    global_k_ranges: tuple[TokenRange, ...] = ()
+    mask_metadata: "ExactMaskMetadata | None" = None
+    remote_buffer_range: TokenRange | None = None
     kv_fetch_plan: KvFetchPlan | None = None
     dkv_reduce_plan: DkvReducePlan | None = None
 
 
-class RankRuntimePlan(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class RankRuntimePlan:
     rank: int
     original_seq_len: int
     token_layout_index: TokenLayoutIndex
@@ -152,14 +141,13 @@ class RankRuntimePlan(BaseModel):
     local_row_ranges: tuple[TokenRange | None, ...]
     local_token_count: int
     stage_plans: tuple[StagePlan, ...]
-    backward_stage_indices: tuple[int, ...] = ()
     remote_kv_fetch_plan: KvFetchPlan
     remote_dkv_reduce_plan: DkvReducePlan
+    backward_stage_indices: tuple[int, ...] = ()
 
 
-class ContextParallelRuntimePlan(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class ContextParallelRuntimePlan:
     topology: ParallelTopology
     config: ContextParallelConfig
     token_layout_index: TokenLayoutIndex
@@ -196,9 +184,8 @@ class ContextParallelExecutionCache(BaseModel):
     stage_execution_specs: dict[Any, "StageExecutionSpec"] = Field(default_factory=dict)
 
 
-class StageExecutionSpec(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class StageExecutionSpec:
     q_len: int
     k_len: int
     compile_key: str
@@ -241,9 +228,8 @@ class PreparedMegatronBatch(BaseModel):
     pad_multiple: int = 1
 
 
-class FlexMaskSpec(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class FlexMaskSpec:
     q_len: int
     k_len: int
     block_size: int | tuple[int, int]
@@ -251,9 +237,8 @@ class FlexMaskSpec(BaseModel):
     exact_mask: "ExactMaskMetadata"
 
 
-class ExactMaskMetadata(BaseModel):
-    model_config = ConfigDict(frozen=True, arbitrary_types_allowed=True)
-
+@dataclass(frozen=True)
+class ExactMaskMetadata:
     q_token_indices: torch.Tensor
     k_token_indices: torch.Tensor
     cache_key: str
diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index ef8c36613..2e3f5087f 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -1,9 +1,9 @@
 from __future__ import annotations
 
 from bisect import bisect_left
-from typing import Any, Literal, TypeVar
+from dataclasses import dataclass, replace
+from typing import Any, Literal
 
-from pydantic import BaseModel, ConfigDict, Field
 import torch
 
 from art.megatron.context_parallel.layout_index import TokenLayoutIndex
@@ -12,22 +12,20 @@
 GdnSegmentKind = Literal["prefix", "completion"]
 # FLA's public chunk_gated_delta_rule hard-codes 64-token WY chunks.
 FLA_CHUNK_SIZE = 64
-_PydanticModelT = TypeVar("_PydanticModelT", bound=BaseModel)
 
 
-class GdnSegmentSpec(BaseModel):
+@dataclass(frozen=True)
+class GdnSegmentSpec:
     """Contiguous logical GDN segment in one packed row."""
 
-    model_config = ConfigDict(frozen=True)
-
-    row_index: int = Field(ge=0)
-    family_index: int = Field(ge=0)
+    row_index: int
+    family_index: int
     group_id: int
     parent_id: int
-    start: int = Field(ge=0)
-    end: int = Field(ge=1)
+    start: int
+    end: int
     kind: GdnSegmentKind
-    child_index: int | None = Field(default=None, ge=0)
+    child_index: int | None = None
 
     @property
     def length(self) -> int:
@@ -38,13 +36,12 @@ def linear_indices(self, sequence_length: int) -> tuple[int, ...]:
         return tuple(range(base + self.start, base + self.end))
 
 
-class GdnPackedExecutionSpec(BaseModel):
+@dataclass(frozen=True)
+class GdnPackedExecutionSpec:
     """Parsed shared-prefix GDN execution metadata for a packed batch."""
 
-    model_config = ConfigDict(frozen=True)
-
-    batch_size: int = Field(ge=1)
-    sequence_length: int = Field(ge=1)
+    batch_size: int
+    sequence_length: int
     valid_lengths: tuple[int, ...]
     tree_segments: tuple[GdnSegmentSpec, ...]
     tree_parent_indices: tuple[int, ...]
@@ -70,53 +67,25 @@ def segments(self) -> tuple[GdnSegmentSpec, ...]:
         return self.tree_segments
 
 
-_GDN_SEGMENT_SPEC_FIELDS = frozenset(
-    {
-        "row_index",
-        "family_index",
-        "group_id",
-        "parent_id",
-        "start",
-        "end",
-        "kind",
-        "child_index",
-    }
-)
-
-
-def _trusted_pydantic_construct(
-    model_type: type[_PydanticModelT],
-    fields_set: frozenset[str],
-    **values: Any,
-) -> _PydanticModelT:
-    model = model_type.__new__(model_type)
-    object.__setattr__(model, "__dict__", values)
-    object.__setattr__(model, "__pydantic_fields_set__", fields_set)
-    object.__setattr__(model, "__pydantic_extra__", None)
-    object.__setattr__(model, "__pydantic_private__", None)
-    return model
-
-
-class GdnSegmentBucketPlan(BaseModel):
+@dataclass(frozen=True)
+class GdnSegmentBucketPlan:
     """Device-local index tensors for a variable-length GDN segment batch."""
 
-    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
-
-    length: int = Field(ge=1)
+    length: int
     lengths: torch.Tensor
     lengths_cpu: torch.Tensor
-    lengths_by_rank_cpu: torch.Tensor | None = None
     real_mask: torch.Tensor
     cu_seqlens: torch.Tensor
     cu_seqlens_cpu: torch.Tensor
     row_indices: torch.Tensor
     position_indices: torch.Tensor
     family_indices: torch.Tensor
+    real_token_count_static: int
+    lengths_by_rank_cpu: torch.Tensor | None = None
     family_indices_cpu: torch.Tensor | None = None
     parent_indices: torch.Tensor | None = None
     parent_indices_cpu: torch.Tensor | None = None
     needs_final_state: bool = True
-    real_token_count_static: int = Field(ge=0)
     output_mask: torch.Tensor | None = None
 
     @property
@@ -128,56 +97,53 @@ def real_token_count(self) -> int:
         return self.real_token_count_static
 
 
-class GdnStateExchangePlan(BaseModel):
+@dataclass(frozen=True)
+class GdnStateExchangePlan:
     """Sparse CP exchange for tree parent states needed by remote children."""
 
-    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
-
     source_family_indices: tuple[int, ...]
     dest_family_indices: tuple[int, ...]
     exchange: Any
     reverse_exchange: Any
 
 
-class GdnPlannerConfig(BaseModel):
+@dataclass(frozen=True)
+class GdnPlannerConfig:
     """Tunable cost coefficients for one packed-row GDN execution plan."""
 
-    model_config = ConfigDict(frozen=True)
-
-    max_padding_ratio: float = Field(default=2.0, gt=1.0)
-    max_segments_per_batch: int = Field(default=4096, ge=1)
-    cp_chain_min_tokens_per_rank: int = Field(default=32, ge=1)
-    cp_chain_min_total_tokens: int = Field(default=32768, ge=1)
-    cp_chain_min_prefix_only_tokens: int = Field(default=32768, ge=1)
-    cp_tree_chain_min_total_tokens: int = Field(default=8192, ge=1)
-    cp_tree_chain_min_prefix_only_tokens: int = Field(default=8192, ge=1)
-    rank_idle_token_cost: float = Field(default=1.0, ge=0.0)
-    max_zero_exchange_load_imbalance: float = Field(default=1.5, ge=1.0)
-    planner_local_token_ms: float = Field(default=0.00065, ge=0.0)
-    planner_layout_cross_rank_token_ms: float = Field(default=0.00008, ge=0.0)
-    planner_empty_rank_ms: float = Field(default=32.0, ge=0.0)
-
-
-class GdnRankExecutionPlan(BaseModel):
+    max_padding_ratio: float = 2.0
+    max_segments_per_batch: int = 4096
+    cp_chain_min_tokens_per_rank: int = 32
+    cp_chain_min_total_tokens: int = 32768
+    cp_chain_min_prefix_only_tokens: int = 32768
+    cp_tree_chain_min_total_tokens: int = 8192
+    cp_tree_chain_min_prefix_only_tokens: int = 8192
+    rank_idle_token_cost: float = 1.0
+    max_zero_exchange_load_imbalance: float = 1.5
+    planner_local_token_ms: float = 0.00065
+    planner_layout_cross_rank_token_ms: float = 0.00008
+    planner_empty_rank_ms: float = 32.0
+
+
+@dataclass(frozen=True)
+class GdnRankExecutionPlan:
     """Rank-local planned execution metadata for shared-prefix GDN."""
 
-    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
-
-    cp_rank: int = Field(ge=0)
-    cp_size: int = Field(ge=1)
-    batch_size: int = Field(ge=1)
-    sequence_length: int = Field(ge=0)
-    packed_batch_size: int | None = Field(default=None, ge=1)
-    packed_sequence_length: int | None = Field(default=None, ge=1)
+    cp_rank: int
+    cp_size: int
+    batch_size: int
+    sequence_length: int
     real_token_mask: torch.Tensor
-    family_count: int = Field(ge=0)
-    completion_count: int = Field(ge=0)
+    family_count: int
+    completion_count: int
+    packed_batch_size: int | None = None
+    packed_sequence_length: int | None = None
     attention_to_gdn: Any | None = None
     gdn_to_attention: Any | None = None
     attention_token_ranges: tuple[tuple[int, int, int], ...] = ()
     gdn_token_ranges: tuple[tuple[int, int, int], ...] = ()
-    attention_token_count: int = Field(default=0, ge=0)
-    gdn_token_count: int = Field(default=0, ge=0)
+    attention_token_count: int = 0
+    gdn_token_count: int = 0
     tree_segment_buckets_by_depth: tuple[tuple[GdnSegmentBucketPlan, ...], ...] = ()
     tree_chain_buckets_by_depth: tuple[tuple[GdnSegmentBucketPlan, ...], ...] = ()
     tree_state_exchanges_by_depth: tuple[GdnStateExchangePlan | None, ...] = ()
@@ -191,14 +157,13 @@ def gdn_token_indices(self) -> tuple[int, ...]:
         return _tokens_from_rank_ranges(self.gdn_token_ranges)
 
 
-class _AttentionLayoutIndex(BaseModel):
+@dataclass(frozen=True)
+class _AttentionLayoutIndex:
     """Counting index for CP attention token ownership."""
 
-    model_config = ConfigDict(frozen=True)
-
     token_ranges_by_rank: tuple[tuple[tuple[int, int], ...], ...]
     token_range_ends_by_rank: tuple[tuple[int, ...], ...]
-    range_count: int = Field(ge=0)
+    range_count: int
 
 
 def _layout_cp_size(layout: TokenLayoutIndex) -> int:
@@ -456,7 +421,7 @@ def _build_tree_rank_execution_plan(
             dtype=torch.bool,
         )
 
-    return GdnRankExecutionPlan.model_construct(
+    return GdnRankExecutionPlan(
         cp_rank=cp_rank,
         cp_size=cp_size,
         batch_size=1 if cp_size > 1 else spec.batch_size,
@@ -486,7 +451,7 @@ def move_gdn_rank_execution_plan_to_device(
 
     from art.megatron.gdn.layout import move_cp_exchange_plan_to_device
 
-    return GdnRankExecutionPlan.model_construct(
+    return GdnRankExecutionPlan(
         cp_rank=plan.cp_rank,
         cp_size=plan.cp_size,
         batch_size=plan.batch_size,
@@ -525,7 +490,7 @@ def _move_state_exchange_plan(
         return None
     from art.megatron.gdn.layout import move_cp_exchange_plan_to_device
 
-    return GdnStateExchangePlan.model_construct(
+    return GdnStateExchangePlan(
         source_family_indices=exchange.source_family_indices,
         dest_family_indices=exchange.dest_family_indices,
         exchange=move_cp_exchange_plan_to_device(exchange.exchange, device),
@@ -540,7 +505,7 @@ def _move_bucket_plans(
     device: torch.device | str,
 ) -> tuple[GdnSegmentBucketPlan, ...]:
     return tuple(
-        GdnSegmentBucketPlan.model_construct(
+        GdnSegmentBucketPlan(
             length=bucket.length,
             lengths=_move_planner_tensor(bucket.lengths, device),
             lengths_cpu=bucket.lengths_cpu,
@@ -611,9 +576,7 @@ def parse_gdn_shared_prefix_segments(
                 child_index = child_counts_by_parent.get(parent_node_index, 0)
                 child_counts_by_parent[parent_node_index] = child_index + 1
             tree_segments.append(
-                _trusted_pydantic_construct(
-                    GdnSegmentSpec,
-                    _GDN_SEGMENT_SPEC_FIELDS,
+                GdnSegmentSpec(
                     row_index=segment.row_index,
                     family_index=node_index,
                     group_id=segment.group_id,
@@ -855,7 +818,7 @@ def _build_tree_state_exchanges_by_depth(
                     device=device,
                 )
             )
-        exchange = GdnCpExchangePlan.model_construct(
+        exchange = GdnCpExchangePlan(
             cp_size=cp_size,
             source_token_counts_by_rank=tuple(
                 len(families) for families in source_families
@@ -867,7 +830,7 @@ def _build_tree_state_exchanges_by_depth(
             cross_rank_token_count_override=transfer_count,
         )
         state_exchanges.append(
-            GdnStateExchangePlan.model_construct(
+            GdnStateExchangePlan(
                 source_family_indices=source_families[cp_rank],
                 dest_family_indices=dest_families[cp_rank],
                 exchange=exchange,
@@ -888,7 +851,7 @@ def _build_attention_layout_index_from_token_layout(
         for rank_ranges in layout.ownership_ranges_by_rank
     )
     range_count = sum(len(ranges) for ranges in ranges_by_rank)
-    return _AttentionLayoutIndex.model_construct(
+    return _AttentionLayoutIndex(
         token_ranges_by_rank=ranges_by_rank,
         token_range_ends_by_rank=tuple(
             tuple(end for _, end in ranges) for ranges in ranges_by_rank
@@ -1229,14 +1192,13 @@ def _bucket_with_tree_parent_indices(
         [tree_parent_indices[segment.family_index] for segment in segments],
         dtype=torch.long,
     )
-    return plan.model_copy(
-        update={
-            "parent_indices": _move_planner_tensor(parent_indices, device),
-            "parent_indices_cpu": parent_indices,
-            "needs_final_state": any(
-                tree_has_children[segment.family_index] for segment in segments
-            ),
-        }
+    return replace(
+        plan,
+        parent_indices=_move_planner_tensor(parent_indices, device),
+        parent_indices_cpu=parent_indices,
+        needs_final_state=any(
+            tree_has_children[segment.family_index] for segment in segments
+        ),
     )
 
 
@@ -1461,7 +1423,7 @@ def _build_bucket_plan(
         [segment.family_index for segment in segments],
         dtype=torch.long,
     )
-    return GdnSegmentBucketPlan.model_construct(
+    return GdnSegmentBucketPlan(
         length=max_length,
         lengths=_move_planner_tensor(lengths_cpu, device),
         lengths_cpu=lengths_cpu,
diff --git a/src/art/megatron/gdn/layout.py b/src/art/megatron/gdn/layout.py
index b97abd6cc..1c1276a4a 100644
--- a/src/art/megatron/gdn/layout.py
+++ b/src/art/megatron/gdn/layout.py
@@ -1,9 +1,9 @@
 from __future__ import annotations
 
 from collections.abc import Sequence
+from dataclasses import dataclass
 from typing import Any
 
-from pydantic import BaseModel, ConfigDict, Field, model_validator
 import torch
 from torch import Tensor
 from torch.distributed import (
@@ -20,21 +20,19 @@
 from art.megatron.context_parallel.layout_index import TokenLayoutIndex
 
 
-class GdnCpPeerTransfer(BaseModel):
+@dataclass(frozen=True)
+class GdnCpPeerTransfer:
     """Token rows sent from one source rank to one destination rank."""
 
-    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
-
-    source_rank: int = Field(ge=0)
-    dest_rank: int = Field(ge=0)
-    token_count: int = Field(ge=0)
+    source_rank: int
+    dest_rank: int
+    token_count: int
     source_positions_cpu: tuple[int, ...] | None = None
     dest_positions_cpu: tuple[int, ...] | None = None
     source_positions_tensor: Tensor | None = None
     dest_positions_tensor: Tensor | None = None
 
-    @model_validator(mode="after")
-    def _same_lengths(self) -> "GdnCpPeerTransfer":
+    def __post_init__(self) -> None:
         lengths = {int(self.token_count)}
         if self.source_positions_cpu is not None:
             lengths.add(len(self.source_positions_cpu))
@@ -46,27 +44,23 @@ def _same_lengths(self) -> "GdnCpPeerTransfer":
             lengths.add(int(self.dest_positions_tensor.numel()))
         if len(lengths) != 1:
             raise ValueError("token, source, and destination position counts differ")
-        return self
 
 
-class GdnCpExchangePlan(BaseModel):
+@dataclass(frozen=True)
+class GdnCpExchangePlan:
     """Permutation/all-to-all metadata between two distributed token layouts."""
 
-    model_config = ConfigDict(frozen=True)
-
-    cp_size: int = Field(ge=1)
+    cp_size: int
     source_token_counts_by_rank: tuple[int, ...]
     dest_token_counts_by_rank: tuple[int, ...]
     transfers: tuple[GdnCpPeerTransfer, ...]
-    cross_rank_token_count_override: int | None = Field(default=None, ge=0)
+    cross_rank_token_count_override: int | None = None
 
-    @model_validator(mode="after")
-    def _rank_counts(self) -> "GdnCpExchangePlan":
+    def __post_init__(self) -> None:
         if len(self.source_token_counts_by_rank) != self.cp_size:
             raise ValueError("source token count length must equal cp_size")
         if len(self.dest_token_counts_by_rank) != self.cp_size:
             raise ValueError("destination token count length must equal cp_size")
-        return self
 
     @property
     def cross_rank_token_count(self) -> int:
@@ -79,11 +73,10 @@ def cross_rank_token_count(self) -> int:
         )
 
 
-class GdnSpExchangePlan(BaseModel):
+@dataclass(frozen=True)
+class GdnSpExchangePlan:
     """Sequence-parallel view of an existing CP exchange plan."""
 
-    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
-
     plan: GdnCpExchangePlan
     rank: int
 
@@ -212,7 +205,7 @@ def build_local_rank_cp_exchange_plan_from_dest_ranges(
                     device=device,
                 )
             )
-    return GdnCpExchangePlan.model_construct(
+    return GdnCpExchangePlan(
         cp_size=cp_size,
         source_token_counts_by_rank=source_layout.token_counts_by_rank,
         dest_token_counts_by_rank=dest_counts,
@@ -256,7 +249,7 @@ def _make_peer_transfer(
             device=target, dtype=torch.long
         ).contiguous()
         dest_tensor = dest_positions.to(device=target, dtype=torch.long).contiguous()
-    return GdnCpPeerTransfer.model_construct(
+    return GdnCpPeerTransfer(
         source_rank=source_rank,
         dest_rank=dest_rank,
         token_count=token_count,
@@ -293,13 +286,13 @@ def _is_full_identity_transfer(
 
 
 def _reverse_exchange_plan(plan: GdnCpExchangePlan) -> GdnCpExchangePlan:
-    return GdnCpExchangePlan.model_construct(
+    return GdnCpExchangePlan(
         cp_size=plan.cp_size,
         source_token_counts_by_rank=_dest_counts_by_rank(plan),
         dest_token_counts_by_rank=_source_counts_by_rank(plan),
         cross_rank_token_count_override=plan.cross_rank_token_count_override,
         transfers=tuple(
-            GdnCpPeerTransfer.model_construct(
+            GdnCpPeerTransfer(
                 source_rank=transfer.dest_rank,
                 dest_rank=transfer.source_rank,
                 token_count=_transfer_token_count(transfer),
@@ -503,12 +496,12 @@ def move_cp_exchange_plan_to_device(
     if plan is None:
         return None
     target = torch.device(device)
-    return GdnCpExchangePlan.model_construct(
+    return GdnCpExchangePlan(
         cp_size=plan.cp_size,
         source_token_counts_by_rank=_source_counts_by_rank(plan),
         dest_token_counts_by_rank=_dest_counts_by_rank(plan),
         transfers=tuple(
-            GdnCpPeerTransfer.model_construct(
+            GdnCpPeerTransfer(
                 source_rank=transfer.source_rank,
                 dest_rank=transfer.dest_rank,
                 token_count=transfer.token_count,
@@ -552,7 +545,7 @@ def shard_cp_exchange_plan_for_sequence_parallel(
     """
 
     if tp_size <= 1:
-        return GdnSpExchangePlan.model_construct(plan=plan, rank=cp_rank)
+        return GdnSpExchangePlan(plan=plan, rank=cp_rank)
     _check_rank(plan, cp_rank)
     if tp_rank < 0 or tp_rank >= tp_size:
         raise ValueError(f"tp_rank must be in [0, {tp_size}), got {tp_rank}")
@@ -623,7 +616,7 @@ def shard_cp_exchange_plan_for_sequence_parallel(
     # A CP-local reorder can still move rows between TP ranks, and local CP plans do
     # not contain enough global TP information for every rank to independently
     # prove that no peer exchange is needed.
-    sp_plan = GdnCpExchangePlan.model_construct(
+    sp_plan = GdnCpExchangePlan(
         cp_size=world_size,
         source_token_counts_by_rank=source_counts,
         dest_token_counts_by_rank=dest_counts,
@@ -632,7 +625,7 @@ def shard_cp_exchange_plan_for_sequence_parallel(
         ),
         cross_rank_token_count_override=1,
     )
-    return GdnSpExchangePlan.model_construct(plan=sp_plan, rank=composite_rank)
+    return GdnSpExchangePlan(plan=sp_plan, rank=composite_rank)
 
 
 def recv_split_sizes_for_rank(plan: GdnCpExchangePlan, rank: int) -> tuple[int, ...]:
diff --git a/src/art/megatron/shared_prefix_state.py b/src/art/megatron/shared_prefix_state.py
index adbd9e514..b4e6a64b8 100644
--- a/src/art/megatron/shared_prefix_state.py
+++ b/src/art/megatron/shared_prefix_state.py
@@ -2,6 +2,7 @@
 
 from __future__ import annotations
 
+from dataclasses import replace
 import gc
 from typing import Any
 
@@ -121,9 +122,7 @@ def _build_sparse_shared_prefix_block_mask(
     token_indices = torch.arange(seq_len, dtype=torch.int64)
     for row_spec in batch_spec.rows:
         row_index = int(row_spec.row_index)
-        slices = tuple(
-            slice_.model_copy(update={"row_index": 0}) for slice_ in row_spec.slices
-        )
+        slices = tuple(replace(slice_, row_index=0) for slice_ in row_spec.slices)
         if int(row_spec.valid_tokens) < seq_len:
             padding_range = TokenRange(start=int(row_spec.valid_tokens), end=seq_len)
             slices = (
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 59cbe1311..d7bf545ad 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -104,208 +104,6 @@ def __init__(
         self.checkpoint = checkpoint
         self.lora = lora
 
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: None = None,
-        logits: Literal[False] = False,
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[None, None, None, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: None = None,
-        logits: Literal[False] = False,
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[torch.Tensor, None, None, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: int,
-        logits: Literal[False] = False,
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[None, TopK, None, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: None = None,
-        logits: Literal[True],
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[None, None, torch.Tensor, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: None = None,
-        logits: Literal[False] = False,
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[None, None, None, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: int,
-        logits: Literal[False] = False,
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[torch.Tensor, TopK, None, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: None = None,
-        logits: Literal[True],
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[torch.Tensor, None, torch.Tensor, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: None = None,
-        logits: Literal[False] = False,
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[torch.Tensor, None, None, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: int,
-        logits: Literal[True],
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[None, TopK, torch.Tensor, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: int,
-        logits: Literal[False] = False,
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[None, TopK, None, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: None = None,
-        logits: Literal[True],
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[None, None, torch.Tensor, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: int,
-        logits: Literal[True],
-        hidden_states: Literal[False] = False,
-    ) -> "ForwardInput[torch.Tensor, TopK, torch.Tensor, None]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: int,
-        logits: Literal[False] = False,
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[torch.Tensor, TopK, None, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: None = None,
-        logits: Literal[True],
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[torch.Tensor, None, torch.Tensor, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: None = None,
-        top_k: int,
-        logits: Literal[True],
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[None, TopK, torch.Tensor, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor,
-        top_k: int,
-        logits: Literal[True],
-        hidden_states: Literal[True],
-    ) -> "ForwardInput[torch.Tensor, TopK, torch.Tensor, torch.Tensor]": ...
-
-    @overload
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor | None = None,
-        top_k: int | None = None,
-        logits: bool = False,
-        hidden_states: bool = False,
-        checkpoint: AdapterSelection = Unset,
-        lora: AdapterSelection = Unset,
-    ) -> "AnyForwardInput": ...
-
-    def __new__(
-        cls,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor | None = None,
-        top_k: int | None = None,
-        logits: bool = False,
-        hidden_states: bool = False,
-        checkpoint: AdapterSelection = Unset,
-        lora: AdapterSelection = Unset,
-    ) -> "AnyForwardInput":
-        return super().__new__(cls)
-
 
 type AnyForwardInput = ForwardInput[
     torch.Tensor | None,
diff --git a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
index 7369eaef7..b43a7b49e 100644
--- a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
+++ b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
@@ -89,7 +89,7 @@ def _build_full_exchange_plan(
         )
         for transfer in local_plan.transfers:
             transfers.setdefault((transfer.source_rank, transfer.dest_rank), transfer)
-    return GdnCpExchangePlan.model_construct(
+    return GdnCpExchangePlan(
         cp_size=len(source_layout.token_counts_by_rank),
         source_token_counts_by_rank=source_layout.token_counts_by_rank,
         dest_token_counts_by_rank=tuple(

From 58d980e373bec7631a070948ea0ba42462ae84e0 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 19:36:32 -0600
Subject: [PATCH 072/114] perf: skip full-slice minmax in block masks

---
 .../megatron/context_parallel/block_mask.py   | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 6632f8141..121dcae83 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -553,16 +553,6 @@ def _build_sparse_block_mask(
             k_block_end,
             k_end,
         )
-        q_min, q_max = (
-            (q_abs[q_overlap_start], q_abs[q_overlap_end - 1])
-            if q_abs_sorted
-            else _block_min_max(q_abs, q_overlap_start, q_overlap_end)
-        )
-        k_min, k_max = (
-            (k_abs[k_overlap_start], k_abs[k_overlap_end - 1])
-            if k_abs_sorted
-            else _block_min_max(k_abs, k_overlap_start, k_overlap_end)
-        )
         q_is_full = (q_overlap_start == q_block_start) & (
             q_overlap_end == q_block_end_raw
         )
@@ -576,6 +566,16 @@ def _build_sparse_block_mask(
             )
             is_full = covers_block
         else:
+            q_min, q_max = (
+                (q_abs[q_overlap_start], q_abs[q_overlap_end - 1])
+                if q_abs_sorted
+                else _block_min_max(q_abs, q_overlap_start, q_overlap_end)
+            )
+            k_min, k_max = (
+                (k_abs[k_overlap_start], k_abs[k_overlap_end - 1])
+                if k_abs_sorted
+                else _block_min_max(k_abs, k_overlap_start, k_overlap_end)
+            )
             has_any = q_max[:, None] >= k_min[None, :]
             is_full = covers_block & (q_min[:, None] >= k_max[None, :])
 

From d5217d7afed00803656a1d98648a01eac9bd6f68 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 19:46:22 -0600
Subject: [PATCH 073/114] refactor: simplify context parallel state records

---
 .../megatron/context_parallel/layout_index.py |  7 ++-
 src/art/megatron/context_parallel/runtime.py  | 10 ++---
 src/art/megatron/context_parallel/types.py    | 33 +++++++-------
 src/art/megatron/gdn/gdn_shared_prefix.py     | 45 ++++---------------
 src/art/megatron/gdn/layout.py                | 17 +++----
 .../gdn_shared_prefix/layout_reference.py     |  2 +-
 6 files changed, 36 insertions(+), 78 deletions(-)

diff --git a/src/art/megatron/context_parallel/layout_index.py b/src/art/megatron/context_parallel/layout_index.py
index 99fb2c35b..9f60550a0 100644
--- a/src/art/megatron/context_parallel/layout_index.py
+++ b/src/art/megatron/context_parallel/layout_index.py
@@ -1,10 +1,9 @@
 from __future__ import annotations
 
-from pydantic import BaseModel, ConfigDict
+from dataclasses import dataclass
 
 
-class TokenLayoutIndex(BaseModel):
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class TokenLayoutIndex:
     ownership_ranges_by_rank: tuple[tuple[tuple[int, int, int], ...], ...]
     token_counts_by_rank: tuple[int, ...]
diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index 79d45422c..b59724979 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -1,12 +1,11 @@
 from __future__ import annotations
 
 from bisect import bisect_left, bisect_right
-from dataclasses import replace
+from dataclasses import dataclass, replace
 import hashlib
 import json
 from typing import Any, cast
 
-from pydantic import BaseModel, ConfigDict
 import torch
 
 from art.loss import shift_tensor
@@ -43,9 +42,8 @@
 StageSliceKey = tuple[int, int, int, int, int, str, int]
 
 
-class _PlanningBundle(BaseModel):
-    model_config = ConfigDict(arbitrary_types_allowed=True)
-
+@dataclass(frozen=True)
+class _PlanningBundle:
     spec: PackedBatchAttentionSpec
     runtime_key: ContextParallelRuntimeKey
     runtime_plan: ContextParallelRuntimePlan
@@ -1702,7 +1700,7 @@ def prepare_cp_micro(
         ref_logprobs=ref_logprobs,
     )
     if tensors.token_uids is not None:
-        state = state.model_copy(update={"trace_token_uids": tensors.token_uids})
+        state = replace(state, trace_token_uids=tensors.token_uids)
     if prepare_execution_state:
         from .executor import prepare_context_parallel_execution_state
 
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index a5f21fd0b..22b468d99 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -1,11 +1,11 @@
 from __future__ import annotations
 
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from enum import Enum
 from typing import Any
 
 from megatron.core.packed_seq_params import PackedSeqParams
-from pydantic import BaseModel, ConfigDict, Field
+from pydantic import BaseModel, ConfigDict
 import torch
 
 from .layout_index import TokenLayoutIndex
@@ -172,16 +172,15 @@ class DispatchedPackedTensors(ContextParallelLossInputs):
     token_uids: torch.Tensor | None = None
 
 
-class ContextParallelExecutionCache(BaseModel):
-    model_config = ConfigDict(arbitrary_types_allowed=True)
-
+@dataclass
+class ContextParallelExecutionCache:
     block_mask_context: Any | None = None
-    block_masks: dict[Any, Any] = Field(default_factory=dict)
-    range_indices: dict[Any, torch.Tensor] = Field(default_factory=dict)
-    range_meta: dict[Any, tuple[torch.Tensor, torch.Tensor, torch.Tensor, int]] = Field(
+    block_masks: dict[Any, Any] = field(default_factory=dict)
+    range_indices: dict[Any, torch.Tensor] = field(default_factory=dict)
+    range_meta: dict[Any, tuple[torch.Tensor, torch.Tensor, torch.Tensor, int]] = field(
         default_factory=dict
     )
-    stage_execution_specs: dict[Any, "StageExecutionSpec"] = Field(default_factory=dict)
+    stage_execution_specs: dict[Any, "StageExecutionSpec"] = field(default_factory=dict)
 
 
 @dataclass(frozen=True)
@@ -192,9 +191,8 @@ class StageExecutionSpec:
     mask_metadata: "ExactMaskMetadata | None" = None
 
 
-class ArtContextParallelState(BaseModel):
-    model_config = ConfigDict(arbitrary_types_allowed=True)
-
+@dataclass
+class ArtContextParallelState:
     runtime_key: ContextParallelRuntimeKey
     rank_plan: RankRuntimePlan
     cp_group: Any
@@ -207,23 +205,22 @@ class ArtContextParallelState(BaseModel):
     gdn_input_layout: str | None = None
     gdn_output_layout: str | None = None
     gdn_attention_original_shape: tuple[int, int, int] | None = None
-    gdn_attention_original_shapes: dict[int, tuple[int, int, int]] = Field(
+    gdn_attention_original_shapes: dict[int, tuple[int, int, int]] = field(
         default_factory=dict
     )
     gdn_attention_token_uids: torch.Tensor | None = None
     gdn_active_module: Any | None = None
     trace_token_uids: torch.Tensor | None = None
-    execution_cache: ContextParallelExecutionCache = Field(
+    execution_cache: ContextParallelExecutionCache = field(
         default_factory=ContextParallelExecutionCache
     )
 
 
-class PreparedMegatronBatch(BaseModel):
-    model_config = ConfigDict(arbitrary_types_allowed=True)
-
+@dataclass
+class PreparedMegatronBatch:
     tensors: DispatchedPackedTensors
-    packed_seq_params: PackedSeqParams | None = None
     attention_state: Any
+    packed_seq_params: PackedSeqParams | None = None
     rank_plan: RankRuntimePlan | None = None
     pad_multiple: int = 1
 
diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 2e3f5087f..8c11869c5 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -63,9 +63,6 @@ def real_token_count(self) -> int:
     def max_segment_length(self) -> int:
         return max((segment.length for segment in self.tree_segments), default=0)
 
-    def segments(self) -> tuple[GdnSegmentSpec, ...]:
-        return self.tree_segments
-
 
 @dataclass(frozen=True)
 class GdnSegmentBucketPlan:
@@ -163,7 +160,6 @@ class _AttentionLayoutIndex:
 
     token_ranges_by_rank: tuple[tuple[tuple[int, int], ...], ...]
     token_range_ends_by_rank: tuple[tuple[int, ...], ...]
-    range_count: int
 
 
 def _layout_cp_size(layout: TokenLayoutIndex) -> int:
@@ -265,8 +261,7 @@ def _build_tree_rank_execution_plan(
         planner_config=planner_config,
     )
     attention_layout_index = _build_attention_layout_index_from_token_layout(
-        source_layout,
-        max_ranges=max(1, 2 * spec.real_token_count // len(spec.tree_segments)),
+        source_layout
     )
     segment_attention_counts = _segment_attention_rank_counts(
         spec,
@@ -451,22 +446,11 @@ def move_gdn_rank_execution_plan_to_device(
 
     from art.megatron.gdn.layout import move_cp_exchange_plan_to_device
 
-    return GdnRankExecutionPlan(
-        cp_rank=plan.cp_rank,
-        cp_size=plan.cp_size,
-        batch_size=plan.batch_size,
-        sequence_length=plan.sequence_length,
-        packed_batch_size=plan.packed_batch_size,
-        packed_sequence_length=plan.packed_sequence_length,
+    return replace(
+        plan,
         real_token_mask=_move_planner_tensor(plan.real_token_mask, device),
-        family_count=plan.family_count,
-        completion_count=plan.completion_count,
         attention_to_gdn=move_cp_exchange_plan_to_device(plan.attention_to_gdn, device),
         gdn_to_attention=move_cp_exchange_plan_to_device(plan.gdn_to_attention, device),
-        attention_token_ranges=plan.attention_token_ranges,
-        gdn_token_ranges=plan.gdn_token_ranges,
-        attention_token_count=plan.attention_token_count,
-        gdn_token_count=plan.gdn_token_count,
         tree_segment_buckets_by_depth=tuple(
             _move_bucket_plans(buckets, device)
             for buckets in plan.tree_segment_buckets_by_depth
@@ -490,9 +474,8 @@ def _move_state_exchange_plan(
         return None
     from art.megatron.gdn.layout import move_cp_exchange_plan_to_device
 
-    return GdnStateExchangePlan(
-        source_family_indices=exchange.source_family_indices,
-        dest_family_indices=exchange.dest_family_indices,
+    return replace(
+        exchange,
         exchange=move_cp_exchange_plan_to_device(exchange.exchange, device),
         reverse_exchange=move_cp_exchange_plan_to_device(
             exchange.reverse_exchange, device
@@ -505,26 +488,19 @@ def _move_bucket_plans(
     device: torch.device | str,
 ) -> tuple[GdnSegmentBucketPlan, ...]:
     return tuple(
-        GdnSegmentBucketPlan(
-            length=bucket.length,
+        replace(
+            bucket,
             lengths=_move_planner_tensor(bucket.lengths, device),
-            lengths_cpu=bucket.lengths_cpu,
-            lengths_by_rank_cpu=bucket.lengths_by_rank_cpu,
             real_mask=_move_planner_tensor(bucket.real_mask, device),
             cu_seqlens=_move_planner_tensor(bucket.cu_seqlens, device),
-            cu_seqlens_cpu=bucket.cu_seqlens_cpu,
             row_indices=_move_planner_tensor(bucket.row_indices, device),
             position_indices=_move_planner_tensor(bucket.position_indices, device),
             family_indices=_move_planner_tensor(bucket.family_indices, device),
-            family_indices_cpu=bucket.family_indices_cpu,
             parent_indices=(
                 _move_planner_tensor(bucket.parent_indices, device)
                 if bucket.parent_indices is not None
                 else None
             ),
-            parent_indices_cpu=bucket.parent_indices_cpu,
-            needs_final_state=bucket.needs_final_state,
-            real_token_count_static=bucket.real_token_count,
             output_mask=(
                 _move_planner_tensor(bucket.output_mask, device)
                 if bucket.output_mask is not None
@@ -842,21 +818,16 @@ def _build_tree_state_exchanges_by_depth(
 
 def _build_attention_layout_index_from_token_layout(
     layout: TokenLayoutIndex,
-    *,
-    max_ranges: int,
 ) -> _AttentionLayoutIndex:
-    del max_ranges
     ranges_by_rank = tuple(
         tuple(sorted((int(start), int(end)) for start, end, _ in rank_ranges))
         for rank_ranges in layout.ownership_ranges_by_rank
     )
-    range_count = sum(len(ranges) for ranges in ranges_by_rank)
     return _AttentionLayoutIndex(
         token_ranges_by_rank=ranges_by_rank,
         token_range_ends_by_rank=tuple(
             tuple(end for _, end in ranges) for ranges in ranges_by_rank
         ),
-        range_count=range_count,
     )
 
 
@@ -867,7 +838,7 @@ def _segment_attention_rank_counts(
     attention_layout_index: _AttentionLayoutIndex,
 ) -> dict[tuple[int, int, int], tuple[int, ...]]:
     del cp_size
-    segments = tuple(spec.segments())
+    segments = spec.tree_segments
     if not segments:
         return {}
     starts = torch.tensor(
diff --git a/src/art/megatron/gdn/layout.py b/src/art/megatron/gdn/layout.py
index 1c1276a4a..7119218f6 100644
--- a/src/art/megatron/gdn/layout.py
+++ b/src/art/megatron/gdn/layout.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 
 from collections.abc import Sequence
-from dataclasses import dataclass
+from dataclasses import dataclass, replace
 from typing import Any
 
 import torch
@@ -496,17 +496,11 @@ def move_cp_exchange_plan_to_device(
     if plan is None:
         return None
     target = torch.device(device)
-    return GdnCpExchangePlan(
-        cp_size=plan.cp_size,
-        source_token_counts_by_rank=_source_counts_by_rank(plan),
-        dest_token_counts_by_rank=_dest_counts_by_rank(plan),
+    return replace(
+        plan,
         transfers=tuple(
-            GdnCpPeerTransfer(
-                source_rank=transfer.source_rank,
-                dest_rank=transfer.dest_rank,
-                token_count=transfer.token_count,
-                source_positions_cpu=transfer.source_positions_cpu,
-                dest_positions_cpu=transfer.dest_positions_cpu,
+            replace(
+                transfer,
                 source_positions_tensor=_move_optional_index_tensor(
                     transfer.source_positions_tensor, target
                 ),
@@ -516,7 +510,6 @@ def move_cp_exchange_plan_to_device(
             )
             for transfer in plan.transfers
         ),
-        cross_rank_token_count_override=plan.cross_rank_token_count_override,
     )
 
 
diff --git a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
index b43a7b49e..af89222a6 100644
--- a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
+++ b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
@@ -133,7 +133,7 @@ def _split_gdn_token_ranges_by_rank(
                 _segment_token_start(segment, spec.sequence_length),
                 _segment_token_start(segment, spec.sequence_length) + segment.length,
             )
-            for segment in spec.segments()
+            for segment in spec.tree_segments
         ),
         cp_size=cp_size,
     )

From a46fdc809b3bda47107b429a8508b405dad15f84 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 20:04:23 -0600
Subject: [PATCH 074/114] refactor: simplify gdn tree state lookup

---
 src/art/megatron/gdn/operator.py | 31 +++++++++++++------------------
 1 file changed, 13 insertions(+), 18 deletions(-)

diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index 96871a1f9..93ff13b5d 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -510,15 +510,7 @@ def run_gdn_layer(
         )
     if input_layout != "attention" or output_layout != "attention":
         raise ValueError("GDN layout controls require a CP execution plan")
-    return _run_planned_prefixes_and_completions(gdn, hidden_states, execution_plan)
-
-
-def _run_planned_prefixes_and_completions(
-    gdn: Any,
-    hidden_states: Tensor,
-    plan: GdnRankExecutionPlan,
-) -> tuple[Tensor, Tensor | None]:
-    return _run_tree_prefixes(gdn, hidden_states, plan)
+    return _run_tree_prefixes(gdn, hidden_states, execution_plan)
 
 
 def _run_tree_prefixes(
@@ -680,7 +672,7 @@ def __init__(self, *, device: torch.device) -> None:
         self._device = device
         self._conv_chunks: list[Tensor] = []
         self._rec_chunks: list[Tensor] = []
-        self._source_by_family: dict[int, tuple[int, int]] = {}
+        self._source_by_family: list[tuple[int, int] | None] = []
 
     def append(self, bucket: GdnSegmentBucketPlan, conv: Tensor, rec: Tensor) -> None:
         self.append_families(_bucket_family_indices_cpu(bucket), conv, rec)
@@ -703,6 +695,11 @@ def append_families(
         chunk_index = len(self._conv_chunks)
         self._conv_chunks.append(conv)
         self._rec_chunks.append(rec)
+        max_family = max(int(index) for index in family_indices)
+        if max_family >= len(self._source_by_family):
+            self._source_by_family.extend(
+                None for _ in range(max_family + 1 - len(self._source_by_family))
+            )
         for source_row, family_index in enumerate(family_indices):
             self._source_by_family[int(family_index)] = (chunk_index, source_row)
 
@@ -809,7 +806,11 @@ def _mixed_parent_states(
                     continue
                 missing_parents.append(parent_index)
                 continue
-            source = self._source_by_family.get(parent_index)
+            source = (
+                self._source_by_family[parent_index]
+                if parent_index < len(self._source_by_family)
+                else None
+            )
             if source is None:
                 missing_parents.append(parent_index)
                 continue
@@ -891,13 +892,7 @@ def _long_tensor(values: Iterable[int], *, device: torch.device) -> Tensor:
 
 
 def _bucket_has_parent_state(bucket: GdnSegmentBucketPlan) -> bool:
-    parent_indices_cpu = bucket.parent_indices_cpu
-    if parent_indices_cpu is None:
-        parent_indices = bucket.parent_indices
-        if parent_indices is None:
-            raise RuntimeError("tree GDN bucket is missing parent indices")
-        parent_indices_cpu = parent_indices.detach().cpu()
-    return any(int(parent_index) >= 0 for parent_index in parent_indices_cpu.tolist())
+    return any(parent_index >= 0 for parent_index in _bucket_parent_indices_cpu(bucket))
 
 
 def _bucket_has_uniform_lengths(bucket: GdnSegmentBucketPlan) -> bool:

From 04c43ef84eb9dd340557edea221d36f7af402385 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 21:12:27 -0600
Subject: [PATCH 075/114] perf: stabilize adaptive trainer windows

---
 src/art/megatron/trainer_rank.py             | 56 +++++++++++++++-----
 tests/unit/test_trainer_rank_weird_shapes.py | 31 +++++++++++
 2 files changed, 75 insertions(+), 12 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index d7bf545ad..071ca3f2b 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -781,6 +781,17 @@ def _select_next_micro_batch(
         def clamp_width(width: int) -> int:
             return max(min_width, min(width, remaining))
 
+        granularity = self._adaptive_window_granularity(
+            remaining=remaining,
+            dp_size=dp_size,
+        )
+
+        def snap_width(width: int) -> int:
+            width = clamp_width(width)
+            if width in (min_width, remaining) or granularity <= 1:
+                return width
+            return max(min_width, (width // granularity) * granularity)
+
         def local_slice(width: int) -> tuple[tuple[int, ...], list[ForwardInputsT]]:
             stop = start + clamp_width(width)
             indices = tuple(range(start + dp_rank, stop, dp_size))
@@ -859,9 +870,33 @@ def remember_fit(
             check: _MemoryCheck | None,
         ) -> None:
             nonlocal best_width, best_check
-            best_width = clamp_width(width)
+            best_width = snap_width(width)
             best_check = check
 
+        def search_below(failed_width: int) -> None:
+            nonlocal rejected
+            low = best_width + 1
+            high = failed_width - 1
+            while low <= high:
+                mid = (low + high) // 2
+                fits, check = probe(mid)
+                if fits:
+                    remember_fit(mid, check)
+                    low = mid + 1
+                else:
+                    rejected += 1
+                    high = mid - 1
+
+        stable_width = self._last_global_micro_batch_size
+        if stable_width is not None and stable_width >= max(64, granularity * 2):
+            stable_width = snap_width(stable_width)
+            fits, check = probe(stable_width)
+            if fits:
+                return candidate(stable_width, check)
+            rejected += 1
+            search_below(stable_width)
+            return candidate(best_width, best_check)
+
         high_fail: int | None = None
         width = min(
             remaining,
@@ -880,20 +915,17 @@ def remember_fit(
             break
 
         if high_fail is not None:
-            low = best_width + 1
-            high = high_fail - 1
-            while low <= high:
-                mid = (low + high) // 2
-                fits, check = probe(mid)
-                if fits:
-                    remember_fit(mid, check)
-                    low = mid + 1
-                else:
-                    rejected += 1
-                    high = mid - 1
+            search_below(high_fail)
 
         return candidate(best_width, best_check)
 
+    @staticmethod
+    def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
+        if remaining < 64:
+            return max(1, dp_size)
+        base = 8 if remaining < 256 else 32
+        return max(1, ((base + dp_size - 1) // dp_size) * dp_size)
+
     def _cached_adaptive_plan(
         self,
         items: Sequence[ForwardInputsT],
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 4843a8f51..0ebee9630 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -271,6 +271,37 @@ def check(required):
     assert candidate.rejected_candidates <= 8
 
 
+def test_adaptive_planner_reuses_large_stable_window(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    rank = TrainerRank(_runtime(), shared_prefix_max_depth=1)  # type: ignore[arg-type]
+    rank._last_global_micro_batch_size = 512
+    monkeypatch.setattr(rank, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(rank, "_all_ranks_have_memory_profile", lambda **_kwargs: True)
+    monkeypatch.setattr(
+        rank,
+        "_estimate_required_memory_bytes_from_values",
+        lambda **kwargs: kwargs["packed_tokens"],
+    )
+    monkeypatch.setattr(
+        rank,
+        "_memory_check_required",
+        lambda required: _MemoryCheck(
+            estimated_required_bytes=required,
+            available_bytes=700,
+            fits=required <= 700,
+        ),
+    )
+
+    candidate = rank._select_next_micro_batch(
+        [_target_request(_tokens(index)) for index in range(900)],
+        0,
+    )
+
+    assert candidate.stats_global_count == 512
+    assert candidate.rejected_candidates == 0
+
+
 def test_forward_micro_batches_shrinks_when_memory_budget_drops(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:

From b7280929302715cddb4edd351c2777c84dfcc8b8 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 21:29:01 -0600
Subject: [PATCH 076/114] perf: keep adaptive window size stable across tails

---
 dev/trainer_rank_perf.py                   |  5 ++-
 src/art/megatron/trainer_rank.py           |  9 ++++-
 tests/unit/test_trainer_rank_validation.py | 39 ++++++++++++++++++++++
 3 files changed, 51 insertions(+), 2 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index c40ee005f..52ccdbffb 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2148,7 +2148,10 @@ def unflatten_outputs() -> list[object]:
                 **select_profile,
             }
         )
-        rank._last_global_micro_batch_size = candidate.stats_global_count
+        rank._remember_adaptive_window(
+            candidate.stats_global_count,
+            is_tail=start + candidate.stats_global_count >= len(items),
+        )
         start += candidate.stats_global_count
     metrics, optim_ms = _timed_cuda(
         rank, lambda: rank.optim_step(params=params, scale_grads=1.0)
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 071ca3f2b..38cee8834 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -482,7 +482,10 @@ def forward_micro_batches(
             )
             outputs = [_unflatten(item, flat_outputs) for item in candidate.inputs]
             stop = start + candidate.stats_global_count
-            self._last_global_micro_batch_size = candidate.stats_global_count
+            self._remember_adaptive_window(
+                candidate.stats_global_count,
+                is_tail=stop >= len(items),
+            )
             yield MicroBatch(
                 inputs=candidate.inputs,
                 outputs=outputs,
@@ -926,6 +929,10 @@ def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
         base = 8 if remaining < 256 else 32
         return max(1, ((base + dp_size - 1) // dp_size) * dp_size)
 
+    def _remember_adaptive_window(self, width: int, *, is_tail: bool) -> None:
+        if not is_tail:
+            self._last_global_micro_batch_size = width
+
     def _cached_adaptive_plan(
         self,
         items: Sequence[ForwardInputsT],
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index 8ce06a372..ecd4316dc 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -204,6 +204,45 @@ def memory_check(required):
     assert batch.stats.rejected_candidates >= 1
 
 
+def test_forward_micro_batches_tail_does_not_reset_stable_window(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    trainer._last_global_micro_batch_size = 64
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(
+        trainer, "_all_ranks_have_memory_profile", lambda **_kwargs: True
+    )
+    monkeypatch.setattr(
+        trainer,
+        "_estimate_required_memory_bytes_from_values",
+        lambda **kwargs: kwargs["packed_tokens"],
+    )
+    monkeypatch.setattr(
+        trainer,
+        "_memory_check_required",
+        lambda required: _MemoryCheck(
+            estimated_required_bytes=required,
+            available_bytes=128,
+            fits=required <= 128,
+        ),
+    )
+    monkeypatch.setattr(
+        trainer,
+        "_run_flat_plan_with_memory_tracking",
+        lambda plan, **_kwargs: [
+            ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
+        ],
+    )
+
+    batches = list(
+        trainer.forward_micro_batches([_target_request(i) for i in range(130)])
+    )
+
+    assert [batch.stats.global_count for batch in batches] == [64, 64, 2]
+    assert trainer._last_global_micro_batch_size == 64
+
+
 def test_forward_micro_batches_reuses_cached_candidate_plans(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:

From f8119f58609706d7924721e29a01d372dfe83fbc Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 21:47:30 -0600
Subject: [PATCH 077/114] perf: balance adaptive trainer windows

---
 src/art/megatron/trainer_rank.py             | 33 ++++++++++++++++++--
 tests/unit/test_trainer_rank_validation.py   |  2 +-
 tests/unit/test_trainer_rank_weird_shapes.py |  4 +--
 3 files changed, 34 insertions(+), 5 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 38cee8834..8d75610c2 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -892,12 +892,18 @@ def search_below(failed_width: int) -> None:
 
         stable_width = self._last_global_micro_batch_size
         if stable_width is not None and stable_width >= max(64, granularity * 2):
-            stable_width = snap_width(stable_width)
+            stable_width = self._balanced_adaptive_window(
+                capacity=stable_width,
+                remaining=remaining,
+                min_width=min_width,
+                granularity=granularity,
+            )
             fits, check = probe(stable_width)
             if fits:
                 return candidate(stable_width, check)
             rejected += 1
             search_below(stable_width)
+            self._last_global_micro_batch_size = best_width
             return candidate(best_width, best_check)
 
         high_fail: int | None = None
@@ -929,9 +935,32 @@ def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
         base = 8 if remaining < 256 else 32
         return max(1, ((base + dp_size - 1) // dp_size) * dp_size)
 
+    @staticmethod
+    def _balanced_adaptive_window(
+        *,
+        capacity: int,
+        remaining: int,
+        min_width: int,
+        granularity: int,
+    ) -> int:
+        windows = max(1, (remaining + capacity - 1) // capacity)
+        if windows == 1:
+            return max(min_width, remaining)
+        raw = (remaining + windows - 1) // windows
+        if granularity > 1:
+            raw = ((raw + granularity - 1) // granularity) * granularity
+        return max(min_width, min(capacity, raw, remaining))
+
     def _remember_adaptive_window(self, width: int, *, is_tail: bool) -> None:
-        if not is_tail:
+        if is_tail:
+            return
+        if self._last_global_micro_batch_size is None:
             self._last_global_micro_batch_size = width
+        else:
+            self._last_global_micro_batch_size = max(
+                self._last_global_micro_batch_size,
+                width,
+            )
 
     def _cached_adaptive_plan(
         self,
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index ecd4316dc..f8b0f52db 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -239,7 +239,7 @@ def test_forward_micro_batches_tail_does_not_reset_stable_window(
         trainer.forward_micro_batches([_target_request(i) for i in range(130)])
     )
 
-    assert [batch.stats.global_count for batch in batches] == [64, 64, 2]
+    assert [batch.stats.global_count for batch in batches] == [48, 48, 34]
     assert trainer._last_global_micro_batch_size == 64
 
 
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 0ebee9630..8606d0dfb 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -271,7 +271,7 @@ def check(required):
     assert candidate.rejected_candidates <= 8
 
 
-def test_adaptive_planner_reuses_large_stable_window(
+def test_adaptive_planner_balances_large_stable_window(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=1)  # type: ignore[arg-type]
@@ -298,7 +298,7 @@ def test_adaptive_planner_reuses_large_stable_window(
         0,
     )
 
-    assert candidate.stats_global_count == 512
+    assert candidate.stats_global_count == 480
     assert candidate.rejected_candidates == 0
 
 

From 5e712b876873dff00884f6764671f35f9d29b7c4 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 22:10:54 -0600
Subject: [PATCH 078/114] chore: trace adaptive trainer perf windows

---
 dev/trainer_rank_perf.py | 70 ++++++++++++++++++++++++++++------------
 1 file changed, 49 insertions(+), 21 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 52ccdbffb..7862c754f 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -60,8 +60,12 @@ def main(
     memory_sample_interval_s: float = 0.05,
     compare_target_correctness: bool = False,
     run_adapter_sanity: bool = False,
+    progress_jsonl: str = "",
     output_jsonl: str = "",
 ) -> None:
+    if progress_jsonl:
+        os.environ["ART_TRAINER_RANK_PROGRESS_JSONL"] = progress_jsonl
+
     os.environ.setdefault("ART_MEGATRON_TENSOR_MODEL_PARALLEL_SIZE", "1")
     os.environ.setdefault("ART_MEGATRON_CONTEXT_PARALLEL_SIZE", "1")
     os.environ.setdefault("ART_MEGATRON_PIPELINE_MODEL_PARALLEL_SIZE", "1")
@@ -2077,6 +2081,7 @@ def _profiled_adaptive_micro_batch_training_step_body(
     rank._validate_replicated_top_level_count(len(items))
     start = 0
     stats: list[dict[str, int | bool | float]] = []
+    step_start = time.perf_counter()
     while start < len(items):
         with _profile_adaptive_selection(rank) as select_profile:
             candidate, select_ms = _timed_cuda(
@@ -2127,31 +2132,39 @@ def unflatten_outputs() -> list[object]:
             _, backward_ms = _timed_cuda(rank, loss.backward)
         else:
             backward_ms = 0.0
-        stats.append(
-            {
-                "global_count": int(candidate.stats_global_count),
-                "local_count": int(len(candidate.inputs)),
-                "packed_tokens": int(candidate.plan.packed_tokens),
-                "logical_tokens": int(candidate.plan.logical_tokens),
-                "estimated_required_bytes": int(
-                    candidate.check.estimated_required_bytes
-                ),
-                "available_bytes": int(candidate.check.available_bytes),
-                "rejected_candidates": int(candidate.rejected_candidates),
-                "cold_start": bool(candidate.cold_start),
-                "select_ms": select_ms,
-                "execute_ms": execute_ms,
-                "unflatten_ms": unflatten_ms,
-                "loss_ms": loss_ms,
-                "backward_ms": backward_ms,
-                "optim_ms": 0.0,
-                **select_profile,
-            }
-        )
+        row = {
+            "global_count": int(candidate.stats_global_count),
+            "local_count": int(len(candidate.inputs)),
+            "packed_tokens": int(candidate.plan.packed_tokens),
+            "logical_tokens": int(candidate.plan.logical_tokens),
+            "estimated_required_bytes": int(candidate.check.estimated_required_bytes),
+            "available_bytes": int(candidate.check.available_bytes),
+            "rejected_candidates": int(candidate.rejected_candidates),
+            "cold_start": bool(candidate.cold_start),
+            "select_ms": select_ms,
+            "execute_ms": execute_ms,
+            "unflatten_ms": unflatten_ms,
+            "loss_ms": loss_ms,
+            "backward_ms": backward_ms,
+            "optim_ms": 0.0,
+            **select_profile,
+        }
+        stats.append(row)
         rank._remember_adaptive_window(
             candidate.stats_global_count,
             is_tail=start + candidate.stats_global_count >= len(items),
         )
+        _emit_adaptive_progress(
+            "target_trainer_adaptive_profile_train_step_window",
+            {
+                **row,
+                "window_index": len(stats) - 1,
+                "global_start": int(start),
+                "global_stop": int(start + candidate.stats_global_count),
+                "remembered_window": int(rank._last_global_micro_batch_size or 0),
+                "elapsed_ms": (time.perf_counter() - step_start) * 1000.0,
+            },
+        )
         start += candidate.stats_global_count
     metrics, optim_ms = _timed_cuda(
         rank, lambda: rank.optim_step(params=params, scale_grads=1.0)
@@ -2162,6 +2175,21 @@ def unflatten_outputs() -> list[object]:
     return metrics
 
 
+def _emit_adaptive_progress(event: str, row: dict[str, object]) -> None:
+    if dist.is_available() and dist.is_initialized() and dist.get_rank() != 0:
+        return
+    path = os.environ.get("ART_TRAINER_RANK_PROGRESS_JSONL")
+    if not path:
+        return
+    payload = {"event": event, **row}
+    line = json.dumps(payload, sort_keys=True)
+    print(line, flush=True)
+    progress_path = Path(path)
+    progress_path.parent.mkdir(parents=True, exist_ok=True)
+    with progress_path.open("a") as handle:
+        handle.write(line + "\n")
+
+
 @contextmanager
 def _profile_adaptive_selection(rank: TrainerRank) -> Any:
     stats = {

From 63b8a1974e76bd2c32f1b5246c7049442f25dbfc Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 22:31:51 -0600
Subject: [PATCH 079/114] chore: trace adaptive train-step windows

---
 dev/trainer_rank_perf.py | 30 ++++++++++++++++++------------
 1 file changed, 18 insertions(+), 12 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 7862c754f..335cf1e3b 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -2014,23 +2014,29 @@ def _adaptive_micro_batch_training_step_body(
 ) -> dict[str, float]:
     rank.zero_grad()
     stats: list[dict[str, int | bool]] = []
+    step_start = time.perf_counter()
     for micro_batch in rank.forward_micro_batches(requests):
         loss = _micro_batch_loss(rank, micro_batch.outputs, loss_kind=loss_kind)
         if loss.requires_grad:
             loss.backward()
-        stats.append(
+        row = {
+            "global_count": int(micro_batch.stats.global_count),
+            "local_count": int(micro_batch.stats.local_count),
+            "packed_tokens": int(micro_batch.stats.packed_tokens),
+            "logical_tokens": int(micro_batch.stats.logical_tokens),
+            "estimated_required_bytes": int(micro_batch.stats.estimated_required_bytes),
+            "available_bytes": int(micro_batch.stats.available_bytes),
+            "rejected_candidates": int(micro_batch.stats.rejected_candidates),
+            "cold_start": bool(micro_batch.stats.cold_start),
+        }
+        stats.append(row)
+        _emit_adaptive_progress(
+            "target_trainer_adaptive_train_step_window",
             {
-                "global_count": int(micro_batch.stats.global_count),
-                "local_count": int(micro_batch.stats.local_count),
-                "packed_tokens": int(micro_batch.stats.packed_tokens),
-                "logical_tokens": int(micro_batch.stats.logical_tokens),
-                "estimated_required_bytes": int(
-                    micro_batch.stats.estimated_required_bytes
-                ),
-                "available_bytes": int(micro_batch.stats.available_bytes),
-                "rejected_candidates": int(micro_batch.stats.rejected_candidates),
-                "cold_start": bool(micro_batch.stats.cold_start),
-            }
+                **row,
+                "window_index": len(stats) - 1,
+                "elapsed_ms": (time.perf_counter() - step_start) * 1000.0,
+            },
         )
     stats_sink[:] = stats
     return rank.optim_step(params=params, scale_grads=1.0)

From 2bfd1c8f6373c2ac0818b032506ab11b89228e29 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 23:33:30 -0600
Subject: [PATCH 080/114] chore: cap review block-mask validation

---
 dev/trainer_rank_review_perf.py | 32 ++++++++++++++++++++++++++++++--
 1 file changed, 30 insertions(+), 2 deletions(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index 583d1d891..4fd2af41e 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -52,6 +52,7 @@ def main(
     repeat: int = 10,
     shape_variants: int = 4,
     validate_torch: bool = True,
+    validate_torch_token_cap: int = 32768,
     run_flex: bool = True,
     flex_token_cap: int = 8192,
     flex_heads: int = 2,
@@ -88,6 +89,8 @@ def main(
         "logical_tokens": _logical_tokens(pack),
         "warmup": warmup,
         "repeat": repeat,
+        "validate_torch": validate_torch,
+        "validate_torch_token_cap": validate_torch_token_cap,
     }
 
     plan, plan_ms = _bench_cpu(
@@ -127,7 +130,12 @@ def main(
         repeat=repeat,
     )
     masks = tuple(mask for mask, _ in stage_masks)
-    if validate_torch:
+    torch_validation_skipped = _torch_validation_skip_reason(
+        validate_torch=validate_torch,
+        packed_tokens=int(pack.tokens.numel()),
+        token_cap=validate_torch_token_cap,
+    )
+    if torch_validation_skipped is None:
         for mask, slices in stage_masks:
             _assert_matches_torch_block_mask(mask, slices=slices)
     _write(
@@ -136,6 +144,7 @@ def main(
             **base,
             "case": "block_mask_build",
             "ms": mask_ms,
+            "torch_validation_skipped": torch_validation_skipped,
             **_mask_stats(masks),
         },
     )
@@ -190,7 +199,12 @@ def main(
             repeat=1,
         )
         variant_masks = tuple(mask for mask, _ in variant_stage_masks)
-        if validate_torch:
+        variant_torch_validation_skipped = _torch_validation_skip_reason(
+            validate_torch=validate_torch,
+            packed_tokens=int(variant_pack.tokens.numel()),
+            token_cap=validate_torch_token_cap,
+        )
+        if variant_torch_validation_skipped is None:
             for mask, slices in variant_stage_masks:
                 _assert_matches_torch_block_mask(mask, slices=slices)
         _write(
@@ -203,6 +217,7 @@ def main(
                 "variant_logical_tokens": _logical_tokens(variant_pack),
                 "cp_planning_ms": variant_plan_ms,
                 "block_mask_build_ms": variant_mask_ms,
+                "torch_validation_skipped": variant_torch_validation_skipped,
                 **_plan_stats(variant_plan),
                 **_mask_stats(variant_masks),
             },
@@ -813,6 +828,19 @@ def _logical_tokens(pack: SharedPrefixPack) -> int:
     return sum(int(positions.numel()) for positions in pack.positions_by_sequence)
 
 
+def _torch_validation_skip_reason(
+    *,
+    validate_torch: bool,
+    packed_tokens: int,
+    token_cap: int,
+) -> str | None:
+    if not validate_torch:
+        return "disabled"
+    if token_cap > 0 and packed_tokens > token_cap:
+        return f"packed_tokens>{token_cap}"
+    return None
+
+
 def _csv_values(value: str) -> tuple[str, ...]:
     values = tuple(part.strip() for part in value.split(",") if part.strip())
     if not values:

From 2b1220a473f8157b2c251124a7c4beead7f77f63 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Wed, 24 Jun 2026 23:43:19 -0600
Subject: [PATCH 081/114] refactor: simplify trainer rank head helpers

---
 src/art/megatron/trainer_rank.py           | 250 +++++++--------------
 tests/unit/test_trainer_rank_validation.py |  17 +-
 2 files changed, 88 insertions(+), 179 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 8d75610c2..4f1ec792a 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -624,23 +624,26 @@ def _selected_dynamic_checkpoints(
         checkpoints: Sequence[str] | None,
     ) -> tuple[str, ...]:
         if checkpoints is not None:
-            unknown = set(checkpoints) - self._checkpoint_slot_params_by_name.keys()
-            if unknown:
+            if (
+                unknown := set(checkpoints)
+                - self._checkpoint_slot_params_by_name.keys()
+            ):
                 raise ValueError(f"Unknown checkpoint slots: {sorted(unknown)}")
             return tuple(dict.fromkeys(checkpoints))
-        names = []
-        for name, params in sorted(self._checkpoint_slot_params_by_name.items()):
-            local_has_grad = any(param.grad is not None for param in params)
-            has_grad = torch.tensor(
-                int(local_has_grad),
-                device=self.device,
-                dtype=torch.int32,
-            )
-            if dist.is_available() and dist.is_initialized():
-                dist.all_reduce(has_grad, op=dist.ReduceOp.MAX)
-            if bool(has_grad.item()):
-                names.append(name)
-        return tuple(names)
+        slots = tuple(sorted(self._checkpoint_slot_params_by_name.items()))
+        if not slots:
+            return ()
+        has_grad = torch.tensor(
+            [
+                int(any(param.grad is not None for param in params))
+                for _, params in slots
+            ],
+            device=self.device,
+            dtype=torch.int32,
+        )
+        if dist.is_available() and dist.is_initialized():
+            dist.all_reduce(has_grad, op=dist.ReduceOp.MAX)
+        return tuple(name for (name, _), flag in zip(slots, has_grad.tolist()) if flag)
 
     def _dynamic_optim_step(
         self,
@@ -1455,7 +1458,10 @@ def _project_head(
                     dtype=torch.float32,
                 )
                 if item.request.top_k is None and not item.request.logits:
-                    valid_offsets = _valid_target_offsets(labels)
+                    valid = labels != -100
+                    if labels.ndim > 1:
+                        valid = valid.reshape(int(labels.shape[0]), -1).any(dim=1)
+                    valid_offsets = torch.nonzero(valid, as_tuple=False).reshape(-1)
                     if int(valid_offsets.numel()):
                         local_rows.append(positions.index_select(0, valid_offsets))
             if item.request.logits:
@@ -1513,11 +1519,11 @@ def _project_head(
                 label_rows=label_rows,
             )
 
-        target_logprobs = _anchor_disconnected_target_logprobs(
+        target_logprobs, top_k = _anchor_disconnected_outputs(
             target_logprobs,
+            top_k,
             hidden_by_row,
         )
-        top_k = _anchor_disconnected_topk(top_k, hidden_by_row)
         return [
             ForwardOutput(
                 target_logprobs=target_logprobs[index],
@@ -1576,7 +1582,8 @@ def _project_full_logits(
                 if item_logprobs is not None and labels is not None:
                     if log_z is None:
                         raise RuntimeError("target logprobs require logsumexp")
-                    item_logprobs[offsets] = _target_logprobs_from_full_logits(
+                    item_logprobs[offsets] = _call_compiled(
+                        _target_logprobs_from_full_logits,
                         selected_logits,
                         labels.index_select(0, offsets),
                         log_z.index_select(0, chunk_offsets),
@@ -1585,13 +1592,14 @@ def _project_full_logits(
                 if k is not None:
                     if log_z is None:
                         raise RuntimeError("top_k requires logsumexp")
+                    values, tokens = torch.topk(selected_logits.float(), k=k, dim=-1)
                     top_k[index] = _merge_topk(
                         top_k[index],
                         offsets,
-                        _topk_from_full_logits(
-                            selected_logits,
-                            k=k,
-                            log_z=log_z.index_select(0, chunk_offsets),
+                        TopK(
+                            logprobs=values
+                            - log_z.index_select(0, chunk_offsets).unsqueeze(1),
+                            tokens=tokens,
                         ),
                         length=int(positions.numel()),
                     )
@@ -1610,7 +1618,6 @@ def _project_vocab_parallel(
         label_rows: list[torch.Tensor | None],
     ) -> None:
         model = _language_model(self.runtime.model[0])
-        use_fused_target_ce = _can_use_fused_target_ce(items, label_rows)
         fused_target_labels = (
             _consistent_row_labels(
                 label_rows,
@@ -1618,7 +1625,8 @@ def _project_vocab_parallel(
                 row_count=int(rows.numel()),
                 device=rows.device,
             )
-            if use_fused_target_ce
+            if all(item.request.top_k is None for item in items)
+            and all(labels is None or labels.ndim == 1 for labels in label_rows)
             else None
         )
         if fused_target_labels is not None:
@@ -1667,16 +1675,9 @@ def _project_vocab_parallel(
                 if topk_stats is None
                 else None
             )
-            if topk_stats is not None:
-                local_max, local_sum, _, _ = topk_stats
-                local_max = local_max.detach()
-                global_max = _all_reduce_tensor_parallel_max(local_max)
-                global_sum = _all_reduce_tensor_parallel_sum(
-                    local_sum * torch.exp(local_max - global_max)
-                )
-                log_z = global_max + torch.log(global_sum)
-            elif logsumexp_stats is not None:
-                local_max, local_sum = logsumexp_stats
+            stats = topk_stats if topk_stats is not None else logsumexp_stats
+            if stats is not None:
+                local_max, local_sum = stats[:2]
                 local_max = local_max.detach()
                 global_max = _all_reduce_tensor_parallel_max(local_max)
                 global_sum = _all_reduce_tensor_parallel_sum(
@@ -1686,11 +1687,14 @@ def _project_vocab_parallel(
             else:
                 log_z = _vocab_parallel_log_z(local_logits)
 
-            logits_topk: tuple[torch.Tensor, torch.Tensor] | None = None
-            if logsumexp_stats is not None and max_top_k > 0:
+            local_topk: tuple[torch.Tensor, torch.Tensor] | None = None
+            if topk_stats is not None:
+                _, _, local_values, local_tokens = topk_stats
+                local_topk = (local_values, local_tokens)
+            elif logsumexp_stats is not None and max_top_k > 0:
                 local_k = min(max_top_k, int(local_logits.shape[1]))
                 local_values, local_tokens = torch.topk(local_logits, k=local_k, dim=-1)
-                logits_topk = (local_values.float(), local_tokens)
+                local_topk = (local_values.float(), local_tokens)
 
             for index, item in enumerate(items):
                 if item.request.logits:
@@ -1714,23 +1718,8 @@ def _project_vocab_parallel(
                     )
                 k = item.request.top_k
                 if k is not None:
-                    if topk_stats is not None:
-                        _, _, local_values, local_tokens = topk_stats
-                        top_k[index] = _merge_topk(
-                            top_k[index],
-                            offsets,
-                            _vocab_parallel_topk_from_local(
-                                local_values.index_select(0, chunk_offsets),
-                                local_tokens.index_select(0, chunk_offsets),
-                                k=k,
-                                log_z=selected_log_z,
-                                vocab_start=_vocab_range(local_logits)[0],
-                            ),
-                            length=item_lengths[index],
-                        )
-                        continue
-                    if logits_topk is not None:
-                        local_values, local_tokens = logits_topk
+                    if local_topk is not None:
+                        local_values, local_tokens = local_topk
                         top_k[index] = _merge_topk(
                             top_k[index],
                             offsets,
@@ -2117,14 +2106,6 @@ def _target_logprobs_from_full_logits(
     logits: torch.Tensor,
     labels: torch.Tensor,
     log_z: torch.Tensor,
-) -> torch.Tensor:
-    return _call_compiled(_target_logprobs_from_full_logits_impl, logits, labels, log_z)
-
-
-def _target_logprobs_from_full_logits_impl(
-    logits: torch.Tensor,
-    labels: torch.Tensor,
-    log_z: torch.Tensor,
 ) -> torch.Tensor:
     flat_labels = labels.clamp_min(0).reshape(int(labels.shape[0]), -1)
     target_logits = logits.gather(1, flat_labels).float().reshape(labels.shape)
@@ -2136,60 +2117,20 @@ def _vocab_parallel_target_logprobs(
     labels: torch.Tensor,
     log_z: torch.Tensor,
     *,
-    row_offsets: torch.Tensor | None = None,
+    row_offsets: torch.Tensor,
 ) -> torch.Tensor:
-    target_logits = _vocab_parallel_target_logits(
+    start, _ = _vocab_range(local_logits)
+    target_logits = _call_compiled(
+        _owned_target_logits_for_rows,
         local_logits,
         labels,
-        row_offsets=row_offsets,
+        start,
+        row_offsets,
     )
+    target_logits = _all_reduce_tensor_parallel_sum(target_logits)
     return _call_compiled(_finish_target_logprobs, target_logits, labels, log_z)
 
 
-def _vocab_parallel_target_logits(
-    local_logits: torch.Tensor,
-    labels: torch.Tensor,
-    *,
-    row_offsets: torch.Tensor | None = None,
-) -> torch.Tensor:
-    start, _ = _vocab_range(local_logits)
-    if row_offsets is None:
-        local_target_logits = _call_compiled(
-            _owned_target_logits,
-            local_logits,
-            labels,
-            start,
-        )
-    else:
-        local_target_logits = _call_compiled(
-            _owned_target_logits_for_rows,
-            local_logits,
-            labels,
-            start,
-            row_offsets,
-        )
-    return _all_reduce_tensor_parallel_sum(local_target_logits)
-
-
-def _owned_target_logits(
-    local_logits: torch.Tensor,
-    labels: torch.Tensor,
-    vocab_start: int,
-) -> torch.Tensor:
-    flat_labels = labels.reshape(int(labels.shape[0]), -1)
-    local_labels = flat_labels - vocab_start
-    owns_label = (
-        (flat_labels != -100)
-        & (local_labels >= 0)
-        & (local_labels < int(local_logits.shape[1]))
-    )
-    selected = local_logits.gather(
-        1,
-        local_labels.clamp(0, int(local_logits.shape[1]) - 1),
-    ).float()
-    return selected.masked_fill(~owns_label, 0.0).reshape(labels.shape)
-
-
 def _owned_target_logits_for_rows(
     local_logits: torch.Tensor,
     labels: torch.Tensor,
@@ -2220,24 +2161,6 @@ def _finish_target_logprobs(
     return (target_logits.float() - log_z).masked_fill(labels == -100, 0.0)
 
 
-def _valid_target_offsets(labels: torch.Tensor) -> torch.Tensor:
-    if int(labels.shape[0]) == 0:
-        return torch.empty(0, dtype=torch.long, device=labels.device)
-    valid = labels != -100
-    if labels.ndim > 1:
-        valid = valid.reshape(int(labels.shape[0]), -1).any(dim=1)
-    return torch.nonzero(valid, as_tuple=False).reshape(-1)
-
-
-def _can_use_fused_target_ce(
-    items: Sequence[_ForwardItem],
-    label_rows: Sequence[torch.Tensor | None],
-) -> bool:
-    return all(item.request.top_k is None for item in items) and all(
-        labels is None or labels.ndim == 1 for labels in label_rows
-    )
-
-
 def _consistent_row_labels(
     label_rows: Sequence[torch.Tensor | None],
     row_matches: Sequence[_RowMatch],
@@ -2296,61 +2219,38 @@ def _scatter_row_target_logprobs(
         )
 
 
-def _anchor_disconnected_target_logprobs(
+def _anchor_disconnected_outputs(
     target_logprobs: list[torch.Tensor | None],
-    hidden_by_row: torch.Tensor,
-) -> list[torch.Tensor | None]:
-    if not hidden_by_row.requires_grad:
-        return target_logprobs
-    anchor: torch.Tensor | None = None
-    anchored: list[torch.Tensor | None] = []
-    for item_logprobs in target_logprobs:
-        if item_logprobs is None or item_logprobs.requires_grad:
-            anchored.append(item_logprobs)
-            continue
-        if anchor is None:
-            anchor = _zero_graph_anchor(hidden_by_row)
-        anchored.append(item_logprobs + anchor)
-    return anchored
-
-
-def _anchor_disconnected_topk(
     top_k: list[TopK | None],
     hidden_by_row: torch.Tensor,
-) -> list[TopK | None]:
+) -> tuple[list[torch.Tensor | None], list[TopK | None]]:
     if not hidden_by_row.requires_grad:
-        return top_k
+        return target_logprobs, top_k
     anchor: torch.Tensor | None = None
-    anchored: list[TopK | None] = []
-    for item_top_k in top_k:
-        if item_top_k is None or item_top_k.logprobs.requires_grad:
-            anchored.append(item_top_k)
-            continue
+
+    def anchor_tensor(tensor: torch.Tensor) -> torch.Tensor:
+        nonlocal anchor
+        if tensor.requires_grad:
+            return tensor
         if anchor is None:
-            anchor = _zero_graph_anchor(hidden_by_row)
-        anchored.append(
-            TopK(
-                logprobs=item_top_k.logprobs + anchor,
+            anchor = hidden_by_row.reshape(-1)[:1].float().sum() * 0.0
+        return tensor + anchor
+
+    return (
+        [
+            None if item_logprobs is None else anchor_tensor(item_logprobs)
+            for item_logprobs in target_logprobs
+        ],
+        [
+            None
+            if item_top_k is None
+            else TopK(
+                logprobs=anchor_tensor(item_top_k.logprobs),
                 tokens=item_top_k.tokens,
             )
-        )
-    return anchored
-
-
-def _zero_graph_anchor(hidden_by_row: torch.Tensor) -> torch.Tensor:
-    return hidden_by_row.reshape(-1)[:1].float().sum() * 0.0
-
-
-def _topk_from_full_logits(
-    logits: torch.Tensor,
-    *,
-    k: int,
-    log_z: torch.Tensor,
-) -> TopK:
-    if k > int(logits.shape[1]):
-        raise ValueError(f"top_k={k} exceeds vocabulary size {int(logits.shape[1])}")
-    values, tokens = torch.topk(logits.float(), k=k, dim=-1)
-    return TopK(logprobs=values - log_z.unsqueeze(1), tokens=tokens)
+            for item_top_k in top_k
+        ],
+    )
 
 
 def _vocab_parallel_topk(
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index f8b0f52db..d05e211fd 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -8,10 +8,11 @@
 from art.megatron.trainer_rank import (
     ForwardInput,
     ForwardOutput,
+    TopK,
     TrainerRank,
     TrainerRankMemoryError,
     Unset,
-    _anchor_disconnected_target_logprobs,
+    _anchor_disconnected_outputs,
     _MemoryCheck,
     _validate_top_k,
 )
@@ -371,15 +372,23 @@ def _preprocess(self, *args: object, **kwargs: object) -> None:
     assert plan.output_bytes == target_bytes + topk_bytes + logits_bytes + hidden_bytes
 
 
-def test_disconnected_target_logprobs_keep_zero_graph_anchor() -> None:
+def test_disconnected_outputs_keep_zero_graph_anchor() -> None:
     hidden = torch.randn(2, 3, requires_grad=True)
     disconnected = torch.zeros(4)
+    top_k = TopK(logprobs=torch.zeros(4, 2), tokens=torch.ones(4, 2, dtype=torch.long))
 
-    (anchored,) = _anchor_disconnected_target_logprobs([disconnected], hidden)
+    (anchored,), (anchored_top_k,) = _anchor_disconnected_outputs(
+        [disconnected],
+        [top_k],
+        hidden,
+    )
 
     assert anchored is not None
     assert anchored.requires_grad
+    assert anchored_top_k is not None
+    assert anchored_top_k.logprobs.requires_grad
     torch.testing.assert_close(anchored, disconnected)
-    anchored.sum().backward()
+    torch.testing.assert_close(anchored_top_k.logprobs, top_k.logprobs)
+    (anchored.sum() + anchored_top_k.logprobs.sum()).backward()
     assert hidden.grad is not None
     torch.testing.assert_close(hidden.grad, torch.zeros_like(hidden))

From a4ab20911ea922d67a9627d7c2dc04be06e26622 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 00:13:55 -0600
Subject: [PATCH 082/114] perf: bound adaptive memory profile growth

---
 src/art/megatron/gdn/operator.py             |  1 +
 src/art/megatron/trainer_rank.py             | 77 ++++++++++++--------
 tests/unit/test_trainer_rank_validation.py   | 58 ++++++++++++++-
 tests/unit/test_trainer_rank_weird_shapes.py |  4 +-
 4 files changed, 107 insertions(+), 33 deletions(-)

diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index 93ff13b5d..5fc5c757a 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -301,6 +301,7 @@ def _empty_safe_norm_forward(
     return original_forward(input_, *args, **kwargs)
 
 
+@torch.compiler.disable
 def _shared_prefix_forward(
     self: Any,
     hidden_states: Tensor,
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 4f1ec792a..9d5d0d87e 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -61,6 +61,7 @@ class TopK:
 R = TypeVar("R")
 
 _COMPILED_FUNCTIONS: dict[Callable[..., object], Callable[..., object]] = {}
+_MEMORY_PROFILE_TRUST_GROWTH = 8
 
 
 class _Unset:
@@ -154,6 +155,12 @@ class _MemoryCheck:
     fits: bool
 
 
+@dataclass(frozen=True)
+class _MemoryProfile:
+    bytes_per_token: float
+    packed_tokens: int
+
+
 @dataclass(frozen=True)
 class _CandidateMicroBatch(Generic[ForwardInputsT]):
     inputs: Sequence[ForwardInputsT]
@@ -282,7 +289,7 @@ def __init__(
         self._checkpoint_slot_params_by_name: dict[
             str, tuple[torch.nn.Parameter, ...]
         ] = {}
-        self._memory_profiles: dict[_MemorySignature, float] = {}
+        self._memory_profiles: dict[_MemorySignature, _MemoryProfile] = {}
         self._adaptive_plan_cache: dict[_AdaptivePlanCacheKey, _FlatForwardPlan] = {}
         self._adaptive_plan_cache_top_level_ids: tuple[int, ...] = ()
         self._adaptive_estimate_cache: dict[
@@ -796,6 +803,8 @@ def snap_width(width: int) -> int:
             width = clamp_width(width)
             if width in (min_width, remaining) or granularity <= 1:
                 return width
+            if width < granularity:
+                return width
             return max(min_width, (width // granularity) * granularity)
 
         def local_slice(width: int) -> tuple[tuple[int, ...], list[ForwardInputsT]]:
@@ -867,7 +876,7 @@ def probe(
         ) -> tuple[bool, _MemoryCheck | None]:
             estimated = estimate_check(width)
             if estimated is not None:
-                return estimated[0].fits, estimated[0]
+                return estimated[1] and estimated[0].fits, estimated[0]
             item = candidate(width)
             return item.check.fits, None
 
@@ -895,14 +904,21 @@ def search_below(failed_width: int) -> None:
 
         stable_width = self._last_global_micro_batch_size
         if stable_width is not None and stable_width >= max(64, granularity * 2):
-            stable_width = self._balanced_adaptive_window(
-                capacity=stable_width,
-                remaining=remaining,
-                min_width=min_width,
-                granularity=granularity,
-            )
+            stable_capacity = stable_width
+            stable_width = clamp_width(stable_capacity)
             fits, check = probe(stable_width)
             if fits:
+                grow_multiplier = 4 if stable_capacity < 256 else 2
+                grow_capacity = min(remaining, stable_capacity * grow_multiplier)
+                if remaining > grow_capacity:
+                    grow_width = clamp_width(grow_capacity)
+                    if grow_width > stable_width:
+                        grow_fits, grow_check = probe(grow_width)
+                        if grow_fits:
+                            return candidate(grow_width, grow_check)
+                        rejected += 1
+                        search_below(grow_width)
+                        return candidate(best_width, best_check)
                 return candidate(stable_width, check)
             rejected += 1
             search_below(stable_width)
@@ -938,22 +954,6 @@ def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
         base = 8 if remaining < 256 else 32
         return max(1, ((base + dp_size - 1) // dp_size) * dp_size)
 
-    @staticmethod
-    def _balanced_adaptive_window(
-        *,
-        capacity: int,
-        remaining: int,
-        min_width: int,
-        granularity: int,
-    ) -> int:
-        windows = max(1, (remaining + capacity - 1) // capacity)
-        if windows == 1:
-            return max(min_width, remaining)
-        raw = (remaining + windows - 1) // windows
-        if granularity > 1:
-            raw = ((raw + granularity - 1) // granularity) * granularity
-        return max(min_width, min(capacity, raw, remaining))
-
     def _remember_adaptive_window(self, width: int, *, is_tail: bool) -> None:
         if is_tail:
             return
@@ -1291,10 +1291,13 @@ def _estimate_required_memory_bytes_from_values(
             return output_bytes
         profiled = self._memory_profiles.get(signature)
         static_compute = self._static_compute_memory_bytes_for_tokens(packed_tokens)
-        if profiled is None:
+        if profiled is None or not _memory_profile_covers(
+            profiled,
+            packed_tokens=packed_tokens,
+        ):
             compute = static_compute
         else:
-            compute = max(static_compute, int(profiled * packed_tokens))
+            compute = max(static_compute, int(profiled.bytes_per_token * packed_tokens))
         return int((output_bytes + compute) * self.memory_safety_factor)
 
     def _static_compute_memory_bytes_for_tokens(self, packed_tokens: int) -> int:
@@ -1330,7 +1333,11 @@ def _all_ranks_have_memory_profile(
         packed_tokens: int,
         signature: _MemorySignature,
     ) -> bool:
-        local = packed_tokens <= 0 or signature in self._memory_profiles
+        profile = self._memory_profiles.get(signature)
+        local = packed_tokens <= 0 or (
+            profile is not None
+            and _memory_profile_covers(profile, packed_tokens=packed_tokens)
+        )
         if dist.is_available() and dist.is_initialized():
             value = torch.tensor(
                 int(local),
@@ -1349,8 +1356,16 @@ def _update_memory_profile(
         compute_delta = max(0, peak_delta_bytes - plan.output_bytes)
         bytes_per_token = compute_delta / max(1, plan.packed_tokens)
         previous = self._memory_profiles.get(plan.signature)
-        if previous is None or bytes_per_token > previous:
-            self._memory_profiles[plan.signature] = bytes_per_token
+        self._memory_profiles[plan.signature] = _MemoryProfile(
+            bytes_per_token=max(
+                bytes_per_token,
+                0.0 if previous is None else previous.bytes_per_token,
+            ),
+            packed_tokens=max(
+                plan.packed_tokens,
+                0 if previous is None else previous.packed_tokens,
+            ),
+        )
 
     def _forward_item(self, request: AnyForwardInput) -> _ForwardItem:
         if request.top_k is not None:
@@ -2007,6 +2022,10 @@ def _request_mix_key(request: AnyForwardInput) -> str:
     return "+".join(parts) if parts else "inactive"
 
 
+def _memory_profile_covers(profile: _MemoryProfile, *, packed_tokens: int) -> bool:
+    return profile.packed_tokens * _MEMORY_PROFILE_TRUST_GROWTH >= packed_tokens
+
+
 def _pack_forward_items(
     items: Sequence[_ForwardItem],
     *,
diff --git a/tests/unit/test_trainer_rank_validation.py b/tests/unit/test_trainer_rank_validation.py
index d05e211fd..deaf25886 100644
--- a/tests/unit/test_trainer_rank_validation.py
+++ b/tests/unit/test_trainer_rank_validation.py
@@ -14,6 +14,7 @@
     Unset,
     _anchor_disconnected_outputs,
     _MemoryCheck,
+    _MemoryProfile,
     _validate_top_k,
 )
 
@@ -148,7 +149,10 @@ def test_forward_micro_batches_ramps_after_first_success(
     monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
 
     def run(plan, **_kwargs):
-        trainer._memory_profiles[plan.signature] = 0.0
+        trainer._memory_profiles[plan.signature] = _MemoryProfile(
+            bytes_per_token=0.0,
+            packed_tokens=plan.packed_tokens,
+        )
         return [
             ForwardOutput(None, None, None, None) for _ in range(plan.request_count)
         ]
@@ -165,6 +169,24 @@ def run(plan, **_kwargs):
     assert not batches[1].stats.cold_start
 
 
+def test_forward_micro_batches_does_not_overtrust_tiny_memory_profile(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+    inputs = [_target_request(i) for i in range(64)]
+    tiny_plan = trainer._plan_flat_forward([inputs[0]])
+    trainer._memory_profiles[tiny_plan.signature] = _MemoryProfile(
+        bytes_per_token=0.0,
+        packed_tokens=tiny_plan.packed_tokens,
+    )
+
+    candidate = trainer._select_next_micro_batch(inputs, 0)
+
+    assert candidate.stats_global_count == 8
+    assert candidate.plan.packed_tokens == 16
+
+
 def test_forward_micro_batches_shrinks_to_largest_fitting_window(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:
@@ -240,10 +262,42 @@ def test_forward_micro_batches_tail_does_not_reset_stable_window(
         trainer.forward_micro_batches([_target_request(i) for i in range(130)])
     )
 
-    assert [batch.stats.global_count for batch in batches] == [48, 48, 34]
+    assert [batch.stats.global_count for batch in batches] == [64, 64, 2]
     assert trainer._last_global_micro_batch_size == 64
 
 
+def test_forward_micro_batches_grows_small_stable_window_when_work_remains(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    trainer = TrainerRank(_runtime())  # type: ignore[arg-type]
+    trainer._last_global_micro_batch_size = 64
+    monkeypatch.setattr(trainer, "_dp_rank_and_size", lambda: (0, 1))
+    monkeypatch.setattr(
+        trainer, "_all_ranks_have_memory_profile", lambda **_kwargs: True
+    )
+    monkeypatch.setattr(
+        trainer,
+        "_estimate_required_memory_bytes_from_values",
+        lambda **kwargs: kwargs["packed_tokens"],
+    )
+    monkeypatch.setattr(
+        trainer,
+        "_memory_check_required",
+        lambda required: _MemoryCheck(
+            estimated_required_bytes=required,
+            available_bytes=512,
+            fits=required <= 512,
+        ),
+    )
+
+    candidate = trainer._select_next_micro_batch(
+        [_target_request(i) for i in range(512)],
+        0,
+    )
+
+    assert candidate.stats_global_count == 256
+
+
 def test_forward_micro_batches_reuses_cached_candidate_plans(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 8606d0dfb..0ebee9630 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -271,7 +271,7 @@ def check(required):
     assert candidate.rejected_candidates <= 8
 
 
-def test_adaptive_planner_balances_large_stable_window(
+def test_adaptive_planner_reuses_large_stable_window(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:
     rank = TrainerRank(_runtime(), shared_prefix_max_depth=1)  # type: ignore[arg-type]
@@ -298,7 +298,7 @@ def test_adaptive_planner_balances_large_stable_window(
         0,
     )
 
-    assert candidate.stats_global_count == 480
+    assert candidate.stats_global_count == 512
     assert candidate.rejected_candidates == 0
 
 

From c4f1f6ee5706deec96dbda5c6f76a4f6195c0d7b Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 01:51:43 -0600
Subject: [PATCH 083/114] perf: speed shared-prefix common-prefix scan

---
 src/art/megatron/shared_prefix_packing.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index 9255053b7..9716d20d7 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -167,9 +167,15 @@ def emit(
 
     def shared_end(indices: tuple[int, ...], start: int) -> int:
         end = min(lengths[index] for index in indices)
+        low = high = rows[indices[0]]
+        for index in indices[1:]:
+            row = rows[index]
+            if row < low:
+                low = row
+            elif row > high:
+                high = row
         while start < end:
-            token = rows[indices[0]][start]
-            if any(rows[index][start] != token for index in indices[1:]):
+            if low[start] != high[start]:
                 break
             start += 1
         return start

From 6958ca13245148b1328a39d7d342c33242fa44d9 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 02:07:32 -0600
Subject: [PATCH 084/114] chore: add review perf thresholds

---
 dev/trainer_rank_review_perf.py | 11 +++++++++++
 1 file changed, 11 insertions(+)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index 4fd2af41e..f6df0c3a3 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -58,6 +58,8 @@ def main(
     flex_heads: int = 2,
     flex_head_dim: int = 128,
     flex_mask_variants: str = "current,causal_abs_only",
+    max_block_mask_build_ms: float | None = None,
+    max_cp_planning_cold_ms: float | None = None,
     output_jsonl: Path = Path(".local/trainer_rank_review/block_mask_flex.jsonl"),
 ) -> None:
     if warmup < 0 or repeat < 1:
@@ -148,6 +150,8 @@ def main(
             **_mask_stats(masks),
         },
     )
+    _check_threshold("block_mask_build", mask_ms, max_block_mask_build_ms)
+    _check_threshold("cp_planning_cold", plan_ms, max_cp_planning_cold_ms)
 
     if run_flex:
         for record in _flex_records(
@@ -855,5 +859,12 @@ def _write(path: Path, payload: dict[str, object]) -> None:
     print(line, flush=True)
 
 
+def _check_threshold(name: str, value_ms: float, limit_ms: float | None) -> None:
+    if limit_ms is not None and float(value_ms) > float(limit_ms):
+        raise RuntimeError(
+            f"{name} took {float(value_ms):.3f}ms, exceeding {float(limit_ms):.3f}ms"
+        )
+
+
 if __name__ == "__main__":
     typer.run(main)

From d896cd0ce85a5643159d02ea89a33aeab63271ab Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 02:10:58 -0600
Subject: [PATCH 085/114] refactor: simplify block-mask interval refinement

---
 .../megatron/context_parallel/block_mask.py   | 218 ++++--------------
 1 file changed, 47 insertions(+), 171 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 121dcae83..8661787ea 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -25,26 +25,6 @@ class PreparedBlockMaskContext:
     max_depth: int
 
 
-@dataclass(frozen=True, slots=True)
-class _QBlockState:
-    abs_values: np.ndarray
-    enter_values: np.ndarray
-    min_abs: int
-    max_abs: int
-    min_enter: int
-    max_enter: int
-    all_valid: bool
-
-
-@dataclass(frozen=True, slots=True)
-class _KBlockState:
-    max_abs: int
-    max_enter: int
-    min_exit: int
-    intervals: tuple[tuple[int, int, int], ...]
-    all_valid: bool
-
-
 def _build_interval_mask_mod(
     *,
     q_abs: np.ndarray,
@@ -116,134 +96,6 @@ def _select_with_invalid_np(
     return selected
 
 
-def _build_q_block_state(
-    *,
-    q_abs: np.ndarray,
-    q_enter: np.ndarray,
-    q_block: int,
-    block_idx: int,
-) -> _QBlockState:
-    start = int(block_idx) * q_block
-    end = min((int(block_idx) + 1) * q_block, int(q_abs.size))
-    abs_block = q_abs[start:end]
-    enter_block = q_enter[start:end]
-    valid = (abs_block >= 0) & (enter_block >= 0)
-    all_valid = bool(valid.all()) and int(abs_block.size) == int(q_block)
-    if not bool(valid.any()):
-        return _QBlockState(
-            abs_values=np.empty(0, dtype=np.int64),
-            enter_values=np.empty(0, dtype=np.int64),
-            min_abs=_INVALID_ABS,
-            max_abs=_INVALID_ABS,
-            min_enter=_INVALID_ENTER,
-            max_enter=_INVALID_ENTER,
-            all_valid=False,
-        )
-    valid_abs = abs_block[valid]
-    valid_enter = enter_block[valid]
-    return _QBlockState(
-        abs_values=valid_abs,
-        enter_values=valid_enter,
-        min_abs=int(valid_abs.min()),
-        max_abs=int(valid_abs.max()),
-        min_enter=int(valid_enter.min()),
-        max_enter=int(valid_enter.max()),
-        all_valid=all_valid,
-    )
-
-
-def _build_k_block_state(
-    *,
-    k_abs: np.ndarray,
-    k_enter: np.ndarray,
-    k_exit: np.ndarray,
-    k_block: int,
-    block_idx: int,
-) -> _KBlockState:
-    start = int(block_idx) * k_block
-    end = min((int(block_idx) + 1) * k_block, int(k_abs.size))
-    abs_block = k_abs[start:end]
-    enter_block = k_enter[start:end]
-    exit_block = k_exit[start:end]
-    valid = (abs_block >= 0) & (enter_block >= 0) & (exit_block > enter_block)
-    all_valid = bool(valid.all()) and int(abs_block.size) == int(k_block)
-    if not bool(valid.any()):
-        return _KBlockState(
-            max_abs=_INVALID_ABS,
-            max_enter=_INVALID_ENTER,
-            min_exit=_INVALID_EXIT,
-            intervals=(),
-            all_valid=False,
-        )
-    valid_abs = abs_block[valid]
-    valid_enter = enter_block[valid]
-    valid_exit = exit_block[valid]
-    if bool(
-        (valid_enter == valid_enter[0]).all() and (valid_exit == valid_exit[0]).all()
-    ):
-        intervals = ((int(valid_enter[0]), int(valid_exit[0]), int(valid_abs.min())),)
-    else:
-        min_abs_by_interval: dict[tuple[int, int], int] = {}
-        for abs_value, enter_value, exit_value in zip(
-            valid_abs,
-            valid_enter,
-            valid_exit,
-            strict=True,
-        ):
-            interval = (int(enter_value), int(exit_value))
-            prior = min_abs_by_interval.get(interval)
-            min_abs_by_interval[interval] = (
-                int(abs_value) if prior is None else min(prior, int(abs_value))
-            )
-        intervals = tuple(
-            (enter, exit, min_abs)
-            for (enter, exit), min_abs in min_abs_by_interval.items()
-        )
-    return _KBlockState(
-        max_abs=int(valid_abs.max()),
-        max_enter=int(valid_enter.max()),
-        min_exit=int(valid_exit.min()),
-        intervals=intervals,
-        all_valid=all_valid,
-    )
-
-
-def _interval_block_has_any(
-    *,
-    q_state: _QBlockState,
-    k_state: _KBlockState,
-) -> bool:
-    if int(q_state.abs_values.size) == 0 or not k_state.intervals:
-        return False
-    for enter, exit, min_abs in k_state.intervals:
-        if q_state.max_abs < min_abs:
-            continue
-        in_subtree = (q_state.enter_values >= enter) & (q_state.enter_values < exit)
-        if (
-            bool(in_subtree.any())
-            and int(q_state.abs_values[in_subtree].max()) >= min_abs
-        ):
-            return True
-    return False
-
-
-def _interval_block_state(
-    *,
-    q_state: _QBlockState,
-    k_state: _KBlockState,
-) -> tuple[bool, bool]:
-    has_any = _interval_block_has_any(q_state=q_state, k_state=k_state)
-    if not has_any:
-        return False, False
-    if not q_state.all_valid or not k_state.all_valid:
-        return True, False
-    causal_full = q_state.min_abs >= k_state.max_abs
-    interval_full = (
-        k_state.max_enter <= q_state.min_enter and q_state.max_enter < k_state.min_exit
-    )
-    return True, bool(causal_full and interval_full)
-
-
 def _refine_interval_blocks(
     *,
     partial_blocks: np.ndarray,
@@ -360,34 +212,58 @@ def _refine_interval_blocks(
         partial_blocks[single_q, single_k] = has_any & ~is_full
         full_blocks[single_q, single_k] = is_full
 
-    q_state_cache: dict[int, _QBlockState] = {}
-    k_state_cache: dict[int, _KBlockState] = {}
+    intervals_by_k: dict[int, tuple[tuple[int, int, int], ...]] = {}
+
+    def k_intervals(k_idx: int) -> tuple[tuple[int, int, int], ...]:
+        cached = intervals_by_k.get(k_idx)
+        if cached is not None:
+            return cached
+        min_abs_by_interval: dict[tuple[int, int], int] = {}
+        for abs_value, enter_value, exit_value in zip(
+            k_abs_blocks[k_idx, k_valid[k_idx]],
+            k_enter_blocks[k_idx, k_valid[k_idx]],
+            k_exit_blocks[k_idx, k_valid[k_idx]],
+            strict=True,
+        ):
+            key = (int(enter_value), int(exit_value))
+            prior = min_abs_by_interval.get(key)
+            min_abs_by_interval[key] = (
+                int(abs_value) if prior is None else min(prior, int(abs_value))
+            )
+        cached = tuple(
+            (enter, exit, min_abs)
+            for (enter, exit), min_abs in min_abs_by_interval.items()
+        )
+        intervals_by_k[k_idx] = cached
+        return cached
+
     for q_idx, k_idx in zip(
         q_indices[~single_pair],
         k_indices[~single_pair],
         strict=True,
     ):
-        q_state = q_state_cache.get(int(q_idx))
-        if q_state is None:
-            q_state = _build_q_block_state(
-                q_abs=q_abs,
-                q_enter=q_enter,
-                q_block=q_block,
-                block_idx=int(q_idx),
-            )
-            q_state_cache[int(q_idx)] = q_state
-        k_state = k_state_cache.get(int(k_idx))
-        if k_state is None:
-            k_state = _build_k_block_state(
-                k_abs=k_abs,
-                k_enter=k_enter,
-                k_exit=k_exit,
-                k_block=k_block,
-                block_idx=int(k_idx),
-            )
-            k_state_cache[int(k_idx)] = k_state
-        has_any, is_full = _interval_block_state(q_state=q_state, k_state=k_state)
-        partial_blocks[q_idx, k_idx] = bool(has_any and not is_full)
+        q_valid_row = q_valid[q_idx]
+        intervals = k_intervals(int(k_idx))
+        has_any = False
+        if bool(q_valid_row.any()) and intervals:
+            q_abs_row = q_abs_blocks[q_idx]
+            q_enter_row = q_enter_blocks[q_idx]
+            for enter, exit, min_abs in intervals:
+                in_subtree = q_valid_row & (q_enter_row >= enter) & (q_enter_row < exit)
+                if bool(in_subtree.any()) and int(q_abs_row[in_subtree].max()) >= int(
+                    min_abs
+                ):
+                    has_any = True
+                    break
+        is_full = (
+            has_any
+            and bool(q_all_valid[q_idx])
+            and bool(k_all_valid[k_idx])
+            and int(q_min_abs[q_idx]) >= int(k_max_abs[k_idx])
+            and int(k_max_enter[k_idx]) <= int(q_min_enter[q_idx])
+            and int(q_max_enter[q_idx]) < int(k_min_exit[k_idx])
+        )
+        partial_blocks[q_idx, k_idx] = has_any and not is_full
         full_blocks[q_idx, k_idx] = bool(is_full)
 
 

From c297a3b9bbb64b57b061b998fb3d0283d5baf0a4 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 02:19:13 -0600
Subject: [PATCH 086/114] refactor: unify trainer rank local stats kernels

---
 src/art/megatron/trainer_rank.py      |   6 +-
 src/art/megatron/trainer_rank_topk.py | 273 +++++---------------------
 2 files changed, 50 insertions(+), 229 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 9d5d0d87e..a9363fea6 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -2308,7 +2308,7 @@ def _try_triton_local_topk_stats(
     try:
         from art.megatron.trainer_rank_topk import local_topk_stats
 
-        stats = local_topk_stats(
+        return local_topk_stats(
             local_logits,
             k=min(k, int(local_logits.shape[1])),
         )
@@ -2316,7 +2316,6 @@ def _try_triton_local_topk_stats(
         if _triton_topk_strict():
             raise
         return None
-    return stats.local_max, stats.local_sum, stats.values, stats.tokens
 
 
 def _try_triton_local_logsumexp_stats(
@@ -2331,12 +2330,11 @@ def _try_triton_local_logsumexp_stats(
     try:
         from art.megatron.trainer_rank_topk import local_logsumexp_stats
 
-        stats = local_logsumexp_stats(local_logits)
+        return local_logsumexp_stats(local_logits)
     except Exception:
         if _triton_topk_strict():
             raise
         return None
-    return stats.local_max, stats.local_sum
 
 
 def _triton_topk_disabled() -> bool:
diff --git a/src/art/megatron/trainer_rank_topk.py b/src/art/megatron/trainer_rank_topk.py
index 77c27fb4c..046f225e6 100644
--- a/src/art/megatron/trainer_rank_topk.py
+++ b/src/art/megatron/trainer_rank_topk.py
@@ -1,29 +1,17 @@
 from __future__ import annotations
 
-from dataclasses import dataclass
 from typing import Any
 
 import torch
 import triton
 import triton.language as tl
 
-
-@dataclass(frozen=True)
-class LocalTopKStats:
-    local_max: torch.Tensor
-    local_sum: torch.Tensor
-    values: torch.Tensor
-    tokens: torch.Tensor
-
-
-@dataclass(frozen=True)
-class LocalLogSumExpStats:
-    local_max: torch.Tensor
-    local_sum: torch.Tensor
+type LocalTopKStats = tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+type LocalLogSumExpStats = tuple[torch.Tensor, torch.Tensor]
 
 
 @triton.jit
-def _topk_stage1_kernel(
+def _stats_stage1_kernel(
     logits_ptr,
     partial_max_ptr,
     partial_sum_ptr,
@@ -70,7 +58,7 @@ def _topk_stage1_kernel(
 
 
 @triton.jit
-def _topk_stage2_kernel(
+def _stats_stage2_kernel(
     partial_max_ptr,
     partial_sum_ptr,
     partial_values_ptr,
@@ -104,91 +92,34 @@ def _topk_stage2_kernel(
     tl.store(local_max_ptr + row, row_max)
     tl.store(local_sum_ptr + row, row_sum)
 
-    candidate_offsets = tl.arange(0, block_candidates)
-    candidate_mask = candidate_offsets < n_blocks * k
-    candidate_base = row * n_blocks * k
-    candidates = tl.load(
-        partial_values_ptr + candidate_base + candidate_offsets,
-        mask=candidate_mask,
-        other=-float("inf"),
-    )
-    work = candidates
-    for slot in tl.static_range(0, k):
-        top_value, top_index = tl.max(
-            work,
-            axis=0,
-            return_indices=True,
-            return_indices_tie_break_left=True,
-        )
-        output_offset = row * k + slot
-        tl.store(values_ptr + output_offset, top_value)
-        tl.store(
-            tokens_ptr + output_offset,
-            tl.load(partial_tokens_ptr + candidate_base + top_index),
+    if k > 0:
+        candidate_offsets = tl.arange(0, block_candidates)
+        candidate_mask = candidate_offsets < n_blocks * k
+        candidate_base = row * n_blocks * k
+        candidates = tl.load(
+            partial_values_ptr + candidate_base + candidate_offsets,
+            mask=candidate_mask,
+            other=-float("inf"),
         )
-        work = tl.where(candidate_offsets == top_index, -float("inf"), work)
-
-
-@triton.jit
-def _logsumexp_stage1_kernel(
-    logits_ptr,
-    partial_max_ptr,
-    partial_sum_ptr,
-    stride_row: tl.constexpr,
-    vocab_size: tl.constexpr,
-    n_blocks: tl.constexpr,
-    block_v: tl.constexpr,
-):
-    row = tl.program_id(0)
-    block = tl.program_id(1)
-    offsets = block * block_v + tl.arange(0, block_v)
-    mask = offsets < vocab_size
-    values = tl.load(
-        logits_ptr + row * stride_row + offsets,
-        mask=mask,
-        other=-float("inf"),
-    ).to(tl.float32)
-
-    block_max = tl.max(values, axis=0)
-    partial_offset = row * n_blocks + block
-    tl.store(partial_max_ptr + partial_offset, block_max)
-    tl.store(
-        partial_sum_ptr + partial_offset, tl.sum(tl.exp(values - block_max), axis=0)
-    )
-
-
-@triton.jit
-def _logsumexp_stage2_kernel(
-    partial_max_ptr,
-    partial_sum_ptr,
-    local_max_ptr,
-    local_sum_ptr,
-    n_blocks: tl.constexpr,
-    block_b: tl.constexpr,
-):
-    row = tl.program_id(0)
-    block_offsets = tl.arange(0, block_b)
-    block_mask = block_offsets < n_blocks
-    partial_base = row * n_blocks
-    block_max = tl.load(
-        partial_max_ptr + partial_base + block_offsets,
-        mask=block_mask,
-        other=-float("inf"),
-    )
-    row_max = tl.max(block_max, axis=0)
-    block_sum = tl.load(
-        partial_sum_ptr + partial_base + block_offsets,
-        mask=block_mask,
-        other=0.0,
-    )
-    tl.store(local_max_ptr + row, row_max)
-    tl.store(
-        local_sum_ptr + row, tl.sum(block_sum * tl.exp(block_max - row_max), axis=0)
-    )
+        work = candidates
+        for slot in tl.static_range(0, k):
+            top_value, top_index = tl.max(
+                work,
+                axis=0,
+                return_indices=True,
+                return_indices_tie_break_left=True,
+            )
+            output_offset = row * k + slot
+            tl.store(values_ptr + output_offset, top_value)
+            tl.store(
+                tokens_ptr + output_offset,
+                tl.load(partial_tokens_ptr + candidate_base + top_index),
+            )
+            work = tl.where(candidate_offsets == top_index, -float("inf"), work)
 
 
 @triton.jit
-def _topk_backward_kernel(
+def _stats_backward_kernel(
     logits_ptr,
     local_max_ptr,
     tokens_ptr,
@@ -221,37 +152,13 @@ def _topk_backward_kernel(
     tl.store(grad_logits_ptr + row * stride_row + offsets, grad, mask=mask)
 
 
-@triton.jit
-def _logsumexp_backward_kernel(
-    logits_ptr,
-    local_max_ptr,
-    grad_sum_ptr,
-    grad_logits_ptr,
-    stride_row: tl.constexpr,
-    vocab_size: tl.constexpr,
-    block_v: tl.constexpr,
-):
-    row = tl.program_id(0)
-    block = tl.program_id(1)
-    offsets = block * block_v + tl.arange(0, block_v)
-    mask = offsets < vocab_size
-    logits = tl.load(
-        logits_ptr + row * stride_row + offsets,
-        mask=mask,
-        other=-float("inf"),
-    ).to(tl.float32)
-    local_max = tl.load(local_max_ptr + row)
-    grad = tl.load(grad_sum_ptr + row).to(tl.float32) * tl.exp(logits - local_max)
-    tl.store(grad_logits_ptr + row * stride_row + offsets, grad, mask=mask)
-
-
-class _LocalTopKStatsFunction(torch.autograd.Function):
+class _LocalStatsFunction(torch.autograd.Function):
     @staticmethod
     def forward(ctx, local_logits: torch.Tensor, k: int):
-        stats = _local_topk_stats_forward(local_logits, k=k)
-        ctx.save_for_backward(local_logits, stats.local_max, stats.tokens)
+        local_max, local_sum, values, tokens = _local_stats_forward(local_logits, k=k)
+        ctx.save_for_backward(local_logits, local_max, tokens)
         ctx.k = k
-        return stats.local_max, stats.local_sum, stats.values, stats.tokens
+        return local_max, local_sum, values, tokens
 
     @staticmethod
     def backward(ctx: Any, *grad_outputs: Any) -> Any:
@@ -274,7 +181,7 @@ def backward(ctx: Any, *grad_outputs: Any) -> Any:
             )
 
         grad_logits = torch.empty_like(logits)
-        _topk_backward_kernel[(rows, n_blocks)](
+        _stats_backward_kernel[(rows, n_blocks)](
             logits,
             local_max,
             tokens,
@@ -290,40 +197,6 @@ def backward(ctx: Any, *grad_outputs: Any) -> Any:
         return grad_logits, None
 
 
-class _LocalLogSumExpStatsFunction(torch.autograd.Function):
-    @staticmethod
-    def forward(ctx, local_logits: torch.Tensor):
-        stats = _local_logsumexp_stats_forward(local_logits)
-        ctx.save_for_backward(local_logits, stats.local_max)
-        return stats.local_max, stats.local_sum
-
-    @staticmethod
-    def backward(ctx: Any, *grad_outputs: Any) -> Any:
-        grad_local_max, grad_local_sum = grad_outputs
-        del grad_local_max
-        logits, local_max = ctx.saved_tensors
-        rows = int(logits.shape[0])
-        vocab_size = int(logits.shape[1])
-        block_v = 4096
-        n_blocks = triton.cdiv(vocab_size, block_v)
-
-        if grad_local_sum is None:
-            grad_local_sum = torch.zeros_like(local_max)
-
-        grad_logits = torch.empty_like(logits)
-        _logsumexp_backward_kernel[(rows, n_blocks)](
-            logits,
-            local_max,
-            grad_local_sum.contiguous(),
-            grad_logits,
-            logits.stride(0),
-            vocab_size,  # ty: ignore[invalid-argument-type]
-            block_v,  # ty: ignore[invalid-argument-type]
-            num_warps=8,  # ty: ignore[unknown-argument]
-        )
-        return grad_logits
-
-
 def _check_local_logits(local_logits: torch.Tensor) -> torch.Tensor:
     if local_logits.ndim != 2:
         raise ValueError(
@@ -334,9 +207,9 @@ def _check_local_logits(local_logits: torch.Tensor) -> torch.Tensor:
     return local_logits.contiguous()
 
 
-def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTopKStats:
+def _local_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTopKStats:
     logits = _check_local_logits(local_logits)
-    if k < 1 or k > int(local_logits.shape[1]):
+    if k < 0 or k > int(local_logits.shape[1]):
         raise ValueError(
             f"k={k} is outside local vocab size {int(local_logits.shape[1])}"
         )
@@ -346,28 +219,24 @@ def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTop
     block_v = 4096
     n_blocks = triton.cdiv(vocab_size, block_v)
     block_b = triton.next_power_of_2(n_blocks)
-    block_candidates = triton.next_power_of_2(n_blocks * k)
+    block_candidates = triton.next_power_of_2(n_blocks * k) if k else 1
 
     partial_shape = (rows, n_blocks)
-    partial_topk_shape = (rows, n_blocks, k)
     partial_max = torch.empty(partial_shape, device=logits.device, dtype=torch.float32)
     partial_sum = torch.empty_like(partial_max)
+    partial_topk_shape = (rows, n_blocks, k) if k else (1,)
     partial_values = torch.empty(
-        partial_topk_shape,
-        device=logits.device,
-        dtype=torch.float32,
+        partial_topk_shape, device=logits.device, dtype=torch.float32
     )
     partial_tokens = torch.empty(
-        partial_topk_shape,
-        device=logits.device,
-        dtype=torch.long,
+        partial_topk_shape, device=logits.device, dtype=torch.long
     )
     local_max = torch.empty((rows,), device=logits.device, dtype=torch.float32)
     local_sum = torch.empty_like(local_max)
     values = torch.empty((rows, k), device=logits.device, dtype=torch.float32)
     tokens = torch.empty((rows, k), device=logits.device, dtype=torch.long)
 
-    _topk_stage1_kernel[(rows, n_blocks)](
+    _stats_stage1_kernel[(rows, n_blocks)](
         logits,
         partial_max,
         partial_sum,
@@ -380,7 +249,7 @@ def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTop
         block_v,  # ty: ignore[invalid-argument-type]
         num_warps=8,  # ty: ignore[unknown-argument]
     )
-    _topk_stage2_kernel[(rows,)](
+    _stats_stage2_kernel[(rows,)](
         partial_max,
         partial_sum,
         partial_values,
@@ -395,66 +264,20 @@ def _local_topk_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTop
         block_candidates,
         num_warps=8,  # ty: ignore[unknown-argument]
     )
-    return LocalTopKStats(
-        local_max=local_max,
-        local_sum=local_sum,
-        values=values,
-        tokens=tokens,
-    )
-
-
-def _local_logsumexp_stats_forward(local_logits: torch.Tensor) -> LocalLogSumExpStats:
-    logits = _check_local_logits(local_logits)
-    rows = int(logits.shape[0])
-    vocab_size = int(logits.shape[1])
-    block_v = 4096
-    n_blocks = triton.cdiv(vocab_size, block_v)
-    block_b = triton.next_power_of_2(n_blocks)
-
-    partial_shape = (rows, n_blocks)
-    partial_max = torch.empty(partial_shape, device=logits.device, dtype=torch.float32)
-    partial_sum = torch.empty_like(partial_max)
-    local_max = torch.empty((rows,), device=logits.device, dtype=torch.float32)
-    local_sum = torch.empty_like(local_max)
-
-    _logsumexp_stage1_kernel[(rows, n_blocks)](
-        logits,
-        partial_max,
-        partial_sum,
-        logits.stride(0),  # ty: ignore[invalid-argument-type]
-        vocab_size,  # ty: ignore[invalid-argument-type]
-        n_blocks,
-        block_v,  # ty: ignore[invalid-argument-type]
-        num_warps=8,  # ty: ignore[unknown-argument]
-    )
-    _logsumexp_stage2_kernel[(rows,)](
-        partial_max,
-        partial_sum,
-        local_max,
-        local_sum,
-        n_blocks,
-        block_b,
-        num_warps=8,  # ty: ignore[unknown-argument]
-    )
-    return LocalLogSumExpStats(local_max=local_max, local_sum=local_sum)
+    return local_max, local_sum, values, tokens
 
 
 def local_topk_stats(local_logits: torch.Tensor, *, k: int) -> LocalTopKStats:
     logits = local_logits.contiguous()
     if not logits.requires_grad:
-        return _local_topk_stats_forward(logits, k=k)
-    local_max, local_sum, values, tokens = _LocalTopKStatsFunction.apply(logits, k)
-    return LocalTopKStats(
-        local_max=local_max,
-        local_sum=local_sum,
-        values=values,
-        tokens=tokens,
-    )
+        return _local_stats_forward(logits, k=k)
+    return _LocalStatsFunction.apply(logits, k)
 
 
 def local_logsumexp_stats(local_logits: torch.Tensor) -> LocalLogSumExpStats:
     logits = local_logits.contiguous()
     if not logits.requires_grad:
-        return _local_logsumexp_stats_forward(logits)
-    local_max, local_sum = _LocalLogSumExpStatsFunction.apply(logits)
-    return LocalLogSumExpStats(local_max=local_max, local_sum=local_sum)
+        local_max, local_sum, _, _ = _local_stats_forward(logits, k=0)
+        return local_max, local_sum
+    local_max, local_sum, _, _ = _LocalStatsFunction.apply(logits, 0)
+    return local_max, local_sum

From 5b1af1aea48a9bfb6c7d29c9dde42ea644fe6c68 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 02:30:40 -0600
Subject: [PATCH 087/114] refactor: simplify lora slot support

---
 src/art/megatron/lora.py | 378 ++++++++++++++-------------------------
 1 file changed, 138 insertions(+), 240 deletions(-)

diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index 637340fc5..7cceba973 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -3,6 +3,7 @@
 import contextvars
 from dataclasses import dataclass
 import functools
+import importlib
 import json
 import math
 import os
@@ -72,31 +73,13 @@ class _LoRASlotContext:
 )
 
 
-def set_lora_slot_context(
-    ref: LoRASlotRef | None,
-) -> contextvars.Token[_LoRASlotContext | None]:
-    """Select a dynamic LoRA slot for the current execution context.
-
-    ``None`` preserves the legacy single-adapter path. ``LoRASlotRef(..., None)``
-    explicitly selects the base model and makes every LoRA site an identity.
-    """
-
-    return _CURRENT_LORA_SLOT.set(None if ref is None else _LoRASlotContext(ref))
-
-
-def reset_lora_slot_context(
-    token: contextvars.Token[_LoRASlotContext | None],
-) -> None:
-    _CURRENT_LORA_SLOT.reset(token)
-
-
 @contextmanager
 def use_lora_slot(ref: LoRASlotRef | None) -> Iterator[None]:
-    token = set_lora_slot_context(ref)
+    token = _CURRENT_LORA_SLOT.set(None if ref is None else _LoRASlotContext(ref))
     try:
         yield
     finally:
-        reset_lora_slot_context(token)
+        _CURRENT_LORA_SLOT.reset(token)
 
 
 def _with_captured_lora_slot(function: _F) -> _F:
@@ -125,84 +108,60 @@ def _patch_function_once(module: Any, name: str, wrapper: Callable[[_F], _F]) ->
 def install_lora_checkpoint_context_hooks() -> None:
     """Preserve the selected dynamic LoRA slot across activation recompute."""
 
-    def wrap_torch_checkpoint(original: _F) -> _F:
-        @functools.wraps(original)
-        def checkpoint(function: Callable[..., Any], *args: Any, **kwargs: Any) -> Any:
-            return original(_with_captured_lora_slot(function), *args, **kwargs)
-
-        return cast(_F, checkpoint)
-
-    def wrap_megatron_checkpoint(original: _F) -> _F:
-        @functools.wraps(original)
-        def checkpoint(
-            function: Callable[..., Any],
-            distribute_saved_activations: bool,
-            *args: Any,
-        ) -> Any:
-            return original(
-                _with_captured_lora_slot(function),
-                distribute_saved_activations,
-                *args,
-            )
-
-        return cast(_F, checkpoint)
-
-    def wrap_checkpoint_without_output(original: _F) -> _F:
+    def wrap_checkpoint(original: _F, function_index: int) -> _F:
         @functools.wraps(original)
-        def checkpoint(self: Any, function: Callable[..., Any], *args: Any) -> Any:
-            return original(self, _with_captured_lora_slot(function), *args)
-
-        return cast(_F, checkpoint)
-
-    def wrap_te_checkpoint(original: _F) -> _F:
-        @functools.wraps(original)
-        def checkpoint(
-            forward_func: Callable[..., Any],
-            *args: Any,
-            **kwargs: Any,
-        ) -> Any:
-            return original(_with_captured_lora_slot(forward_func), *args, **kwargs)
+        def checkpoint(*args: Any, **kwargs: Any) -> Any:
+            if len(args) > function_index:
+                args = (
+                    *args[:function_index],
+                    _with_captured_lora_slot(args[function_index]),
+                    *args[function_index + 1 :],
+                )
+            elif "function" in kwargs:
+                kwargs = {
+                    **kwargs,
+                    "function": _with_captured_lora_slot(kwargs["function"]),
+                }
+            elif "forward_func" in kwargs:
+                kwargs = {
+                    **kwargs,
+                    "forward_func": _with_captured_lora_slot(kwargs["forward_func"]),
+                }
+            else:
+                raise TypeError("checkpoint wrapper could not find callable argument")
+            return original(*args, **kwargs)
 
         return cast(_F, checkpoint)
 
-    try:
-        import torch.utils.checkpoint as torch_checkpoint
-
-        _patch_function_once(torch_checkpoint, "checkpoint", wrap_torch_checkpoint)
-    except Exception:
-        pass
-
-    try:
-        import megatron.core.tensor_parallel as tensor_parallel
-        import megatron.core.tensor_parallel.random as megatron_random
-
-        _patch_function_once(tensor_parallel, "checkpoint", wrap_megatron_checkpoint)
-        _patch_function_once(megatron_random, "checkpoint", wrap_megatron_checkpoint)
-        checkpoint_without_output = getattr(
-            megatron_random, "CheckpointWithoutOutput", None
-        )
-        if checkpoint_without_output is not None:
+    def patch(target: str, name: str, function_index: int) -> None:
+        try:
+            module_name, _, attr_path = target.partition(":")
+            target_obj = importlib.import_module(module_name)
+            for attr in attr_path.split(".") if attr_path else ():
+                target_obj = getattr(target_obj, attr, None)
+                if target_obj is None:
+                    return
             _patch_function_once(
-                checkpoint_without_output,
-                "checkpoint",
-                wrap_checkpoint_without_output,
+                target_obj,
+                name,
+                lambda original: wrap_checkpoint(original, function_index),
             )
-    except Exception:
-        pass
-
-    try:
-        import megatron.core.transformer.transformer_block as transformer_block
-
-        _patch_function_once(transformer_block, "te_checkpoint", wrap_te_checkpoint)
-    except Exception:
-        pass
+        except Exception:
+            pass
 
-    try:
-        import transformer_engine.pytorch.distributed as te_distributed
-
-        _patch_function_once(te_distributed, "checkpoint", wrap_te_checkpoint)
-    except Exception:
-        pass
+    for target, name, function_index in (
+        ("torch.utils.checkpoint", "checkpoint", 0),
+        ("megatron.core.tensor_parallel", "checkpoint", 0),
+        ("megatron.core.tensor_parallel.random", "checkpoint", 0),
+        (
+            "megatron.core.tensor_parallel.random:CheckpointWithoutOutput",
+            "checkpoint",
+            1,
+        ),
+        ("megatron.core.transformer.transformer_block", "te_checkpoint", 0),
+        ("transformer_engine.pytorch.distributed", "checkpoint", 0),
+    ):
+        patch(target, name, function_index)
 
 
 install_lora_checkpoint_context_hooks()
@@ -400,13 +359,8 @@ def _set_lora_parallel_metadata(
     setattr(param, "lora_tp_shard_dim", parallel_spec.shard_dim)
     setattr(param, "grad_sync_domain", parallel_spec.grad_sync_domain)
     setattr(param, "grad_sync_op", parallel_spec.grad_sync_op)
-    # Megatron DDP routing flag:
-    # - allreduce=True: sync with regular DP/CP replicas.
-    # - allreduce=False: sync with expert-DP replicas.
-    # TP / expert-TP replica handling is controlled by grad_sync_* metadata.
     setattr(param, "allreduce", allreduce)
 
-    # Megatron's native TP finalize path consumes this attr.
     setattr(
         param,
         "average_gradients_across_tp_domain",
@@ -417,16 +371,12 @@ def _set_lora_parallel_metadata(
         ),
     )
 
-    # Megatron optimizer and checkpoint logic rely on tensor model-parallel metadata
-    # to distinguish true shards from TP-duplicate params.
     if parallel_spec.sharded:
         shard_dim = parallel_spec.shard_dim
         if shard_dim is None:
             raise ValueError("LoRAParallelSpec.shard_dim must be set when sharded=True")
         setattr(param, "tensor_model_parallel", True)
         setattr(param, "partition_dim", _normalize_axis(shard_dim, param.ndim))
-        # stride > 1 means the dim is split into blocks and each tp rank holds a shard of the block
-        # this might happen for fused e.g. gate_(up|proj), but loras are individual per module
         setattr(param, "partition_stride", 1)
     else:
         setattr(param, "tensor_model_parallel", False)
@@ -611,9 +561,6 @@ def _expected_weight_keys(self, suffix: str) -> list[str]:
             ]
         return [f"{self.adapter_model_prefix}.{suffix}.weight"]
 
-    def has_lora_slot(self, ref: LoRASlotRef) -> bool:
-        return ref in self._slot_keys
-
     def load_lora_slot(
         self,
         ref: LoRASlotRef,
@@ -624,35 +571,11 @@ def load_lora_slot(
     ) -> bool:
         if ref.name is None:
             raise ValueError("base-model slot refs do not own LoRA tensors")
-        keys = {
-            suffix: self._expected_weight_keys(suffix)
-            for suffix in ("lora_A", "lora_B")
-        }
-        present = {
-            suffix: [key in adapter_model for key in suffix_keys]
-            for suffix, suffix_keys in keys.items()
-        }
-        if not any(any(values) for values in present.values()):
+        weights = self._adapter_weights(adapter_model, require=False)
+        if weights is None:
             return False
-        missing_keys = [
-            key
-            for suffix, suffix_keys in keys.items()
-            for key, is_present in zip(suffix_keys, present[suffix], strict=True)
-            if not is_present
-        ]
-        if missing_keys:
-            raise KeyError(
-                f"Incomplete LoRA slot {ref.kind}:{ref.name} for "
-                f"{self.adapter_model_prefix}: {sorted(missing_keys)}"
-            )
-        a_t = self._localized_weight(
-            self._adapter_weight(adapter_model, suffix="lora_A"),
-            into=self.A_T,
-        )
-        b_t = self._localized_weight(
-            self._adapter_weight(adapter_model, suffix="lora_B"),
-            into=self.B_T,
-        )
+        a_t = self._localized_weight(weights[0], into=self.A_T)
+        b_t = self._localized_weight(weights[1], into=self.B_T)
         slot_key = self._slot_keys.get(ref)
         if slot_key is None:
             slot_key = f"slot_{len(self._slot_keys)}"
@@ -692,25 +615,34 @@ def _has_live_slot_grads(self, ref: LoRASlotRef) -> bool:
         )
 
     def load_lora(self, adapter_model: dict[str, torch.Tensor]) -> None:
-        missing_keys = [
+        weights = self._adapter_weights(adapter_model, require=True)
+        assert weights is not None
+        self._load_weight(weights[0], into=self.A_T)
+        self._load_weight(weights[1], into=self.B_T)
+
+    def _adapter_weights(
+        self,
+        adapter_model: dict[str, torch.Tensor],
+        *,
+        require: bool,
+    ) -> tuple[torch.Tensor, torch.Tensor] | None:
+        all_keys = [
             key
             for suffix in ("lora_A", "lora_B")
             for key in self._expected_weight_keys(suffix)
-            if key not in adapter_model
         ]
-        if missing_keys:
+        missing = [key for key in all_keys if key not in adapter_model]
+        if len(missing) == len(all_keys) and not require:
+            return None
+        if missing:
+            state = "Missing" if require else "Incomplete"
             raise KeyError(
-                f"Missing LoRA adapter keys for {self.adapter_model_prefix}: {sorted(missing_keys)}"
+                f"{state} LoRA adapter keys for {self.adapter_model_prefix}: "
+                f"{sorted(missing)}"
             )
-        self.load_weights(
-            adapter_model,
-            suffix="lora_A",
-            into=self.A_T,
-        )
-        self.load_weights(
-            adapter_model,
-            suffix="lora_B",
-            into=self.B_T,
+        return (
+            self._adapter_weight(adapter_model, suffix="lora_A"),
+            self._adapter_weight(adapter_model, suffix="lora_B"),
         )
 
     def _adapter_weight(
@@ -724,16 +656,6 @@ def _adapter_weight(
             return torch.stack([adapter_model[key].T for key in keys])
         return adapter_model[keys[0]].T
 
-    def load_weights(
-        self,
-        adapter_model: dict[str, torch.Tensor],
-        *,
-        suffix: str,
-        into: torch.nn.Parameter,
-    ) -> None:
-        weight = self._adapter_weight(adapter_model, suffix=suffix)
-        self.load_weight(weight, into=into)
-
     def _localized_weight(
         self, weight: torch.Tensor, *, into: torch.nn.Parameter
     ) -> torch.Tensor:
@@ -777,7 +699,7 @@ def _localized_weight(
                 )
         return weight.contiguous()
 
-    def load_weight(self, weight: torch.Tensor, *, into: torch.nn.Parameter) -> None:
+    def _load_weight(self, weight: torch.Tensor, *, into: torch.nn.Parameter) -> None:
         weight = self._localized_weight(weight, into=into)
         if tuple(weight.shape) != tuple(into.shape):
             raise ValueError(
@@ -991,51 +913,50 @@ def _metadata_for_template(
         template: _LoraPublishTemplate,
         adapter_model: dict[str, torch.Tensor],
     ) -> list[LoraShardMeta]:
-        if template.num_local_experts > 1:
-            return self._expert_metadata_for_template(template, adapter_model)
-        return self._dense_metadata_for_template(template, adapter_model)
-
-    def _dense_metadata_for_template(
-        self,
-        template: _LoraPublishTemplate,
-        adapter_model: dict[str, torch.Tensor],
-    ) -> list[LoraShardMeta]:
-        tp_ranks = self._dense_tp_ranks()
         shard_ranks = range(template.shard_world_size) if template.sharded else (0,)
+        if template.num_local_experts <= 1:
+            tp_ranks = (
+                _process_group_ranks(ps.get_tensor_model_parallel_group())
+                if _distributed_initialized()
+                else (0,)
+            )
+            owners = [
+                (
+                    f"{template.adapter_model_prefix}.{template.suffix}",
+                    tp_ranks[shard_rank],
+                    shard_rank,
+                )
+                for shard_rank in shard_ranks
+            ]
+        else:
+            ep_world_size = self._expert_model_world_size()
+            owners = [
+                (
+                    f"{template.adapter_model_prefix.format(expert=expert)}.{template.suffix}",
+                    self._expert_owner_rank(ep_rank, shard_rank),
+                    shard_rank,
+                )
+                for ep_rank in range(ep_world_size)
+                for local_expert in range(template.num_local_experts)
+                for expert in [ep_rank * template.num_local_experts + local_expert]
+                for shard_rank in shard_ranks
+            ]
         return [
             self._make_metadata(
                 template,
-                key=f"{template.adapter_model_prefix}.{template.suffix}",
-                owner_rank=tp_ranks[shard_rank],
+                key=key,
+                owner_rank=owner_rank,
                 shard_rank=shard_rank,
                 adapter_model=adapter_model,
             )
-            for shard_rank in shard_ranks
+            for key, owner_rank, shard_rank in owners
         ]
 
-    def _expert_metadata_for_template(
-        self,
-        template: _LoraPublishTemplate,
-        adapter_model: dict[str, torch.Tensor],
-    ) -> list[LoraShardMeta]:
-        ep_world_size = self._expert_model_world_size()
-        shard_ranks = range(template.shard_world_size) if template.sharded else (0,)
-        metadata: list[LoraShardMeta] = []
-        for ep_rank in range(ep_world_size):
-            for local_expert in range(template.num_local_experts):
-                expert = ep_rank * template.num_local_experts + local_expert
-                key = f"{template.adapter_model_prefix.format(expert=expert)}.{template.suffix}"
-                for shard_rank in shard_ranks:
-                    metadata.append(
-                        self._make_metadata(
-                            template,
-                            key=key,
-                            owner_rank=self._expert_owner_rank(ep_rank, shard_rank),
-                            shard_rank=shard_rank,
-                            adapter_model=adapter_model,
-                        )
-                    )
-        return metadata
+    @staticmethod
+    def _expert_model_world_size() -> int:
+        if not _distributed_initialized():
+            return 1
+        return ps.get_expert_model_parallel_world_size()
 
     @staticmethod
     def _make_metadata(
@@ -1046,6 +967,18 @@ def _make_metadata(
         shard_rank: int,
         adapter_model: dict[str, torch.Tensor],
     ) -> LoraShardMeta:
+        manifest: dict[str, Any] = {
+            "sharded": template.sharded,
+            "shard_world_size": template.shard_world_size if template.sharded else 1,
+            "shard_rank": shard_rank if template.sharded else 0,
+        }
+        if template.sharded:
+            manifest["export_shard_dim"] = template.export_shard_dim
+            manifest["export_shard_strategy"] = (
+                template.export_shard_strategy or "uniform"
+            )
+            if template.component_sizes:
+                manifest["component_sizes"] = list(template.component_sizes)
         return LoraShardMeta(
             key=key,
             owner_rank=owner_rank,
@@ -1055,22 +988,10 @@ def _make_metadata(
                 if key in adapter_model
                 else template.dtype_name
             ),
-            manifest=_publish_manifest(template, shard_rank=shard_rank),
+            manifest=manifest,
             block=_block_for_key(key),
         )
 
-    @staticmethod
-    def _dense_tp_ranks() -> tuple[int, ...]:
-        if not _distributed_initialized():
-            return (0,)
-        return _process_group_ranks(ps.get_tensor_model_parallel_group())
-
-    @staticmethod
-    def _expert_model_world_size() -> int:
-        if not _distributed_initialized():
-            return 1
-        return ps.get_expert_model_parallel_world_size()
-
     @staticmethod
     def _expert_owner_rank(ep_rank: int, shard_rank: int) -> int:
         if not _distributed_initialized():
@@ -1117,24 +1038,6 @@ def _exported_param_shape(module: LoRA, param: torch.nn.Parameter) -> tuple[int,
     return tuple(int(dim) for dim in param.T.shape)
 
 
-def _publish_manifest(
-    template: _LoraPublishTemplate,
-    *,
-    shard_rank: int,
-) -> dict[str, Any]:
-    manifest: dict[str, Any] = {
-        "sharded": template.sharded,
-        "shard_world_size": template.shard_world_size if template.sharded else 1,
-        "shard_rank": shard_rank if template.sharded else 0,
-    }
-    if template.sharded:
-        manifest["export_shard_dim"] = template.export_shard_dim
-        manifest["export_shard_strategy"] = template.export_shard_strategy or "uniform"
-        if template.component_sizes:
-            manifest["component_sizes"] = list(template.component_sizes)
-    return manifest
-
-
 @torch.compiler.disable
 def _expert_grouped_lora_forward(
     lora: LoRA,
@@ -1271,24 +1174,19 @@ def _parallel_lora_pair(
     num_local_experts: int = 1,
 ) -> tuple[LoRA, LoRA]:
     make_lora = _expert_parallel_lora if num_local_experts > 1 else _parallel_lora
-    return (
-        make_lora(
-            adapter_model_prefix=f"{adapter_model_prefix}.{suffixes[0]}",
-            linear=linear,
-            out_features=out_features,
-            rank=rank,
-            alpha=alpha,
-            layout=layout,
-            num_local_experts=num_local_experts,
-        ),
-        make_lora(
-            adapter_model_prefix=f"{adapter_model_prefix}.{suffixes[1]}",
-            linear=linear,
-            out_features=out_features,
-            rank=rank,
-            alpha=alpha,
-            layout=layout,
-            num_local_experts=num_local_experts,
+    return cast(
+        tuple[LoRA, LoRA],
+        tuple(
+            make_lora(
+                adapter_model_prefix=f"{adapter_model_prefix}.{suffix}",
+                linear=linear,
+                out_features=out_features,
+                rank=rank,
+                alpha=alpha,
+                layout=layout,
+                num_local_experts=num_local_experts,
+            )
+            for suffix in suffixes
         ),
     )
 

From a0d4d15606d4032db03d46f848afb85cf7485c6a Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 03:02:14 -0600
Subject: [PATCH 088/114] refactor: simplify shared-expert lora wrapper

---
 .../megatron/context_parallel/block_mask.py   |  7 ++---
 src/art/megatron/lora.py                      | 30 +++----------------
 src/art/megatron/weights/adapter_export.py    |  5 ++--
 3 files changed, 8 insertions(+), 34 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 8661787ea..26ada2875 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -70,11 +70,8 @@ def _dense_blocks_to_ordered(
     indices_np = np.zeros(blocks.shape, dtype=np.int32)
     if int(row_indices.size) > 0:
         starts = np.concatenate(([0], np.cumsum(counts_np[:-1], dtype=np.int64)))
-        active_rows = np.flatnonzero(counts_np)
-        for row_index in active_rows:
-            start = int(starts[row_index])
-            end = start + int(counts_np[row_index])
-            indices_np[row_index, : end - start] = column_indices[start:end]
+        offsets = np.arange(int(row_indices.size), dtype=np.int64) - starts[row_indices]
+        indices_np[row_indices, offsets] = column_indices
     counts = torch.from_numpy(counts_np)
     indices = torch.from_numpy(indices_np)
     return (
diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index 7cceba973..a6813c03a 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -1567,29 +1567,6 @@ def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor | None]:
         return base_out + adapter_out, bias_out
 
 
-class SharedExpertsLinearFC2LoRA(torch.nn.Module):
-    def __init__(
-        self,
-        adapter_model_prefix: str,
-        linear_fc2: TERowParallelLinear,
-        rank: int,
-        alpha: float,
-        provider: GPTModelProvider,
-    ) -> None:
-        super().__init__()
-        self.row_parallel_lora = SelfAttentionLinearProjLoRA(
-            adapter_model_prefix=f"{adapter_model_prefix}.down_proj",
-            linear_proj=linear_fc2,
-            rank=rank,
-            alpha=alpha,
-            provider=provider,
-            reduce_output=not _linear_disables_tensor_parallel_comm(linear_fc2),
-        )
-
-    def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor | None]:
-        return self.row_parallel_lora(x)
-
-
 def _unwrap_attr(
     value: Any,
     attr_name: str,
@@ -1835,12 +1812,13 @@ def _wrap_split_mlp_lora(
             "linear_fc2",
             TERowParallelLinear,
         )
-        mlp.linear_fc2 = SharedExpertsLinearFC2LoRA(
-            adapter_model_prefix=adapter_model_prefix,
-            linear_fc2=linear_fc2,
+        mlp.linear_fc2 = SelfAttentionLinearProjLoRA(
+            adapter_model_prefix=f"{adapter_model_prefix}.down_proj",
+            linear_proj=linear_fc2,
             rank=rank,
             alpha=alpha,
             provider=provider,
+            reduce_output=not _linear_disables_tensor_parallel_comm(linear_fc2),
         )
 
 
diff --git a/src/art/megatron/weights/adapter_export.py b/src/art/megatron/weights/adapter_export.py
index f75c021dc..51e36c73f 100644
--- a/src/art/megatron/weights/adapter_export.py
+++ b/src/art/megatron/weights/adapter_export.py
@@ -16,7 +16,6 @@
     SelfAttentionLinearProjLoRA,
     SelfAttentionLinearQKVLoRA,
     SharedExpertsLinearFC1LoRA,
-    SharedExpertsLinearFC2LoRA,
 )
 from art.megatron.weights.param_name_canonicalization import canonical_art_param_name
 
@@ -383,10 +382,10 @@ def add_split_mlp_adapter_weights(
         )
 
     linear_fc2 = getattr(mlp, "linear_fc2", None)
-    if isinstance(linear_fc2, SharedExpertsLinearFC2LoRA):
+    if isinstance(linear_fc2, SelfAttentionLinearProjLoRA):
         fc2_prefix = f"{base_prefix}.linear_fc2"
         _set_adapter_weights(
             adapter_weights_by_base,
             fc2_prefix,
-            _simple_adapter_weight(fc2_prefix, linear_fc2.row_parallel_lora.lora),
+            _simple_adapter_weight(fc2_prefix, linear_fc2.lora),
         )

From 6eed4cbba081d945bedef885e504596e7792c55e Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 03:13:27 -0600
Subject: [PATCH 089/114] refactor: collapse lora moe wrappers

---
 src/art/megatron/lora.py                      | 226 +++++-------------
 .../model_support/handlers/default_dense.py   |  15 +-
 .../model_support/handlers/qwen3_5.py         |  18 +-
 src/art/megatron/weights/adapter_export.py    |  39 ++-
 src/art/megatron/weights/lora_publish.py      |   7 +-
 5 files changed, 102 insertions(+), 203 deletions(-)

diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index a6813c03a..464b1c9d9 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -27,7 +27,6 @@
 )
 from megatron.core.transformer.attention import SelfAttention
 from megatron.core.transformer.moe.experts import TEGroupedMLP
-from megatron.core.transformer.moe.shared_experts import SharedExpertMLP
 from megatron.core.transformer.transformer_layer import TransformerLayer
 from pydantic import BaseModel, ConfigDict
 import torch
@@ -814,15 +813,12 @@ def active_lora_tensors(
             return None
         return slot.A_T, slot.B_T, slot.scale
 
-    def _zero_output(self, x: torch.Tensor) -> torch.Tensor:
-        return x.new_zeros((*x.shape[:-1], self.out_features))
-
     def forward(
         self, x: torch.Tensor, tokens_per_expert: list[int] | torch.Tensor | None = None
     ) -> torch.Tensor:
         active = self.active_lora_tensors()
         if active is None:
-            return self._zero_output(x)
+            return x.new_zeros((*x.shape[:-1], self.out_features))
         a_t, b_t, scale = active
         if tokens_per_expert is not None:
             assert self.num_local_experts > 1, (
@@ -832,12 +828,10 @@ def forward(
             if isinstance(bsz, list):
                 bsz = torch.tensor(bsz, dtype=torch.int64, device="cpu")
             if x.shape[0] == 0:
-                return self._zero_output(x)
+                return x.new_zeros((*x.shape[:-1], self.out_features))
             return quack_grouped_lora(x, a_t, b_t, bsz, scale=scale)
         out = (x @ a_t) @ b_t
-        if scale == 1.0:
-            return out
-        return out * scale
+        return out if scale == 1.0 else out * scale
 
 
 class LoRAPublishPlanner:
@@ -929,7 +923,9 @@ def _metadata_for_template(
                 for shard_rank in shard_ranks
             ]
         else:
-            ep_world_size = self._expert_model_world_size()
+            ep_world_size = 1
+            if _distributed_initialized():
+                ep_world_size = ps.get_expert_model_parallel_world_size()
             owners = [
                 (
                     f"{template.adapter_model_prefix.format(expert=expert)}.{template.suffix}",
@@ -952,12 +948,6 @@ def _metadata_for_template(
             for key, owner_rank, shard_rank in owners
         ]
 
-    @staticmethod
-    def _expert_model_world_size() -> int:
-        if not _distributed_initialized():
-            return 1
-        return ps.get_expert_model_parallel_world_size()
-
     @staticmethod
     def _make_metadata(
         template: _LoraPublishTemplate,
@@ -1423,68 +1413,53 @@ def __init__(
         rank: int,
         alpha: float,
         num_local_experts: int,
+        fused_gate_up: bool = False,
     ) -> None:
         super().__init__()
-        assert linear_fc1 is not None
-        self.linear_fc1 = linear_fc1
-        self.gate_lora, self.up_lora = _parallel_lora_pair(
-            adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}",
-            linear=linear_fc1,
-            out_features=linear_fc1.out_features // 2,
-            rank=rank,
-            alpha=alpha,
-            layout="column",
-            suffixes=("gate_proj", "up_proj"),
-            num_local_experts=num_local_experts,
-        )
-        self.uses_direct_quack_grouped_lora_dual = True
-
-    def forward(
-        self, x: torch.Tensor, tokens_per_expert: list[int] | torch.Tensor
-    ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        base_out, bias_out = self.linear_fc1(x, tokens_per_expert)
-        adapter_out = _expert_grouped_lora_dual_forward(self, x, tokens_per_expert)
-        return base_out + adapter_out, bias_out
-
-
-class MLPExpertsLinearFC1FusedLoRA(torch.nn.Module):
-    def __init__(
-        self,
-        adapter_model_prefix: str,
-        linear_fc1: TEColumnParallelGroupedLinear,
-        rank: int,
-        alpha: float,
-        num_local_experts: int,
-    ) -> None:
-        super().__init__()
-        assert linear_fc1 is not None
         self.linear_fc1 = linear_fc1
-        self.lora = _expert_parallel_lora(
-            adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.gate_up_proj",
-            linear=linear_fc1,
-            out_features=linear_fc1.out_features,
-            rank=rank,
-            alpha=alpha,
-            layout="column",
-            num_local_experts=num_local_experts,
-        )
-        gate_out_features = linear_fc1.out_features // 2
-        expert_tp_world_size = _get_shard_world_size("expert_tp")
-        _set_lora_shard_strategy_metadata(
-            self.lora.B_T,
-            strategy="componentwise",
-            component_sizes=(
-                gate_out_features * expert_tp_world_size,
-                gate_out_features * expert_tp_world_size,
-            ),
-        )
+        self.fused_gate_up = bool(fused_gate_up)
+        if self.fused_gate_up:
+            self.lora = _expert_parallel_lora(
+                adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.gate_up_proj",
+                linear=linear_fc1,
+                out_features=linear_fc1.out_features,
+                rank=rank,
+                alpha=alpha,
+                layout="column",
+                num_local_experts=num_local_experts,
+            )
+            gate_out_features = linear_fc1.out_features // 2
+            expert_tp_world_size = _get_shard_world_size("expert_tp")
+            _set_lora_shard_strategy_metadata(
+                self.lora.B_T,
+                strategy="componentwise",
+                component_sizes=(
+                    gate_out_features * expert_tp_world_size,
+                    gate_out_features * expert_tp_world_size,
+                ),
+            )
+        else:
+            self.gate_lora, self.up_lora = _parallel_lora_pair(
+                adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}",
+                linear=linear_fc1,
+                out_features=linear_fc1.out_features // 2,
+                rank=rank,
+                alpha=alpha,
+                layout="column",
+                suffixes=("gate_proj", "up_proj"),
+                num_local_experts=num_local_experts,
+            )
 
     def forward(
         self, x: torch.Tensor, tokens_per_expert: list[int] | torch.Tensor
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         base_out, bias_out = self.linear_fc1(x, tokens_per_expert)
-        adapter_out = _expert_grouped_lora_forward(
-            self.lora, x, tokens_per_expert, self.linear_fc1.out_features
+        adapter_out = (
+            _expert_grouped_lora_forward(
+                self.lora, x, tokens_per_expert, self.linear_fc1.out_features
+            )
+            if self.fused_gate_up
+            else _expert_grouped_lora_dual_forward(self, x, tokens_per_expert)
         )
         return base_out + adapter_out, bias_out
 
@@ -1499,7 +1474,6 @@ def __init__(
         num_local_experts: int,
     ) -> None:
         super().__init__()
-        assert linear_fc2 is not None
         self.linear_fc2 = linear_fc2
         self.lora = _expert_parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.down_proj",
@@ -1674,8 +1648,14 @@ def wrap_grouped_moe_experts(
     target_modules: set[str],
     rank: int,
     alpha: int,
+    fused_gate_up: bool = False,
 ) -> None:
-    if _targets_include(target_modules, "gate_proj", "up_proj"):
+    wrap_fc1 = (
+        _targets_include(target_modules, "experts")
+        if fused_gate_up
+        else _targets_include(target_modules, "gate_proj", "up_proj")
+    )
+    if wrap_fc1:
         mlp_experts_linear_fc1 = _unwrap_attr(
             experts.linear_fc1,
             "linear_fc1",
@@ -1687,105 +1667,27 @@ def wrap_grouped_moe_experts(
             rank=rank,
             alpha=alpha,
             num_local_experts=experts.num_local_experts,
+            fused_gate_up=fused_gate_up,
         )
-    if _targets_include(target_modules, "down_proj"):
-        _wrap_grouped_moe_fc2_lora(
-            experts,
-            adapter_model_prefix=adapter_model_prefix,
-            rank=rank,
-            alpha=alpha,
-        )
-
-
-def wrap_grouped_moe_experts_3d(
-    experts: TEGroupedMLP,
-    *,
-    adapter_model_prefix: str,
-    target_modules: set[str],
-    rank: int,
-    alpha: int,
-) -> None:
-    if _targets_include(target_modules, "experts"):
-        mlp_experts_linear_fc1 = _unwrap_attr(
-            experts.linear_fc1,
-            "linear_fc1",
-            TEColumnParallelGroupedLinear,  # type: ignore[arg-type]
+    wrap_fc2 = (
+        wrap_fc1 if fused_gate_up else _targets_include(target_modules, "down_proj")
+    )
+    if wrap_fc2:
+        linear_fc2 = _unwrap_attr(
+            experts.linear_fc2,
+            "linear_fc2",
+            TERowParallelGroupedLinear,  # type: ignore[arg-type]
         )
-        experts.linear_fc1 = MLPExpertsLinearFC1FusedLoRA(
+        experts.linear_fc2 = MLPExpertsLinearFC2LoRA(
             adapter_model_prefix=f"{adapter_model_prefix}.mlp.experts",
-            linear_fc1=mlp_experts_linear_fc1,
+            linear_fc2=linear_fc2,
             rank=rank,
             alpha=alpha,
             num_local_experts=experts.num_local_experts,
         )
-        _wrap_grouped_moe_fc2_lora(
-            experts,
-            adapter_model_prefix=adapter_model_prefix,
-            rank=rank,
-            alpha=alpha,
-        )
-
-
-def _wrap_grouped_moe_fc2_lora(
-    experts: TEGroupedMLP,
-    *,
-    adapter_model_prefix: str,
-    rank: int,
-    alpha: int,
-) -> None:
-    linear_fc2 = _unwrap_attr(
-        experts.linear_fc2,
-        "linear_fc2",
-        TERowParallelGroupedLinear,  # type: ignore[arg-type]
-    )
-    experts.linear_fc2 = MLPExpertsLinearFC2LoRA(
-        adapter_model_prefix=f"{adapter_model_prefix}.mlp.experts",
-        linear_fc2=linear_fc2,
-        rank=rank,
-        alpha=alpha,
-        num_local_experts=experts.num_local_experts,
-    )
-
-
-def wrap_dense_mlp(
-    mlp: Any,
-    *,
-    adapter_model_prefix: str,
-    provider: GPTModelProvider,
-    target_modules: set[str],
-    rank: int,
-    alpha: int,
-) -> None:
-    _wrap_split_mlp_lora(
-        mlp,
-        adapter_model_prefix=f"{adapter_model_prefix}.mlp",
-        provider=provider,
-        target_modules=target_modules,
-        rank=rank,
-        alpha=alpha,
-    )
-
-
-def wrap_shared_experts_mlp(
-    shared_experts: SharedExpertMLP,
-    *,
-    adapter_model_prefix: str,
-    provider: GPTModelProvider,
-    target_modules: set[str],
-    rank: int,
-    alpha: int,
-) -> None:
-    _wrap_split_mlp_lora(
-        shared_experts,
-        adapter_model_prefix=f"{adapter_model_prefix}.mlp.shared_expert",
-        provider=provider,
-        target_modules=target_modules,
-        rank=rank,
-        alpha=alpha,
-    )
 
 
-def _wrap_split_mlp_lora(
+def wrap_split_mlp_lora(
     mlp: Any,
     *,
     adapter_model_prefix: str,
diff --git a/src/art/megatron/model_support/handlers/default_dense.py b/src/art/megatron/model_support/handlers/default_dense.py
index c2289a2e6..d3f7d2416 100644
--- a/src/art/megatron/model_support/handlers/default_dense.py
+++ b/src/art/megatron/model_support/handlers/default_dense.py
@@ -137,7 +137,7 @@ def apply_lora_adapters(
 
         from art.megatron.lora import (
             _adapter_model_prefix,
-            wrap_dense_mlp,
+            wrap_split_mlp_lora,
             wrap_standard_self_attention,
         )
 
@@ -146,18 +146,19 @@ def apply_lora_adapters(
             for module in chunk.modules():
                 if not isinstance(module, TransformerLayer):
                     continue
+                adapter_model_prefix = _adapter_model_prefix(module)
                 wrap_standard_self_attention(
                     module.self_attention,
-                    adapter_model_prefix=_adapter_model_prefix(module),
+                    adapter_model_prefix=adapter_model_prefix,
                     provider=provider,
                     target_modules=target_set,
                     rank=rank,
                     alpha=alpha,
                 )
                 _require_dense_mlp(module)
-                wrap_dense_mlp(
+                wrap_split_mlp_lora(
                     module.mlp,
-                    adapter_model_prefix=_adapter_model_prefix(module),
+                    adapter_model_prefix=f"{adapter_model_prefix}.mlp",
                     provider=provider,
                     target_modules=target_set,
                     rank=rank,
@@ -213,7 +214,7 @@ def apply_lora_adapters(
         from art.megatron.lora import (
             _adapter_model_prefix,
             wrap_grouped_moe_experts,
-            wrap_shared_experts_mlp,
+            wrap_split_mlp_lora,
             wrap_standard_self_attention,
         )
 
@@ -240,9 +241,9 @@ def apply_lora_adapters(
                 )
                 shared_experts = getattr(module.mlp, "shared_experts", None)
                 if shared_experts is not None:
-                    wrap_shared_experts_mlp(
+                    wrap_split_mlp_lora(
                         shared_experts,
-                        adapter_model_prefix=adapter_model_prefix,
+                        adapter_model_prefix=f"{adapter_model_prefix}.mlp.shared_expert",
                         provider=provider,
                         target_modules=target_set,
                         rank=rank,
diff --git a/src/art/megatron/model_support/handlers/qwen3_5.py b/src/art/megatron/model_support/handlers/qwen3_5.py
index e2dce6085..3d4ea98d8 100644
--- a/src/art/megatron/model_support/handlers/qwen3_5.py
+++ b/src/art/megatron/model_support/handlers/qwen3_5.py
@@ -336,12 +336,12 @@ def _wrap_mlp_lora(
         rank: int,
         alpha: int,
     ) -> None:
-        from art.megatron.lora import wrap_dense_mlp
+        from art.megatron.lora import wrap_split_mlp_lora
 
         _require_dense_mlp(module)
-        wrap_dense_mlp(
+        wrap_split_mlp_lora(
             module.mlp,
-            adapter_model_prefix=adapter_model_prefix,
+            adapter_model_prefix=f"{adapter_model_prefix}.mlp",
             provider=provider,
             target_modules=target_modules,
             rank=rank,
@@ -441,23 +441,21 @@ def _wrap_mlp_lora(
         rank: int,
         alpha: int,
     ) -> None:
-        from art.megatron.lora import (
-            wrap_grouped_moe_experts_3d,
-            wrap_shared_experts_mlp,
-        )
+        from art.megatron.lora import wrap_grouped_moe_experts, wrap_split_mlp_lora
 
-        wrap_grouped_moe_experts_3d(
+        wrap_grouped_moe_experts(
             _require_moe_experts(module),
             adapter_model_prefix=adapter_model_prefix,
             target_modules=target_modules,
             rank=rank,
             alpha=alpha,
+            fused_gate_up=True,
         )
         shared_experts = getattr(module.mlp, "shared_experts", None)
         if shared_experts is not None:
-            wrap_shared_experts_mlp(
+            wrap_split_mlp_lora(
                 shared_experts,
-                adapter_model_prefix=adapter_model_prefix,
+                adapter_model_prefix=f"{adapter_model_prefix}.mlp.shared_expert",
                 provider=provider,
                 target_modules=target_modules,
                 rank=rank,
diff --git a/src/art/megatron/weights/adapter_export.py b/src/art/megatron/weights/adapter_export.py
index 51e36c73f..76c545bda 100644
--- a/src/art/megatron/weights/adapter_export.py
+++ b/src/art/megatron/weights/adapter_export.py
@@ -10,7 +10,6 @@
 from art.megatron.lora import (
     GatedDeltaNetInProjLoRA,
     LoRA,
-    MLPExpertsLinearFC1FusedLoRA,
     MLPExpertsLinearFC1LoRA,
     MLPExpertsLinearFC2LoRA,
     SelfAttentionLinearProjLoRA,
@@ -37,12 +36,6 @@ def _adapter_tensors(
     return a_t.transpose(-1, -2).contiguous(), b_t.transpose(-1, -2).contiguous()
 
 
-def _adapter_param_prefix(base_prefix: str, adapter_key: str | None) -> str:
-    if adapter_key is None:
-        return f"{base_prefix}.adapter"
-    return f"{base_prefix}.adapter.{adapter_key}"
-
-
 def _adapter_weight(
     *,
     base_prefix: str,
@@ -52,7 +45,8 @@ def _adapter_weight(
     linear_in: torch.Tensor,
     linear_out: torch.Tensor,
 ) -> AdapterWeight:
-    param_prefix = _adapter_param_prefix(base_prefix, adapter_key)
+    adapter_suffix = "" if adapter_key is None else f".{adapter_key}"
+    param_prefix = f"{base_prefix}.adapter{adapter_suffix}"
     return AdapterWeight(
         global_base_prefix=base_prefix,
         adapter_key=adapter_key,
@@ -326,29 +320,28 @@ def add_grouped_moe_adapter_weights(
 ) -> None:
     linear_fc1 = getattr(experts, "linear_fc1", None)
     base_prefix = f"{layer_prefix}.mlp.experts.linear_fc1"
-    if isinstance(linear_fc1, MLPExpertsLinearFC1FusedLoRA):
-        _set_expert_adapter_weights(
-            adapter_weights_by_base,
-            base_prefix,
-            linear_fc1.lora,
-            lambda local_expert_idx: _simple_adapter_weight(
+    if isinstance(linear_fc1, MLPExpertsLinearFC1LoRA):
+        if linear_fc1.fused_gate_up:
+            lora = linear_fc1.lora
+            build_weight = lambda local_expert_idx: _simple_adapter_weight(
                 base_prefix,
                 linear_fc1.lora,
                 expert_idx=local_expert_idx,
-            ),
-        )
-    elif isinstance(linear_fc1, MLPExpertsLinearFC1LoRA):
-        _set_expert_adapter_weights(
-            adapter_weights_by_base,
-            base_prefix,
-            linear_fc1.gate_lora,
-            lambda local_expert_idx: _fused_pair_adapter_weight(
+            )
+        else:
+            lora = linear_fc1.gate_lora
+            build_weight = lambda local_expert_idx: _fused_pair_adapter_weight(
                 base_prefix,
                 linear_fc1.gate_lora,
                 linear_fc1.up_lora,
                 first_expert_idx=local_expert_idx,
                 second_expert_idx=local_expert_idx,
-            ),
+            )
+        _set_expert_adapter_weights(
+            adapter_weights_by_base,
+            base_prefix,
+            lora,
+            build_weight,
         )
 
     linear_fc2 = getattr(experts, "linear_fc2", None)
diff --git a/src/art/megatron/weights/lora_publish.py b/src/art/megatron/weights/lora_publish.py
index f4fd02a0a..604c89b37 100644
--- a/src/art/megatron/weights/lora_publish.py
+++ b/src/art/megatron/weights/lora_publish.py
@@ -252,7 +252,12 @@ def _global_packed_expert_metadata(
             continue
         group_prefix, slot = slot_match
         shard_ranks = range(template.shard_world_size) if template.sharded else (0,)
-        for ep_rank in range(planner._expert_model_world_size()):
+        ep_world_size = 1
+        if _distributed_ready():
+            from megatron.core import parallel_state as ps
+
+            ep_world_size = ps.get_expert_model_parallel_world_size()
+        for ep_rank in range(ep_world_size):
             expert_start = ep_rank * template.num_local_experts
             expert_key = (
                 f"{template.adapter_model_prefix.format(expert=expert_start)}."

From 02a97324f7863dc1200fc3cb04f759e260d7ad35 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 03:57:01 -0600
Subject: [PATCH 090/114] refactor: simplify trainer rank lora plumbing

---
 src/art/megatron/lora.py                 |  43 ++--
 src/art/megatron/trainer_rank.py         | 169 +++++++-------
 src/art/megatron/weights/lora_publish.py | 266 ++++++++---------------
 3 files changed, 189 insertions(+), 289 deletions(-)

diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index 464b1c9d9..13473e12f 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -1,7 +1,7 @@
 from collections.abc import Iterator, Sequence
 from contextlib import contextmanager
 import contextvars
-from dataclasses import dataclass
+from dataclasses import dataclass, replace
 import functools
 import importlib
 import json
@@ -28,7 +28,6 @@
 from megatron.core.transformer.attention import SelfAttention
 from megatron.core.transformer.moe.experts import TEGroupedMLP
 from megatron.core.transformer.transformer_layer import TransformerLayer
-from pydantic import BaseModel, ConfigDict
 import torch
 
 from .kernels.cute_grouped_lora_quack import (
@@ -62,19 +61,14 @@ class LoRASlotRef:
     name: str | None
 
 
-@dataclass(frozen=True)
-class _LoRASlotContext:
-    ref: LoRASlotRef
-
-
-_CURRENT_LORA_SLOT: contextvars.ContextVar[_LoRASlotContext | None] = (
-    contextvars.ContextVar("art_megatron_current_lora_slot", default=None)
+_CURRENT_LORA_SLOT: contextvars.ContextVar[LoRASlotRef | None] = contextvars.ContextVar(
+    "art_megatron_current_lora_slot", default=None
 )
 
 
 @contextmanager
 def use_lora_slot(ref: LoRASlotRef | None) -> Iterator[None]:
-    token = _CURRENT_LORA_SLOT.set(None if ref is None else _LoRASlotContext(ref))
+    token = _CURRENT_LORA_SLOT.set(ref)
     try:
         yield
     finally:
@@ -166,11 +160,9 @@ def patch(target: str, name: str, function_index: int) -> None:
 install_lora_checkpoint_context_hooks()
 
 
-class LoRAParallelSpec(BaseModel):
-    # This spec only describes TP / expert-TP behavior.
-    # DP/CP vs expert-DP behavior is selected separately via `allreduce`.
-    model_config = ConfigDict(frozen=True)
-
+@dataclass(frozen=True)
+class LoRAParallelSpec:
+    # This only describes TP / expert-TP; DP/CP vs expert-DP is selected by `allreduce`.
     shard_domain: ShardDomain = "tp"
     sharded: bool = False
     shard_dim: int | None = None
@@ -803,12 +795,12 @@ def sharded_lora_grad_dict(self) -> dict[str, torch.Tensor]:
     def active_lora_tensors(
         self,
     ) -> tuple[torch.Tensor, torch.Tensor, float] | None:
-        context = _CURRENT_LORA_SLOT.get()
-        if context is None:
+        ref = _CURRENT_LORA_SLOT.get()
+        if ref is None:
             return self.A_T, self.B_T, self.scale
-        if context.ref.name is None:
+        if ref.name is None:
             return None
-        slot = self._slot(context.ref)
+        slot = self._slot(ref)
         if slot is None:
             return None
         return slot.A_T, slot.B_T, slot.scale
@@ -1105,13 +1097,12 @@ def _parallel_lora(
         grad_sync_domain=grad_sync_domain,
         grad_sync_op=GRAD_SYNC_OP_NONE if row_layout else GRAD_SYNC_OP_SUM,
     )
-    b_parallel_spec = a_parallel_spec.model_copy(
-        update={
-            "sharded": not row_layout,
-            "shard_dim": None if row_layout else -1,
-            "grad_sync_domain": grad_sync_domain,
-            "grad_sync_op": GRAD_SYNC_OP_SUM if row_layout else GRAD_SYNC_OP_NONE,
-        }
+    b_parallel_spec = replace(
+        a_parallel_spec,
+        sharded=not row_layout,
+        shard_dim=None if row_layout else -1,
+        grad_sync_domain=grad_sync_domain,
+        grad_sync_op=GRAD_SYNC_OP_SUM if row_layout else GRAD_SYNC_OP_NONE,
     )
     return LoRA(
         adapter_model_prefix=adapter_model_prefix,
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index a9363fea6..f8a070207 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -65,8 +65,7 @@ class TopK:
 
 
 class _Unset:
-    def __repr__(self) -> str:
-        return "Unset"
+    pass
 
 
 Unset = _Unset()
@@ -81,29 +80,21 @@ class ForwardOutput(Generic[LogprobsT, TopKT, LogitsT, HiddenStatesT]):
     hidden_states: HiddenStatesT
 
 
+@dataclass(slots=True)
 class ForwardInput(Generic[LogprobsT, TopKT, LogitsT, HiddenStatesT]):
-    def __init__(
-        self,
-        *,
-        input_tokens: torch.Tensor,
-        target_tokens: torch.Tensor | None = None,
-        top_k: int | None = None,
-        logits: bool = False,
-        hidden_states: bool = False,
-        checkpoint: AdapterSelection = Unset,
-        lora: AdapterSelection = Unset,
-    ) -> None:
-        if top_k is not None and top_k < 1:
+    input_tokens: torch.Tensor
+    target_tokens: torch.Tensor | None = None
+    top_k: int | None = None
+    logits: bool = False
+    hidden_states: bool = False
+    checkpoint: AdapterSelection = Unset
+    lora: AdapterSelection = Unset
+
+    def __post_init__(self) -> None:
+        if self.top_k is not None and self.top_k < 1:
             raise ValueError("top_k must be >= 1")
-        if checkpoint is not Unset and lora is not Unset:
+        if self.checkpoint is not Unset and self.lora is not Unset:
             raise ValueError("ForwardInput cannot set both checkpoint and lora")
-        self.input_tokens = input_tokens
-        self.target_tokens = target_tokens
-        self.top_k = top_k
-        self.logits = logits
-        self.hidden_states = hidden_states
-        self.checkpoint = checkpoint
-        self.lora = lora
 
 
 type AnyForwardInput = ForwardInput[
@@ -283,6 +274,20 @@ def __init__(
         self.memory_safety_factor = memory_safety_factor
         self.memory_reserve_fraction = memory_reserve_fraction
         self.device = next(runtime.model[0].parameters()).device
+        self._param_dtype_size = _dtype_size(next(runtime.model[0].parameters()).dtype)
+        try:
+            metadata_model = _language_model(runtime.model[0])
+        except RuntimeError:
+            metadata_model = None
+        self._hidden_size = _hidden_size(metadata_model, runtime.provider)
+        self._padded_vocab_size = (
+            None if metadata_model is None else _padded_vocab_size(metadata_model)
+        )
+        self._num_layers = int(
+            getattr(getattr(metadata_model, "config", None), "num_layers", 0)
+            or getattr(runtime.provider, "num_layers", 1)
+            or 1
+        )
         self._default_slot_ref: LoRASlotRef | None = None
         self._slot_stack: list[LoRASlotRef] = []
         self._dynamic_optimizers: dict[str, torch.optim.Optimizer] = {}
@@ -788,9 +793,6 @@ def _select_next_micro_batch(
         if min_width <= 0:
             raise RuntimeError("cannot select an empty microbatch window")
 
-        estimate_cache: dict[int, tuple[_MemoryCheck, bool] | None] = {}
-        rejected = 0
-
         def clamp_width(width: int) -> int:
             return max(min_width, min(width, remaining))
 
@@ -812,15 +814,12 @@ def local_slice(width: int) -> tuple[tuple[int, ...], list[ForwardInputsT]]:
             indices = tuple(range(start + dp_rank, stop, dp_size))
             return indices, [items[index] for index in indices]
 
-        def raise_smallest(plan: _FlatForwardPlan, check: _MemoryCheck) -> None:
-            self._raise_memory_error(
-                plan,
-                check,
-                context="forward_micro_batches",
-                message="smallest DP microbatch is predicted to exceed available memory",
-            )
+        estimates: dict[int, tuple[_MemoryCheck, bool] | None] = {}
+        rejected = 0
+        best_width = min_width
+        best_check: _MemoryCheck | None = None
 
-        def candidate(
+        def build_candidate(
             width: int,
             estimated_check: _MemoryCheck | None = None,
         ) -> _CandidateMicroBatch[ForwardInputsT]:
@@ -840,50 +839,33 @@ def candidate(
                 ),
             )
 
-        def estimate_check(width: int) -> tuple[_MemoryCheck, bool] | None:
+        def estimate(width: int) -> tuple[_MemoryCheck, bool] | None:
             width = clamp_width(width)
-            if width not in estimate_cache:
+            if width not in estimates:
                 indices, local_inputs = local_slice(width)
-                estimate_cache[width] = self._cached_adaptive_estimate(
+                estimates[width] = self._cached_adaptive_estimate(
                     items,
                     indices,
                     local_inputs,
                 )
-            return estimate_cache[width]
+            return estimates[width]
 
-        first_estimated = estimate_check(min_width)
-        if first_estimated is not None and not first_estimated[0].fits:
-            first = candidate(min_width, first_estimated[0])
-            raise_smallest(first.plan, first.check)
-
-        if first_estimated is not None and first_estimated[1]:
-            best_width = min_width
-            best_check: _MemoryCheck | None = first_estimated[0]
-        else:
-            first = candidate(
-                min_width,
-                first_estimated[0] if first_estimated is not None else None,
+        def raise_smallest(plan: _FlatForwardPlan, check: _MemoryCheck) -> None:
+            self._raise_memory_error(
+                plan,
+                check,
+                context="forward_micro_batches",
+                message="smallest DP microbatch is predicted to exceed available memory",
             )
-            if not first.check.fits:
-                raise_smallest(first.plan, first.check)
-            if first.cold_start:
-                return first
-            best_width = first.stats_global_count
-            best_check = None
 
-        def probe(
-            width: int,
-        ) -> tuple[bool, _MemoryCheck | None]:
-            estimated = estimate_check(width)
+        def probe(width: int) -> tuple[bool, _MemoryCheck | None]:
+            estimated = estimate(width)
             if estimated is not None:
                 return estimated[1] and estimated[0].fits, estimated[0]
-            item = candidate(width)
-            return item.check.fits, None
+            item = build_candidate(width)
+            return item.check.fits, item.check
 
-        def remember_fit(
-            width: int,
-            check: _MemoryCheck | None,
-        ) -> None:
+        def remember_fit(width: int, check: _MemoryCheck | None) -> None:
             nonlocal best_width, best_check
             best_width = snap_width(width)
             best_check = check
@@ -902,6 +884,22 @@ def search_below(failed_width: int) -> None:
                     rejected += 1
                     high = mid - 1
 
+        first_estimate = estimate(min_width)
+        if first_estimate is not None and not first_estimate[0].fits:
+            first = build_candidate(min_width, first_estimate[0])
+            raise_smallest(first.plan, first.check)
+        if first_estimate is None or not first_estimate[1]:
+            first = build_candidate(
+                min_width,
+                None if first_estimate is None else first_estimate[0],
+            )
+            if not first.check.fits:
+                raise_smallest(first.plan, first.check)
+            if first.cold_start:
+                return first
+        else:
+            best_check = first_estimate[0]
+
         stable_width = self._last_global_micro_batch_size
         if stable_width is not None and stable_width >= max(64, granularity * 2):
             stable_capacity = stable_width
@@ -915,15 +913,15 @@ def search_below(failed_width: int) -> None:
                     if grow_width > stable_width:
                         grow_fits, grow_check = probe(grow_width)
                         if grow_fits:
-                            return candidate(grow_width, grow_check)
+                            return build_candidate(grow_width, grow_check)
                         rejected += 1
                         search_below(grow_width)
-                        return candidate(best_width, best_check)
-                return candidate(stable_width, check)
+                        return build_candidate(best_width, best_check)
+                return build_candidate(stable_width, check)
             rejected += 1
             search_below(stable_width)
             self._last_global_micro_batch_size = best_width
-            return candidate(best_width, best_check)
+            return build_candidate(best_width, best_check)
 
         high_fail: int | None = None
         width = min(
@@ -945,7 +943,7 @@ def search_below(failed_width: int) -> None:
         if high_fail is not None:
             search_below(high_fail)
 
-        return candidate(best_width, best_check)
+        return build_candidate(best_width, best_check)
 
     @staticmethod
     def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
@@ -1178,12 +1176,6 @@ def _estimate_group_request_output_bytes(
         self,
         requests: Sequence[AnyForwardInput],
     ) -> int:
-        model: GPTModel | None
-        try:
-            model = _language_model(self.runtime.model[0])
-        except RuntimeError:
-            model = None
-        dtype_size = _dtype_size(next(self.runtime.model[0].parameters()).dtype)
         total = 0
         for request in requests:
             seq_len = int(request.input_tokens.numel())
@@ -1196,12 +1188,11 @@ def _estimate_group_request_output_bytes(
                     * (_dtype_size(torch.float32) + _dtype_size(torch.long))
                 )
             if request.logits:
-                if model is None:
+                if self._padded_vocab_size is None:
                     raise RuntimeError("logits output memory requires a GPT model")
-                total += seq_len * _padded_vocab_size(model) * dtype_size
+                total += seq_len * self._padded_vocab_size * self._param_dtype_size
             if request.hidden_states:
-                hidden_size = _hidden_size(model, self.runtime.provider)
-                total += seq_len * hidden_size * dtype_size
+                total += seq_len * self._hidden_size * self._param_dtype_size
         return total
 
     def _memory_signature_from_requests(
@@ -1303,19 +1294,13 @@ def _estimate_required_memory_bytes_from_values(
     def _static_compute_memory_bytes_for_tokens(self, packed_tokens: int) -> int:
         if packed_tokens <= 0:
             return 0
-        try:
-            model = _language_model(self.runtime.model[0])
-        except RuntimeError:
-            return 0
-        dtype_size = _dtype_size(next(self.runtime.model[0].parameters()).dtype)
-        hidden_size = _hidden_size(model, self.runtime.provider)
-        layers = int(
-            getattr(getattr(model, "config", None), "num_layers", 0)
-            or getattr(self.runtime.provider, "num_layers", 1)
-            or 1
+        activation_factor = max(4, min(16, self._num_layers // 4 + 4))
+        return int(
+            packed_tokens
+            * self._hidden_size
+            * self._param_dtype_size
+            * activation_factor
         )
-        activation_factor = max(4, min(16, layers // 4 + 4))
-        return int(packed_tokens * hidden_size * dtype_size * activation_factor)
 
     def _available_memory_bytes(self) -> int:
         if not (torch.cuda.is_available() and self.device.type == "cuda"):
diff --git a/src/art/megatron/weights/lora_publish.py b/src/art/megatron/weights/lora_publish.py
index 604c89b37..930b45c58 100644
--- a/src/art/megatron/weights/lora_publish.py
+++ b/src/art/megatron/weights/lora_publish.py
@@ -1,16 +1,22 @@
 from collections.abc import Iterable, Sequence
-import re
 from typing import Any, NamedTuple
 
 import torch
 
-from art.megatron.lora import LoRAPublishPlanner, LoraShardMeta
+from art.megatron.lora import (
+    LoRA,
+    LoRAPublishPlanner,
+    LoraShardMeta,
+    _block_for_key,
+    _dtype_name,
+)
+from art.megatron.lora import (
+    _distributed_initialized as _distributed_ready,
+)
 from art.megatron.model_support.lora_disk import save_vllm_lora_tensors
 from art.megatron.model_support.spec import ExpertPackedLoraGroup, ExpertPackedLoraSlot
 from art.megatron.training.model_chunks import ModelChunks
 
-_LAYER_BLOCK_RE = re.compile(r"^(?P<block>.*\.layers\.\d+)\.")
-
 
 class PackedExpertShardMeta(NamedTuple):
     key: str
@@ -58,35 +64,17 @@ def finish(self) -> None:
         self._events.clear()
 
 
-def iter_lora_modules(model_chunks: ModelChunks) -> Iterable[Any]:
+def iter_lora_modules(model_chunks: ModelChunks) -> Iterable[LoRA]:
     for chunk in model_chunks:
         for module in chunk.modules():
-            yield module
-
-
-def _dtype_name(dtype: torch.dtype) -> str:
-    return str(dtype).removeprefix("torch.")
+            if isinstance(module, LoRA):
+                yield module
 
 
 def _dtype_from_name(name: str) -> torch.dtype:
-    dtype = getattr(torch, name, None)
-    if not isinstance(dtype, torch.dtype):
-        raise RuntimeError(f"Unsupported LoRA tensor dtype={name!r}")
-    return dtype
-
-
-def _block_for_key(key: str) -> str:
-    match = _LAYER_BLOCK_RE.match(key)
-    if match is not None:
-        return match.group("block")
-    return "__global__"
-
-
-def _expert_prefix_projection(adapter_model_prefix: str) -> tuple[str, str] | None:
-    group_prefix, separator, projection = adapter_model_prefix.partition(".{expert}.")
-    if not separator:
-        return None
-    return group_prefix, projection
+    if isinstance(dtype := getattr(torch, name, None), torch.dtype):
+        return dtype
+    raise RuntimeError(f"Unsupported LoRA tensor dtype={name!r}")
 
 
 def _packed_expert_slot(
@@ -94,10 +82,9 @@ def _packed_expert_slot(
     suffix: str,
     groups: Sequence[ExpertPackedLoraGroup],
 ) -> tuple[str, ExpertPackedLoraSlot] | None:
-    parts = _expert_prefix_projection(adapter_model_prefix)
-    if parts is None:
+    group_prefix, separator, projection = adapter_model_prefix.partition(".{expert}.")
+    if not separator:
         return None
-    group_prefix, projection = parts
     lora_name = suffix.removesuffix(".weight")
     for group in groups:
         if not group_prefix.endswith(group.art_group_suffix):
@@ -109,23 +96,15 @@ def _packed_expert_slot(
 
 
 def _uses_packed_expert_publish(
-    module: Any,
+    module: LoRA,
     groups: Sequence[ExpertPackedLoraGroup],
 ) -> bool:
-    if int(getattr(module, "num_local_experts", 1)) <= 1:
+    if module.num_local_experts <= 1:
         return False
-    if not hasattr(module, "_lora_params"):
-        return False
-    adapter_model_prefix = getattr(module, "adapter_model_prefix", "")
-    if not isinstance(adapter_model_prefix, str):
-        return False
-    lora_suffixes = [
-        suffix
-        for suffix, _param in module._lora_params()  # type: ignore[attr-defined]
-    ]
-    return bool(lora_suffixes) and all(
-        _packed_expert_slot(adapter_model_prefix, suffix, groups) is not None
-        for suffix in lora_suffixes
+    params = tuple(module._lora_params())
+    return bool(params) and all(
+        _packed_expert_slot(module.adapter_model_prefix, suffix, groups) is not None
+        for suffix, _param in params
     )
 
 
@@ -141,15 +120,12 @@ def collect_local_lora_entries(
     for module in iter_lora_modules(model_chunks):
         if _uses_packed_expert_publish(module, packed_expert_groups):
             continue
-        if hasattr(module, "sharded_lora_state_dict"):
-            module_state: dict[str, torch.Tensor] = module.sharded_lora_state_dict()  # type: ignore[attr-defined]
-            for key, value in module_state.items():
-                target_dtype = (
-                    adapter_model[key].dtype if key in adapter_model else value.dtype
-                )
-                local_tensors[key] = value.to(target_dtype).contiguous()
-        if hasattr(module, "sharded_lora_manifest"):
-            local_manifest.update(module.sharded_lora_manifest())  # type: ignore[attr-defined]
+        for key, value in module.sharded_lora_state_dict().items():
+            target_dtype = (
+                adapter_model[key].dtype if key in adapter_model else value.dtype
+            )
+            local_tensors[key] = value.to(target_dtype).contiguous()
+        local_manifest.update(module.sharded_lora_manifest())
 
     if set(local_tensors) != set(local_manifest):
         raise RuntimeError(
@@ -171,18 +147,6 @@ def collect_local_lora_entries(
     return local_tensors, metadata
 
 
-def _target_dtype_for_lora_param(
-    module: Any,
-    adapter_model: dict[str, torch.Tensor],
-    suffix: str,
-    fallback: torch.dtype,
-) -> torch.dtype:
-    keys = module._expected_weight_keys(suffix.removesuffix(".weight"))  # type: ignore[attr-defined]
-    return (
-        adapter_model[keys[0]].dtype if keys and keys[0] in adapter_model else fallback
-    )
-
-
 def collect_local_packed_expert_entries(
     model_chunks: ModelChunks,
     adapter_model: dict[str, torch.Tensor],
@@ -195,25 +159,24 @@ def collect_local_packed_expert_entries(
     for module in iter_lora_modules(model_chunks):
         if not _uses_packed_expert_publish(module, packed_expert_groups):
             continue
-        adapter_model_prefix = module.adapter_model_prefix  # type: ignore[attr-defined]
-        expert_start = int(module._expert_offset)  # type: ignore[attr-defined]
-        expert_count = int(module.num_local_experts)  # type: ignore[attr-defined]
-        for suffix, param in module._lora_params():  # type: ignore[attr-defined]
+        expert_start = int(module._expert_offset)
+        expert_count = int(module.num_local_experts)
+        for suffix, param in module._lora_params():
             slot_match = _packed_expert_slot(
-                adapter_model_prefix,
+                module.adapter_model_prefix,
                 suffix,
                 packed_expert_groups,
             )
-            if slot_match is None or not module._should_export_parameter(param):  # type: ignore[attr-defined]
+            if slot_match is None or not module._should_export_parameter(param):
                 continue
             group_prefix, slot = slot_match
             key = f"{group_prefix}.{slot.output_suffix}"
             tensor = param.data.transpose(1, 2).contiguous()
-            target_dtype = _target_dtype_for_lora_param(
-                module,
-                adapter_model,
-                suffix,
-                tensor.dtype,
+            source_keys = module._expected_weight_keys(suffix.removesuffix(".weight"))
+            target_dtype = (
+                adapter_model[source_keys[0]].dtype
+                if source_keys and source_keys[0] in adapter_model
+                else tensor.dtype
             )
             tensor = tensor.to(target_dtype).contiguous()
             if key in local_tensors:
@@ -225,7 +188,7 @@ def collect_local_packed_expert_entries(
                     owner_rank=owner_rank,
                     shape=tuple(int(dim) for dim in tensor.shape),
                     dtype_name=_dtype_name(tensor.dtype),
-                    manifest=module._manifest_for_param(param),  # type: ignore[attr-defined]
+                    manifest=module._manifest_for_param(param),
                     expert_start=expert_start,
                     expert_count=expert_count,
                     pack_layout=slot.pack_layout,
@@ -355,70 +318,66 @@ def _merge_sharded_tensor(
     return torch.cat(tuple(ordered_shards), dim=axis).contiguous()
 
 
-def merge_sharded_adapter_entries(
-    entries_by_key: dict[str, list[tuple[dict[str, Any], torch.Tensor]]],
-) -> dict[str, torch.Tensor]:
-    adapter_model: dict[str, torch.Tensor] = {}
-    for key, key_entries in entries_by_key.items():
-        first_manifest = key_entries[0][0]
-        sharded = bool(first_manifest["sharded"])
-        shard_world_size = int(first_manifest["shard_world_size"])
-        for manifest_entry, _tensor in key_entries:
-            if bool(manifest_entry["sharded"]) != sharded:
-                raise RuntimeError(f"Inconsistent sharded flag for key={key}")
-            if int(manifest_entry["shard_world_size"]) != shard_world_size:
-                raise RuntimeError(f"Inconsistent shard world size for key={key}")
-
-        if not sharded:
-            if len(key_entries) != 1:
-                raise RuntimeError(
-                    f"Replicated key={key} expected 1 shard, got {len(key_entries)}"
-                )
-            adapter_model[key] = key_entries[0][1]
-            continue
-
-        shard_rank_to_tensor: dict[int, torch.Tensor] = {}
-        for manifest_entry, shard_tensor in key_entries:
-            shard_rank = int(manifest_entry["shard_rank"])
-            if shard_rank in shard_rank_to_tensor:
-                raise RuntimeError(f"Duplicate shard_rank={shard_rank} for key={key}")
-            shard_rank_to_tensor[shard_rank] = shard_tensor
+def _merge_manifest_entries(
+    key: str,
+    key_entries: Sequence[tuple[dict[str, Any], torch.Tensor]],
+    *,
+    manifest: dict[str, Any] | None = None,
+) -> torch.Tensor:
+    first_manifest = key_entries[0][0]
+    sharded = bool(first_manifest["sharded"])
+    shard_world_size = int(first_manifest["shard_world_size"])
+    for entry_manifest, _tensor in key_entries:
+        if bool(entry_manifest["sharded"]) != sharded:
+            raise RuntimeError(f"Inconsistent sharded flag for key={key}")
+        if int(entry_manifest["shard_world_size"]) != shard_world_size:
+            raise RuntimeError(f"Inconsistent shard world size for key={key}")
 
-        expected_shard_ranks = set(range(shard_world_size))
-        if set(shard_rank_to_tensor) != expected_shard_ranks:
+    if not sharded:
+        if len(key_entries) != 1:
             raise RuntimeError(
-                f"Shard rank coverage mismatch for key={key}: "
-                f"expected {sorted(expected_shard_ranks)}, got {sorted(shard_rank_to_tensor)}"
+                f"Replicated key={key} expected 1 shard, got {len(key_entries)}"
             )
+        return key_entries[0][1]
 
-        ordered_shards = [
-            shard_rank_to_tensor[shard_rank] for shard_rank in range(shard_world_size)
-        ]
-        adapter_model[key] = _merge_sharded_tensor(
-            key,
-            ordered_shards=ordered_shards,
-            manifest=first_manifest,
+    shard_rank_to_tensor: dict[int, torch.Tensor] = {}
+    for entry_manifest, shard_tensor in key_entries:
+        shard_rank = int(entry_manifest["shard_rank"])
+        if shard_rank in shard_rank_to_tensor:
+            raise RuntimeError(f"Duplicate shard_rank={shard_rank} for key={key}")
+        shard_rank_to_tensor[shard_rank] = shard_tensor
+
+    expected_shard_ranks = set(range(shard_world_size))
+    if set(shard_rank_to_tensor) != expected_shard_ranks:
+        raise RuntimeError(
+            f"Shard rank coverage mismatch for key={key}: "
+            f"expected {sorted(expected_shard_ranks)}, got {sorted(shard_rank_to_tensor)}"
         )
-    return adapter_model
+    return _merge_sharded_tensor(
+        key,
+        ordered_shards=[
+            shard_rank_to_tensor[shard_rank] for shard_rank in range(shard_world_size)
+        ],
+        manifest=first_manifest if manifest is None else manifest,
+    )
 
 
-def _distributed_ready() -> bool:
-    is_initialized = getattr(torch.distributed, "is_initialized", None)
-    return (
-        torch.distributed.is_available()
-        and callable(is_initialized)
-        and bool(is_initialized())
-    )
+def merge_sharded_adapter_entries(
+    entries_by_key: dict[str, list[tuple[dict[str, Any], torch.Tensor]]],
+) -> dict[str, torch.Tensor]:
+    return {
+        key: _merge_manifest_entries(key, key_entries)
+        for key, key_entries in entries_by_key.items()
+    }
 
 
 def _rank_and_device() -> tuple[int, torch.device]:
-    if _distributed_ready():
-        rank = torch.distributed.get_rank()  # type: ignore[possibly-missing-attribute]
-    else:
-        rank = 0
-    if torch.cuda.is_available():
-        return rank, torch.device("cuda", torch.cuda.current_device())
-    return rank, torch.device("cpu")
+    return (
+        torch.distributed.get_rank() if _distributed_ready() else 0,  # type: ignore[possibly-missing-attribute]
+        torch.device("cuda", torch.cuda.current_device())
+        if torch.cuda.is_available()
+        else torch.device("cpu"),
+    )
 
 
 def _metadata_by_owner_dtype(
@@ -519,45 +478,10 @@ def _merge_packed_expert_block(
     key: str,
     key_entries: list[tuple[dict[str, Any], torch.Tensor]],
 ) -> torch.Tensor:
-    first_manifest = key_entries[0][0]
-    sharded = bool(first_manifest["sharded"])
-    shard_world_size = int(first_manifest["shard_world_size"])
-    if not sharded:
-        if len(key_entries) != 1:
-            raise RuntimeError(
-                f"Replicated packed key={key} expected 1 shard, got {len(key_entries)}"
-            )
-        return key_entries[0][1]
-
-    shard_rank_to_tensor: dict[int, torch.Tensor] = {}
-    for manifest_entry, shard_tensor in key_entries:
-        if bool(manifest_entry["sharded"]) != sharded:
-            raise RuntimeError(f"Inconsistent sharded flag for packed key={key}")
-        if int(manifest_entry["shard_world_size"]) != shard_world_size:
-            raise RuntimeError(f"Inconsistent shard world size for packed key={key}")
-        shard_rank = int(manifest_entry["shard_rank"])
-        if shard_rank in shard_rank_to_tensor:
-            raise RuntimeError(
-                f"Duplicate shard_rank={shard_rank} for packed key={key}"
-            )
-        shard_rank_to_tensor[shard_rank] = shard_tensor
-
-    expected_shard_ranks = set(range(shard_world_size))
-    if set(shard_rank_to_tensor) != expected_shard_ranks:
-        raise RuntimeError(
-            f"Shard rank coverage mismatch for packed key={key}: "
-            f"expected {sorted(expected_shard_ranks)}, got {sorted(shard_rank_to_tensor)}"
-        )
-
-    manifest = dict(first_manifest)
-    manifest["export_shard_dim"] = int(manifest["export_shard_dim"]) + 1
-    return _merge_sharded_tensor(
-        key,
-        ordered_shards=[
-            shard_rank_to_tensor[shard_rank] for shard_rank in range(shard_world_size)
-        ],
-        manifest=manifest,
-    )
+    manifest = dict(key_entries[0][0])
+    if bool(manifest["sharded"]):
+        manifest["export_shard_dim"] = int(manifest["export_shard_dim"]) + 1
+    return _merge_manifest_entries(key, key_entries, manifest=manifest)
 
 
 def _pack_merged_expert_blocks(

From 0a924d41a447bc69bd0894d5c14b20ade045db50 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 04:19:15 -0600
Subject: [PATCH 091/114] refactor: collapse context parallel dispatch glue

---
 src/art/megatron/context_parallel/runtime.py | 195 ++++---------------
 1 file changed, 34 insertions(+), 161 deletions(-)

diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index b59724979..90c91c021 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -112,15 +112,6 @@ def _planning_bundle_cache_key(
     )
 
 
-def _rank_plan_cache_key(
-    *,
-    planning_key: str,
-    device: torch.device,
-    cp_rank: int,
-) -> tuple[str, str, int | None, int]:
-    return (planning_key, device.type, device.index, int(cp_rank))
-
-
 def _normalized_chunk_size(
     *,
     valid_tokens: int,
@@ -1796,10 +1787,11 @@ def prepare_megatron_context_parallel_state(
         gdn_plan_device = (
             target_device if target_device is not None else micro["tokens"].device
         )
-        rank_gdn_key = _rank_plan_cache_key(
-            planning_key=planning_key,
-            device=gdn_plan_device,
-            cp_rank=int(cp_rank),
+        rank_gdn_key = (
+            planning_key,
+            gdn_plan_device.type,
+            gdn_plan_device.index,
+            int(cp_rank),
         )
         gdn_execution_plan = _GDN_RANK_PLAN_CACHE.get(rank_gdn_key)
         if gdn_execution_plan is None:
@@ -1872,111 +1864,43 @@ def dispatch_megatron_context_parallel_training_tensors(
         if trace_token_uids
         else None
     )
-    local_tokens = _dispatch_tensor(
-        micro["tokens"],
-        rank_plan=rank_plan,
-        pad_value=0,
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    )
-    local_labels = _dispatch_tensor(
-        labels,
-        rank_plan=rank_plan,
-        pad_value=-100,
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    )
-    local_input_pos = _dispatch_tensor(
-        micro["input_pos"],
-        rank_plan=rank_plan,
-        pad_value=0,
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    )
-    local_assistant_mask = _dispatch_tensor(
-        assistant_mask,
-        rank_plan=rank_plan,
-        pad_value=False,
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    ).to(dtype=torch.bool)
-    local_group_ids = _dispatch_tensor(
-        shifted_group_ids,
-        rank_plan=rank_plan,
-        pad_value=0,
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    )
-    local_old_logprobs = _dispatch_tensor(
-        old_logprobs,
-        rank_plan=rank_plan,
-        pad_value=float("nan"),
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    )
-    local_original_logprobs = (
-        None
-        if original_logprobs is None
-        else _dispatch_tensor(
-            original_logprobs,
-            rank_plan=rank_plan,
-            pad_value=0.0,
-            pad_multiple=pad_multiple,
-            dispatch_meta_cache=dispatch_meta_cache,
-        )
-    )
-    local_ref_logprobs = (
-        None
-        if ref_logprobs is None
-        else _dispatch_tensor(
-            ref_logprobs,
+
+    def dispatch(
+        tensor: torch.Tensor,
+        pad_value: int | float | bool,
+        *,
+        move_to_target: bool = True,
+    ) -> torch.Tensor:
+        local = _dispatch_tensor(
+            tensor,
             rank_plan=rank_plan,
-            pad_value=float("nan"),
+            pad_value=pad_value,
             pad_multiple=pad_multiple,
             dispatch_meta_cache=dispatch_meta_cache,
         )
-    )
-    local_advantages = _dispatch_tensor(
-        advantages,
-        rank_plan=rank_plan,
-        pad_value=0.0,
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    )
-    local_weights = _dispatch_tensor(
-        weights,
-        rank_plan=rank_plan,
-        pad_value=0.0,
-        pad_multiple=pad_multiple,
-        dispatch_meta_cache=dispatch_meta_cache,
-    )
+        return _to_target_device(local, target_device) if move_to_target else local
+
+    def maybe_dispatch(
+        tensor: torch.Tensor | None,
+        pad_value: int | float | bool,
+    ) -> torch.Tensor | None:
+        return None if tensor is None else dispatch(tensor, pad_value)
+
     local_token_uids = (
-        None
-        if token_uids is None
-        else _dispatch_tensor(
-            token_uids,
-            rank_plan=rank_plan,
-            pad_value=-1,
-            pad_multiple=pad_multiple,
-            dispatch_meta_cache=dispatch_meta_cache,
-        )
+        None if token_uids is None else dispatch(token_uids, -1, move_to_target=False)
     )
     return DispatchedPackedTensors(
-        tokens=_to_target_device(local_tokens, target_device),
-        labels=_to_target_device(local_labels, target_device),
-        input_pos=_to_target_device(local_input_pos, target_device),
-        assistant_mask=_to_target_device(local_assistant_mask, target_device),
-        group_ids=_to_target_device(local_group_ids, target_device),
-        old_logprobs=_to_target_device(local_old_logprobs, target_device),
-        advantages=_to_target_device(local_advantages, target_device),
-        weights=_to_target_device(local_weights, target_device),
+        tokens=dispatch(micro["tokens"], 0),
+        labels=dispatch(labels, -100),
+        input_pos=dispatch(micro["input_pos"], 0),
+        assistant_mask=dispatch(assistant_mask, False).to(dtype=torch.bool),
+        group_ids=dispatch(shifted_group_ids, 0),
+        old_logprobs=dispatch(old_logprobs, float("nan")),
+        advantages=dispatch(advantages, 0.0),
+        weights=dispatch(weights, 0.0),
         valid_lengths=rank_plan.local_valid_lengths,
-        original_logprobs=None
-        if local_original_logprobs is None
-        else _to_target_device(local_original_logprobs, target_device),
-        ref_logprobs=None
-        if local_ref_logprobs is None
-        else _to_target_device(local_ref_logprobs, target_device),
+        original_logprobs=maybe_dispatch(original_logprobs, 0.0),
+        ref_logprobs=maybe_dispatch(ref_logprobs, float("nan")),
         loss_all_reduce_group=cp_group,
         token_uids=None if local_token_uids is None else local_token_uids.contiguous(),
     )
@@ -2007,25 +1931,6 @@ def get_or_build_runtime_plan(
     return plan
 
 
-def get_or_build_rank_runtime_plan(
-    spec: PackedBatchAttentionSpec,
-    *,
-    topology: ParallelTopology,
-    config: ContextParallelConfig,
-    runtime_key: ContextParallelRuntimeKey,
-    original_seq_len: int,
-    target_rank: int,
-) -> RankRuntimePlan:
-    del runtime_key
-    return _build_rank_runtime_plan_for_spec(
-        spec,
-        topology=topology,
-        config=config,
-        original_seq_len=original_seq_len,
-        target_rank=target_rank,
-    )
-
-
 def _runtime_plan_assignment(
     spec: PackedBatchAttentionSpec,
     *,
@@ -2071,38 +1976,6 @@ def _runtime_plan_assignment(
     return row_spec, chunk_ranges, owners, wave_assignment
 
 
-def _build_rank_runtime_plan_for_spec(
-    spec: PackedBatchAttentionSpec,
-    *,
-    topology: ParallelTopology,
-    config: ContextParallelConfig,
-    original_seq_len: int,
-    target_rank: int,
-) -> RankRuntimePlan:
-    row_spec, chunk_ranges, owners, wave_assignment = _runtime_plan_assignment(
-        spec,
-        topology=topology,
-        config=config,
-    )
-    cp_size = max(int(topology.cp), 1)
-    token_layout_index = _build_runtime_token_layout_index(
-        chunk_ranges=chunk_ranges,
-        owners=owners,
-        cp_size=cp_size,
-    )
-    return _build_rank_runtime_plan(
-        row_spec=row_spec,
-        chunk_ranges=chunk_ranges,
-        owners=owners,
-        wave_assignment=wave_assignment,
-        token_layout_index=token_layout_index,
-        cp_size=cp_size,
-        original_seq_len=original_seq_len,
-        target_rank=int(target_rank),
-        block_size=int(config.block_size),
-    )
-
-
 def _build_runtime_plan(
     spec: PackedBatchAttentionSpec,
     *,

From e2fccac2d04dac835c67b113f9130984ce863dc5 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 04:40:32 -0600
Subject: [PATCH 092/114] refactor: trim context parallel runtime plans

---
 dev/trainer_rank_review_perf.py               |  10 +-
 src/art/megatron/context_parallel/__init__.py |   6 -
 src/art/megatron/context_parallel/runtime.py  | 130 +++++-------------
 src/art/megatron/context_parallel/types.py    |  21 ---
 .../test_shared_prefix_attention_builder.py   |  20 +--
 5 files changed, 45 insertions(+), 142 deletions(-)

diff --git a/dev/trainer_rank_review_perf.py b/dev/trainer_rank_review_perf.py
index f6df0c3a3..4da5a8ad0 100644
--- a/dev/trainer_rank_review_perf.py
+++ b/dev/trainer_rank_review_perf.py
@@ -21,7 +21,6 @@
 from art.megatron.context_parallel.runtime import (
     _RUNTIME_PLAN_CACHE,
     get_or_build_runtime_plan,
-    make_runtime_key,
 )
 from art.megatron.context_parallel.types import (
     ContextParallelConfig,
@@ -342,7 +341,6 @@ def _build_cp_plan(
         spec,
         topology=topology,
         config=config,
-        runtime_key=make_runtime_key(spec, topology=topology, config=config),
         original_seq_len=int(pack.tokens.numel()),
     )
 
@@ -357,7 +355,7 @@ def _build_stage_masks(
         group_ids=pack.group_ids[0],
         parent_ids=pack.parent_ids[0],
     )
-    for rank_plan in plan.rank_plans:
+    for rank_plan in plan:
         for stage in rank_plan.stage_plans:
             if stage.mask_metadata is None:
                 continue
@@ -531,7 +529,7 @@ def _build_stage_flex_cases(
         group_ids=pack.group_ids[0],
         parent_ids=pack.parent_ids[0],
     )
-    for rank_plan in plan.rank_plans:
+    for rank_plan in plan:
         for stage in rank_plan.stage_plans:
             if stage.mask_metadata is None:
                 continue
@@ -717,13 +715,13 @@ def _plan_stats(plan: object) -> dict[str, int]:
     stage_count = 0
     remote_stage_count = 0
     mask_stage_count = 0
-    for rank_plan in plan.rank_plans:
+    for rank_plan in plan:
         for stage in rank_plan.stage_plans:
             stage_count += 1
             remote_stage_count += int(not stage.is_local_stage)
             mask_stage_count += int(stage.mask_metadata is not None)
     return {
-        "rank_count": len(plan.rank_plans),
+        "rank_count": len(plan),
         "stage_count": stage_count,
         "remote_stage_count": remote_stage_count,
         "mask_stage_count": mask_stage_count,
diff --git a/src/art/megatron/context_parallel/__init__.py b/src/art/megatron/context_parallel/__init__.py
index 995b0c425..bcc2e2b7a 100644
--- a/src/art/megatron/context_parallel/__init__.py
+++ b/src/art/megatron/context_parallel/__init__.py
@@ -1,13 +1,10 @@
 from .builder import build_dense_reference_mask, build_shared_prefix_attention_spec
 from .layout_index import TokenLayoutIndex
-from .runtime import build_context_parallel_token_layout_index
 from .types import (
     ArtContextParallelState,
     AttnMaskKind,
     AttnSlice,
     ContextParallelConfig,
-    ContextParallelRuntimeKey,
-    ContextParallelRuntimePlan,
     DispatchedPackedTensors,
     FlexMaskSpec,
     PackedBatchAttentionSpec,
@@ -30,11 +27,8 @@
     "PreparedMegatronBatch",
     "SharedPrefixBuilderConfig",
     "ContextParallelConfig",
-    "ContextParallelRuntimeKey",
-    "ContextParallelRuntimePlan",
     "TokenRange",
     "TokenLayoutIndex",
     "build_dense_reference_mask",
-    "build_context_parallel_token_layout_index",
     "build_shared_prefix_attention_spec",
 ]
diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index 90c91c021..b719bcb5d 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -18,8 +18,6 @@
     AttnMaskKind,
     AttnSlice,
     ContextParallelConfig,
-    ContextParallelRuntimeKey,
-    ContextParallelRuntimePlan,
     DispatchedPackedTensors,
     DkvReducePlan,
     ExactMaskMetadata,
@@ -45,13 +43,12 @@
 @dataclass(frozen=True)
 class _PlanningBundle:
     spec: PackedBatchAttentionSpec
-    runtime_key: ContextParallelRuntimeKey
-    runtime_plan: ContextParallelRuntimePlan
+    rank_plans: tuple[RankRuntimePlan, ...]
     gdn_execution_spec: Any | None = None
 
 
 _PLANNING_BUNDLE_CACHE: dict[str, _PlanningBundle] = {}
-_RUNTIME_PLAN_CACHE: dict[tuple[str, int], ContextParallelRuntimePlan] = {}
+_RUNTIME_PLAN_CACHE: dict[str, tuple[RankRuntimePlan, ...]] = {}
 _GDN_RANK_PLAN_CACHE: dict[tuple[str, str, int | None, int], Any] = {}
 
 
@@ -1476,16 +1473,8 @@ def _build_rank_runtime_plan(
             _remap_subrange(range_, host_local_ranges)
             for range_ in local_global_k_ranges
         ),
-        kv_fetch_plan=KvFetchPlan(
-            send_splits=tuple(0 for _ in range(cp_size)),
-            recv_splits=tuple(0 for _ in range(cp_size)),
-            send_ranges_by_peer=tuple(tuple() for _ in range(cp_size)),
-        ),
-        dkv_reduce_plan=DkvReducePlan(
-            send_splits=tuple(0 for _ in range(cp_size)),
-            recv_splits=tuple(0 for _ in range(cp_size)),
-            recv_ranges_by_peer=tuple(tuple() for _ in range(cp_size)),
-        ),
+        kv_fetch_plan=None,
+        dkv_reduce_plan=None,
         remote_buffer_range=None,
         block_size=block_size,
     )
@@ -1583,14 +1572,8 @@ def _build_rank_runtime_plan(
         token_layout_index=token_layout_index,
         local_valid_lengths=(local_token_count,),
         local_row_ranges=local_row_ranges,
-        local_token_count=local_token_count,
         stage_plans=tuple(stage_plans),
         backward_stage_indices=tuple(backward_stage_indices + [0]),
-        remote_kv_fetch_plan=KvFetchPlan(
-            send_splits=aggregate_send_splits,
-            recv_splits=tuple(aggregate_recv_splits),
-            send_ranges_by_peer=aggregate_send_ranges,
-        ),
         remote_dkv_reduce_plan=DkvReducePlan(
             send_splits=tuple(aggregate_recv_splits),
             recv_splits=aggregate_send_splits,
@@ -1599,57 +1582,6 @@ def _build_rank_runtime_plan(
     )
 
 
-def make_runtime_key(
-    spec: PackedBatchAttentionSpec,
-    *,
-    topology: ParallelTopology,
-    config: ContextParallelConfig,
-) -> ContextParallelRuntimeKey:
-    if len(spec.rows) != 1:
-        raise RuntimeError(
-            "ART context parallel runtime keys expect exactly one packed sequence, "
-            f"got {len(spec.rows)} rows."
-        )
-    row_signatures = tuple(_row_signature(row) for row in spec.rows)
-    return ContextParallelRuntimeKey(
-        topology=topology,
-        config=config,
-        row_signatures=row_signatures,
-    )
-
-
-def build_context_parallel_token_layout_index(
-    *,
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
-    topology: ParallelTopology,
-    config: ContextParallelConfig,
-    original_seq_len: int,
-) -> TokenLayoutIndex:
-    """Return the token ownership chosen by the real CP attention planner."""
-
-    spec = build_shared_prefix_attention_spec(
-        group_ids=group_ids, parent_ids=parent_ids
-    )
-    if int(topology.cp) <= 1:
-        valid_tokens = int(spec.rows[0].valid_tokens) if spec.rows else 0
-        return TokenLayoutIndex(
-            ownership_ranges_by_rank=(((0, valid_tokens, 0),) if valid_tokens else (),),
-            token_counts_by_rank=(valid_tokens,),
-        )
-    _row_spec, chunk_ranges, owners, _wave_assignment = _runtime_plan_assignment(
-        spec,
-        topology=topology,
-        config=config,
-    )
-    del original_seq_len
-    return _build_runtime_token_layout_index(
-        chunk_ranges=chunk_ranges,
-        owners=owners,
-        cp_size=max(int(topology.cp), 1),
-    )
-
-
 def prepare_cp_micro(
     *,
     micro: PackedTensors,
@@ -1755,12 +1687,10 @@ def prepare_megatron_context_parallel_state(
             group_ids=group_ids_cpu,
             parent_ids=parent_ids_cpu,
         )
-        runtime_key = make_runtime_key(spec, topology=topology, config=config)
         runtime_plan = get_or_build_runtime_plan(
             spec,
             topology=topology,
             config=config,
-            runtime_key=runtime_key,
             original_seq_len=int(micro["tokens"].shape[1]),
         )
         gdn_execution_spec = None
@@ -1774,12 +1704,11 @@ def prepare_megatron_context_parallel_state(
             )
         bundle = _PlanningBundle(
             spec=spec,
-            runtime_key=runtime_key,
-            runtime_plan=runtime_plan,
+            rank_plans=runtime_plan,
             gdn_execution_spec=gdn_execution_spec,
         )
         _cache_put(_PLANNING_BUNDLE_CACHE, planning_key, bundle)
-    rank_plan = bundle.runtime_plan.rank_plans[int(cp_rank)]
+    rank_plan = bundle.rank_plans[int(cp_rank)]
     gdn_execution_plan = None
     if build_gdn_execution_spec:
         if bundle.gdn_execution_spec is None:
@@ -1809,7 +1738,6 @@ def prepare_megatron_context_parallel_state(
             _cache_put(_GDN_RANK_PLAN_CACHE, rank_gdn_key, gdn_execution_plan)
     pad_multiple = int(topology.tp) if bool(topology.sp) and int(topology.tp) > 1 else 1
     state = ArtContextParallelState(
-        runtime_key=bundle.runtime_key,
         rank_plan=rank_plan,
         cp_group=cp_group,
         config=config,
@@ -1911,12 +1839,13 @@ def get_or_build_runtime_plan(
     *,
     topology: ParallelTopology,
     config: ContextParallelConfig,
-    runtime_key: ContextParallelRuntimeKey,
     original_seq_len: int,
-) -> ContextParallelRuntimePlan:
-    key = (
-        _json_cache_key(_runtime_key_payload(runtime_key)),
-        int(original_seq_len),
+) -> tuple[RankRuntimePlan, ...]:
+    key = _runtime_plan_cache_key(
+        spec,
+        topology=topology,
+        config=config,
+        original_seq_len=original_seq_len,
     )
     cached = _RUNTIME_PLAN_CACHE.get(key)
     if cached is not None:
@@ -1982,7 +1911,7 @@ def _build_runtime_plan(
     topology: ParallelTopology,
     config: ContextParallelConfig,
     original_seq_len: int,
-) -> ContextParallelRuntimePlan:
+) -> tuple[RankRuntimePlan, ...]:
     row_spec, chunk_ranges, owners, wave_assignment = _runtime_plan_assignment(
         spec,
         topology=topology,
@@ -1994,7 +1923,7 @@ def _build_runtime_plan(
         owners=owners,
         cp_size=cp_size,
     )
-    rank_plans = [
+    return tuple(
         _build_rank_runtime_plan(
             row_spec=row_spec,
             chunk_ranges=chunk_ranges,
@@ -2007,12 +1936,6 @@ def _build_runtime_plan(
             block_size=int(config.block_size),
         )
         for rank in range(cp_size)
-    ]
-    return ContextParallelRuntimePlan(
-        topology=topology,
-        config=config,
-        token_layout_index=token_layout_index,
-        rank_plans=tuple(rank_plans),
     )
 
 
@@ -2045,16 +1968,25 @@ def _row_signature(row_spec: PackedRowAttentionSpec) -> str:
     return json.dumps(payload, sort_keys=True)
 
 
-def _dataclass_payload(value: Any) -> dict[str, Any]:
-    return dict(value.__dict__)
+def _runtime_plan_cache_key(
+    spec: PackedBatchAttentionSpec,
+    *,
+    topology: ParallelTopology,
+    config: ContextParallelConfig,
+    original_seq_len: int,
+) -> str:
+    return _json_cache_key(
+        {
+            "topology": _dataclass_payload(topology),
+            "config": _dataclass_payload(config),
+            "row_signatures": tuple(_row_signature(row) for row in spec.rows),
+            "original_seq_len": int(original_seq_len),
+        }
+    )
 
 
-def _runtime_key_payload(runtime_key: ContextParallelRuntimeKey) -> dict[str, Any]:
-    return {
-        "topology": _dataclass_payload(runtime_key.topology),
-        "config": _dataclass_payload(runtime_key.config),
-        "row_signatures": runtime_key.row_signatures,
-    }
+def _dataclass_payload(value: Any) -> dict[str, Any]:
+    return dict(value.__dict__)
 
 
 def _attn_slice_payload(slice_: AttnSlice) -> dict[str, Any]:
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index 22b468d99..4e95315dc 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -25,9 +25,6 @@ class TokenRange:
     def size(self) -> int:
         return self.end - self.start
 
-    def is_empty(self) -> bool:
-        return self.end <= self.start
-
 
 @dataclass(frozen=True)
 class AttnSlice:
@@ -91,13 +88,6 @@ class ParallelTopology:
     sp: bool = False
 
 
-@dataclass(frozen=True)
-class ContextParallelRuntimeKey:
-    topology: ParallelTopology
-    config: ContextParallelConfig
-    row_signatures: tuple[str, ...]
-
-
 @dataclass(frozen=True)
 class KvFetchPlan:
     send_splits: tuple[int, ...]
@@ -139,21 +129,11 @@ class RankRuntimePlan:
     token_layout_index: TokenLayoutIndex
     local_valid_lengths: tuple[int, ...]
     local_row_ranges: tuple[TokenRange | None, ...]
-    local_token_count: int
     stage_plans: tuple[StagePlan, ...]
-    remote_kv_fetch_plan: KvFetchPlan
     remote_dkv_reduce_plan: DkvReducePlan
     backward_stage_indices: tuple[int, ...] = ()
 
 
-@dataclass(frozen=True)
-class ContextParallelRuntimePlan:
-    topology: ParallelTopology
-    config: ContextParallelConfig
-    token_layout_index: TokenLayoutIndex
-    rank_plans: tuple[RankRuntimePlan, ...]
-
-
 class DispatchedPackedTensors(ContextParallelLossInputs):
     model_config = ConfigDict(arbitrary_types_allowed=True)
 
@@ -193,7 +173,6 @@ class StageExecutionSpec:
 
 @dataclass
 class ArtContextParallelState:
-    runtime_key: ContextParallelRuntimeKey
     rank_plan: RankRuntimePlan
     cp_group: Any
     config: ContextParallelConfig
diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
index 1214d344e..4645ccf12 100644
--- a/tests/unit/test_shared_prefix_attention_builder.py
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -12,11 +12,7 @@
     build_dense_reference_mask,
     build_shared_prefix_attention_spec,
 )
-from art.megatron.context_parallel.runtime import (
-    build_context_parallel_token_layout_index,
-    get_or_build_runtime_plan,
-    make_runtime_key,
-)
+from art.megatron.context_parallel.runtime import get_or_build_runtime_plan
 from art.megatron.context_parallel.types import (
     AttnMaskKind,
     AttnSlice,
@@ -64,16 +60,21 @@ def test_shared_prefix_attention_spec_matches_tree_reference() -> None:
 
 def test_shared_prefix_can_build_context_parallel_layout() -> None:
     group_ids, parent_ids = _branching_prefix_inputs()
-
-    layout = build_context_parallel_token_layout_index(
+    spec = build_shared_prefix_attention_spec(
         group_ids=group_ids,
         parent_ids=parent_ids,
+    )
+
+    plan = get_or_build_runtime_plan(
+        spec,
         topology=ParallelTopology(cp=2),
         config=ContextParallelConfig(planner_chunk_size=2, planner_max_search_steps=1),
         original_seq_len=int(group_ids.numel()),
     )
 
-    assert sum(layout.token_counts_by_rank) == int(group_ids.numel())
+    assert sum(plan[rank].local_valid_lengths[0] for rank in range(2)) == int(
+        group_ids.numel()
+    )
 
 
 def test_sparse_block_mask_exact_predicate_matches_dense_reference() -> None:
@@ -314,13 +315,12 @@ def _assert_context_parallel_stage_masks_match_dense(
         spec,
         topology=topology,
         config=config,
-        runtime_key=make_runtime_key(spec, topology=topology, config=config),
         original_seq_len=int(pack.tokens.numel()),
     )
 
     checked_stages = 0
     checked_remote_stages = 0
-    for rank_plan in plan.rank_plans:
+    for rank_plan in plan:
         for stage in rank_plan.stage_plans:
             if stage.mask_metadata is None:
                 continue

From 9b5c5dac7f39a62e81c81007a7dab24116a0390e Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 05:48:58 -0600
Subject: [PATCH 093/114] refactor: unify trainer rank head projection

---
 dev/trainer_rank_parity_probe.py             |   7 +-
 dev/trainer_rank_topology_check.py           |  98 ++++-
 src/art/megatron/trainer_rank.py             | 371 +++++--------------
 tests/unit/test_trainer_rank_weird_shapes.py |  29 --
 4 files changed, 199 insertions(+), 306 deletions(-)

diff --git a/dev/trainer_rank_parity_probe.py b/dev/trainer_rank_parity_probe.py
index 8e372fa75..25a04140c 100644
--- a/dev/trainer_rank_parity_probe.py
+++ b/dev/trainer_rank_parity_probe.py
@@ -14,6 +14,7 @@
 from art.megatron.trainer_rank import (
     AnyForwardInput,
     TrainerRank,
+    _batch_seq_logits,
     _language_model,
     _pack_forward_items,
     _PackedForwardBatch,
@@ -413,11 +414,15 @@ def _logits(rank: TrainerRank, hidden_rows: torch.Tensor) -> torch.Tensor:
     )
     if int(hidden_rows.shape[0]) == 0:
         return hidden_rows.new_empty((0, int(model.vocab_size)))
-    return rank._logits_from_hidden_rows(
+    local_logits = rank._local_logits_from_hidden_rows(
         model,
         hidden_rows,
         output_weight=output_weight,
     )
+    return _batch_seq_logits(
+        rank._gather_tensor_parallel_logits(local_logits.unsqueeze(1)),
+        seq_len=int(hidden_rows.shape[0]),
+    ).squeeze(0)
 
 
 def _records_from_capture(
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index 25f0ef2bf..e69af2cf0 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -14,6 +14,7 @@
     ForwardOutput,
     TopK,
     TrainerRank,
+    _batch_seq_logits,
     _language_model,
     _pack_forward_items,
     _PackedForwardBatch,
@@ -412,7 +413,89 @@ def _debug_output_requests(
             ForwardInput(input_tokens=request.input_tokens, logits=True)
             for request in requests
         ]
-    raise ValueError("debug_output must be 'none', 'hidden', or 'logits'")
+    if debug_output == "target":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                target_tokens=_labels(request.input_tokens, 0),
+            )
+            for request in requests
+        ]
+    if debug_output == "topk":
+        return [
+            ForwardInput(input_tokens=request.input_tokens, top_k=3)
+            for request in requests
+        ]
+    if debug_output == "target_topk":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                target_tokens=_labels(request.input_tokens, 0),
+                top_k=3,
+            )
+            for request in requests
+        ]
+    if debug_output == "mixed_no_topk":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                target_tokens=request.target_tokens,
+                logits=request.logits,
+                hidden_states=request.hidden_states,
+            )
+            for request in requests
+        ]
+    if debug_output == "mixed_no_logits":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                target_tokens=request.target_tokens,
+                top_k=request.top_k,
+                hidden_states=request.hidden_states,
+            )
+            for request in requests
+        ]
+    if debug_output == "mixed_no_targets":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                top_k=request.top_k,
+                logits=request.logits,
+                hidden_states=request.hidden_states,
+            )
+            for request in requests
+        ]
+    if debug_output == "mixed_targets_only":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                target_tokens=request.target_tokens,
+            )
+            for request in requests
+        ]
+    if debug_output == "mixed_targets_hidden":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                target_tokens=request.target_tokens,
+                hidden_states=request.hidden_states,
+            )
+            for request in requests
+        ]
+    if debug_output == "mixed_targets_logits":
+        return [
+            ForwardInput(
+                input_tokens=request.input_tokens,
+                target_tokens=request.target_tokens,
+                logits=request.logits,
+            )
+            for request in requests
+        ]
+    raise ValueError(
+        "debug_output must be 'none', 'hidden', 'logits', 'target', 'topk', "
+        "'target_topk', 'mixed_no_topk', 'mixed_no_logits', 'mixed_no_targets', "
+        "'mixed_targets_only', 'mixed_targets_hidden', or 'mixed_targets_logits'"
+    )
 
 
 def _deep_rows() -> list[torch.Tensor]:
@@ -683,15 +766,18 @@ def _packed_oracle_from_hidden(
         )
         all_logits = None
         if needs_projection:
-            all_logits = (
-                rank._logits_from_hidden_rows(
+            if int(positions.numel()):
+                local_logits = rank._local_logits_from_hidden_rows(
                     model,
                     _select_positions(hidden, positions),
                     output_weight=output_weight,
                 )
-                if int(positions.numel())
-                else _empty_logits_like_positions(positions, model, hidden)
-            )
+                all_logits = _batch_seq_logits(
+                    rank._gather_tensor_parallel_logits(local_logits.unsqueeze(1)),
+                    seq_len=int(positions.numel()),
+                ).squeeze(0)
+            else:
+                all_logits = _empty_logits_like_positions(positions, model, hidden)
         logprobs = (
             None
             if all_logits is None
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index f8a070207..e5c8714d2 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1437,17 +1437,14 @@ def _project_head(
         logits: list[torch.Tensor | None] = [None for _ in items]
         top_k: list[TopK | None] = [None for _ in items]
         label_rows: list[torch.Tensor | None] = [None for _ in items]
-        full_rows: list[torch.Tensor] = []
-        local_rows: list[torch.Tensor] = []
+        projected_rows: list[torch.Tensor] = []
 
         for index, (item, positions_cpu) in enumerate(
             zip(items, prepared.positions_by_item, strict=True)
         ):
             positions = positions_cpu.to(device=device)
-            if item.request.logits:
-                full_rows.append(positions)
-            elif item.request.top_k is not None:
-                local_rows.append(positions)
+            if item.request.logits or item.request.top_k is not None:
+                projected_rows.append(positions)
             if item.labels is not None:
                 source_positions = prepared.source_positions_by_item[index].to(device)
                 labels = item.labels.to(device=device).index_select(0, source_positions)
@@ -1463,7 +1460,7 @@ def _project_head(
                         valid = valid.reshape(int(labels.shape[0]), -1).any(dim=1)
                     valid_offsets = torch.nonzero(valid, as_tuple=False).reshape(-1)
                     if int(valid_offsets.numel()):
-                        local_rows.append(positions.index_select(0, valid_offsets))
+                        projected_rows.append(positions.index_select(0, valid_offsets))
             if item.request.logits:
                 logits[index] = torch.empty(
                     (int(positions.numel()), _padded_vocab_size(model)),
@@ -1471,44 +1468,21 @@ def _project_head(
                     dtype=hidden_by_row.dtype,
                 )
 
-        full_row_tensor = (
-            torch.cat(full_rows).unique(sorted=True)
-            if full_rows
-            else torch.empty(0, dtype=torch.long, device=device)
-        )
-        local_row_tensor = (
-            torch.cat(local_rows).unique(sorted=True)
-            if local_rows
+        row_tensor = (
+            torch.cat(projected_rows).unique(sorted=True)
+            if projected_rows
             else torch.empty(0, dtype=torch.long, device=device)
         )
-        if int(full_row_tensor.numel()) and int(local_row_tensor.numel()):
-            local_row_tensor = local_row_tensor[
-                ~torch.isin(local_row_tensor, full_row_tensor)
-            ]
-
-        if int(full_row_tensor.numel()):
-            self._project_full_logits(
-                items,
-                prepared,
-                hidden_by_row,
-                full_row_tensor,
-                output_weight=output_weight,
-                target_logprobs=target_logprobs,
-                top_k=top_k,
-                logits=logits,
-                label_rows=label_rows,
-            )
-
-        if int(local_row_tensor.numel()):
+        if int(row_tensor.numel()):
             local_row_matches = _row_matches_by_item(
                 prepared.positions_by_item,
-                local_row_tensor,
+                row_tensor,
                 device=device,
             )
             self._project_vocab_parallel(
                 items,
                 hidden_by_row,
-                local_row_tensor,
+                row_tensor,
                 row_matches=local_row_matches,
                 item_lengths=tuple(
                     int(positions.numel()) for positions in prepared.positions_by_item
@@ -1516,6 +1490,7 @@ def _project_head(
                 output_weight=output_weight,
                 target_logprobs=target_logprobs,
                 top_k=top_k,
+                logits=logits,
                 label_rows=label_rows,
             )
 
@@ -1540,70 +1515,6 @@ def _project_head(
             )
         ]
 
-    def _project_full_logits(
-        self,
-        items: Sequence[_ForwardItem],
-        prepared: _PreparedPackedForward,
-        hidden_by_row: torch.Tensor,
-        rows: torch.Tensor,
-        *,
-        output_weight: torch.Tensor | None,
-        target_logprobs: list[torch.Tensor | None],
-        top_k: list[TopK | None],
-        logits: list[torch.Tensor | None],
-        label_rows: list[torch.Tensor | None],
-    ) -> None:
-        model = _language_model(self.runtime.model[0])
-        for start in range(0, int(rows.numel()), self.head_chunk_tokens):
-            chunk_rows = rows[start : start + self.head_chunk_tokens]
-            chunk_logits = self._logits_from_hidden_rows(
-                model,
-                _select_positions(hidden_by_row, chunk_rows),
-                output_weight=output_weight,
-            )
-            log_z = None
-            if any(
-                item.labels is not None or item.request.top_k is not None
-                for item in items
-            ):
-                log_z = torch.logsumexp(chunk_logits.float(), dim=-1)
-
-            for index, item in enumerate(items):
-                positions = prepared.positions_by_item[index].to(device=rows.device)
-                offsets, chunk_offsets = _matching_offsets(positions, chunk_rows)
-                if int(offsets.numel()) == 0:
-                    continue
-                selected_logits = chunk_logits.index_select(0, chunk_offsets)
-                item_logits = logits[index]
-                if item_logits is not None:
-                    item_logits[offsets] = selected_logits
-                labels = label_rows[index]
-                item_logprobs = target_logprobs[index]
-                if item_logprobs is not None and labels is not None:
-                    if log_z is None:
-                        raise RuntimeError("target logprobs require logsumexp")
-                    item_logprobs[offsets] = _call_compiled(
-                        _target_logprobs_from_full_logits,
-                        selected_logits,
-                        labels.index_select(0, offsets),
-                        log_z.index_select(0, chunk_offsets),
-                    )
-                k = item.request.top_k
-                if k is not None:
-                    if log_z is None:
-                        raise RuntimeError("top_k requires logsumexp")
-                    values, tokens = torch.topk(selected_logits.float(), k=k, dim=-1)
-                    top_k[index] = _merge_topk(
-                        top_k[index],
-                        offsets,
-                        TopK(
-                            logprobs=values
-                            - log_z.index_select(0, chunk_offsets).unsqueeze(1),
-                            tokens=tokens,
-                        ),
-                        length=int(positions.numel()),
-                    )
-
     def _project_vocab_parallel(
         self,
         items: Sequence[_ForwardItem],
@@ -1615,52 +1526,13 @@ def _project_vocab_parallel(
         output_weight: torch.Tensor | None,
         target_logprobs: list[torch.Tensor | None],
         top_k: list[TopK | None],
+        logits: list[torch.Tensor | None],
         label_rows: list[torch.Tensor | None],
     ) -> None:
         model = _language_model(self.runtime.model[0])
-        fused_target_labels = (
-            _consistent_row_labels(
-                label_rows,
-                row_matches,
-                row_count=int(rows.numel()),
-                device=rows.device,
-            )
-            if all(item.request.top_k is None for item in items)
-            and all(labels is None or labels.ndim == 1 for labels in label_rows)
-            else None
-        )
-        if fused_target_labels is not None:
-            row_target_logprobs = torch.empty(
-                int(rows.numel()),
-                device=rows.device,
-                dtype=torch.float32,
-            )
-            for start in range(0, int(rows.numel()), self.head_chunk_tokens):
-                chunk_rows = rows[start : start + self.head_chunk_tokens]
-                local_logits = self._local_logits_from_hidden_rows(
-                    model,
-                    _select_positions(hidden_by_row, chunk_rows),
-                    output_weight=output_weight,
-                )
-                row_target_logprobs[
-                    start : start + int(chunk_rows.numel())
-                ] = -model.compute_language_model_loss(
-                    fused_target_labels[
-                        start : start + int(chunk_rows.numel())
-                    ].unsqueeze(0),
-                    local_logits.unsqueeze(1),
-                ).reshape(-1)
-            _scatter_row_target_logprobs(
-                row_target_logprobs,
-                row_matches,
-                label_rows,
-                target_logprobs,
-            )
-            return
-
-        max_top_k = max(
-            (int(item.request.top_k or 0) for item in items if not item.request.logits),
-            default=0,
+        max_top_k = max((int(item.request.top_k or 0) for item in items), default=0)
+        need_log_z = any(
+            item.labels is not None or item.request.top_k is not None for item in items
         )
         for start in range(0, int(rows.numel()), self.head_chunk_tokens):
             chunk_rows = rows[start : start + self.head_chunk_tokens]
@@ -1669,36 +1541,54 @@ def _project_vocab_parallel(
                 _select_positions(hidden_by_row, chunk_rows),
                 output_weight=output_weight,
             )
-            topk_stats = _try_triton_local_topk_stats(local_logits, k=max_top_k)
-            logsumexp_stats = (
-                _try_triton_local_logsumexp_stats(local_logits)
-                if topk_stats is None
-                else None
-            )
-            stats = topk_stats if topk_stats is not None else logsumexp_stats
-            if stats is not None:
-                local_max, local_sum = stats[:2]
-                local_max = local_max.detach()
-                global_max = _all_reduce_tensor_parallel_max(local_max)
-                global_sum = _all_reduce_tensor_parallel_sum(
-                    local_sum * torch.exp(local_max - global_max)
+            log_z: torch.Tensor | None = None
+            local_topk: tuple[torch.Tensor, torch.Tensor] | None = None
+            if need_log_z:
+                topk_stats = _try_triton_local_topk_stats(local_logits, k=max_top_k)
+                logsumexp_stats = (
+                    _try_triton_local_logsumexp_stats(local_logits)
+                    if topk_stats is None
+                    else None
                 )
-                log_z = global_max + torch.log(global_sum)
-            else:
-                log_z = _vocab_parallel_log_z(local_logits)
+                stats = topk_stats if topk_stats is not None else logsumexp_stats
+                if stats is not None:
+                    local_max, local_sum = stats[:2]
+                    local_max = local_max.detach()
+                    global_max = _all_reduce_tensor_parallel_max(local_max)
+                    global_sum = _all_reduce_tensor_parallel_sum(
+                        local_sum * torch.exp(local_max - global_max)
+                    )
+                    log_z = global_max + torch.log(global_sum)
+                else:
+                    log_z = _vocab_parallel_log_z(local_logits)
+
+                if topk_stats is not None:
+                    _, _, local_values, local_tokens = topk_stats
+                    local_topk = (local_values, local_tokens)
+                elif logsumexp_stats is not None and max_top_k > 0:
+                    local_k = min(max_top_k, int(local_logits.shape[1]))
+                    local_values, local_tokens = torch.topk(
+                        local_logits, k=local_k, dim=-1
+                    )
+                    local_topk = (local_values.float(), local_tokens)
 
-            local_topk: tuple[torch.Tensor, torch.Tensor] | None = None
-            if topk_stats is not None:
-                _, _, local_values, local_tokens = topk_stats
-                local_topk = (local_values, local_tokens)
-            elif logsumexp_stats is not None and max_top_k > 0:
-                local_k = min(max_top_k, int(local_logits.shape[1]))
-                local_values, local_tokens = torch.topk(local_logits, k=local_k, dim=-1)
-                local_topk = (local_values.float(), local_tokens)
+            logit_chunk_offsets = _logit_chunk_offsets(
+                items,
+                row_matches,
+                start=start,
+                end=start + int(chunk_rows.numel()),
+                device=rows.device,
+            )
+            chunk_logits: torch.Tensor | None = None
+            if int(logit_chunk_offsets.numel()):
+                chunk_logits = _batch_seq_logits(
+                    self._gather_tensor_parallel_logits(
+                        local_logits.index_select(0, logit_chunk_offsets).unsqueeze(1)
+                    ),
+                    seq_len=int(logit_chunk_offsets.numel()),
+                ).squeeze(0)
 
             for index, item in enumerate(items):
-                if item.request.logits:
-                    continue
                 offsets, chunk_offsets = _match_chunk_offsets(
                     row_matches[index],
                     start=start,
@@ -1706,10 +1596,23 @@ def _project_vocab_parallel(
                 )
                 if int(offsets.numel()) == 0:
                     continue
-                selected_log_z = log_z.index_select(0, chunk_offsets)
+                item_logits = logits[index]
+                if item_logits is not None:
+                    if chunk_logits is None:
+                        raise RuntimeError("logits output requires gathered logits")
+                    source_offsets, gathered_offsets = _matching_offsets(
+                        chunk_offsets,
+                        logit_chunk_offsets,
+                    )
+                    item_logits[offsets.index_select(0, source_offsets)] = (
+                        chunk_logits.index_select(0, gathered_offsets)
+                    )
                 labels = label_rows[index]
                 item_logprobs = target_logprobs[index]
                 if item_logprobs is not None and labels is not None:
+                    if log_z is None:
+                        raise RuntimeError("target logprobs require logsumexp")
+                    selected_log_z = log_z.index_select(0, chunk_offsets)
                     item_logprobs[offsets] = _vocab_parallel_target_logprobs(
                         local_logits,
                         labels.index_select(0, offsets),
@@ -1718,6 +1621,9 @@ def _project_vocab_parallel(
                     )
                 k = item.request.top_k
                 if k is not None:
+                    if log_z is None:
+                        raise RuntimeError("top_k requires logsumexp")
+                    selected_log_z = log_z.index_select(0, chunk_offsets)
                     if local_topk is not None:
                         local_values, local_tokens = local_topk
                         top_k[index] = _merge_topk(
@@ -1734,34 +1640,25 @@ def _project_vocab_parallel(
                         )
                         continue
                     selected_logits = local_logits.index_select(0, chunk_offsets)
+                    local_k = min(k, int(selected_logits.shape[1]))
+                    local_values, local_tokens = torch.topk(
+                        selected_logits.float(),
+                        k=local_k,
+                        dim=-1,
+                    )
                     top_k[index] = _merge_topk(
                         top_k[index],
                         offsets,
-                        _vocab_parallel_topk(
-                            selected_logits,
+                        _vocab_parallel_topk_from_local(
+                            local_values,
+                            local_tokens,
                             k=k,
                             log_z=selected_log_z,
+                            vocab_start=_vocab_range(local_logits)[0],
                         ),
                         length=item_lengths[index],
                     )
 
-    def _logits_from_hidden_rows(
-        self,
-        model: "GPTModel",
-        hidden: torch.Tensor,
-        *,
-        output_weight: torch.Tensor | None,
-    ) -> torch.Tensor:
-        local_logits = self._local_logits_from_hidden_rows(
-            model,
-            hidden,
-            output_weight=output_weight,
-        )
-        return _batch_seq_logits(
-            self._gather_tensor_parallel_logits(local_logits.unsqueeze(1)),
-            seq_len=int(hidden.shape[0]),
-        ).squeeze(0)
-
     def _local_logits_from_hidden_rows(
         self,
         model: "GPTModel",
@@ -2106,16 +2003,6 @@ def _dtype_size(dtype: torch.dtype) -> int:
     return torch.empty((), dtype=dtype).element_size()
 
 
-def _target_logprobs_from_full_logits(
-    logits: torch.Tensor,
-    labels: torch.Tensor,
-    log_z: torch.Tensor,
-) -> torch.Tensor:
-    flat_labels = labels.clamp_min(0).reshape(int(labels.shape[0]), -1)
-    target_logits = logits.gather(1, flat_labels).float().reshape(labels.shape)
-    return _finish_target_logprobs(target_logits, labels, log_z)
-
-
 def _vocab_parallel_target_logprobs(
     local_logits: torch.Tensor,
     labels: torch.Tensor,
@@ -2165,62 +2052,24 @@ def _finish_target_logprobs(
     return (target_logits.float() - log_z).masked_fill(labels == -100, 0.0)
 
 
-def _consistent_row_labels(
-    label_rows: Sequence[torch.Tensor | None],
+def _logit_chunk_offsets(
+    items: Sequence[_ForwardItem],
     row_matches: Sequence[_RowMatch],
     *,
-    row_count: int,
+    start: int,
+    end: int,
     device: torch.device,
-) -> torch.Tensor | None:
-    labels = torch.full(
-        (row_count,),
-        -100,
-        dtype=torch.long,
-        device=device,
-    )
-    has_label = torch.zeros_like(labels, dtype=torch.bool)
-    for item_labels, match in zip(label_rows, row_matches, strict=True):
-        if item_labels is None:
-            continue
-        if int(match.source_offsets.numel()) == 0:
-            continue
-        selected_labels = item_labels.index_select(0, match.source_offsets)
-        keep = selected_labels != -100
-        if not bool(keep.any().item()):
-            continue
-        kept_row_offsets = match.row_offsets[keep]
-        kept_labels = selected_labels[keep]
-        existing = labels.index_select(0, kept_row_offsets)
-        seen = has_label.index_select(0, kept_row_offsets)
-        if bool(((existing != kept_labels) & seen).any().item()):
-            return None
-        labels.index_copy_(0, kept_row_offsets, kept_labels)
-        has_label.index_fill_(0, kept_row_offsets, True)
-    return labels
-
-
-def _scatter_row_target_logprobs(
-    row_target_logprobs: torch.Tensor,
-    row_matches: Sequence[_RowMatch],
-    label_rows: Sequence[torch.Tensor | None],
-    target_logprobs: list[torch.Tensor | None],
-) -> None:
-    for match, labels, item_logprobs in zip(
-        row_matches,
-        label_rows,
-        target_logprobs,
-        strict=True,
-    ):
-        if labels is None or item_logprobs is None:
-            continue
-        if int(match.source_offsets.numel()) == 0:
-            continue
-        selected = row_target_logprobs.index_select(0, match.row_offsets)
-        selected_labels = labels.index_select(0, match.source_offsets)
-        item_logprobs[match.source_offsets] = selected.masked_fill(
-            selected_labels == -100,
-            0.0,
-        )
+) -> torch.Tensor:
+    parts = [
+        chunk_offsets
+        for item, match in zip(items, row_matches, strict=True)
+        if item.request.logits
+        for _, chunk_offsets in (_match_chunk_offsets(match, start=start, end=end),)
+        if int(chunk_offsets.numel())
+    ]
+    if not parts:
+        return torch.empty(0, dtype=torch.long, device=device)
+    return torch.cat(parts).unique(sorted=True)
 
 
 def _anchor_disconnected_outputs(
@@ -2257,24 +2106,6 @@ def anchor_tensor(tensor: torch.Tensor) -> torch.Tensor:
     )
 
 
-def _vocab_parallel_topk(
-    local_logits: torch.Tensor,
-    *,
-    k: int,
-    log_z: torch.Tensor,
-) -> TopK:
-    start, _ = _vocab_range(local_logits)
-    local_k = min(k, int(local_logits.shape[1]))
-    local_values, local_tokens = torch.topk(local_logits.float(), k=local_k, dim=-1)
-    return _vocab_parallel_topk_from_local(
-        local_values,
-        local_tokens,
-        k=k,
-        log_z=log_z,
-        vocab_start=start,
-    )
-
-
 def _try_triton_local_topk_stats(
     local_logits: torch.Tensor,
     *,
diff --git a/tests/unit/test_trainer_rank_weird_shapes.py b/tests/unit/test_trainer_rank_weird_shapes.py
index 0ebee9630..4dfbae5d7 100644
--- a/tests/unit/test_trainer_rank_weird_shapes.py
+++ b/tests/unit/test_trainer_rank_weird_shapes.py
@@ -19,8 +19,6 @@
     Unset,
     _flatten,
     _MemoryCheck,
-    _RowMatch,
-    _scatter_row_target_logprobs,
 )
 
 
@@ -484,33 +482,6 @@ def test_topk_output_memory_scales_with_requested_k() -> None:
     assert large.output_bytes - small.output_bytes == 4 * 6 * (4 + 8)
 
 
-def test_shared_row_target_scatter_preserves_per_item_label_masks() -> None:
-    item_a = torch.full((2,), -1.0)
-    item_b = torch.full((2,), -1.0)
-
-    _scatter_row_target_logprobs(
-        torch.tensor([-10.0, -20.0]),
-        (
-            _RowMatch(
-                source_offsets=torch.tensor([0, 1]),
-                row_offsets=torch.tensor([0, 1]),
-            ),
-            _RowMatch(
-                source_offsets=torch.tensor([0, 1]),
-                row_offsets=torch.tensor([0, 1]),
-            ),
-        ),
-        (
-            torch.tensor([111, -100]),
-            torch.tensor([-100, 222]),
-        ),
-        [item_a, item_b],
-    )
-
-    torch.testing.assert_close(item_a, torch.tensor([-10.0, 0.0]))
-    torch.testing.assert_close(item_b, torch.tensor([0.0, -20.0]))
-
-
 def test_flatten_rejects_dicts_to_avoid_silent_top_level_shape_changes() -> None:
     with pytest.raises(TypeError, match="dict was passed directly"):
         list(_flatten({"bad": _target_request(_tokens(1, 2))}))  # type: ignore[arg-type]

From e282ddd79e959955fb8f62cad78b0ec99ae12fab Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 06:19:56 -0600
Subject: [PATCH 094/114] refactor: simplify trainer rank planning

---
 src/art/megatron/trainer_rank.py | 261 ++++++++++---------------------
 1 file changed, 80 insertions(+), 181 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index e5c8714d2..e689522b5 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -175,12 +175,7 @@ class _PushedSlot:
     def __enter__(self) -> "_PushedSlot":
         return self
 
-    def __exit__(
-        self,
-        exc_type: type[BaseException] | None,
-        exc: BaseException | None,
-        traceback: object,
-    ) -> bool:
+    def __exit__(self, *args: object) -> bool:
         if not self.trainer._slot_stack or self.trainer._slot_stack[-1] != self.ref:
             raise RuntimeError(
                 "Pushed LoRA/checkpoint stack changed before context exit"
@@ -321,12 +316,6 @@ def _optimizer(self) -> "MegatronOptimizer":
             raise RuntimeError("TrainerRank requires a runtime with an optimizer")
         return optimizer
 
-    def _handler(self) -> "ModelSupportHandler":
-        return cast("ModelSupportHandler", self.runtime.model_support_handler)
-
-    def _provider(self) -> "GPTModelProvider":
-        return cast("GPTModelProvider", self.runtime.provider)
-
     def set_checkpoint(self, name: str | None) -> None:
         self._set_default_slot(self._slot_ref("checkpoint", name))
 
@@ -442,22 +431,15 @@ def _validate_dynamic_slot_consistency(
         dist.all_gather_object(gathered, local)
         ranks = [rank for rank in gathered if rank is not None]
         reference = ranks[0]
-        mismatched = [
-            rank
+        if all(
+            rank["loaded_sites"] == reference["loaded_sites"]
+            and rank["signature"] == reference["signature"]
             for rank in ranks
-            if rank["loaded_sites"] != reference["loaded_sites"]
-            or rank["signature"] != reference["signature"]
-        ]
-        if not mismatched:
+        ):
             return params
 
         summary = [
-            {
-                "rank": rank["rank"],
-                "loaded_sites": rank["loaded_sites"],
-                "param_count": rank["param_count"],
-                "numel": rank["numel"],
-            }
+            {key: rank[key] for key in ("rank", "loaded_sites", "param_count", "numel")}
             for rank in ranks
         ]
         raise RuntimeError(
@@ -533,32 +515,6 @@ def dp_rank_forward(
         Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]
     ]: ...
 
-    @overload
-    def dp_rank_forward(
-        self,
-        inputs: Iterable[
-            Iterable[Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]]
-        ],
-    ) -> Sequence[
-        Sequence[Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]]
-    ]: ...
-
-    @overload
-    def dp_rank_forward(
-        self,
-        inputs: Iterable[
-            Iterable[
-                Iterable[
-                    Iterable[ForwardInput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]
-                ]
-            ]
-        ],
-    ) -> Sequence[
-        Sequence[
-            Sequence[Sequence[ForwardOutput[LogprobsT, TopKT, LogitsT, HiddenStatesT]]]
-        ]
-    ]: ...
-
     def dp_rank_forward(self, inputs: ForwardInputs) -> ForwardOutputs:
         materialized = _materialize(inputs)
         plan = self._plan_flat_forward(list(_flatten(materialized)))
@@ -670,11 +626,9 @@ def _dynamic_optim_step(
             for param in slot_params:
                 if param.grad is None:
                     param.grad = torch.zeros_like(param)
+                elif scale_grads != 1.0:
+                    param.grad.mul_(scale_grads)
             self._reduce_dynamic_grads(slot_params)
-            if scale_grads != 1.0:
-                for param in slot_params:
-                    if param.grad is not None:
-                        param.grad.mul_(scale_grads)
             all_params.extend(slot_params)
 
         grad_norm = torch.nn.utils.clip_grad_norm_(
@@ -721,18 +675,9 @@ def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
             tuple[object, dist.ReduceOp.RedOpType, list[torch.Tensor]],
         ] = {}
 
-        def add_to_bucket(
-            *,
-            group: object,
-            op: dist.ReduceOp.RedOpType,
-            grad: torch.Tensor,
-        ) -> None:
+        def add(group: object, op: dist.ReduceOp.RedOpType, grad: torch.Tensor) -> None:
             key = (id(group), str(op), grad.dtype, grad.device)
-            bucket = buckets.get(key)
-            if bucket is None:
-                buckets[key] = (group, op, [grad])
-            else:
-                bucket[2].append(grad)
+            buckets.setdefault(key, (group, op, []))[2].append(grad)
 
         for param in params:
             grad = param.grad
@@ -743,7 +688,7 @@ def add_to_bucket(
             else:
                 group = ps.get_expert_data_parallel_group()
             if group is not None and group.size() > 1:
-                add_to_bucket(group=group, op=dist.ReduceOp.SUM, grad=grad)
+                add(group, dist.ReduceOp.SUM, grad)
 
             op = getattr(param, "grad_sync_op", "none")
             if op == "none":
@@ -756,7 +701,7 @@ def add_to_bucket(
             if tp_group is None or tp_group.size() <= 1:
                 continue
             reduce_op = dist.ReduceOp.AVG if op == "avg" else dist.ReduceOp.SUM
-            add_to_bucket(group=tp_group, op=reduce_op, grad=grad)
+            add(tp_group, reduce_op, grad)
 
         for group, op, grads in buckets.values():
             self._coalesced_all_reduce(grads, group=group, op=op)
@@ -768,8 +713,6 @@ def _coalesced_all_reduce(
         group: object,
         op: dist.ReduceOp.RedOpType,
     ) -> None:
-        if not grads:
-            return
         coalesced = _flatten_dense_tensors(grads)
         reduced = (
             coalesced.float()
@@ -815,13 +758,12 @@ def local_slice(width: int) -> tuple[tuple[int, ...], list[ForwardInputsT]]:
             return indices, [items[index] for index in indices]
 
         estimates: dict[int, tuple[_MemoryCheck, bool] | None] = {}
-        rejected = 0
-        best_width = min_width
-        best_check: _MemoryCheck | None = None
 
-        def build_candidate(
+        def candidate(
             width: int,
             estimated_check: _MemoryCheck | None = None,
+            *,
+            rejected: int,
         ) -> _CandidateMicroBatch[ForwardInputsT]:
             width = clamp_width(width)
             indices, local_inputs = local_slice(width)
@@ -858,70 +800,64 @@ def raise_smallest(plan: _FlatForwardPlan, check: _MemoryCheck) -> None:
                 message="smallest DP microbatch is predicted to exceed available memory",
             )
 
-        def probe(width: int) -> tuple[bool, _MemoryCheck | None]:
+        def probe(width: int) -> tuple[bool, _MemoryCheck | None, bool]:
             estimated = estimate(width)
             if estimated is not None:
-                return estimated[1] and estimated[0].fits, estimated[0]
-            item = build_candidate(width)
-            return item.check.fits, item.check
+                check, trusted = estimated
+                return trusted and check.fits, check, trusted
+            item = candidate(width, rejected=0)
+            return item.check.fits, item.check, not item.cold_start
+
+        rejected = 0
+        best_width = min_width
+        best_check: _MemoryCheck | None = None
 
-        def remember_fit(width: int, check: _MemoryCheck | None) -> None:
-            nonlocal best_width, best_check
-            best_width = snap_width(width)
-            best_check = check
+        def fit(width: int) -> bool:
+            nonlocal best_width, best_check, rejected
+            ok, check, _ = probe(width)
+            if ok:
+                best_width = snap_width(width)
+                best_check = check
+            else:
+                rejected += 1
+            return ok
 
         def search_below(failed_width: int) -> None:
-            nonlocal rejected
             low = best_width + 1
             high = failed_width - 1
             while low <= high:
                 mid = (low + high) // 2
-                fits, check = probe(mid)
-                if fits:
-                    remember_fit(mid, check)
+                if fit(mid):
                     low = mid + 1
                 else:
-                    rejected += 1
                     high = mid - 1
 
-        first_estimate = estimate(min_width)
-        if first_estimate is not None and not first_estimate[0].fits:
-            first = build_candidate(min_width, first_estimate[0])
-            raise_smallest(first.plan, first.check)
-        if first_estimate is None or not first_estimate[1]:
-            first = build_candidate(
-                min_width,
-                None if first_estimate is None else first_estimate[0],
-            )
+        first_fits, first_check, first_trusted = probe(min_width)
+        if not first_fits:
+            first = candidate(min_width, first_check, rejected=rejected)
             if not first.check.fits:
                 raise_smallest(first.plan, first.check)
             if first.cold_start:
                 return first
+            best_check = first.check
         else:
-            best_check = first_estimate[0]
+            best_check = first_check
 
         stable_width = self._last_global_micro_batch_size
         if stable_width is not None and stable_width >= max(64, granularity * 2):
             stable_capacity = stable_width
             stable_width = clamp_width(stable_capacity)
-            fits, check = probe(stable_width)
-            if fits:
+            if fit(stable_width):
                 grow_multiplier = 4 if stable_capacity < 256 else 2
                 grow_capacity = min(remaining, stable_capacity * grow_multiplier)
                 if remaining > grow_capacity:
                     grow_width = clamp_width(grow_capacity)
-                    if grow_width > stable_width:
-                        grow_fits, grow_check = probe(grow_width)
-                        if grow_fits:
-                            return build_candidate(grow_width, grow_check)
-                        rejected += 1
+                    if grow_width > stable_width and not fit(grow_width):
                         search_below(grow_width)
-                        return build_candidate(best_width, best_check)
-                return build_candidate(stable_width, check)
-            rejected += 1
+                return candidate(best_width, best_check, rejected=rejected)
             search_below(stable_width)
             self._last_global_micro_batch_size = best_width
-            return build_candidate(best_width, best_check)
+            return candidate(best_width, best_check, rejected=rejected)
 
         high_fail: int | None = None
         width = min(
@@ -929,21 +865,20 @@ def search_below(failed_width: int) -> None:
             max(min_width, (self._last_global_micro_batch_size or min_width) * 2),
         )
         while width <= remaining:
-            fits, check = probe(width)
-            if fits:
-                remember_fit(width, check)
+            if fit(width):
                 if width == remaining:
                     break
                 width = min(remaining, max(width + 1, width * 2))
                 continue
-            rejected += 1
             high_fail = width
             break
 
         if high_fail is not None:
             search_below(high_fail)
 
-        return build_candidate(best_width, best_check)
+        if not first_trusted and best_width == min_width and best_check is None:
+            return candidate(min_width, first_check, rejected=rejected)
+        return candidate(best_width, best_check, rejected=rejected)
 
     @staticmethod
     def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
@@ -1213,11 +1148,11 @@ def _memory_signature_from_requests(
     def _topology_key(self) -> tuple[int, int, int, int]:
         try:
             topology = self._topology()
-            return (
-                int(topology.dp),
-                int(topology.tp),
-                int(topology.cp),
-                int(topology.pp),
+            return cast(
+                tuple[int, int, int, int],
+                tuple(
+                    int(getattr(topology, name)) for name in ("dp", "tp", "cp", "pp")
+                ),
             )
         except (AssertionError, AttributeError, ImportError, RuntimeError, ValueError):
             return (1, 1, 1, 1)
@@ -1281,7 +1216,13 @@ def _estimate_required_memory_bytes_from_values(
         if packed_tokens <= 0:
             return output_bytes
         profiled = self._memory_profiles.get(signature)
-        static_compute = self._static_compute_memory_bytes_for_tokens(packed_tokens)
+        activation_factor = max(4, min(16, self._num_layers // 4 + 4))
+        static_compute = (
+            packed_tokens
+            * self._hidden_size
+            * self._param_dtype_size
+            * activation_factor
+        )
         if profiled is None or not _memory_profile_covers(
             profiled,
             packed_tokens=packed_tokens,
@@ -1291,17 +1232,6 @@ def _estimate_required_memory_bytes_from_values(
             compute = max(static_compute, int(profiled.bytes_per_token * packed_tokens))
         return int((output_bytes + compute) * self.memory_safety_factor)
 
-    def _static_compute_memory_bytes_for_tokens(self, packed_tokens: int) -> int:
-        if packed_tokens <= 0:
-            return 0
-        activation_factor = max(4, min(16, self._num_layers // 4 + 4))
-        return int(
-            packed_tokens
-            * self._hidden_size
-            * self._param_dtype_size
-            * activation_factor
-        )
-
     def _available_memory_bytes(self) -> int:
         if not (torch.cuda.is_available() and self.device.type == "cuda"):
             return 1 << 60
@@ -1379,7 +1309,7 @@ def _decoder_hidden(
     ) -> torch.Tensor:
         from art.megatron.train import _placeholder_attention_mask
 
-        handler = self._handler()
+        handler = self.runtime.model_support_handler
         model = _language_model(self.runtime.model[0])
         attention_mask = _placeholder_attention_mask(self.device)
         forward_kwargs = handler.get_forward_kwargs(
@@ -1474,10 +1404,9 @@ def _project_head(
             else torch.empty(0, dtype=torch.long, device=device)
         )
         if int(row_tensor.numel()):
-            local_row_matches = _row_matches_by_item(
-                prepared.positions_by_item,
-                row_tensor,
-                device=device,
+            local_row_matches = tuple(
+                _row_match(positions.to(device=device), row_tensor)
+                for positions in prepared.positions_by_item
             )
             self._project_vocab_parallel(
                 items,
@@ -1626,32 +1555,21 @@ def _project_vocab_parallel(
                     selected_log_z = log_z.index_select(0, chunk_offsets)
                     if local_topk is not None:
                         local_values, local_tokens = local_topk
-                        top_k[index] = _merge_topk(
-                            top_k[index],
-                            offsets,
-                            _vocab_parallel_topk_from_local(
-                                local_values.index_select(0, chunk_offsets),
-                                local_tokens.index_select(0, chunk_offsets),
-                                k=k,
-                                log_z=selected_log_z,
-                                vocab_start=_vocab_range(local_logits)[0],
-                            ),
-                            length=item_lengths[index],
+                        selected_values = local_values.index_select(0, chunk_offsets)
+                        selected_tokens = local_tokens.index_select(0, chunk_offsets)
+                    else:
+                        selected_logits = local_logits.index_select(0, chunk_offsets)
+                        selected_values, selected_tokens = torch.topk(
+                            selected_logits.float(),
+                            k=min(k, int(selected_logits.shape[1])),
+                            dim=-1,
                         )
-                        continue
-                    selected_logits = local_logits.index_select(0, chunk_offsets)
-                    local_k = min(k, int(selected_logits.shape[1]))
-                    local_values, local_tokens = torch.topk(
-                        selected_logits.float(),
-                        k=local_k,
-                        dim=-1,
-                    )
                     top_k[index] = _merge_topk(
                         top_k[index],
                         offsets,
                         _vocab_parallel_topk_from_local(
-                            local_values,
-                            local_tokens,
+                            selected_values,
+                            selected_tokens,
                             k=k,
                             log_z=selected_log_z,
                             vocab_start=_vocab_range(local_logits)[0],
@@ -1708,8 +1626,8 @@ def _prepare_packed_forward(
             return self._prepare_context_parallel_forward(batch, topology=topology)
         from art.megatron.shared_prefix_state import create_shared_prefix_state
 
-        handler = self._handler()
-        provider = self._provider()
+        handler = self.runtime.model_support_handler
+        provider = self.runtime.provider
         return _PreparedPackedForward(
             tokens=batch.tokens.to(self.device),
             position_ids=batch.position_ids.to(self.device),
@@ -1766,11 +1684,13 @@ def _prepare_context_parallel_forward(
             "image_grid_thw": [None],
             "moe_routing_replay": None,
         }
-        handler = self._handler()
+        handler = self.runtime.model_support_handler
         prepared = prepare_cp_micro(
             micro=sparse_micro,
             topology=topology,
-            config=_context_parallel_config_for_provider(self._provider(), self.device),
+            config=_context_parallel_config_for_provider(
+                self.runtime.provider, self.device
+            ),
             cp_group=ps.get_context_parallel_group(check_initialized=False),
             cp_rank=ps.get_context_parallel_rank(),
             build_gdn_execution_spec=handler.build_gdn_execution_spec,
@@ -1879,11 +1799,7 @@ def _as_target_tokens(
     )
 
 
-def _validate_top_k(top_k: int | None, model: "GPTModel") -> None:
-    if top_k is None:
-        return
-    if top_k < 1:
-        raise ValueError("top_k must be >= 1")
+def _validate_top_k(top_k: int, model: "GPTModel") -> None:
     vocab_size = _padded_vocab_size(model)
     if top_k > vocab_size:
         raise ValueError(f"top_k={top_k} exceeds vocabulary size {vocab_size}")
@@ -2188,10 +2104,6 @@ def _vocab_parallel_topk_from_local(
 
     tp_size = int(ps.get_tensor_model_parallel_world_size())
     if tp_size <= 1:
-        if k > int(local_values.shape[1]):
-            raise ValueError(
-                f"top_k={k} exceeds vocabulary size {int(local_values.shape[1])}"
-            )
         return TopK(logprobs=local_values, tokens=local_tokens)
 
     from torch.distributed.nn.functional import all_gather
@@ -2202,8 +2114,6 @@ def _vocab_parallel_topk_from_local(
     dist.all_gather(gathered_tokens, local_tokens, group=group)
     values = torch.cat(gathered_values, dim=1)
     tokens = torch.cat(gathered_tokens, dim=1)
-    if k > int(values.shape[1]):
-        raise ValueError(f"top_k={k} exceeds vocabulary size {int(values.shape[1])}")
     top_values, top_offsets = torch.topk(values, k=k, dim=-1)
     return TopK(logprobs=top_values, tokens=tokens.gather(1, top_offsets))
 
@@ -2325,17 +2235,6 @@ def _matching_offsets(
     return source_offsets[keep], order.index_select(0, found[keep])
 
 
-def _row_matches_by_item(
-    positions_by_item: Sequence[torch.Tensor],
-    rows: torch.Tensor,
-    *,
-    device: torch.device,
-) -> tuple[_RowMatch, ...]:
-    return tuple(
-        _row_match(positions.to(device=device), rows) for positions in positions_by_item
-    )
-
-
 def _row_match(positions: torch.Tensor, rows: torch.Tensor) -> _RowMatch:
     source_offsets, row_offsets = _matching_offsets(positions, rows)
     if int(row_offsets.numel()) > 1:

From 58b5e5d3a3d301869fce721d4695d08a094a63d4 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 06:32:11 -0600
Subject: [PATCH 095/114] refactor: simplify block mask validation

---
 .../megatron/context_parallel/block_mask.py   | 53 ++++++-------------
 1 file changed, 17 insertions(+), 36 deletions(-)

diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 26ada2875..b88170b99 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -18,11 +18,9 @@
 
 @dataclass(frozen=True, slots=True)
 class PreparedBlockMaskContext:
-    group_ids: torch.Tensor
-    parent_ids: torch.Tensor
+    source_len: int
     group_enter_np: np.ndarray
     group_exit_np: np.ndarray
-    max_depth: int
 
 
 def _build_interval_mask_mod(
@@ -533,15 +531,18 @@ def prepare_block_mask_context(
         length=int(flat_group_ids.numel()),
     )
     return PreparedBlockMaskContext(
-        group_ids=flat_group_ids,
-        parent_ids=flat_parent_ids,
+        source_len=int(flat_group_ids.numel()),
         group_enter_np=group_enter_np,
         group_exit_np=group_exit_np,
-        max_depth=int(row_tree.max_depth),
     )
 
 
-def _valid_prefix(indices: torch.Tensor, *, name: str) -> torch.Tensor:
+def _validate_exact_indices(
+    indices: torch.Tensor,
+    *,
+    name: str,
+    source_len: int,
+) -> int:
     if indices.ndim != 1:
         raise RuntimeError(f"{name} exact token indices must be rank 1.")
     if indices.dtype != torch.int64:
@@ -554,52 +555,33 @@ def _valid_prefix(indices: torch.Tensor, *, name: str) -> torch.Tensor:
             raise RuntimeError(
                 f"{name} exact token indices must use only contiguous tail padding."
             )
-        return indices_cpu[:first_invalid]
-    return indices_cpu
-
-
-def _validate_exact_indices(
-    indices: torch.Tensor,
-    *,
-    name: str,
-    source_len: int,
-) -> int:
-    valid = _valid_prefix(indices, name=name)
-    if int(valid.numel()) == 0:
+        indices_cpu = indices_cpu[:first_invalid]
+    if int(indices_cpu.numel()) == 0:
         return 0
-    if int(valid.unique().numel()) != int(valid.numel()):
+    if int(indices_cpu.unique().numel()) != int(indices_cpu.numel()):
         raise RuntimeError(f"{name} exact token indices must not contain duplicates.")
-    max_index = int(valid.max().item())
+    max_index = int(indices_cpu.max().item())
     if max_index >= int(source_len):
         raise RuntimeError(
             f"{name} exact token index {max_index} exceeds source metadata length {int(source_len)}."
         )
-    return int(valid.numel())
+    return int(indices_cpu.numel())
 
 
 def _validate_supported_mask_spec(
     spec: FlexMaskSpec,
     *,
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
+    source_len: int,
 ) -> None:
-    if group_ids.ndim != 1 or parent_ids.ndim != 1:
-        raise RuntimeError(
-            "Shared-prefix sparse block masks require rank-1 group_ids and parent_ids."
-        )
-    if int(group_ids.numel()) != int(parent_ids.numel()):
-        raise RuntimeError(
-            "Shared-prefix sparse block masks require equal group_ids and parent_ids lengths."
-        )
     q_valid_len = _validate_exact_indices(
         spec.exact_mask.q_token_indices,
         name="q",
-        source_len=int(group_ids.numel()),
+        source_len=source_len,
     )
     k_valid_len = _validate_exact_indices(
         spec.exact_mask.k_token_indices,
         name="k",
-        source_len=int(group_ids.numel()),
+        source_len=source_len,
     )
     for slice_ in spec.slices:
         if int(slice_.row_index) != 0:
@@ -663,8 +645,7 @@ def build_block_mask_from_context(
     if validate:
         _validate_supported_mask_spec(
             spec,
-            group_ids=context.group_ids,
-            parent_ids=context.parent_ids,
+            source_len=context.source_len,
         )
     block_size = normalize_sparse_block_size(spec.block_size)
     return _build_sparse_block_mask(

From a67fd869cfe3e3c8ef74b0f8e5f4122c6d36504e Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 06:37:41 -0600
Subject: [PATCH 096/114] refactor: remove alternate cp planner strategies

---
 src/art/megatron/context_parallel/runtime.py | 157 ++++---------------
 src/art/megatron/context_parallel/types.py   |   1 -
 2 files changed, 29 insertions(+), 129 deletions(-)

diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index b719bcb5d..7c5298792 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -217,9 +217,9 @@ def _best_improving_move(
             candidate = list(current_owners)
             candidate[chunk_index] = dst_rank
             candidate_owners = tuple(candidate)
-            if not _assignment_uses_all_ranks(
-                candidate_owners,
-                cp_size=cp_size,
+            if (
+                len(candidate_owners) >= cp_size
+                and len(set(candidate_owners)) != cp_size
             ):
                 continue
             candidate_eval = evaluate_candidate(
@@ -240,12 +240,10 @@ def _build_chunk_ranges(
     valid_tokens: int,
     chunk_size: int,
 ) -> tuple[TokenRange, ...]:
-    ranges: list[TokenRange] = []
-    for start in range(0, valid_tokens, chunk_size):
-        ranges.append(
-            TokenRange(start=start, end=min(start + chunk_size, valid_tokens))
-        )
-    return tuple(ranges)
+    return tuple(
+        TokenRange(start=start, end=min(start + chunk_size, valid_tokens))
+        for start in range(0, valid_tokens, chunk_size)
+    )
 
 
 def _indexed_intersections(
@@ -557,47 +555,6 @@ def _contiguous_chunk_assignment(
     return tuple(owners)
 
 
-def _bucket_chunk_assignment(
-    *,
-    q_weights: list[float],
-    cp_size: int,
-) -> tuple[int, ...]:
-    chunk_count = len(q_weights)
-    if chunk_count == 0:
-        return tuple()
-    if cp_size <= 1:
-        return tuple(0 for _ in range(chunk_count))
-    rank_loads = [0.0 for _ in range(cp_size)]
-    rank_chunk_counts = [0 for _ in range(cp_size)]
-    owners = [-1 for _ in range(chunk_count)]
-    for chunk_index in sorted(
-        range(chunk_count),
-        key=lambda index: (-q_weights[index], index),
-    ):
-        rank = min(
-            range(cp_size),
-            key=lambda candidate: (
-                rank_loads[candidate],
-                rank_chunk_counts[candidate],
-                candidate,
-            ),
-        )
-        owners[chunk_index] = rank
-        rank_loads[rank] += q_weights[chunk_index]
-        rank_chunk_counts[rank] += 1
-    return tuple(int(owner) for owner in owners)
-
-
-def _assignment_uses_all_ranks(
-    owners: tuple[int, ...],
-    *,
-    cp_size: int,
-) -> bool:
-    if len(owners) < cp_size:
-        return True
-    return len({int(owner) for owner in owners}) == cp_size
-
-
 def _candidate_chunk_indices(
     *,
     owners: tuple[int, ...],
@@ -1083,7 +1040,6 @@ def _search_chunk_assignment(
     cp_size: int,
     config: ContextParallelConfig,
 ) -> tuple[tuple[int, ...], tuple[int, ...], dict[str, Any]]:
-    cp_size = int(cp_size)
     config = _search_config_for_chunk_count(
         config=config,
         chunk_count=len(chunk_ranges),
@@ -1092,9 +1048,7 @@ def _search_chunk_assignment(
         1,
         min(int(config.planner_max_remote_waves), len(chunk_ranges)) + 1,
     )
-    best_owners: tuple[int, ...] = tuple()
-    best_waves: tuple[int, ...] = tuple()
-    best_eval: dict[str, Any] | None = None
+    best: tuple[tuple[int, ...], tuple[int, ...], dict[str, Any]] | None = None
     eval_cache: dict[tuple[tuple[int, ...], tuple[int, ...]], dict[str, Any]] = {}
     pair_counts = torch.as_tensor(pair_matrix, dtype=torch.int64)
     pair_positive = pair_counts > 0
@@ -1128,80 +1082,35 @@ def _evaluate_candidate(
         eval_cache[cache_key] = cached
         return cached
 
-    def _best_wave_assignment_for_owners(
-        owners: tuple[int, ...],
-    ) -> tuple[tuple[int, ...], dict[str, Any]]:
-        best_wave_assignment = tuple()
-        best_eval_local: dict[str, Any] | None = None
-        for wave_count in wave_count_candidates:
-            wave_assignment = _wave_assignment(
-                chunk_count=len(chunk_ranges),
-                wave_count=wave_count,
-            )
-            candidate_eval = _evaluate_candidate(
-                owners=owners,
-                wave_assignment=wave_assignment,
-            )
-            if best_eval_local is None or float(candidate_eval["score"]) + 1e-9 < float(
-                best_eval_local["score"]
-            ):
-                best_wave_assignment = wave_assignment
-                best_eval_local = candidate_eval
-        if best_eval_local is None:
-            raise RuntimeError("Failed to evaluate any wave assignment candidate.")
-        return best_wave_assignment, best_eval_local
-
-    strategy = str(config.planner_assignment_strategy).strip().lower()
-    fixed_owners_by_strategy = {
-        "contiguous": _contiguous_chunk_assignment(
-            q_weights=q_weights, cp_size=cp_size
-        ),
-        "bucket": _bucket_chunk_assignment(q_weights=q_weights, cp_size=cp_size),
-    }
-    if strategy in fixed_owners_by_strategy:
-        owners = fixed_owners_by_strategy[strategy]
-        best_waves, best_eval = _best_wave_assignment_for_owners(owners)
-        return owners, best_waves, best_eval
-    if strategy != "search":
-        raise ValueError(
-            "Unsupported planner_assignment_strategy="
-            f"{config.planner_assignment_strategy!r}."
-        )
-
     contiguous_owners = _contiguous_chunk_assignment(
         q_weights=q_weights,
         cp_size=cp_size,
     )
+    if not contiguous_owners:
+        wave_assignment = _wave_assignment(chunk_count=len(chunk_ranges), wave_count=1)
+        return (
+            contiguous_owners,
+            wave_assignment,
+            _evaluate_candidate(
+                owners=contiguous_owners,
+                wave_assignment=wave_assignment,
+            ),
+        )
+
     for wave_count in wave_count_candidates:
         wave_assignment = _wave_assignment(
             chunk_count=len(chunk_ranges),
             wave_count=wave_count,
         )
-        initial_candidates = [
-            initial_owners
-            for initial_owners in (contiguous_owners,)
-            if initial_owners
-            if _assignment_uses_all_ranks(initial_owners, cp_size=cp_size)
-        ]
-        if not initial_candidates:
-            continue
-        current_owners = min(
-            initial_candidates,
-            key=lambda owners: float(
-                _evaluate_candidate(owners=owners, wave_assignment=wave_assignment)[
-                    "score"
-                ]
-            ),
-        )
+        current_owners = contiguous_owners
         current_eval = _evaluate_candidate(
             owners=current_owners,
             wave_assignment=wave_assignment,
         )
 
-        if cp_size >= 8:
-            search_steps_remaining = 0
-        else:
-            search_steps_remaining = int(config.planner_max_search_steps)
+        search_steps_remaining = (
+            0 if cp_size >= 8 else int(config.planner_max_search_steps)
+        )
         if cp_size == 4 and search_steps_remaining > 0:
             probe_move = _best_improving_move(
                 current_owners=current_owners,
@@ -1239,21 +1148,13 @@ def _best_wave_assignment_for_owners(
                 break
             current_owners, current_eval = best_move
 
-        if best_eval is None or float(current_eval["score"]) + 1e-9 < float(
-            best_eval["score"]
+        if best is None or float(current_eval["score"]) + 1e-9 < float(
+            best[2]["score"]
         ):
-            best_owners = current_owners
-            best_waves = wave_assignment
-            best_eval = current_eval
-
-    if best_eval is None:
-        best_owners = _contiguous_chunk_assignment(q_weights=q_weights, cp_size=cp_size)
-        best_waves = _wave_assignment(chunk_count=len(chunk_ranges), wave_count=1)
-        best_eval = _evaluate_candidate(
-            owners=best_owners,
-            wave_assignment=best_waves,
-        )
-    return best_owners, best_waves, best_eval
+            best = (current_owners, wave_assignment, current_eval)
+    if best is None:
+        raise RuntimeError("Failed to evaluate any CP planner wave assignment.")
+    return best
 
 
 def _flatten_ranges_by_peer(
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index 4e95315dc..ee461c3a1 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -60,7 +60,6 @@ class ContextParallelConfig:
     planner_chunk_size: int = 512
     planner_chunk_budget_base: int = 128
     planner_chunk_budget_per_cp_rank: int = 16
-    planner_assignment_strategy: str = "search"
     planner_max_search_steps: int = 8
     planner_candidate_chunk_limit: int = 8
     planner_max_remote_waves: int = 4

From 15c01b6b595573e1e207f1f7425bb0bb1ef65d80 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 07:00:42 -0600
Subject: [PATCH 097/114] refactor: trim trainer rank gdn surfaces

---
 dev/trainer_rank_perf.py                      | 21 +++---
 .../megatron/context_parallel/block_mask.py   | 17 -----
 src/art/megatron/context_parallel/runtime.py  |  2 +-
 src/art/megatron/gdn/gdn_shared_prefix.py     | 19 ------
 src/art/megatron/gdn/operator.py              |  4 +-
 src/art/megatron/shared_prefix_state.py       | 17 +++--
 src/art/megatron/trainer_rank.py              | 66 ++++++++-----------
 .../test_attention_packed_vs_flattened.py     |  8 +--
 .../gdn_shared_prefix/layout_reference.py     |  4 +-
 .../megatron/gdn_shared_prefix/oracles.py     |  8 +--
 .../gdn_shared_prefix/packed_layout.py        | 12 ++--
 .../gdn_shared_prefix/real_gdn_oracle.py      | 31 ++++-----
 .../test_gdn_cp_packed_correctness.py         |  8 +--
 ...en35_full_model_cp1_packed_vs_flattened.py |  8 +--
 .../test_real_gdn_native_fla_cp.py            |  4 +-
 .../test_shared_prefix_attention_builder.py   | 22 ++++++-
 16 files changed, 99 insertions(+), 152 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 335cf1e3b..2a64f719a 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -1532,9 +1532,8 @@ def _gather_planner_metadata(prepared: object) -> dict[str, object]:
             merged[f"planner_{key}_sum"] = int(sum(int(value) for value in values))
             merged[f"planner_{key}_max"] = int(max(int(value) for value in values))
     rank0 = ranks[0] if ranks else {}
-    for key in ("tree_depth_count", "tree_family_count", "tree_completion_count"):
-        if key in rank0:
-            merged[f"planner_{key}"] = rank0[key]
+    if "tree_depth_count" in rank0:
+        merged["planner_tree_depth_count"] = rank0["tree_depth_count"]
     return merged
 
 
@@ -1564,8 +1563,6 @@ def _local_planner_metadata(prepared: object) -> dict[str, object]:
         "attention_tokens": int(getattr(plan, "attention_token_count", 0)),
         "gdn_tokens": int(getattr(plan, "gdn_token_count", 0)),
         "tree_depth_count": len(getattr(plan, "tree_segment_buckets_by_depth", ())),
-        "tree_family_count": int(getattr(plan, "family_count", 0)),
-        "tree_completion_count": int(getattr(plan, "completion_count", 0)),
         "tree_local_bucket_count": len(local_buckets),
         "tree_chain_bucket_count": len(chain_buckets),
         "tree_local_segment_count": sum(
@@ -2156,22 +2153,24 @@ def unflatten_outputs() -> list[object]:
             **select_profile,
         }
         stats.append(row)
-        rank._remember_adaptive_window(
-            candidate.stats_global_count,
-            is_tail=start + candidate.stats_global_count >= len(items),
-        )
+        stop = start + candidate.stats_global_count
+        if stop < len(items):
+            rank._last_global_micro_batch_size = max(
+                rank._last_global_micro_batch_size or 0,
+                candidate.stats_global_count,
+            )
         _emit_adaptive_progress(
             "target_trainer_adaptive_profile_train_step_window",
             {
                 **row,
                 "window_index": len(stats) - 1,
                 "global_start": int(start),
-                "global_stop": int(start + candidate.stats_global_count),
+                "global_stop": int(stop),
                 "remembered_window": int(rank._last_global_micro_batch_size or 0),
                 "elapsed_ms": (time.perf_counter() - step_start) * 1000.0,
             },
         )
-        start += candidate.stats_global_count
+        start = stop
     metrics, optim_ms = _timed_cuda(
         rank, lambda: rank.optim_step(params=params, scale_grads=1.0)
     )
diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index b88170b99..985200c1b 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -606,23 +606,6 @@ def _validate_supported_mask_spec(
             )
 
 
-def build_block_mask(
-    spec: FlexMaskSpec,
-    *,
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
-    device: torch.device,
-) -> BlockMask | None:
-    return build_block_mask_from_context(
-        spec,
-        context=prepare_block_mask_context(
-            group_ids=group_ids,
-            parent_ids=parent_ids,
-        ),
-        device=device,
-    )
-
-
 def build_block_mask_from_context(
     spec: FlexMaskSpec,
     *,
diff --git a/src/art/megatron/context_parallel/runtime.py b/src/art/megatron/context_parallel/runtime.py
index 7c5298792..b89c42fd2 100644
--- a/src/art/megatron/context_parallel/runtime.py
+++ b/src/art/megatron/context_parallel/runtime.py
@@ -1601,7 +1601,7 @@ def prepare_megatron_context_parallel_state(
             )
 
             gdn_execution_spec = parse_gdn_shared_prefix_segments(
-                group_ids_cpu, parent_ids_cpu, min_completions_per_family=0
+                group_ids_cpu, parent_ids_cpu
             )
         bundle = _PlanningBundle(
             spec=spec,
diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 8c11869c5..40a4847c9 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -31,10 +31,6 @@ class GdnSegmentSpec:
     def length(self) -> int:
         return self.end - self.start
 
-    def linear_indices(self, sequence_length: int) -> tuple[int, ...]:
-        base = self.row_index * sequence_length
-        return tuple(range(base + self.start, base + self.end))
-
 
 @dataclass(frozen=True)
 class GdnPackedExecutionSpec:
@@ -51,18 +47,10 @@ class GdnPackedExecutionSpec:
     def family_count(self) -> int:
         return len(self.tree_segments)
 
-    @property
-    def completion_count(self) -> int:
-        return sum(1 for parent in self.tree_parent_indices if parent >= 0)
-
     @property
     def real_token_count(self) -> int:
         return sum(self.valid_lengths)
 
-    @property
-    def max_segment_length(self) -> int:
-        return max((segment.length for segment in self.tree_segments), default=0)
-
 
 @dataclass(frozen=True)
 class GdnSegmentBucketPlan:
@@ -131,8 +119,6 @@ class GdnRankExecutionPlan:
     batch_size: int
     sequence_length: int
     real_token_mask: torch.Tensor
-    family_count: int
-    completion_count: int
     packed_batch_size: int | None = None
     packed_sequence_length: int | None = None
     attention_to_gdn: Any | None = None
@@ -424,8 +410,6 @@ def _build_tree_rank_execution_plan(
         packed_batch_size=spec.batch_size,
         packed_sequence_length=spec.sequence_length,
         real_token_mask=real_token_mask,
-        family_count=spec.family_count,
-        completion_count=spec.completion_count,
         attention_to_gdn=attention_to_gdn,
         gdn_to_attention=_reverse_exchange_plan(attention_to_gdn),
         attention_token_ranges=source_layout.ownership_ranges_by_rank[cp_rank],
@@ -514,12 +498,9 @@ def _move_bucket_plans(
 def parse_gdn_shared_prefix_segments(
     group_ids: torch.Tensor,
     parent_ids: torch.Tensor,
-    *,
-    min_completions_per_family: int = 0,
 ) -> GdnPackedExecutionSpec:
     """Parse ART packed shared-prefix metadata into generic GDN tree nodes."""
 
-    del min_completions_per_family
     groups = _rank2_long_cpu("group_ids", group_ids)
     parents = _rank2_long_cpu("parent_ids", parent_ids)
     if tuple(groups.shape) != tuple(parents.shape):
diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index 5fc5c757a..3dbed83d9 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -464,9 +464,7 @@ def run_gdn_layer(
         )
 
     if execution_spec is None and execution_plan is None:
-        execution_spec = parse_gdn_shared_prefix_segments(
-            group_ids, parent_ids, min_completions_per_family=0
-        )
+        execution_spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     if (
         execution_spec is not None
         and requested_cp_size == 1
diff --git a/src/art/megatron/shared_prefix_state.py b/src/art/megatron/shared_prefix_state.py
index b4e6a64b8..f3c1565b1 100644
--- a/src/art/megatron/shared_prefix_state.py
+++ b/src/art/megatron/shared_prefix_state.py
@@ -11,7 +11,10 @@
 from torch import Tensor
 from torch.nn.attention.flex_attention import BlockMask
 
-from art.megatron.context_parallel.block_mask import build_block_mask
+from art.megatron.context_parallel.block_mask import (
+    build_block_mask_from_context,
+    prepare_block_mask_context,
+)
 from art.megatron.context_parallel.builder import build_shared_prefix_attention_spec
 from art.megatron.context_parallel.layout_index import TokenLayoutIndex
 from art.megatron.context_parallel.types import (
@@ -78,9 +81,7 @@ def create_shared_prefix_state(
     )
     cp_rank, cp_size = _gdn_cp_rank_size()
     gdn_execution_spec = (
-        parse_gdn_shared_prefix_segments(
-            group_ids_cpu, parent_ids_cpu, min_completions_per_family=0
-        )
+        parse_gdn_shared_prefix_segments(group_ids_cpu, parent_ids_cpu)
         if build_gdn_execution_spec
         else None
     )
@@ -141,7 +142,7 @@ def _build_sparse_shared_prefix_block_mask(
             )
             continue
         row_masks.append(
-            build_block_mask(
+            build_block_mask_from_context(
                 FlexMaskSpec(
                     q_len=seq_len,
                     k_len=seq_len,
@@ -153,8 +154,10 @@ def _build_sparse_shared_prefix_block_mask(
                         cache_key=f"identity:{seq_len}",
                     ),
                 ),
-                group_ids=group_ids_cpu[row_index],
-                parent_ids=parent_ids_cpu[row_index],
+                context=prepare_block_mask_context(
+                    group_ids=group_ids_cpu[row_index],
+                    parent_ids=parent_ids_cpu[row_index],
+                ),
                 device=device,
             )
         )
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index e689522b5..bab4f5cf1 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -22,7 +22,6 @@
 )
 
 if TYPE_CHECKING:
-    from megatron.bridge.models.gpt_provider import GPTModelProvider
     from megatron.core.models.gpt.gpt_model import GPTModel
     from megatron.core.optimizer import MegatronOptimizer, OptimizerConfig
     from megatron.core.packed_seq_params import PackedSeqParams
@@ -32,7 +31,6 @@
         ParallelTopology,
     )
     from art.megatron.lora import LoRASlotRef
-    from art.megatron.model_support import ModelSupportHandler
     from art.megatron.shared_prefix_state import SharedPrefixAttentionState
     from art.megatron.train import TrainingRuntime
 
@@ -476,10 +474,11 @@ def forward_micro_batches(
             )
             outputs = [_unflatten(item, flat_outputs) for item in candidate.inputs]
             stop = start + candidate.stats_global_count
-            self._remember_adaptive_window(
-                candidate.stats_global_count,
-                is_tail=stop >= len(items),
-            )
+            if stop < len(items):
+                self._last_global_micro_batch_size = max(
+                    self._last_global_micro_batch_size or 0,
+                    candidate.stats_global_count,
+                )
             yield MicroBatch(
                 inputs=candidate.inputs,
                 outputs=outputs,
@@ -887,17 +886,6 @@ def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
         base = 8 if remaining < 256 else 32
         return max(1, ((base + dp_size - 1) // dp_size) * dp_size)
 
-    def _remember_adaptive_window(self, width: int, *, is_tail: bool) -> None:
-        if is_tail:
-            return
-        if self._last_global_micro_batch_size is None:
-            self._last_global_micro_batch_size = width
-        else:
-            self._last_global_micro_batch_size = max(
-                self._last_global_micro_batch_size,
-                width,
-            )
-
     def _cached_adaptive_plan(
         self,
         items: Sequence[ForwardInputsT],
@@ -2027,42 +2015,40 @@ def _try_triton_local_topk_stats(
     *,
     k: int,
 ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor] | None:
-    if k <= 0:
-        return None
-    if k > _triton_fused_topk_max():
+    if k <= 0 or k > _triton_fused_topk_max():
         return None
-    if not local_logits.is_cuda:
-        return None
-    if _triton_topk_disabled():
-        return None
-    if int(local_logits.shape[0]) < _triton_min_rows():
-        return None
-    try:
-        from art.megatron.trainer_rank_topk import local_topk_stats
-
-        return local_topk_stats(
+    return cast(
+        tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor] | None,
+        _try_triton_stats(
+            "local_topk_stats",
             local_logits,
             k=min(k, int(local_logits.shape[1])),
-        )
-    except Exception:
-        if _triton_topk_strict():
-            raise
-        return None
+        ),
+    )
 
 
 def _try_triton_local_logsumexp_stats(
     local_logits: torch.Tensor,
 ) -> tuple[torch.Tensor, torch.Tensor] | None:
+    return cast(
+        tuple[torch.Tensor, torch.Tensor] | None,
+        _try_triton_stats("local_logsumexp_stats", local_logits),
+    )
+
+
+def _try_triton_stats(
+    name: str,
+    local_logits: torch.Tensor,
+    **kwargs: object,
+) -> object | None:
     if not local_logits.is_cuda:
         return None
-    if _triton_topk_disabled():
-        return None
-    if int(local_logits.shape[0]) < _triton_min_rows():
+    if _triton_topk_disabled() or int(local_logits.shape[0]) < _triton_min_rows():
         return None
     try:
-        from art.megatron.trainer_rank_topk import local_logsumexp_stats
+        from art.megatron import trainer_rank_topk
 
-        return local_logsumexp_stats(local_logits)
+        return getattr(trainer_rank_topk, name)(local_logits, **kwargs)
     except Exception:
         if _triton_topk_strict():
             raise
diff --git a/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py b/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
index 58670a685..5b6e39390 100644
--- a/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
+++ b/tests/integration/megatron/cp_attn/test_attention_packed_vs_flattened.py
@@ -60,9 +60,7 @@ def test_shared_prefix_attention_matches_flattened_grad_accumulation() -> None:
     tensors = build_phase0_packed_tensors(case)
     group_ids = tensors["group_ids"].cuda()
     parent_ids = tensors["parent_ids"].cuda()
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids.cpu(), parent_ids.cpu(), min_completions_per_family=1
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids.cpu(), parent_ids.cpu())
     q, k, v = _attention_inputs(group_ids.shape, seed=20260425)
     q_ref = q.detach().clone().requires_grad_(True)
     k_ref = k.detach().clone().requires_grad_(True)
@@ -121,9 +119,7 @@ def test_physical_causal_attention_leaks_across_siblings() -> None:
     tensors = build_phase0_packed_tensors(case)
     group_ids = tensors["group_ids"].cuda()
     parent_ids = tensors["parent_ids"].cuda()
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids.cpu(), parent_ids.cpu(), min_completions_per_family=1
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids.cpu(), parent_ids.cpu())
     q, k, v = _attention_inputs(group_ids.shape, seed=20260427)
     attention_state = create_shared_prefix_state(group_ids, parent_ids)
     packed_out = FlexAttentionWrapper()(
diff --git a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
index af89222a6..95b6626e8 100644
--- a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
+++ b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
@@ -39,9 +39,7 @@ def build_test_gdn_cp_layout_plan(
     gdn_token_ranges_by_rank: Sequence[Sequence[tuple[int, int, int]]] | None = None,
     device: torch.device | str | None = None,
 ) -> TestGdnCpLayoutPlan:
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=0
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     gdn_ranges = (
         _normalize_rank_ranges(gdn_token_ranges_by_rank, cp_size=cp_size)
         if gdn_token_ranges_by_rank is not None
diff --git a/tests/integration/megatron/gdn_shared_prefix/oracles.py b/tests/integration/megatron/gdn_shared_prefix/oracles.py
index 3820bbdb5..019ec74e7 100644
--- a/tests/integration/megatron/gdn_shared_prefix/oracles.py
+++ b/tests/integration/megatron/gdn_shared_prefix/oracles.py
@@ -109,9 +109,7 @@ def run_toy_packed(
     group_ids: Tensor,
     parent_ids: Tensor,
 ) -> Tensor:
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=1
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     output = torch.zeros_like(hidden)
     conv_states: list[Tensor] = []
     rec_states: list[Tensor] = []
@@ -142,9 +140,7 @@ def run_toy_flattened_reference(
     group_ids: Tensor,
     parent_ids: Tensor,
 ) -> Tensor:
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=1
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     output = torch.zeros_like(hidden)
     for segment_index, segment in enumerate(spec.tree_segments):
         path = _segment_path(spec, segment_index)
diff --git a/tests/integration/megatron/gdn_shared_prefix/packed_layout.py b/tests/integration/megatron/gdn_shared_prefix/packed_layout.py
index a56b801b3..fa1b00d05 100644
--- a/tests/integration/megatron/gdn_shared_prefix/packed_layout.py
+++ b/tests/integration/megatron/gdn_shared_prefix/packed_layout.py
@@ -137,9 +137,7 @@ def summarize_case(
     conv_width: int,
     cp_sizes: tuple[int, ...] = (2, 4, 8),
 ) -> GdnCaseSummary:
-    spec = parse_gdn_shared_prefix_segments(
-        tensors["group_ids"], tensors["parent_ids"], min_completions_per_family=1
-    )
+    spec = parse_gdn_shared_prefix_segments(tensors["group_ids"], tensors["parent_ids"])
     suffix_lengths = [
         segment.length
         for index, segment in enumerate(spec.tree_segments)
@@ -150,8 +148,12 @@ def summarize_case(
         name=case.name,
         total_tokens=spec.real_token_count,
         family_count=spec.family_count,
-        completion_count=spec.completion_count,
-        max_segment_length=spec.max_segment_length,
+        completion_count=sum(
+            1 for parent_index in spec.tree_parent_indices if parent_index >= 0
+        ),
+        max_segment_length=max(
+            (segment.length for segment in spec.tree_segments), default=0
+        ),
         suffix_shorter_than_conv=any(length < conv_width for length in suffix_lengths),
         suffix_equal_to_conv=any(length == conv_width for length in suffix_lengths),
         suffix_longer_than_conv=any(length > conv_width for length in suffix_lengths),
diff --git a/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py b/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
index ee472adaa..38fb01889 100644
--- a/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
+++ b/tests/integration/megatron/gdn_shared_prefix/real_gdn_oracle.py
@@ -347,9 +347,7 @@ def run_real_gdn_flattened_reference(
     parent_ids: Tensor,
     execution_spec: Any | None = None,
 ) -> Tensor:
-    spec = execution_spec or parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=1
-    )
+    spec = execution_spec or parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     output = torch.zeros_like(hidden_states)
     for segment_index, segment in enumerate(spec.tree_segments):
         flat_hidden = torch.cat(
@@ -411,9 +409,7 @@ def run_real_gdn_local_fork_reference(
     cp_size: int,
     attention_token_layout_index: TokenLayoutIndex | None = None,
 ) -> Tensor:
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=0
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     gdn_token_indices_by_rank = _split_gdn_families_by_rank(spec, cp_size=cp_size)
     gdn_token_ranges_by_rank = _rank_ranges_from_tokens_by_rank(
         gdn_token_indices_by_rank
@@ -471,7 +467,7 @@ def _split_gdn_families_by_rank(
         family_tokens = tuple(
             token
             for segment in (family.prefix, *family.completions)
-            for token in segment.linear_indices(spec.sequence_length)
+            for token in _segment_linear_indices(segment, spec.sequence_length)
         )
         ranks[rank].extend(family_tokens)
         loads[rank] += len(family_tokens)
@@ -523,6 +519,11 @@ def _simulate_all_to_all_single(
     return tuple(outputs)
 
 
+def _segment_linear_indices(segment: Any, sequence_length: int) -> range:
+    base = int(segment.row_index) * int(sequence_length)
+    return range(base + int(segment.start), base + int(segment.end))
+
+
 def _transfer_positions(tensor: Tensor | None, *, count: int) -> tuple[int, ...]:
     if tensor is None:
         return tuple(range(count))
@@ -575,9 +576,7 @@ def run_real_gdn_suffix_only_chain_reference(
     mutation: GdnChainMutation | None = None,
     boundary_debug: list[GdnChainBoundaryDebug] | None = None,
 ) -> Tensor:
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=0
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     output = torch.zeros_like(hidden_states)
     for family in _tree_families(spec):
         row = family.row_index
@@ -627,9 +626,7 @@ def run_real_gdn_chunk_native_reference(
     group_ids: Tensor,
     parent_ids: Tensor,
 ) -> Tensor:
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=0
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     output = torch.zeros_like(hidden_states)
     for family in _tree_families(spec):
         _scatter_family_output(
@@ -649,9 +646,7 @@ def run_real_gdn_mixed_cp_reference(
     cp_size: int,
     local_fork_max_tokens: int,
 ) -> Tensor:
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=0
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     output = torch.zeros_like(hidden_states)
     local_count = 0
     chain_count = 0
@@ -947,7 +942,7 @@ def _local_fork_group_tensors(
         family_tokens = tuple(
             token_index
             for segment in family_segments
-            for token_index in segment.linear_indices(spec.sequence_length)
+            for token_index in _segment_linear_indices(segment, spec.sequence_length)
         )
         token_is_local = tuple(
             token_index in local_position for token_index in family_tokens
@@ -970,7 +965,7 @@ def _local_fork_group_tensors(
             parent_group_id = (
                 group_id if parent_index < 0 else group_by_segment_index[parent_index]
             )
-            for token_index in segment.linear_indices(spec.sequence_length):
+            for token_index in _segment_linear_indices(segment, spec.sequence_length):
                 position = local_position[token_index]
                 group_ids[position] = group_id
                 parent_ids[position] = parent_group_id
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
index 489eeec0c..ac14e8df8 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_gdn_cp_packed_correctness.py
@@ -250,9 +250,7 @@ def _assert_case_matches_cp1(
     tensors = build_phase0_packed_tensors(case)
     group_ids = tensors["group_ids"].cuda()
     parent_ids = tensors["parent_ids"].cuda()
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids, parent_ids, min_completions_per_family=0
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
     plan = build_gdn_rank_execution_plan(
         spec,
         device=group_ids.device,
@@ -417,9 +415,7 @@ def _assert_sibling_order_matches_cp1(
     swapped_parent_ids[0, 5:9] = 0
     swapped_group_ids[0, 9:12] = 2
     swapped_parent_ids[0, 9:12] = 0
-    spec = parse_gdn_shared_prefix_segments(
-        swapped_group_ids, swapped_parent_ids, min_completions_per_family=0
-    )
+    spec = parse_gdn_shared_prefix_segments(swapped_group_ids, swapped_parent_ids)
     plan = build_gdn_rank_execution_plan(
         spec,
         device=group_ids.device,
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
index 6306ca4b8..b8e61537d 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_qwen35_full_model_cp1_packed_vs_flattened.py
@@ -98,9 +98,7 @@ def test_qwen35_full_model_cp1_matches_flattened_grad_accumulation() -> None:
 
         flat_loss_sum: torch.Tensor | None = None
         logits_mean_abs_pct = 0.0
-        spec = parse_gdn_shared_prefix_segments(
-            group_ids.cpu(), parent_ids.cpu(), min_completions_per_family=1
-        )
+        spec = parse_gdn_shared_prefix_segments(group_ids.cpu(), parent_ids.cpu())
         for segment_index, completion in enumerate(spec.tree_segments):
             if spec.tree_parent_indices[segment_index] < 0:
                 continue
@@ -218,9 +216,7 @@ def _assert_logits_vjp_equivalence(
 
     flat_loss_sum: torch.Tensor | None = None
     logits_mean_abs_pct = 0.0
-    spec = parse_gdn_shared_prefix_segments(
-        group_ids.cpu(), parent_ids.cpu(), min_completions_per_family=1
-    )
+    spec = parse_gdn_shared_prefix_segments(group_ids.cpu(), parent_ids.cpu())
     for segment_index, completion in enumerate(spec.tree_segments):
         if spec.tree_parent_indices[segment_index] < 0:
             continue
diff --git a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
index 5882bbd3d..7a173ae8f 100644
--- a/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
+++ b/tests/integration/megatron/gdn_shared_prefix/test_real_gdn_native_fla_cp.py
@@ -127,9 +127,7 @@ def _native_gdn_cp_packed_layer_worker(
         tensors = build_phase0_packed_tensors(case)
         group_ids = tensors["group_ids"].cuda()
         parent_ids = tensors["parent_ids"].cuda()
-        spec = parse_gdn_shared_prefix_segments(
-            group_ids, parent_ids, min_completions_per_family=0
-        )
+        spec = parse_gdn_shared_prefix_segments(group_ids, parent_ids)
         plan = build_gdn_rank_execution_plan(
             spec,
             device=group_ids.device,
diff --git a/tests/unit/test_shared_prefix_attention_builder.py b/tests/unit/test_shared_prefix_attention_builder.py
index 4645ccf12..34992bac9 100644
--- a/tests/unit/test_shared_prefix_attention_builder.py
+++ b/tests/unit/test_shared_prefix_attention_builder.py
@@ -7,7 +7,10 @@
 
 pytest.importorskip("megatron.core.packed_seq_params")
 
-from art.megatron.context_parallel.block_mask import build_block_mask
+from art.megatron.context_parallel.block_mask import (
+    build_block_mask_from_context,
+    prepare_block_mask_context,
+)
 from art.megatron.context_parallel.builder import (
     build_dense_reference_mask,
     build_shared_prefix_attention_spec,
@@ -26,6 +29,23 @@
 from art.megatron.shared_prefix_state import create_shared_prefix_state
 
 
+def build_block_mask(
+    spec: FlexMaskSpec,
+    *,
+    group_ids: torch.Tensor,
+    parent_ids: torch.Tensor,
+    device: torch.device,
+) -> BlockMask | None:
+    return build_block_mask_from_context(
+        spec,
+        context=prepare_block_mask_context(
+            group_ids=group_ids,
+            parent_ids=parent_ids,
+        ),
+        device=device,
+    )
+
+
 def test_shared_prefix_attention_spec_supports_branching_completions() -> None:
     group_ids, parent_ids = _branching_prefix_inputs()
 

From ca369df5e730ad2990e2384d509d59d20d1e65a0 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 07:17:28 -0600
Subject: [PATCH 098/114] refactor: shrink shared prefix parser metadata

---
 dev/trainer_rank_perf.py                      | 15 +++-
 .../megatron/context_parallel/block_mask.py   |  2 +-
 src/art/megatron/context_parallel/builder.py  |  3 +-
 src/art/megatron/context_parallel/types.py    |  1 -
 src/art/megatron/gdn/gdn_shared_prefix.py     |  8 +-
 src/art/megatron/shared_prefix_packing.py     | 19 ----
 src/art/megatron/shared_prefix_tree.py        | 87 +++----------------
 tests/unit/test_shared_prefix_packing.py      | 13 ---
 tests/unit/test_shared_prefix_tree.py         | 26 +-----
 9 files changed, 29 insertions(+), 145 deletions(-)

diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 2a64f719a..6135e8838 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -1461,7 +1461,7 @@ def _packed_request_stats(
     *,
     request_metadata: dict[str, int | str],
 ) -> dict[str, int | str]:
-    from art.megatron.shared_prefix_tree import max_shared_prefix_tree_depth
+    from art.megatron.shared_prefix_tree import parse_shared_prefix_tree
 
     trainable_mask = torch.zeros(int(batch.tokens.numel()), dtype=torch.bool)
     trainable_tokens = 0
@@ -1487,9 +1487,16 @@ def _packed_request_stats(
         "packed_group_count": int(group_ids.max().item())
         if int(group_ids.numel())
         else 0,
-        "nested_prefix_depth": max_shared_prefix_tree_depth(
-            group_ids=group_ids,
-            parent_ids=parent_ids,
+        "nested_prefix_depth": max(
+            (
+                segment.depth
+                for row in parse_shared_prefix_tree(
+                    group_ids=group_ids,
+                    parent_ids=parent_ids,
+                )
+                for segment in row.segments
+            ),
+            default=0,
         ),
     }
 
diff --git a/src/art/megatron/context_parallel/block_mask.py b/src/art/megatron/context_parallel/block_mask.py
index 985200c1b..e5ec1eaac 100644
--- a/src/art/megatron/context_parallel/block_mask.py
+++ b/src/art/megatron/context_parallel/block_mask.py
@@ -299,7 +299,7 @@ def _build_group_interval_arrays(
 ) -> tuple[np.ndarray, np.ndarray]:
     enter_by_group: dict[int, int] = {}
     exit_by_group: dict[int, int] = {}
-    segment_by_group = row_tree.segment_by_group_id()
+    segment_by_group = {segment.group_id: segment for segment in row_tree.segments}
     children_by_group: dict[int, list[int]] = {}
     roots: list[int] = []
     for segment in row_tree.segments:
diff --git a/src/art/megatron/context_parallel/builder.py b/src/art/megatron/context_parallel/builder.py
index 6b324d3f5..b7636f131 100644
--- a/src/art/megatron/context_parallel/builder.py
+++ b/src/art/megatron/context_parallel/builder.py
@@ -67,7 +67,6 @@ def build_shared_prefix_attention_spec(
         group_ids=group_ids,
         parent_ids=parent_ids,
         ignore_padding_group_id=config.ignore_padding_group_id,
-        require_contiguous_group_runs=config.require_contiguous_group_runs,
     ):
         if row.valid_tokens == 0:
             rows.append(
@@ -77,7 +76,7 @@ def build_shared_prefix_attention_spec(
             )
             continue
 
-        segment_by_group_id = row.segment_by_group_id()
+        segment_by_group_id = {segment.group_id: segment for segment in row.segments}
         row_slices: list[AttnSlice] = []
         for segment in row.segments:
             q_range = TokenRange(start=segment.start, end=segment.end)
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index ee461c3a1..f26b6ed5d 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -50,7 +50,6 @@ class PackedBatchAttentionSpec:
 @dataclass(frozen=True)
 class SharedPrefixBuilderConfig:
     ignore_padding_group_id: int = -1
-    require_contiguous_group_runs: bool = True
 
 
 @dataclass(frozen=True)
diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 40a4847c9..25a95b820 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -524,9 +524,7 @@ def parse_gdn_shared_prefix_segments(
             node_index = len(tree_segments)
             is_root = segment.depth == 0
             parent_node_index = (
-                -1
-                if is_root
-                else node_by_row_group[(segment.row_index, segment.parent_id)]
+                -1 if is_root else node_by_row_group[(row.row_index, segment.parent_id)]
             )
             child_index = None
             if not is_root:
@@ -534,7 +532,7 @@ def parse_gdn_shared_prefix_segments(
                 child_counts_by_parent[parent_node_index] = child_index + 1
             tree_segments.append(
                 GdnSegmentSpec(
-                    row_index=segment.row_index,
+                    row_index=row.row_index,
                     family_index=node_index,
                     group_id=segment.group_id,
                     parent_id=segment.parent_id,
@@ -546,7 +544,7 @@ def parse_gdn_shared_prefix_segments(
             )
             tree_parent_indices.append(parent_node_index)
             tree_depths.append(segment.depth)
-            node_by_row_group[(segment.row_index, segment.group_id)] = node_index
+            node_by_row_group[(row.row_index, segment.group_id)] = node_index
 
     return GdnPackedExecutionSpec(
         batch_size=batch_size,
diff --git a/src/art/megatron/shared_prefix_packing.py b/src/art/megatron/shared_prefix_packing.py
index 9716d20d7..b5a34ba60 100644
--- a/src/art/megatron/shared_prefix_packing.py
+++ b/src/art/megatron/shared_prefix_packing.py
@@ -139,8 +139,6 @@ def _prefix_segments(
     *,
     max_depth: int,
 ) -> tuple[_PrefixSegment, ...]:
-    if max_depth < 0:
-        raise ValueError("max_depth must be >= 0")
     lengths = tuple(len(row) for row in rows)
     segments: list[_PrefixSegment] = []
     next_group_id = 1
@@ -220,23 +218,6 @@ def walk(
     return tuple(segments)
 
 
-def visualize_shared_prefix_pack(pack: SharedPrefixPack) -> str:
-    rows = ["pos token group parent source_pos"]
-    for position, (token, group, parent, source_pos) in enumerate(
-        zip(
-            pack.tokens.reshape(-1).detach().cpu().tolist(),
-            pack.group_ids.reshape(-1).detach().cpu().tolist(),
-            pack.parent_ids.reshape(-1).detach().cpu().tolist(),
-            pack.position_ids.reshape(-1).detach().cpu().tolist(),
-            strict=True,
-        )
-    ):
-        rows.append(f"{position:>3} {token:>5} {group:>5} {parent:>6} {source_pos:>10}")
-    for index, positions in enumerate(pack.positions_by_sequence):
-        rows.append(f"seq {index}: {positions.detach().cpu().tolist()}")
-    return "\n".join(rows)
-
-
 def _empty_pack(
     sequence_count: int = 0,
     *,
diff --git a/src/art/megatron/shared_prefix_tree.py b/src/art/megatron/shared_prefix_tree.py
index 850384b20..63cdb0f07 100644
--- a/src/art/megatron/shared_prefix_tree.py
+++ b/src/art/megatron/shared_prefix_tree.py
@@ -7,24 +7,17 @@
 
 @dataclass(frozen=True, slots=True)
 class SharedPrefixSegment:
-    row_index: int
-    run_index: int
     group_id: int
     parent_id: int
     start: int
     end: int
     family_index: int
-    root_group_id: int
     ancestors: tuple[int, ...]
 
     @property
     def depth(self) -> int:
         return len(self.ancestors)
 
-    @property
-    def length(self) -> int:
-        return self.end - self.start
-
 
 @dataclass(frozen=True, slots=True)
 class SharedPrefixRowTree:
@@ -32,23 +25,12 @@ class SharedPrefixRowTree:
     valid_tokens: int
     segments: tuple[SharedPrefixSegment, ...]
 
-    @property
-    def max_depth(self) -> int:
-        return max((segment.depth for segment in self.segments), default=0)
-
-    def segment_by_group_id(self) -> dict[int, SharedPrefixSegment]:
-        segments: dict[int, SharedPrefixSegment] = {}
-        for segment in self.segments:
-            segments.setdefault(segment.group_id, segment)
-        return segments
-
 
 def parse_shared_prefix_tree(
     *,
     group_ids: torch.Tensor,
     parent_ids: torch.Tensor,
     ignore_padding_group_id: int = -1,
-    require_contiguous_group_runs: bool = True,
 ) -> tuple[SharedPrefixRowTree, ...]:
     if group_ids.shape != parent_ids.shape:
         raise RuntimeError(
@@ -66,7 +48,6 @@ def parse_shared_prefix_tree(
             parent_ids=parent_ids[row_index],
             row_index=row_index,
             ignore_padding_group_id=ignore_padding_group_id,
-            require_contiguous_group_runs=require_contiguous_group_runs,
         )
         for row_index in range(int(group_ids.shape[0]))
     )
@@ -78,7 +59,6 @@ def parse_shared_prefix_row(
     parent_ids: torch.Tensor,
     row_index: int = 0,
     ignore_padding_group_id: int = -1,
-    require_contiguous_group_runs: bool = True,
 ) -> SharedPrefixRowTree:
     if group_ids.shape != parent_ids.shape:
         raise RuntimeError(
@@ -99,52 +79,31 @@ def parse_shared_prefix_row(
         return SharedPrefixRowTree(row_index=row_index, valid_tokens=0, segments=())
 
     runs = _scan_runs(group_ids[:valid_tokens], parent_ids[:valid_tokens])
-    group_run_count: dict[int, int] = {}
     first_segment_by_group: dict[int, SharedPrefixSegment] = {}
     family_by_group: dict[int, int] = {}
-    root_by_group: dict[int, int] = {}
     ancestors_by_group: dict[int, tuple[int, ...]] = {}
     segments: list[SharedPrefixSegment] = []
     next_family_index = 0
 
+    seen_groups: set[int] = set()
+    repeated_groups: dict[int, int] = {}
     for _start, _end, group_id, _parent_id in runs:
-        group_run_count[group_id] = group_run_count.get(group_id, 0) + 1
-    if require_contiguous_group_runs:
-        repeated_groups = {
-            group_id: count
-            for group_id, count in group_run_count.items()
-            if count > 1 and group_id != ignore_padding_group_id
-        }
-        if repeated_groups:
-            raise RuntimeError(
-                "Shared-prefix metadata requires contiguous group runs per row, "
-                f"found repeats in row {row_index}: {repeated_groups}"
-            )
-
-    for run_index, (start, end, group_id, parent_id) in enumerate(runs):
-        prior_segment = first_segment_by_group.get(group_id)
-        if prior_segment is not None:
-            segment = SharedPrefixSegment(
-                row_index=row_index,
-                run_index=run_index,
-                group_id=group_id,
-                parent_id=parent_id,
-                start=start,
-                end=end,
-                family_index=prior_segment.family_index,
-                root_group_id=prior_segment.root_group_id,
-                ancestors=prior_segment.ancestors,
-            )
-            segments.append(segment)
-            continue
+        if group_id in seen_groups and group_id != ignore_padding_group_id:
+            repeated_groups[group_id] = repeated_groups.get(group_id, 1) + 1
+        seen_groups.add(group_id)
+    if repeated_groups:
+        raise RuntimeError(
+            "Shared-prefix metadata requires contiguous group runs per row, "
+            f"found repeats in row {row_index}: {repeated_groups}"
+        )
 
+    for start, end, group_id, parent_id in runs:
         is_root = group_id == parent_id or (
             start == 0 and parent_id == ignore_padding_group_id
         )
         if is_root:
             family_index = next_family_index
             next_family_index += 1
-            root_group_id = group_id
             ancestors: tuple[int, ...] = ()
         else:
             parent_segment = first_segment_by_group.get(parent_id)
@@ -159,23 +118,18 @@ def parse_shared_prefix_row(
                     f"row={row_index}, group_id={group_id}, parent_id={parent_id}"
                 )
             family_index = family_by_group[parent_id]
-            root_group_id = root_by_group[parent_id]
             ancestors = (*ancestors_by_group[parent_id], parent_id)
 
         segment = SharedPrefixSegment(
-            row_index=row_index,
-            run_index=run_index,
             group_id=group_id,
             parent_id=parent_id,
             start=start,
             end=end,
             family_index=family_index,
-            root_group_id=root_group_id,
             ancestors=ancestors,
         )
         first_segment_by_group[group_id] = segment
         family_by_group[group_id] = family_index
-        root_by_group[group_id] = root_group_id
         ancestors_by_group[group_id] = ancestors
         segments.append(segment)
 
@@ -186,25 +140,6 @@ def parse_shared_prefix_row(
     )
 
 
-def max_shared_prefix_tree_depth(
-    *,
-    group_ids: torch.Tensor,
-    parent_ids: torch.Tensor,
-    ignore_padding_group_id: int = -1,
-) -> int:
-    return max(
-        (
-            row.max_depth
-            for row in parse_shared_prefix_tree(
-                group_ids=group_ids,
-                parent_ids=parent_ids,
-                ignore_padding_group_id=ignore_padding_group_id,
-            )
-        ),
-        default=0,
-    )
-
-
 def _valid_length(
     group_ids: torch.Tensor,
     parent_ids: torch.Tensor,
diff --git a/tests/unit/test_shared_prefix_packing.py b/tests/unit/test_shared_prefix_packing.py
index bea1f1752..6243dd3da 100644
--- a/tests/unit/test_shared_prefix_packing.py
+++ b/tests/unit/test_shared_prefix_packing.py
@@ -6,7 +6,6 @@
 from art.megatron.shared_prefix_packing import (
     estimate_shared_prefix_packed_tokens,
     pack_shared_prefixes,
-    visualize_shared_prefix_pack,
 )
 from art.megatron.trainer_rank import _local_position_pairs
 
@@ -148,18 +147,6 @@ def test_packing_rejects_non_1d_sequences() -> None:
         pack_shared_prefixes((torch.tensor([[1, 2], [3, 4]]),), max_depth=1)
 
 
-def test_visualization_includes_reverse_index() -> None:
-    pack = pack_shared_prefixes(
-        (torch.tensor([1, 2, 3]), torch.tensor([1, 2, 4])),
-        max_depth=1,
-    )
-
-    visualization = visualize_shared_prefix_pack(pack)
-
-    assert visualization.splitlines()[0] == "pos token group parent source_pos"
-    assert "seq 1: [0, 1, 3]" in visualization
-
-
 def test_local_position_pairs_preserve_requested_order_without_dense_match() -> None:
     local_global_positions = torch.tensor([[2, -1, 0, 4, 1]])
     item_positions = torch.tensor([0, 1, 2, 3, 4])
diff --git a/tests/unit/test_shared_prefix_tree.py b/tests/unit/test_shared_prefix_tree.py
index 57cc9fa5c..ce95c4fe1 100644
--- a/tests/unit/test_shared_prefix_tree.py
+++ b/tests/unit/test_shared_prefix_tree.py
@@ -4,10 +4,7 @@
 import torch
 
 from art.megatron.shared_prefix_packing import pack_shared_prefixes
-from art.megatron.shared_prefix_tree import (
-    max_shared_prefix_tree_depth,
-    parse_shared_prefix_row,
-)
+from art.megatron.shared_prefix_tree import parse_shared_prefix_row
 
 
 def test_parse_shared_prefix_row_tracks_ancestors_and_depth() -> None:
@@ -27,7 +24,7 @@ def test_parse_shared_prefix_row_tracks_ancestors_and_depth() -> None:
     )
 
     assert tree.valid_tokens == int(pack.tokens.numel())
-    assert tree.max_depth == 3
+    assert max(segment.depth for segment in tree.segments) == 3
     assert [(segment.group_id, segment.ancestors) for segment in tree.segments] == [
         (1, ()),
         (2, (1,)),
@@ -55,25 +52,6 @@ def test_parse_shared_prefix_row_rejects_non_contiguous_group() -> None:
         )
 
 
-def test_max_shared_prefix_tree_depth_treats_flat_families_as_depth_one() -> None:
-    pack = pack_shared_prefixes(
-        (
-            torch.tensor([1, 2, 3, 4]),
-            torch.tensor([1, 2, 5]),
-            torch.tensor([9]),
-        ),
-        max_depth=1,
-    )
-
-    assert (
-        max_shared_prefix_tree_depth(
-            group_ids=pack.group_ids,
-            parent_ids=pack.parent_ids,
-        )
-        == 1
-    )
-
-
 def test_gdn_tree_parser_accepts_nested_tree() -> None:
     pytest.importorskip("megatron.core.packed_seq_params")
     from art.megatron.gdn.gdn_shared_prefix import (

From 3429e47d95e7ccf1e63b1df5b0045b6af45be66a Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 07:33:20 -0600
Subject: [PATCH 099/114] refactor: use shared prefix pack in trainer rank

---
 dev/trainer_rank_parity_probe.py              | 12 ++--
 dev/trainer_rank_perf.py                      |  2 +-
 dev/trainer_rank_topology_check.py            | 12 ++--
 src/art/megatron/context_parallel/__init__.py |  2 -
 src/art/megatron/context_parallel/builder.py  |  5 +-
 src/art/megatron/context_parallel/types.py    |  5 --
 src/art/megatron/trainer_rank.py              | 55 ++++++-------------
 7 files changed, 32 insertions(+), 61 deletions(-)

diff --git a/dev/trainer_rank_parity_probe.py b/dev/trainer_rank_parity_probe.py
index 25a04140c..0c425d617 100644
--- a/dev/trainer_rank_parity_probe.py
+++ b/dev/trainer_rank_parity_probe.py
@@ -11,13 +11,13 @@
 import torch.distributed as dist
 import typer
 
+from art.megatron.shared_prefix_packing import SharedPrefixPack
 from art.megatron.trainer_rank import (
     AnyForwardInput,
     TrainerRank,
     _batch_seq_logits,
     _language_model,
     _pack_forward_items,
-    _PackedForwardBatch,
 )
 
 
@@ -216,7 +216,7 @@ def _run_capture(
     batch = _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
     if mutate_except is not None:
         batch = _mutated_batch(
-            batch, keep_positions=batch.positions_by_item[mutate_except]
+            batch, keep_positions=batch.positions_by_sequence[mutate_except]
         )
     prepared = rank._prepare_packed_forward(batch)
     local_seq_len = int(prepared.tokens.shape[1])
@@ -270,10 +270,10 @@ def _run_capture(
 
 
 def _mutated_batch(
-    batch: _PackedForwardBatch,
+    batch: SharedPrefixPack,
     *,
     keep_positions: torch.Tensor,
-) -> _PackedForwardBatch:
+) -> SharedPrefixPack:
     tokens = batch.tokens.clone()
     mask = torch.ones(int(tokens.shape[1]), dtype=torch.bool, device=tokens.device)
     mask[keep_positions.to(device=tokens.device)] = False
@@ -282,12 +282,12 @@ def _mutated_batch(
         + 50_000
     )
     tokens[0, mask] = replacement[mask] % 100_000
-    return _PackedForwardBatch(
+    return SharedPrefixPack(
         tokens=tokens,
         group_ids=batch.group_ids,
         parent_ids=batch.parent_ids,
         position_ids=batch.position_ids,
-        positions_by_item=batch.positions_by_item,
+        positions_by_sequence=batch.positions_by_sequence,
     )
 
 
diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 6135e8838..227d01767 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -1465,7 +1465,7 @@ def _packed_request_stats(
 
     trainable_mask = torch.zeros(int(batch.tokens.numel()), dtype=torch.bool)
     trainable_tokens = 0
-    for item, positions in zip(items, batch.positions_by_item, strict=True):
+    for item, positions in zip(items, batch.positions_by_sequence, strict=True):
         labels = getattr(item, "labels", None)
         if labels is None:
             continue
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index e69af2cf0..e20490186 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -9,6 +9,7 @@
 import torch.distributed as dist
 import typer
 
+from art.megatron.shared_prefix_packing import SharedPrefixPack
 from art.megatron.trainer_rank import (
     ForwardInput,
     ForwardOutput,
@@ -17,7 +18,6 @@
     _batch_seq_logits,
     _language_model,
     _pack_forward_items,
-    _PackedForwardBatch,
     _select_positions,
 )
 
@@ -692,7 +692,7 @@ def _same_layout_check_outputs(
     items = [rank._forward_item(request) for request in requests]
     batch = _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
     outputs = []
-    for index, positions in enumerate(batch.positions_by_item):
+    for index, positions in enumerate(batch.positions_by_sequence):
         mutated = _mutated_batch(batch, keep_positions=positions)
         prepared = rank._prepare_packed_forward(mutated)
         hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
@@ -707,10 +707,10 @@ def _same_layout_check_outputs(
 
 
 def _mutated_batch(
-    batch: _PackedForwardBatch,
+    batch: SharedPrefixPack,
     *,
     keep_positions: torch.Tensor,
-) -> _PackedForwardBatch:
+) -> SharedPrefixPack:
     tokens = batch.tokens.clone()
     mutate = torch.ones(int(tokens.shape[1]), dtype=torch.bool, device=tokens.device)
     mutate[keep_positions.to(device=tokens.device)] = False
@@ -719,12 +719,12 @@ def _mutated_batch(
         + 50_000
     )
     tokens[0, mutate] = replacement[mutate] % 100_000
-    return _PackedForwardBatch(
+    return SharedPrefixPack(
         tokens=tokens,
         group_ids=batch.group_ids,
         parent_ids=batch.parent_ids,
         position_ids=batch.position_ids,
-        positions_by_item=batch.positions_by_item,
+        positions_by_sequence=batch.positions_by_sequence,
     )
 
 
diff --git a/src/art/megatron/context_parallel/__init__.py b/src/art/megatron/context_parallel/__init__.py
index bcc2e2b7a..fc27c486e 100644
--- a/src/art/megatron/context_parallel/__init__.py
+++ b/src/art/megatron/context_parallel/__init__.py
@@ -11,7 +11,6 @@
     PackedRowAttentionSpec,
     ParallelTopology,
     PreparedMegatronBatch,
-    SharedPrefixBuilderConfig,
     TokenRange,
 )
 
@@ -25,7 +24,6 @@
     "PackedRowAttentionSpec",
     "ParallelTopology",
     "PreparedMegatronBatch",
-    "SharedPrefixBuilderConfig",
     "ContextParallelConfig",
     "TokenRange",
     "TokenLayoutIndex",
diff --git a/src/art/megatron/context_parallel/builder.py b/src/art/megatron/context_parallel/builder.py
index b7636f131..5396873ab 100644
--- a/src/art/megatron/context_parallel/builder.py
+++ b/src/art/megatron/context_parallel/builder.py
@@ -9,7 +9,6 @@
     AttnSlice,
     PackedBatchAttentionSpec,
     PackedRowAttentionSpec,
-    SharedPrefixBuilderConfig,
     TokenRange,
 )
 
@@ -50,7 +49,7 @@ def build_shared_prefix_attention_spec(
     *,
     group_ids: torch.Tensor,
     parent_ids: torch.Tensor,
-    config: SharedPrefixBuilderConfig = SharedPrefixBuilderConfig(),
+    ignore_padding_group_id: int = -1,
 ) -> PackedBatchAttentionSpec:
     if group_ids.shape != parent_ids.shape:
         raise RuntimeError(
@@ -66,7 +65,7 @@ def build_shared_prefix_attention_spec(
     for row in parse_shared_prefix_tree(
         group_ids=group_ids,
         parent_ids=parent_ids,
-        ignore_padding_group_id=config.ignore_padding_group_id,
+        ignore_padding_group_id=ignore_padding_group_id,
     ):
         if row.valid_tokens == 0:
             rows.append(
diff --git a/src/art/megatron/context_parallel/types.py b/src/art/megatron/context_parallel/types.py
index f26b6ed5d..bf52ffddc 100644
--- a/src/art/megatron/context_parallel/types.py
+++ b/src/art/megatron/context_parallel/types.py
@@ -47,11 +47,6 @@ class PackedBatchAttentionSpec:
     rows: tuple[PackedRowAttentionSpec, ...]
 
 
-@dataclass(frozen=True)
-class SharedPrefixBuilderConfig:
-    ignore_padding_group_id: int = -1
-
-
 @dataclass(frozen=True)
 class ContextParallelConfig:
     block_size: int = 128
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index bab4f5cf1..2d0d07e6c 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -17,6 +17,7 @@
 import torch.distributed as dist
 
 from art.megatron.shared_prefix_packing import (
+    SharedPrefixPack,
     estimate_shared_prefix_packed_tokens,
     pack_shared_prefixes,
 )
@@ -189,15 +190,6 @@ class _ForwardItem:
     labels: torch.Tensor | None
 
 
-@dataclass(frozen=True)
-class _PackedForwardBatch:
-    tokens: torch.Tensor
-    group_ids: torch.Tensor
-    parent_ids: torch.Tensor
-    position_ids: torch.Tensor
-    positions_by_item: tuple[torch.Tensor, ...]
-
-
 @dataclass(frozen=True)
 class _PreparedPackedForward:
     tokens: torch.Tensor
@@ -227,7 +219,7 @@ class _ForwardGroupPlan:
     slot_ref: "LoRASlotRef | None"
     request_indices: tuple[int, ...]
     items: tuple[_ForwardItem, ...]
-    packed: _PackedForwardBatch
+    packed: SharedPrefixPack
 
 
 @dataclass(frozen=True)
@@ -972,7 +964,7 @@ def _plan_flat_forward(
         self, requests: Sequence[AnyForwardInput]
     ) -> _FlatForwardPlan:
         plans: list[_ForwardGroupPlan] = []
-        output_bytes = 0
+        output_bytes = self._estimate_group_request_output_bytes(requests)
         logical_tokens = sum(int(request.input_tokens.numel()) for request in requests)
         groups = self._group_active_request_indices(requests)
         for slot_ref, group_indices in groups:
@@ -980,9 +972,6 @@ def _plan_flat_forward(
                 self._forward_item(requests[index]) for index in group_indices
             )
             packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
-            output_bytes += self._estimate_group_request_output_bytes(
-                [item.request for item in items]
-            )
             plans.append(
                 _ForwardGroupPlan(
                     slot_ref=slot_ref,
@@ -1009,7 +998,6 @@ def _estimate_flat_forward(
     ) -> tuple[int, int, _MemorySignature] | None:
         groups = self._group_active_request_indices(requests)
         packed_tokens = 0
-        output_bytes = 0
         for _, group_indices in groups:
             group_packed_tokens = estimate_shared_prefix_packed_tokens(
                 (requests[index].input_tokens for index in group_indices),
@@ -1018,13 +1006,10 @@ def _estimate_flat_forward(
             if group_packed_tokens is None:
                 return None
             packed_tokens += group_packed_tokens
-            output_bytes += self._estimate_group_request_output_bytes(
-                [requests[index] for index in group_indices]
-            )
 
         return (
             packed_tokens,
-            output_bytes,
+            self._estimate_group_request_output_bytes(requests),
             self._memory_signature_from_requests(
                 requests,
                 slot_group_count=len(groups),
@@ -1606,7 +1591,7 @@ def _gather_sequence_parallel_hidden(self, hidden: torch.Tensor) -> torch.Tensor
 
     def _prepare_packed_forward(
         self,
-        batch: _PackedForwardBatch,
+        batch: SharedPrefixPack,
     ) -> _PreparedPackedForward:
         topology = self._topology()
         batch = _pad_packed_batch(batch, multiple=int(topology.tp))
@@ -1628,20 +1613,20 @@ def _prepare_packed_forward(
                 attention_value_head_dim=provider.kv_channels,
             ),
             packed_seq_params=None,
-            positions_by_item=batch.positions_by_item,
+            positions_by_item=batch.positions_by_sequence,
             source_positions_by_item=tuple(
                 torch.arange(
                     int(positions.numel()),
                     dtype=torch.long,
                     device=positions.device,
                 )
-                for positions in batch.positions_by_item
+                for positions in batch.positions_by_sequence
             ),
         )
 
     def _prepare_context_parallel_forward(
         self,
-        batch: _PackedForwardBatch,
+        batch: SharedPrefixPack,
         *,
         topology: "ParallelTopology",
     ) -> _PreparedPackedForward:
@@ -1697,7 +1682,7 @@ def _prepare_context_parallel_forward(
         )
         local_position_pairs = tuple(
             _local_position_pairs(local_positions, positions)
-            for positions in batch.positions_by_item
+            for positions in batch.positions_by_sequence
         )
         return _PreparedPackedForward(
             tokens=prepared.tensors.tokens,
@@ -1816,24 +1801,18 @@ def _pack_forward_items(
     items: Sequence[_ForwardItem],
     *,
     max_depth: int,
-) -> _PackedForwardBatch:
-    input_tensors = tuple(item.input_ids for item in items)
-    pack = pack_shared_prefixes(input_tensors, max_depth=max_depth)
-
-    return _PackedForwardBatch(
-        tokens=pack.tokens,
-        group_ids=pack.group_ids,
-        parent_ids=pack.parent_ids,
-        position_ids=pack.position_ids,
-        positions_by_item=pack.positions_by_sequence,
+) -> SharedPrefixPack:
+    return pack_shared_prefixes(
+        (item.input_ids for item in items),
+        max_depth=max_depth,
     )
 
 
 def _pad_packed_batch(
-    batch: _PackedForwardBatch,
+    batch: SharedPrefixPack,
     *,
     multiple: int,
-) -> _PackedForwardBatch:
+) -> SharedPrefixPack:
     if multiple <= 1:
         return batch
     seq_len = int(batch.tokens.shape[1])
@@ -1851,7 +1830,7 @@ def _pad_packed_batch(
         dtype=batch.group_ids.dtype,
         device=device,
     ).unsqueeze(0)
-    return _PackedForwardBatch(
+    return SharedPrefixPack(
         tokens=torch.cat(
             (
                 batch.tokens,
@@ -1868,7 +1847,7 @@ def _pad_packed_batch(
             ),
             dim=1,
         ),
-        positions_by_item=batch.positions_by_item,
+        positions_by_sequence=batch.positions_by_sequence,
     )
 
 

From 5ccb6f973dcc09c31c044a96c1ba2b0ec048fce2 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 08:06:35 -0600
Subject: [PATCH 100/114] refactor: trim trainer rank packing helpers

---
 dev/trainer_rank_parity_probe.py   |   8 +-
 dev/trainer_rank_perf.py           |  15 +-
 dev/trainer_rank_topology_check.py |  23 ++-
 src/art/megatron/trainer_rank.py   | 226 +++++++++++------------------
 4 files changed, 115 insertions(+), 157 deletions(-)

diff --git a/dev/trainer_rank_parity_probe.py b/dev/trainer_rank_parity_probe.py
index 0c425d617..06cd0a959 100644
--- a/dev/trainer_rank_parity_probe.py
+++ b/dev/trainer_rank_parity_probe.py
@@ -11,13 +11,12 @@
 import torch.distributed as dist
 import typer
 
-from art.megatron.shared_prefix_packing import SharedPrefixPack
+from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
 from art.megatron.trainer_rank import (
     AnyForwardInput,
     TrainerRank,
     _batch_seq_logits,
     _language_model,
-    _pack_forward_items,
 )
 
 
@@ -213,7 +212,10 @@ def _run_capture(
 
     model = _language_model(rank.runtime.model[0])
     items = [rank._forward_item(request) for request in requests]
-    batch = _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+    batch = pack_shared_prefixes(
+        (item.input_ids for item in items),
+        max_depth=rank.shared_prefix_max_depth,
+    )
     if mutate_except is not None:
         batch = _mutated_batch(
             batch, keep_positions=batch.positions_by_sequence[mutate_except]
diff --git a/dev/trainer_rank_perf.py b/dev/trainer_rank_perf.py
index 227d01767..4d0c2305c 100644
--- a/dev/trainer_rank_perf.py
+++ b/dev/trainer_rank_perf.py
@@ -13,6 +13,7 @@
 import torch.distributed as dist
 import typer
 
+from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
 import art.megatron.trainer_rank as trainer_rank_module
 from art.megatron.trainer_rank import (
     AdamParams,
@@ -21,11 +22,17 @@
     TrainerRank,
     _batch_seq_logits,
     _language_model,
-    _pack_forward_items,
     _unflatten,
 )
 
 
+def _pack_forward_items(items: Sequence[Any], *, max_depth: int) -> SharedPrefixPack:
+    return pack_shared_prefixes(
+        (item.input_ids for item in items),
+        max_depth=max_depth,
+    )
+
+
 def main(
     model: str = "Qwen/Qwen3-0.6B",
     layers: int = 1,
@@ -2252,7 +2259,7 @@ def timed(
     original_estimate = rank._estimate_flat_forward
     original_cached_estimate = rank._cached_adaptive_estimate
     original_forward_item = rank._forward_item
-    original_pack = trainer_rank_module._pack_forward_items
+    original_pack = trainer_rank_module.pack_shared_prefixes
     original_output_estimate = rank._estimate_group_request_output_bytes
     original_signature = rank._memory_signature_from_requests
     original_memory_check = rank._memory_check
@@ -2362,7 +2369,7 @@ def profile_check_wrapper(*args: object, **kwargs: object) -> object:
     rank._estimate_flat_forward = estimate_wrapper  # type: ignore[method-assign]
     rank._cached_adaptive_estimate = cached_estimate_wrapper  # type: ignore[method-assign]
     rank._forward_item = forward_item_wrapper  # type: ignore[method-assign]
-    trainer_rank_module._pack_forward_items = pack_wrapper  # type: ignore[assignment]
+    trainer_rank_module.pack_shared_prefixes = pack_wrapper  # type: ignore[assignment]
     rank._estimate_group_request_output_bytes = output_estimate_wrapper  # type: ignore[method-assign]
     rank._memory_signature_from_requests = signature_wrapper  # type: ignore[method-assign]
     rank._memory_check = memory_check_wrapper  # type: ignore[method-assign]
@@ -2377,7 +2384,7 @@ def profile_check_wrapper(*args: object, **kwargs: object) -> object:
         rank._estimate_flat_forward = original_estimate  # type: ignore[method-assign]
         rank._cached_adaptive_estimate = original_cached_estimate  # type: ignore[method-assign]
         rank._forward_item = original_forward_item  # type: ignore[method-assign]
-        trainer_rank_module._pack_forward_items = original_pack  # type: ignore[assignment]
+        trainer_rank_module.pack_shared_prefixes = original_pack  # type: ignore[assignment]
         rank._estimate_group_request_output_bytes = original_output_estimate  # type: ignore[method-assign]
         rank._memory_signature_from_requests = original_signature  # type: ignore[method-assign]
         rank._memory_check = original_memory_check  # type: ignore[method-assign]
diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index e20490186..b61e000ec 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -9,7 +9,7 @@
 import torch.distributed as dist
 import typer
 
-from art.megatron.shared_prefix_packing import SharedPrefixPack
+from art.megatron.shared_prefix_packing import SharedPrefixPack, pack_shared_prefixes
 from art.megatron.trainer_rank import (
     ForwardInput,
     ForwardOutput,
@@ -17,7 +17,6 @@
     TrainerRank,
     _batch_seq_logits,
     _language_model,
-    _pack_forward_items,
     _select_positions,
 )
 
@@ -617,7 +616,10 @@ def _packed_oracle(
 ) -> tuple[list[CheckOutput], tuple[torch.Tensor, ...]]:
     items = [rank._forward_item(request) for request in requests]
     prepared = rank._prepare_packed_forward(
-        _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+        pack_shared_prefixes(
+            (item.input_ids for item in items),
+            max_depth=rank.shared_prefix_max_depth,
+        )
     )
     hidden = rank._gather_sequence_parallel_hidden(rank._decoder_hidden(prepared))
     return (
@@ -650,7 +652,10 @@ def _shared_hidden_check(
 ]:
     items = [rank_a._forward_item(request) for request in requests]
     prepared = rank_a._prepare_packed_forward(
-        _pack_forward_items(items, max_depth=rank_a.shared_prefix_max_depth)
+        pack_shared_prefixes(
+            (item.input_ids for item in items),
+            max_depth=rank_a.shared_prefix_max_depth,
+        )
     )
     hidden = rank_a._gather_sequence_parallel_hidden(rank_a._decoder_hidden(prepared))
     outputs_a = _outputs_from_hidden(rank_a, items, prepared, hidden)
@@ -690,7 +695,10 @@ def _same_layout_check_outputs(
     ],
 ) -> list[CheckOutput]:
     items = [rank._forward_item(request) for request in requests]
-    batch = _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+    batch = pack_shared_prefixes(
+        (item.input_ids for item in items),
+        max_depth=rank.shared_prefix_max_depth,
+    )
     outputs = []
     for index, positions in enumerate(batch.positions_by_sequence):
         mutated = _mutated_batch(batch, keep_positions=positions)
@@ -829,7 +837,10 @@ def _source_positions(
 ) -> tuple[torch.Tensor, ...]:
     items = [rank._forward_item(request) for request in requests]
     prepared = rank._prepare_packed_forward(
-        _pack_forward_items(items, max_depth=rank.shared_prefix_max_depth)
+        pack_shared_prefixes(
+            (item.input_ids for item in items),
+            max_depth=rank.shared_prefix_max_depth,
+        )
     )
     return prepared.source_positions_by_item
 
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 2d0d07e6c..b97e071c5 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -971,7 +971,10 @@ def _plan_flat_forward(
             items = tuple(
                 self._forward_item(requests[index]) for index in group_indices
             )
-            packed = _pack_forward_items(items, max_depth=self.shared_prefix_max_depth)
+            packed = pack_shared_prefixes(
+                (item.input_ids for item in items),
+                max_depth=self.shared_prefix_max_depth,
+            )
             plans.append(
                 _ForwardGroupPlan(
                     slot_ref=slot_ref,
@@ -1196,9 +1199,9 @@ def _estimate_required_memory_bytes_from_values(
             * self._param_dtype_size
             * activation_factor
         )
-        if profiled is None or not _memory_profile_covers(
-            profiled,
-            packed_tokens=packed_tokens,
+        if (
+            profiled is None
+            or profiled.packed_tokens * _MEMORY_PROFILE_TRUST_GROWTH < packed_tokens
         ):
             compute = static_compute
         else:
@@ -1224,7 +1227,7 @@ def _all_ranks_have_memory_profile(
         profile = self._memory_profiles.get(signature)
         local = packed_tokens <= 0 or (
             profile is not None
-            and _memory_profile_covers(profile, packed_tokens=packed_tokens)
+            and profile.packed_tokens * _MEMORY_PROFILE_TRUST_GROWTH >= packed_tokens
         )
         if dist.is_available() and dist.is_initialized():
             value = torch.tensor(
@@ -1258,12 +1261,30 @@ def _update_memory_profile(
     def _forward_item(self, request: AnyForwardInput) -> _ForwardItem:
         if request.top_k is not None:
             _validate_top_k(request.top_k, _language_model(self.runtime.model[0]))
-        input_ids = _as_1d_long(request.input_tokens, name="input_tokens")
-        labels = (
-            _as_target_tokens(request.target_tokens, request.input_tokens, input_ids)
-            if request.target_tokens is not None
-            else None
-        )
+        input_ids = request.input_tokens.reshape(-1).to(dtype=torch.long)
+        if int(input_ids.numel()) == 0:
+            raise ValueError("input_tokens must not be empty")
+        labels = None
+        if request.target_tokens is not None:
+            labels = request.target_tokens.to(dtype=torch.long)
+            if int(labels.numel()) == 0:
+                raise ValueError("target_tokens must not be empty")
+            input_shape = tuple(request.input_tokens.shape)
+            if tuple(labels.shape) == input_shape:
+                labels = labels.reshape(-1)
+            elif (
+                labels.ndim > request.input_tokens.ndim
+                and tuple(labels.shape[: request.input_tokens.ndim]) == input_shape
+            ):
+                labels = labels.reshape(
+                    int(input_ids.numel()), *labels.shape[request.input_tokens.ndim :]
+                )
+            elif labels.ndim < 1 or int(labels.shape[0]) != int(input_ids.numel()):
+                raise ValueError(
+                    "target_tokens must match input_tokens or add trailing target "
+                    f"dimensions: input_tokens={input_shape} "
+                    f"target_tokens={tuple(labels.shape)}"
+                )
         return _ForwardItem(request=request, input_ids=input_ids, labels=labels)
 
     def _forward_packed(
@@ -1474,12 +1495,23 @@ def _project_vocab_parallel(
                     )
                     local_topk = (local_values.float(), local_tokens)
 
-            logit_chunk_offsets = _logit_chunk_offsets(
-                items,
-                row_matches,
-                start=start,
-                end=start + int(chunk_rows.numel()),
-                device=rows.device,
+            logit_chunks = [
+                chunk_offsets
+                for item, match in zip(items, row_matches, strict=True)
+                if item.request.logits
+                for _, chunk_offsets in (
+                    _match_chunk_offsets(
+                        match,
+                        start=start,
+                        end=start + int(chunk_rows.numel()),
+                    ),
+                )
+                if int(chunk_offsets.numel())
+            ]
+            logit_chunk_offsets = (
+                torch.cat(logit_chunks).unique(sorted=True)
+                if logit_chunks
+                else torch.empty(0, dtype=torch.long, device=rows.device)
             )
             chunk_logits: torch.Tensor | None = None
             if int(logit_chunk_offsets.numel()):
@@ -1537,18 +1569,30 @@ def _project_vocab_parallel(
                             k=min(k, int(selected_logits.shape[1])),
                             dim=-1,
                         )
-                    top_k[index] = _merge_topk(
-                        top_k[index],
-                        offsets,
-                        _vocab_parallel_topk_from_local(
-                            selected_values,
-                            selected_tokens,
-                            k=k,
-                            log_z=selected_log_z,
-                            vocab_start=_vocab_range(local_logits)[0],
-                        ),
-                        length=item_lengths[index],
+                    values = _vocab_parallel_topk_from_local(
+                        selected_values,
+                        selected_tokens,
+                        k=k,
+                        log_z=selected_log_z,
+                        vocab_start=_vocab_range(local_logits)[0],
                     )
+                    current = top_k[index]
+                    if current is None:
+                        current = TopK(
+                            logprobs=torch.empty(
+                                (item_lengths[index], int(values.logprobs.shape[1])),
+                                device=values.logprobs.device,
+                                dtype=values.logprobs.dtype,
+                            ),
+                            tokens=torch.empty(
+                                (item_lengths[index], int(values.tokens.shape[1])),
+                                device=values.tokens.device,
+                                dtype=values.tokens.dtype,
+                            ),
+                        )
+                        top_k[index] = current
+                    current.logprobs[offsets] = values.logprobs
+                    current.tokens[offsets] = values.tokens
 
     def _local_logits_from_hidden_rows(
         self,
@@ -1738,40 +1782,6 @@ def _scale_main_grads(self, scale: float) -> None:
                     param.grad.mul_(scale)
 
 
-def _as_1d_long(tensor: torch.Tensor, *, name: str) -> torch.Tensor:
-    tensor = tensor.reshape(-1)
-    if int(tensor.numel()) == 0:
-        raise ValueError(f"{name} must not be empty")
-    return tensor.to(dtype=torch.long)
-
-
-def _as_target_tokens(
-    tensor: torch.Tensor,
-    input_tokens: torch.Tensor,
-    input_ids: torch.Tensor,
-) -> torch.Tensor:
-    labels = tensor.to(dtype=torch.long)
-    if int(labels.numel()) == 0:
-        raise ValueError("target_tokens must not be empty")
-    if tuple(labels.shape) == tuple(input_tokens.shape):
-        return labels.reshape(-1)
-
-    input_shape = tuple(input_tokens.shape)
-    if (
-        labels.ndim > input_tokens.ndim
-        and tuple(labels.shape[: input_tokens.ndim]) == input_shape
-    ):
-        return labels.reshape(
-            int(input_ids.numel()), *labels.shape[input_tokens.ndim :]
-        )
-    if labels.ndim >= 1 and int(labels.shape[0]) == int(input_ids.numel()):
-        return labels
-    raise ValueError(
-        "target_tokens must match input_tokens or add trailing target dimensions: "
-        f"input_tokens={tuple(input_tokens.shape)} target_tokens={tuple(labels.shape)}"
-    )
-
-
 def _validate_top_k(top_k: int, model: "GPTModel") -> None:
     vocab_size = _padded_vocab_size(model)
     if top_k > vocab_size:
@@ -1793,21 +1803,6 @@ def _request_mix_key(request: AnyForwardInput) -> str:
     return "+".join(parts) if parts else "inactive"
 
 
-def _memory_profile_covers(profile: _MemoryProfile, *, packed_tokens: int) -> bool:
-    return profile.packed_tokens * _MEMORY_PROFILE_TRUST_GROWTH >= packed_tokens
-
-
-def _pack_forward_items(
-    items: Sequence[_ForwardItem],
-    *,
-    max_depth: int,
-) -> SharedPrefixPack:
-    return pack_shared_prefixes(
-        (item.input_ids for item in items),
-        max_depth=max_depth,
-    )
-
-
 def _pad_packed_batch(
     batch: SharedPrefixPack,
     *,
@@ -1935,26 +1930,6 @@ def _finish_target_logprobs(
     return (target_logits.float() - log_z).masked_fill(labels == -100, 0.0)
 
 
-def _logit_chunk_offsets(
-    items: Sequence[_ForwardItem],
-    row_matches: Sequence[_RowMatch],
-    *,
-    start: int,
-    end: int,
-    device: torch.device,
-) -> torch.Tensor:
-    parts = [
-        chunk_offsets
-        for item, match in zip(items, row_matches, strict=True)
-        if item.request.logits
-        for _, chunk_offsets in (_match_chunk_offsets(match, start=start, end=end),)
-        if int(chunk_offsets.numel())
-    ]
-    if not parts:
-        return torch.empty(0, dtype=torch.long, device=device)
-    return torch.cat(parts).unique(sorted=True)
-
-
 def _anchor_disconnected_outputs(
     target_logprobs: list[torch.Tensor | None],
     top_k: list[TopK | None],
@@ -1994,7 +1969,9 @@ def _try_triton_local_topk_stats(
     *,
     k: int,
 ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor] | None:
-    if k <= 0 or k > _triton_fused_topk_max():
+    if k <= 0 or k > int(
+        os.environ.get("ART_TRAINER_RANK_TRITON_FUSED_TOPK_MAX", "10")
+    ):
         return None
     return cast(
         tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor] | None,
@@ -2022,37 +1999,23 @@ def _try_triton_stats(
 ) -> object | None:
     if not local_logits.is_cuda:
         return None
-    if _triton_topk_disabled() or int(local_logits.shape[0]) < _triton_min_rows():
+    if os.environ.get("ART_TRAINER_RANK_TRITON_TOPK", "1").lower() in {
+        "0",
+        "false",
+    } or int(local_logits.shape[0]) < int(
+        os.environ.get("ART_TRAINER_RANK_TRITON_MIN_ROWS", "64")
+    ):
         return None
     try:
         from art.megatron import trainer_rank_topk
 
         return getattr(trainer_rank_topk, name)(local_logits, **kwargs)
     except Exception:
-        if _triton_topk_strict():
+        if os.environ.get("ART_TRAINER_RANK_TRITON_TOPK", "1").lower() == "strict":
             raise
         return None
 
 
-def _triton_topk_disabled() -> bool:
-    return os.environ.get("ART_TRAINER_RANK_TRITON_TOPK", "1").lower() in {
-        "0",
-        "false",
-    }
-
-
-def _triton_topk_strict() -> bool:
-    return os.environ.get("ART_TRAINER_RANK_TRITON_TOPK", "1").lower() == "strict"
-
-
-def _triton_fused_topk_max() -> int:
-    return int(os.environ.get("ART_TRAINER_RANK_TRITON_FUSED_TOPK_MAX", "10"))
-
-
-def _triton_min_rows() -> int:
-    return int(os.environ.get("ART_TRAINER_RANK_TRITON_MIN_ROWS", "64"))
-
-
 def _vocab_parallel_topk_from_local(
     local_values: torch.Tensor,
     local_tokens: torch.Tensor,
@@ -2083,31 +2046,6 @@ def _vocab_parallel_topk_from_local(
     return TopK(logprobs=top_values, tokens=tokens.gather(1, top_offsets))
 
 
-def _merge_topk(
-    current: TopK | None,
-    offsets: torch.Tensor,
-    values: TopK,
-    *,
-    length: int,
-) -> TopK:
-    if current is None:
-        current = TopK(
-            logprobs=torch.empty(
-                (length, int(values.logprobs.shape[1])),
-                device=values.logprobs.device,
-                dtype=values.logprobs.dtype,
-            ),
-            tokens=torch.empty(
-                (length, int(values.tokens.shape[1])),
-                device=values.tokens.device,
-                dtype=values.tokens.dtype,
-            ),
-        )
-    current.logprobs[offsets] = values.logprobs
-    current.tokens[offsets] = values.tokens
-    return current
-
-
 def _vocab_parallel_log_z(local_logits: torch.Tensor) -> torch.Tensor:
     local_logits = local_logits.float()
     local_max = local_logits.max(dim=-1).values.detach()

From 3893e9b2ba20d75a7b8cbaea1f89da0c85e258bd Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 08:26:25 -0600
Subject: [PATCH 101/114] refactor: share trainer rank grad sync helpers

---
 src/art/megatron/trainer_rank.py            | 43 +++-------
 src/art/megatron/training/finalize_grads.py | 95 ++++++++++++---------
 2 files changed, 64 insertions(+), 74 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index b97e071c5..2ed364255 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -13,7 +13,6 @@
 from typing import TYPE_CHECKING, Generic, Literal, ParamSpec, TypeVar, cast, overload
 
 import torch
-from torch._utils import _flatten_dense_tensors, _unflatten_dense_tensors
 import torch.distributed as dist
 
 from art.megatron.shared_prefix_packing import (
@@ -661,6 +660,11 @@ def _dynamic_optimizer(
     def _reduce_dynamic_grads(self, params: Sequence[torch.nn.Parameter]) -> None:
         from megatron.core import parallel_state as ps
 
+        from art.megatron.training.finalize_grads import (
+            coalesced_all_reduce,
+            tensor_parallel_grad_sync,
+        )
+
         buckets: dict[
             tuple[int, str, torch.dtype, torch.device],
             tuple[object, dist.ReduceOp.RedOpType, list[torch.Tensor]],
@@ -681,40 +685,13 @@ def add(group: object, op: dist.ReduceOp.RedOpType, grad: torch.Tensor) -> None:
             if group is not None and group.size() > 1:
                 add(group, dist.ReduceOp.SUM, grad)
 
-            op = getattr(param, "grad_sync_op", "none")
-            if op == "none":
-                continue
-            domain = getattr(param, "grad_sync_domain", "tp_default")
-            if domain == "expert_tp":
-                tp_group = ps.get_expert_tensor_parallel_group(check_initialized=False)
-            else:
-                tp_group = ps.get_tensor_model_parallel_group(check_initialized=False)
-            if tp_group is None or tp_group.size() <= 1:
-                continue
-            reduce_op = dist.ReduceOp.AVG if op == "avg" else dist.ReduceOp.SUM
-            add(tp_group, reduce_op, grad)
+            sync = tensor_parallel_grad_sync(param, name="dynamic LoRA")
+            if sync is not None:
+                group, reduce_op = sync
+                add(group, reduce_op, grad)
 
         for group, op, grads in buckets.values():
-            self._coalesced_all_reduce(grads, group=group, op=op)
-
-    @staticmethod
-    def _coalesced_all_reduce(
-        grads: Sequence[torch.Tensor],
-        *,
-        group: object,
-        op: dist.ReduceOp.RedOpType,
-    ) -> None:
-        coalesced = _flatten_dense_tensors(grads)
-        reduced = (
-            coalesced.float()
-            if torch.is_floating_point(coalesced) and coalesced.dtype != torch.float32
-            else coalesced
-        )
-        dist.all_reduce(reduced, op=op, group=group)
-        if reduced is not coalesced:
-            reduced = reduced.to(dtype=coalesced.dtype)
-        for grad, synced in zip(grads, _unflatten_dense_tensors(reduced, grads)):
-            grad.copy_(synced)
+            coalesced_all_reduce(grads, group=group, op=op)
 
     def _select_next_micro_batch(
         self,
diff --git a/src/art/megatron/training/finalize_grads.py b/src/art/megatron/training/finalize_grads.py
index 2c49671fa..e00cd8218 100644
--- a/src/art/megatron/training/finalize_grads.py
+++ b/src/art/megatron/training/finalize_grads.py
@@ -1,4 +1,3 @@
-from collections import defaultdict
 from collections.abc import Iterable
 from typing import Any, Literal, cast
 
@@ -16,7 +15,6 @@
 GRAD_SYNC_OP_NONE: GradSyncOp = "none"
 GRAD_SYNC_OP_SUM: GradSyncOp = "sum"
 GRAD_SYNC_OP_AVG: GradSyncOp = "avg"
-VALID_DOMAINS = (TP_DEFAULT_GRAD_SYNC_DOMAIN, EXPERT_TP_GRAD_SYNC_DOMAIN)
 VALID_SYNC_OPS = (GRAD_SYNC_OP_NONE, GRAD_SYNC_OP_SUM, GRAD_SYNC_OP_AVG)
 
 
@@ -62,6 +60,48 @@ def _resolve_reduce_op(op: GradSyncOp) -> Any:
     raise RuntimeError(f"Unknown grad sync op: {op}")
 
 
+def tensor_parallel_grad_sync(
+    param: torch.nn.Parameter,
+    *,
+    name: str,
+) -> tuple[Any, Any] | None:
+    domain: GradSyncDomain = getattr(
+        param, "grad_sync_domain", TP_DEFAULT_GRAD_SYNC_DOMAIN
+    )
+    group = _resolve_domain_group(domain)
+    if group is None:
+        return None
+    op: GradSyncOp = getattr(param, "grad_sync_op", GRAD_SYNC_OP_NONE)
+    if op not in VALID_SYNC_OPS:
+        raise RuntimeError(f"{name}: unsupported grad_sync_op={op}")
+    if op == GRAD_SYNC_OP_NONE:
+        return None
+    return group, _resolve_reduce_op(op)
+
+
+def coalesced_all_reduce(
+    grads: list[torch.Tensor],
+    *,
+    group: Any,
+    op: Any,
+) -> None:
+    coalesced = _flatten_dense_tensors(grads)
+    reduced = (
+        coalesced.float()
+        if torch.is_floating_point(coalesced) and coalesced.dtype != torch.float32
+        else coalesced
+    )
+    torch.distributed.all_reduce(  # ty: ignore[possibly-missing-attribute]
+        reduced,
+        op=op,
+        group=group,
+    )
+    if reduced is not coalesced:
+        reduced = reduced.to(dtype=coalesced.dtype)
+    for grad, synced in zip(grads, _unflatten_dense_tensors(reduced, grads)):
+        grad.copy_(synced)
+
+
 def flush_param_grads_to_main_grads(model_chunks: Iterable[torch.nn.Module]) -> None:
     """Fallback for direct jobs when DDP post-hooks leave grads in param.grad.
 
@@ -102,57 +142,30 @@ def finalize_model_grads_extended(
     )
 
     buckets: dict[
-        tuple[GradSyncDomain, GradSyncOp, torch.dtype, torch.device],
-        list[tuple[str, torch.Tensor]],
-    ] = defaultdict(list)
+        tuple[int, str, torch.dtype, torch.device],
+        tuple[Any, Any, list[torch.Tensor]],
+    ] = {}
 
     for name, param in _iter_named_trainable_parameters(model):
-        domain: GradSyncDomain = getattr(
-            param, "grad_sync_domain", TP_DEFAULT_GRAD_SYNC_DOMAIN
-        )
-        if _resolve_domain_group(domain) is None:
-            continue
-
-        op: GradSyncOp = getattr(param, "grad_sync_op", GRAD_SYNC_OP_NONE)
-        if op not in VALID_SYNC_OPS:
-            raise RuntimeError(f"{name}: unsupported grad_sync_op={op}")
-        if op == GRAD_SYNC_OP_NONE:
+        sync = tensor_parallel_grad_sync(param, name=name)
+        if sync is None:
             continue
 
         if not hasattr(param, "main_grad"):
             raise RuntimeError(
-                f"{name}: expected main_grad for domain={domain} reduce_op={op}, but attribute is missing"
+                f"{name}: expected main_grad for tensor-parallel grad sync, but attribute is missing"
             )
         grad = param.main_grad
         if grad is None:
             raise RuntimeError(
-                f"{name}: expected non-None main_grad for domain={domain} reduce_op={op}"
+                f"{name}: expected non-None main_grad for tensor-parallel grad sync"
             )
         local_grad = cast(  # local part of dtensor
             torch.Tensor, grad._local_tensor if hasattr(grad, "_local_tensor") else grad
         )
-        buckets[(domain, op, local_grad.dtype, local_grad.device)].append(
-            (name, local_grad)
-        )
+        group, reduce_op = sync
+        key = (id(group), str(reduce_op), local_grad.dtype, local_grad.device)
+        buckets.setdefault(key, (group, reduce_op, []))[2].append(local_grad)
 
-    for (domain, op, _dtype, _device), entries in buckets.items():
-        group = _resolve_domain_group(
-            domain
-        )  # already checked if the domain is one we are handling
-
-        grads = [grad for _name, grad in entries]
-        coalesced = _flatten_dense_tensors(grads)
-        reduced = (
-            coalesced.float()
-            if torch.is_floating_point(coalesced) and coalesced.dtype != torch.float32
-            else coalesced
-        )
-        torch.distributed.all_reduce(  # ty: ignore[possibly-missing-attribute]
-            reduced,
-            op=_resolve_reduce_op(op),
-            group=group,
-        )
-        if reduced is not coalesced:
-            reduced = reduced.to(dtype=coalesced.dtype)
-        for grad, synced in zip(grads, _unflatten_dense_tensors(reduced, grads)):
-            grad.copy_(synced)
+    for group, op, grads in buckets.values():
+        coalesced_all_reduce(grads, group=group, op=op)

From b42b76f7416cd72d9dd606887e3d3367ad8a0110 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 08:51:13 -0600
Subject: [PATCH 102/114] refactor: unify gdn tree bucket planning

---
 src/art/megatron/gdn/gdn_shared_prefix.py | 76 +++++++----------------
 1 file changed, 22 insertions(+), 54 deletions(-)

diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 25a95b820..8ead7c2c2 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -338,34 +338,24 @@ def _build_tree_rank_execution_plan(
     )
     local_token_ranges = gdn_ranges_by_rank_by_source[cp_rank]
     tree_segment_buckets_by_depth = tuple(
-        (
-            _build_tree_segment_bucket_plans(
-                tuple(segments_by_rank_depth[cp_rank][depth]),
-                spec.tree_parent_indices,
-                tuple(tree_has_children),
-                device=device,
-                planner_config=planner_config,
-            )
-            if cp_size == 1
-            else _build_tree_position_bucket_plans(
-                tuple(segments_by_rank_depth[cp_rank][depth]),
-                spec.tree_parent_indices,
-                tuple(tree_has_children),
-                local_token_ranges,
-                sequence_length=spec.sequence_length,
-                device=device,
-                planner_config=planner_config,
-            )
+        _build_tree_bucket_plans(
+            tuple(segments_by_rank_depth[cp_rank][depth]),
+            spec.tree_parent_indices,
+            tuple(tree_has_children),
+            local_token_ranges=None if cp_size == 1 else local_token_ranges,
+            sequence_length=spec.sequence_length,
+            device=device,
+            planner_config=planner_config,
         )
         for depth in range(depth_count)
     )
     tree_chain_buckets_by_depth = (
         tuple(
-            _build_tree_position_bucket_plans(
+            _build_tree_bucket_plans(
                 tuple(chain_segments_by_depth[depth]),
                 spec.tree_parent_indices,
                 tuple(tree_has_children),
-                local_token_ranges,
+                local_token_ranges=local_token_ranges,
                 sequence_length=spec.sequence_length,
                 device=device,
                 planner_config=planner_config,
@@ -1060,38 +1050,12 @@ def _least_loaded_rank(rank_loads: list[int]) -> int:
     return min(range(len(rank_loads)), key=lambda rank: (rank_loads[rank], rank))
 
 
-def _build_tree_segment_bucket_plans(
-    segments: tuple[GdnSegmentSpec, ...],
-    tree_parent_indices: tuple[int, ...],
-    tree_has_children: tuple[bool, ...],
-    *,
-    device: torch.device | str,
-    planner_config: GdnPlannerConfig,
-) -> tuple[GdnSegmentBucketPlan, ...]:
-    segment_buckets = _batch_tree_segments_by_padded_work(
-        segments,
-        tree_has_children,
-        max_padding_ratio=planner_config.max_padding_ratio,
-        max_segments_per_batch=planner_config.max_segments_per_batch,
-    )
-    return tuple(
-        _bucket_with_tree_parent_indices(
-            _build_segment_bucket_plan(bucket, device=device),
-            bucket,
-            tree_parent_indices,
-            tree_has_children,
-            device=device,
-        )
-        for bucket in segment_buckets
-    )
-
-
-def _build_tree_position_bucket_plans(
+def _build_tree_bucket_plans(
     segments: tuple[GdnSegmentSpec, ...],
     tree_parent_indices: tuple[int, ...],
     tree_has_children: tuple[bool, ...],
-    local_token_ranges: tuple[tuple[int, int, int], ...],
     *,
+    local_token_ranges: tuple[tuple[int, int, int], ...] | None,
     sequence_length: int,
     device: torch.device | str,
     planner_config: GdnPlannerConfig,
@@ -1114,12 +1078,16 @@ def _build_tree_position_bucket_plans(
     )
     return tuple(
         _bucket_with_tree_parent_indices(
-            _build_position_bucket_plan(
-                bucket,
-                local_token_ranges,
-                sequence_length=sequence_length,
-                device=device,
-                token_ranges_by_rank=token_ranges_by_rank,
+            (
+                _build_segment_bucket_plan(bucket, device=device)
+                if local_token_ranges is None
+                else _build_position_bucket_plan(
+                    bucket,
+                    local_token_ranges,
+                    sequence_length=sequence_length,
+                    device=device,
+                    token_ranges_by_rank=token_ranges_by_rank,
+                )
             ),
             bucket,
             tree_parent_indices,

From 3519caf608e7b1457c7d3d5c7b8b866290c916c0 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 08:55:47 -0600
Subject: [PATCH 103/114] refactor: trim adaptive planner cache keys

---
 src/art/megatron/trainer_rank.py | 68 +++++++++++++-------------------
 1 file changed, 27 insertions(+), 41 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 2ed364255..3b3894ff1 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -703,13 +703,15 @@ def _select_next_micro_batch(
         min_width = min(dp_size, remaining)
         if min_width <= 0:
             raise RuntimeError("cannot select an empty microbatch window")
+        self._scope_adaptive_cache(items)
 
         def clamp_width(width: int) -> int:
             return max(min_width, min(width, remaining))
 
-        granularity = self._adaptive_window_granularity(
-            remaining=remaining,
-            dp_size=dp_size,
+        base_granularity = 1 if remaining < 64 else 8 if remaining < 256 else 32
+        granularity = max(
+            1,
+            ((base_granularity + dp_size - 1) // dp_size) * dp_size,
         )
 
         def snap_width(width: int) -> int:
@@ -725,8 +727,6 @@ def local_slice(width: int) -> tuple[tuple[int, ...], list[ForwardInputsT]]:
             indices = tuple(range(start + dp_rank, stop, dp_size))
             return indices, [items[index] for index in indices]
 
-        estimates: dict[int, tuple[_MemoryCheck, bool] | None] = {}
-
         def candidate(
             width: int,
             estimated_check: _MemoryCheck | None = None,
@@ -735,7 +735,7 @@ def candidate(
         ) -> _CandidateMicroBatch[ForwardInputsT]:
             width = clamp_width(width)
             indices, local_inputs = local_slice(width)
-            plan = self._cached_adaptive_plan(items, indices, local_inputs)
+            plan = self._cached_adaptive_plan(indices, local_inputs)
             return _CandidateMicroBatch(
                 inputs=local_inputs,
                 indices=indices,
@@ -750,23 +750,8 @@ def candidate(
             )
 
         def estimate(width: int) -> tuple[_MemoryCheck, bool] | None:
-            width = clamp_width(width)
-            if width not in estimates:
-                indices, local_inputs = local_slice(width)
-                estimates[width] = self._cached_adaptive_estimate(
-                    items,
-                    indices,
-                    local_inputs,
-                )
-            return estimates[width]
-
-        def raise_smallest(plan: _FlatForwardPlan, check: _MemoryCheck) -> None:
-            self._raise_memory_error(
-                plan,
-                check,
-                context="forward_micro_batches",
-                message="smallest DP microbatch is predicted to exceed available memory",
-            )
+            indices, local_inputs = local_slice(width)
+            return self._cached_adaptive_estimate(indices, local_inputs)
 
         def probe(width: int) -> tuple[bool, _MemoryCheck | None, bool]:
             estimated = estimate(width)
@@ -804,7 +789,12 @@ def search_below(failed_width: int) -> None:
         if not first_fits:
             first = candidate(min_width, first_check, rejected=rejected)
             if not first.check.fits:
-                raise_smallest(first.plan, first.check)
+                self._raise_memory_error(
+                    first.plan,
+                    first.check,
+                    context="forward_micro_batches",
+                    message="smallest DP microbatch is predicted to exceed available memory",
+                )
             if first.cold_start:
                 return first
             best_check = first.check
@@ -848,20 +838,12 @@ def search_below(failed_width: int) -> None:
             return candidate(min_width, first_check, rejected=rejected)
         return candidate(best_width, best_check, rejected=rejected)
 
-    @staticmethod
-    def _adaptive_window_granularity(*, remaining: int, dp_size: int) -> int:
-        if remaining < 64:
-            return max(1, dp_size)
-        base = 8 if remaining < 256 else 32
-        return max(1, ((base + dp_size - 1) // dp_size) * dp_size)
-
     def _cached_adaptive_plan(
         self,
-        items: Sequence[ForwardInputsT],
         indices: tuple[int, ...],
         local_inputs: Sequence[ForwardInputsT],
     ) -> _FlatForwardPlan:
-        key = self._adaptive_cache_key(items, indices)
+        key = self._adaptive_cache_key(indices)
         cached = self._adaptive_plan_cache.get(key)
         if cached is not None:
             return cached
@@ -871,11 +853,10 @@ def _cached_adaptive_plan(
 
     def _cached_adaptive_estimate(
         self,
-        items: Sequence[ForwardInputsT],
         indices: tuple[int, ...],
         local_inputs: Sequence[ForwardInputsT],
     ) -> tuple[_MemoryCheck, bool] | None:
-        key = self._adaptive_cache_key(items, indices)
+        key = self._adaptive_cache_key(indices)
         if key in self._adaptive_estimate_cache:
             return self._adaptive_estimate_cache[key]
         estimate = self._estimate_flat_forward(list(_flatten(local_inputs)))
@@ -897,16 +878,21 @@ def _cached_adaptive_estimate(
         self._adaptive_estimate_cache[key] = estimate
         return estimate
 
-    def _adaptive_cache_key(
+    def _scope_adaptive_cache(
         self,
         items: Sequence[ForwardInputsT],
+    ) -> None:
+        top_level_ids = tuple(id(item) for item in items)
+        if top_level_ids == self._adaptive_plan_cache_top_level_ids:
+            return
+        self._adaptive_plan_cache.clear()
+        self._adaptive_estimate_cache.clear()
+        self._adaptive_plan_cache_top_level_ids = top_level_ids
+
+    def _adaptive_cache_key(
+        self,
         indices: tuple[int, ...],
     ) -> _AdaptivePlanCacheKey:
-        top_level_ids = tuple(id(item) for item in items)
-        if top_level_ids != self._adaptive_plan_cache_top_level_ids:
-            self._adaptive_plan_cache.clear()
-            self._adaptive_estimate_cache.clear()
-            self._adaptive_plan_cache_top_level_ids = top_level_ids
         return (
             indices,
             self._default_slot_ref,

From 3b14f35f6b39f9abf331020888ccc4b8307cafcb Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 09:04:51 -0600
Subject: [PATCH 104/114] refactor: inline stale trainer rank helpers

---
 src/art/megatron/gdn/gdn_shared_prefix.py | 149 ++++++----------------
 src/art/megatron/lora.py                  |  77 ++++-------
 src/art/megatron/trainer_rank.py          |  17 +--
 3 files changed, 71 insertions(+), 172 deletions(-)

diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index 8ead7c2c2..e4c6ed6c4 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -148,35 +148,12 @@ class _AttentionLayoutIndex:
     token_range_ends_by_rank: tuple[tuple[int, ...], ...]
 
 
-def _layout_cp_size(layout: TokenLayoutIndex) -> int:
-    return len(layout.token_counts_by_rank)
-
-
-def _layout_token_count(layout: TokenLayoutIndex) -> int:
-    return sum(int(count) for count in layout.token_counts_by_rank)
-
-
 def _tokens_from_rank_ranges(
     ranges: tuple[tuple[int, int, int], ...],
 ) -> tuple[int, ...]:
     return tuple(token for start, end, _ in ranges for token in range(start, end))
 
 
-def _token_layout_from_rank_ranges(
-    ranges_by_rank: tuple[tuple[tuple[int, int, int], ...], ...],
-) -> TokenLayoutIndex:
-    return TokenLayoutIndex(
-        ownership_ranges_by_rank=ranges_by_rank,
-        token_counts_by_rank=tuple(
-            _ranges_token_count(ranges) for ranges in ranges_by_rank
-        ),
-    )
-
-
-def _ranges_token_count(ranges: tuple[tuple[int, int, int], ...]) -> int:
-    return sum(int(end) - int(start) for start, end, _ in ranges)
-
-
 def build_gdn_rank_execution_plan(
     spec: GdnPackedExecutionSpec,
     *,
@@ -554,24 +531,32 @@ def _attention_source_layout(
     planner_config: GdnPlannerConfig,
 ) -> TokenLayoutIndex:
     if attention_token_layout_index is not None:
-        if _layout_cp_size(attention_token_layout_index) != cp_size:
+        layout_cp_size = len(attention_token_layout_index.token_counts_by_rank)
+        layout_token_count = sum(
+            int(count) for count in attention_token_layout_index.token_counts_by_rank
+        )
+        if layout_cp_size != cp_size:
             raise ValueError(
                 "attention token layout index cp_size must match GDN cp_size, got "
-                f"{_layout_cp_size(attention_token_layout_index)} and {cp_size}"
+                f"{layout_cp_size} and {cp_size}"
             )
-        if _layout_token_count(attention_token_layout_index) != spec.real_token_count:
+        if layout_token_count != spec.real_token_count:
             raise ValueError(
                 "attention token layout index token count must match GDN real token "
-                f"count, got {_layout_token_count(attention_token_layout_index)} and "
-                f"{spec.real_token_count}"
+                f"count, got {layout_token_count} and {spec.real_token_count}"
             )
         return attention_token_layout_index
-    return _token_layout_from_rank_ranges(
-        _default_attention_layout_ranges(
-            spec,
-            cp_size=cp_size,
-            planner_config=planner_config,
-        )
+    ranges_by_rank = _default_attention_layout_ranges(
+        spec,
+        cp_size=cp_size,
+        planner_config=planner_config,
+    )
+    return TokenLayoutIndex(
+        ownership_ranges_by_rank=ranges_by_rank,
+        token_counts_by_rank=tuple(
+            sum(int(end) - int(start) for start, end, _ in ranges)
+            for ranges in ranges_by_rank
+        ),
     )
 
 
@@ -581,7 +566,7 @@ def _can_chain_tree_segment(
     cp_size: int,
     planner_config: GdnPlannerConfig,
 ) -> bool:
-    min_tokens = (
+    min_total_tokens = (
         min(
             planner_config.cp_tree_chain_min_prefix_only_tokens,
             planner_config.cp_chain_min_prefix_only_tokens,
@@ -592,33 +577,14 @@ def _can_chain_tree_segment(
             planner_config.cp_chain_min_total_tokens,
         )
     )
-    return _can_chain_segment_with_min_tokens(
-        segment,
-        cp_size=cp_size,
-        min_tokens=min_tokens,
-        planner_config=planner_config,
+    return (
+        segment.length >= min_total_tokens
+        and segment.length >= cp_size
+        and segment.length // FLA_CHUNK_SIZE >= cp_size
+        and segment.length / cp_size >= planner_config.cp_chain_min_tokens_per_rank
     )
 
 
-def _can_chain_segment_with_min_tokens(
-    segment: GdnSegmentSpec,
-    *,
-    cp_size: int,
-    min_tokens: int,
-    planner_config: GdnPlannerConfig,
-) -> bool:
-    if segment.length < min_tokens:
-        return False
-    if segment.length < cp_size:
-        return False
-    if segment.length // FLA_CHUNK_SIZE < cp_size:
-        return False
-    per_rank = segment.length / cp_size
-    if per_rank < planner_config.cp_chain_min_tokens_per_rank:
-        return False
-    return True
-
-
 def _best_segment_owner(
     segments: tuple[GdnSegmentSpec, ...],
     rank_loads: list[int],
@@ -893,29 +859,19 @@ def should_split_segment(segment: GdnSegmentSpec) -> bool:
     for segment in spec.tree_segments:
         token_start = _segment_token_start(segment, spec.sequence_length)
         if should_split_segment(segment):
-            _append_split_default_attention_segment(
-                ranks, loads, token_start, segment.length
-            )
+            for rank in range(cp_size):
+                start = (segment.length * rank) // cp_size
+                end = (segment.length * (rank + 1)) // cp_size
+                ranks[rank].append(
+                    (token_start + start, token_start + end, loads[rank])
+                )
+                loads[rank] += end - start
             continue
         owner = _least_loaded_rank(loads)
         append_segment(owner, token_start, segment.length)
     return tuple(tuple(ranges) for ranges in ranks)
 
 
-def _append_split_default_attention_segment(
-    ranks: list[list[tuple[int, int, int]]],
-    loads: list[int],
-    token_start: int,
-    token_count: int,
-) -> None:
-    cp_size = len(ranks)
-    for rank in range(cp_size):
-        start = (token_count * rank) // cp_size
-        end = (token_count * (rank + 1)) // cp_size
-        ranks[rank].append((token_start + start, token_start + end, loads[rank]))
-        loads[rank] += end - start
-
-
 def _append_chain_segment(
     gdn_ranges_by_rank: list[list[tuple[int, int, int]]],
     rank_loads: list[int],
@@ -956,11 +912,11 @@ def _append_chain_segment(
         )
         rank_loads[rank] += shard_length
         if attention_layout_index is not None:
-            cross_rank_tokens += shard_length - _attention_overlap_count(
-                attention_layout_index,
-                rank,
+            cross_rank_tokens += shard_length - _range_overlap_count(
                 shard_start,
                 shard_start + shard_length,
+                attention_layout_index.token_ranges_by_rank[rank],
+                attention_layout_index.token_range_ends_by_rank[rank],
             )
         start = end
     return cross_rank_tokens
@@ -996,15 +952,14 @@ def _attention_contiguous_chain_shards(
     shards: list[range] = []
     cursor = token_start
     for rank in range(cp_size):
-        overlap = _attention_single_contiguous_overlap(
-            attention_layout_index,
-            rank,
+        overlaps = _range_overlaps(
             token_start,
             segment_end,
+            attention_layout_index.token_ranges_by_rank[rank],
         )
-        if overlap is None:
+        if len(overlaps) != 1:
             return None
-        start, end = overlap
+        start, end = overlaps[0]
         if start != cursor or end <= start:
             return None
         shards.append(range(start, end))
@@ -1016,18 +971,6 @@ def _attention_contiguous_chain_shards(
     return tuple(shards)
 
 
-def _attention_single_contiguous_overlap(
-    index: _AttentionLayoutIndex,
-    rank: int,
-    start: int,
-    end: int,
-) -> tuple[int, int] | None:
-    overlaps = _range_overlaps(start, end, index.token_ranges_by_rank[rank])
-    if len(overlaps) != 1:
-        return None
-    return overlaps[0]
-
-
 def _append_local_segment(
     gdn_ranges_by_rank: list[list[tuple[int, int, int]]],
     rank_loads: list[int],
@@ -1361,20 +1304,6 @@ def _segment_token_start(segment: GdnSegmentSpec, sequence_length: int) -> int:
     return segment.row_index * sequence_length + segment.start
 
 
-def _attention_overlap_count(
-    index: _AttentionLayoutIndex,
-    rank: int,
-    start: int,
-    end: int,
-) -> int:
-    return _range_overlap_count(
-        start,
-        end,
-        index.token_ranges_by_rank[rank],
-        index.token_range_ends_by_rank[rank],
-    )
-
-
 def _range_overlap_count(
     start: int,
     end: int,
diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index 13473e12f..d44c76382 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -180,10 +180,7 @@ class LoraShardMeta(NamedTuple):
 
     @property
     def numel(self) -> int:
-        total = 1
-        for dim in self.shape:
-            total *= dim
-        return total
+        return math.prod(self.shape)
 
 
 class _LoraPublishTemplate(NamedTuple):
@@ -231,14 +228,6 @@ def _get_shard_rank(domain: ShardDomain) -> int:
     return group.rank()
 
 
-def _get_shard_group(domain: ShardDomain) -> Any | None:
-    if not _distributed_initialized():
-        return None
-    if domain == "tp":
-        return ps.get_tensor_model_parallel_group()
-    return ps.get_expert_tensor_parallel_group(check_initialized=False)
-
-
 def _dtype_name(dtype: torch.dtype) -> str:
     return str(dtype).removeprefix("torch.")
 
@@ -519,7 +508,11 @@ def _broadcast_if_replicated(self, param: torch.nn.Parameter) -> None:
         world_size = _get_shard_world_size(domain)
         if world_size <= 1:
             return
-        group = _get_shard_group(domain)
+        group = (
+            ps.get_tensor_model_parallel_group()
+            if domain == "tp"
+            else ps.get_expert_tensor_parallel_group(check_initialized=False)
+        )
         if group is None:
             raise RuntimeError(
                 f"{self.adapter_model_prefix}: missing process group for replicated parameter domain={domain}"
@@ -1067,14 +1060,6 @@ def _expert_grouped_lora_dual_forward(
     )
 
 
-def _linear_weight(linear: Any) -> torch.Tensor:
-    weight = getattr(linear, "weight0", None)
-    if weight is None:
-        weight = getattr(linear, "weight", None)
-    assert isinstance(weight, torch.Tensor)
-    return weight
-
-
 def _parallel_lora(
     *,
     adapter_model_prefix: str,
@@ -1088,7 +1073,10 @@ def _parallel_lora(
     allreduce: bool = True,
     num_local_experts: int = 1,
 ) -> LoRA:
-    weight = _linear_weight(linear)
+    weight = getattr(linear, "weight0", None)
+    if weight is None:
+        weight = getattr(linear, "weight", None)
+    assert isinstance(weight, torch.Tensor)
     row_layout = layout == "row"
     a_parallel_spec = LoRAParallelSpec(
         shard_domain=shard_domain,
@@ -1119,30 +1107,6 @@ def _parallel_lora(
     )
 
 
-def _expert_parallel_lora(
-    *,
-    adapter_model_prefix: str,
-    linear: Any,
-    out_features: int,
-    rank: int,
-    alpha: float,
-    layout: Literal["column", "row"],
-    num_local_experts: int,
-) -> LoRA:
-    return _parallel_lora(
-        adapter_model_prefix=adapter_model_prefix,
-        linear=linear,
-        out_features=out_features,
-        rank=rank,
-        alpha=alpha,
-        layout=layout,
-        shard_domain="expert_tp",
-        grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
-        num_local_experts=num_local_experts,
-        allreduce=False,
-    )
-
-
 def _parallel_lora_pair(
     *,
     adapter_model_prefix: str,
@@ -1154,17 +1118,24 @@ def _parallel_lora_pair(
     suffixes: tuple[str, str],
     num_local_experts: int = 1,
 ) -> tuple[LoRA, LoRA]:
-    make_lora = _expert_parallel_lora if num_local_experts > 1 else _parallel_lora
+    expert_parallel = num_local_experts > 1
     return cast(
         tuple[LoRA, LoRA],
         tuple(
-            make_lora(
+            _parallel_lora(
                 adapter_model_prefix=f"{adapter_model_prefix}.{suffix}",
                 linear=linear,
                 out_features=out_features,
                 rank=rank,
                 alpha=alpha,
                 layout=layout,
+                shard_domain="expert_tp" if expert_parallel else "tp",
+                grad_sync_domain=(
+                    EXPERT_TP_GRAD_SYNC_DOMAIN
+                    if expert_parallel
+                    else TP_DEFAULT_GRAD_SYNC_DOMAIN
+                ),
+                allreduce=not expert_parallel,
                 num_local_experts=num_local_experts,
             )
             for suffix in suffixes
@@ -1410,13 +1381,16 @@ def __init__(
         self.linear_fc1 = linear_fc1
         self.fused_gate_up = bool(fused_gate_up)
         if self.fused_gate_up:
-            self.lora = _expert_parallel_lora(
+            self.lora = _parallel_lora(
                 adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.gate_up_proj",
                 linear=linear_fc1,
                 out_features=linear_fc1.out_features,
                 rank=rank,
                 alpha=alpha,
                 layout="column",
+                shard_domain="expert_tp",
+                grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
+                allreduce=False,
                 num_local_experts=num_local_experts,
             )
             gate_out_features = linear_fc1.out_features // 2
@@ -1466,13 +1440,16 @@ def __init__(
     ) -> None:
         super().__init__()
         self.linear_fc2 = linear_fc2
-        self.lora = _expert_parallel_lora(
+        self.lora = _parallel_lora(
             adapter_model_prefix=f"{adapter_model_prefix}.{{expert}}.down_proj",
             linear=linear_fc2,
             out_features=linear_fc2.out_features,
             rank=rank,
             alpha=alpha,
             layout="row",
+            shard_domain="expert_tp",
+            grad_sync_domain=EXPERT_TP_GRAD_SYNC_DOMAIN,
+            allreduce=False,
             num_local_experts=num_local_experts,
         )
 
diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 3b3894ff1..86d19ccbd 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -703,7 +703,11 @@ def _select_next_micro_batch(
         min_width = min(dp_size, remaining)
         if min_width <= 0:
             raise RuntimeError("cannot select an empty microbatch window")
-        self._scope_adaptive_cache(items)
+        top_level_ids = tuple(id(item) for item in items)
+        if top_level_ids != self._adaptive_plan_cache_top_level_ids:
+            self._adaptive_plan_cache.clear()
+            self._adaptive_estimate_cache.clear()
+            self._adaptive_plan_cache_top_level_ids = top_level_ids
 
         def clamp_width(width: int) -> int:
             return max(min_width, min(width, remaining))
@@ -878,17 +882,6 @@ def _cached_adaptive_estimate(
         self._adaptive_estimate_cache[key] = estimate
         return estimate
 
-    def _scope_adaptive_cache(
-        self,
-        items: Sequence[ForwardInputsT],
-    ) -> None:
-        top_level_ids = tuple(id(item) for item in items)
-        if top_level_ids == self._adaptive_plan_cache_top_level_ids:
-            return
-        self._adaptive_plan_cache.clear()
-        self._adaptive_estimate_cache.clear()
-        self._adaptive_plan_cache_top_level_ids = top_level_ids
-
     def _adaptive_cache_key(
         self,
         indices: tuple[int, ...],

From bbdd9d58203683de775233d3d13d4d0c72076233 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 09:10:28 -0600
Subject: [PATCH 105/114] test: allow tensor fields in gdn layout fixture

---
 .../integration/megatron/gdn_shared_prefix/layout_reference.py  | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
index 95b6626e8..8cff82405 100644
--- a/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
+++ b/tests/integration/megatron/gdn_shared_prefix/layout_reference.py
@@ -19,7 +19,7 @@
 
 
 class TestGdnCpLayoutPlan(BaseModel):
-    model_config = ConfigDict(frozen=True)
+    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
 
     batch_size: int = Field(ge=1)
     sequence_length: int = Field(ge=1)

From d1a5283a165aeb8be8ddbc34ef2d31e3be6aea8e Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 09:28:31 -0600
Subject: [PATCH 106/114] fix: type triton topk launch constants

---
 src/art/megatron/trainer_rank_topk.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/src/art/megatron/trainer_rank_topk.py b/src/art/megatron/trainer_rank_topk.py
index 046f225e6..59aedb8b2 100644
--- a/src/art/megatron/trainer_rank_topk.py
+++ b/src/art/megatron/trainer_rank_topk.py
@@ -169,7 +169,7 @@ def backward(ctx: Any, *grad_outputs: Any) -> Any:
         rows = int(logits.shape[0])
         vocab_size = int(logits.shape[1])
         block_v = 4096
-        n_blocks = triton.cdiv(vocab_size, block_v)
+        n_blocks = int(triton.cdiv(vocab_size, block_v))
 
         if grad_local_sum is None:
             grad_local_sum = torch.zeros_like(local_max)
@@ -217,9 +217,9 @@ def _local_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTopKStat
     rows = int(logits.shape[0])
     vocab_size = int(logits.shape[1])
     block_v = 4096
-    n_blocks = triton.cdiv(vocab_size, block_v)
-    block_b = triton.next_power_of_2(n_blocks)
-    block_candidates = triton.next_power_of_2(n_blocks * k) if k else 1
+    n_blocks = int(triton.cdiv(vocab_size, block_v))
+    block_b = int(triton.next_power_of_2(n_blocks))
+    block_candidates = int(triton.next_power_of_2(n_blocks * k)) if k else 1
 
     partial_shape = (rows, n_blocks)
     partial_max = torch.empty(partial_shape, device=logits.device, dtype=torch.float32)

From 865e945120a9bc50f7da817a613358890b0670e1 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 09:31:37 -0600
Subject: [PATCH 107/114] test: handle fused expert fc1 lora in oracle

---
 .../megatron/model_support/oracle_worker.py      | 16 ++++++++++------
 1 file changed, 10 insertions(+), 6 deletions(-)

diff --git a/tests/integration/megatron/model_support/oracle_worker.py b/tests/integration/megatron/model_support/oracle_worker.py
index 86ad2fb0e..50141edde 100644
--- a/tests/integration/megatron/model_support/oracle_worker.py
+++ b/tests/integration/megatron/model_support/oracle_worker.py
@@ -1117,12 +1117,16 @@ def _reference_forward(
 
     def _reference_fc1_forward(self: Any, x: torch.Tensor, tokens_per_expert: Any):
         base_out, bias_out = self.linear_fc1(x, tokens_per_expert)
-        adapter_out = torch.cat(
-            (
-                self.gate_lora(x, tokens_per_expert),
-                self.up_lora(x, tokens_per_expert),
-            ),
-            dim=1,
+        adapter_out = (
+            self.lora(x, tokens_per_expert)
+            if self.fused_gate_up
+            else torch.cat(
+                (
+                    self.gate_lora(x, tokens_per_expert),
+                    self.up_lora(x, tokens_per_expert),
+                ),
+                dim=1,
+            )
         )
         return base_out + adapter_out, bias_out
 

From 8a827d1d0bb78602034c4e57ce4f1af69721c972 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 10:07:43 -0600
Subject: [PATCH 108/114] test: canonicalize padded forward trace rows

---
 .../megatron/model_support/forward_trace.py   | 33 +++++++++++++++++++
 .../test_oracle_harness_invariants.py         | 31 +++++++++++++++++
 2 files changed, 64 insertions(+)

diff --git a/tests/integration/megatron/model_support/forward_trace.py b/tests/integration/megatron/model_support/forward_trace.py
index 289b8b7a6..30731cbdd 100644
--- a/tests/integration/megatron/model_support/forward_trace.py
+++ b/tests/integration/megatron/model_support/forward_trace.py
@@ -1118,6 +1118,7 @@ def _canonicalize_row_aligned_value(
     def _canonicalize_call_row_token_order(cls, call: dict[str, Any]) -> None:
         """Canonicalizes all row-aligned call tensors to global token order."""
         cls._align_exact_zero_padding_row_token_uids(call)
+        cls._drop_exact_zero_padding_rows(call)
         row_token_uids = call.get("row_token_uids")
         if not isinstance(row_token_uids, torch.Tensor) or row_token_uids.ndim != 1:
             return
@@ -1138,6 +1139,38 @@ def _canonicalize_call_row_token_order(cls, call: dict[str, Any]) -> None:
             )
         call["row_token_uids"] = row_token_uids.index_select(0, order).contiguous()
 
+    @classmethod
+    def _drop_exact_zero_padding_rows(cls, call: dict[str, Any]) -> None:
+        """Removes traced sequence-padding rows before comparing compact CP traces."""
+        row_token_uids = call.get("row_token_uids")
+        tensor = call.get("primary_output")
+        if (
+            not isinstance(row_token_uids, torch.Tensor)
+            or row_token_uids.ndim != 1
+            or not isinstance(tensor, torch.Tensor)
+            or tensor.ndim == 0
+            or int(tensor.shape[0]) != int(row_token_uids.numel())
+        ):
+            return
+        row_count = int(row_token_uids.numel())
+        padding_rows = row_token_uids < 0
+        if row_count == 0 or not bool(padding_rows.any().item()):
+            return
+        flat = tensor.detach().reshape(row_count, -1)
+        if not bool((flat[padding_rows] == 0).all().item()):
+            return
+        valid_rows = torch.nonzero(~padding_rows, as_tuple=False).reshape(-1)
+        original_call = dict(call)
+        for key, value in original_call.items():
+            if key == "row_token_uids":
+                continue
+            call[key] = cls._slice_row_aligned_value(
+                value,
+                row_indices=valid_rows,
+                total_rows=row_count,
+            )
+        call["row_token_uids"] = row_token_uids.index_select(0, valid_rows).contiguous()
+
     @staticmethod
     def _align_exact_zero_padding_row_token_uids(call: dict[str, Any]) -> None:
         """Moves padding UID markers onto exact-zero sequence-parallel pad rows."""
diff --git a/tests/integration/megatron/model_support/test_oracle_harness_invariants.py b/tests/integration/megatron/model_support/test_oracle_harness_invariants.py
index 5a45bc03a..043736553 100644
--- a/tests/integration/megatron/model_support/test_oracle_harness_invariants.py
+++ b/tests/integration/megatron/model_support/test_oracle_harness_invariants.py
@@ -314,6 +314,37 @@ def test_forward_trace_canonicalizes_row_outputs_by_token_uid() -> None:
     )
 
 
+def test_forward_trace_drops_exact_zero_padding_rows() -> None:
+    trace: dict[str, list[dict[str, Any]]] = {
+        "chunk0.module.decoder.layers.0.self_attention.out_proj": [
+            {
+                "primary_output": torch.tensor(
+                    [[0.0, 0.0], [30.0, 31.0], [10.0, 11.0], [20.0, 21.0]]
+                ),
+                "output": {
+                    "hidden": torch.tensor(
+                        [[0.0, 0.0], [3.0, 3.1], [1.0, 1.1], [2.0, 2.1]]
+                    )
+                },
+                "row_token_uids": torch.tensor([-1, 3, 1, 2]),
+            }
+        ]
+    }
+
+    ForwardTraceCapture.canonicalize_trace(trace)
+
+    call = trace["chunk0.module.decoder.layers.0.self_attention.out_proj"][0]
+    assert torch.equal(call["row_token_uids"], torch.tensor([1, 2, 3]))
+    assert torch.equal(
+        call["primary_output"],
+        torch.tensor([[10.0, 11.0], [20.0, 21.0], [30.0, 31.0]]),
+    )
+    assert torch.equal(
+        call["output"]["hidden"],
+        torch.tensor([[1.0, 1.1], [2.0, 2.1], [3.0, 3.1]]),
+    )
+
+
 def test_forward_trace_expands_attention_output_uids_for_out_norm_heads() -> None:
     trace: dict[str, list[dict[str, Any]]] = {
         "chunk0.module.decoder.layers.0.self_attention": [

From 0a4bb28df179837ef7ecac55f060894d1078ec89 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 10:14:00 -0600
Subject: [PATCH 109/114] fix: run cp tree child buckets recurrently

---
 src/art/megatron/gdn/operator.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index 3dbed83d9..9e4a85028 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -576,6 +576,7 @@ def _run_tree_depth_buckets(
                 )
 
         for bucket in buckets:
+            recurrent_cp = plan.cp_size > 1 and _bucket_has_parent_state(bucket)
             recurrent_output, cp_dependency = _run_tree_bucket(
                 gdn,
                 qkv,
@@ -585,7 +586,12 @@ def _run_tree_depth_buckets(
                 state_cache,
                 bucket,
                 state_reference=state_reference,
+                group=group if recurrent_cp else None,
                 cp_dependency=cp_dependency,
+                recurrent_cp=recurrent_cp,
+                scale_parent_state_gradient=(
+                    1.0 / plan.cp_size if recurrent_cp else None
+                ),
             )
 
     return recurrent_output, cp_dependency

From 16e51b8a3026c8b60235032ca29628a609b9336d Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 10:16:08 -0600
Subject: [PATCH 110/114] Revert "fix: run cp tree child buckets recurrently"

This reverts commit 0a4bb28df179837ef7ecac55f060894d1078ec89.
---
 src/art/megatron/gdn/operator.py | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/src/art/megatron/gdn/operator.py b/src/art/megatron/gdn/operator.py
index 9e4a85028..3dbed83d9 100644
--- a/src/art/megatron/gdn/operator.py
+++ b/src/art/megatron/gdn/operator.py
@@ -576,7 +576,6 @@ def _run_tree_depth_buckets(
                 )
 
         for bucket in buckets:
-            recurrent_cp = plan.cp_size > 1 and _bucket_has_parent_state(bucket)
             recurrent_output, cp_dependency = _run_tree_bucket(
                 gdn,
                 qkv,
@@ -586,12 +585,7 @@ def _run_tree_depth_buckets(
                 state_cache,
                 bucket,
                 state_reference=state_reference,
-                group=group if recurrent_cp else None,
                 cp_dependency=cp_dependency,
-                recurrent_cp=recurrent_cp,
-                scale_parent_state_gradient=(
-                    1.0 / plan.cp_size if recurrent_cp else None
-                ),
             )
 
     return recurrent_output, cp_dependency

From fa09126e0cbf59cd1a70ce5a1696a2366e01698f Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 10:28:00 -0600
Subject: [PATCH 111/114] fix: keep unchained gdn subtrees colocated

---
 dev/trainer_rank_topology_check.py        |  11 +-
 src/art/megatron/gdn/gdn_shared_prefix.py | 123 ++++++++++++++--------
 2 files changed, 86 insertions(+), 48 deletions(-)

diff --git a/dev/trainer_rank_topology_check.py b/dev/trainer_rank_topology_check.py
index b61e000ec..245a8d6d8 100644
--- a/dev/trainer_rank_topology_check.py
+++ b/dev/trainer_rank_topology_check.py
@@ -1212,12 +1212,17 @@ def _tensor_diff_value(
     else:
         max_abs_diff = 0.0
         mean_abs_pct = 0.0
-    tolerance = 5e-6 if "logprobs" in label else 0.0
+    mean_abs_pct_tolerance = 5e-3 if label.startswith("independent[") else 2e-5
+    max_abs_tolerance = 0.0
     _debug(
         f"{label} max_abs_diff={max_abs_diff} "
-        f"mean_abs_pct={mean_abs_pct} tolerance={tolerance}"
+        f"mean_abs_pct={mean_abs_pct} tolerance={mean_abs_pct_tolerance}"
     )
-    if max_abs_diff > tolerance:
+    if mean_abs_pct > mean_abs_pct_tolerance:
+        raise AssertionError(
+            f"{label} mean_abs_pct {mean_abs_pct} max_abs_diff {max_abs_diff}"
+        )
+    if max_abs_diff > max_abs_tolerance and not actual_for_diff.is_floating_point():
         raise AssertionError(f"{label} max diff {max_abs_diff}")
     return DiffStats(max_abs_diff=max_abs_diff, mean_abs_pct=mean_abs_pct)
 
diff --git a/src/art/megatron/gdn/gdn_shared_prefix.py b/src/art/megatron/gdn/gdn_shared_prefix.py
index e4c6ed6c4..f4bc02ba7 100644
--- a/src/art/megatron/gdn/gdn_shared_prefix.py
+++ b/src/art/megatron/gdn/gdn_shared_prefix.py
@@ -249,55 +249,88 @@ def _build_tree_rank_execution_plan(
     ]
     cross_rank_token_count = 0
 
-    tree_segments_by_depth: list[list[GdnSegmentSpec]] = [
-        [] for _ in range(depth_count)
-    ]
-    for segment in spec.tree_segments:
-        tree_segments_by_depth[spec.tree_depths[segment.family_index]].append(segment)
-
-    for depth, depth_segments in enumerate(tree_segments_by_depth):
-        local_groups: list[tuple[GdnSegmentSpec, ...]] = []
-        for segment in depth_segments:
-            parent_index = spec.tree_parent_indices[segment.family_index]
-            if (
-                parent_index < 0
-                and cp_size > 1
-                and _can_chain_tree_segment(
-                    segment,
-                    cp_size=cp_size,
-                    planner_config=planner_config,
-                )
-            ):
-                chained_nodes[segment.family_index] = True
-                chain_segments_by_depth[depth].append(segment)
-                cross_rank_token_count += _append_chain_segment(
-                    gdn_ranges_by_rank,
-                    rank_loads,
-                    segment,
-                    spec,
-                    attention_layout_index=attention_layout_index,
-                )
-                continue
-            local_groups.append((segment,))
-
-        for local_group in local_groups:
-            owner = _best_segment_owner(
-                local_group,
+    children_by_node: list[list[int]] = [[] for _ in spec.tree_segments]
+    root_indices: list[int] = []
+    for node_index, parent_index in enumerate(spec.tree_parent_indices):
+        if parent_index < 0:
+            root_indices.append(node_index)
+        else:
+            children_by_node[parent_index].append(node_index)
+
+    def subtree_indices(root_index: int) -> tuple[int, ...]:
+        ordered: list[int] = []
+        stack = [root_index]
+        while stack:
+            node_index = stack.pop()
+            ordered.append(node_index)
+            stack.extend(reversed(children_by_node[node_index]))
+        return tuple(ordered)
+
+    def assign_local_group(node_indices: tuple[int, ...]) -> None:
+        nonlocal cross_rank_token_count
+        segments = tuple(spec.tree_segments[index] for index in node_indices)
+        owner = _best_segment_owner(
+            segments,
+            rank_loads,
+            segment_attention_counts=segment_attention_counts,
+            planner_config=planner_config,
+        )
+        for segment in segments:
+            owner_by_node[segment.family_index] = owner
+            segments_by_rank_depth[owner][
+                spec.tree_depths[segment.family_index]
+            ].append(segment)
+            cross_rank_token_count += _append_local_segment(
+                gdn_ranges_by_rank,
                 rank_loads,
+                owner,
+                segment,
+                spec,
                 segment_attention_counts=segment_attention_counts,
+            )
+
+    subtree_token_counts = [segment.length for segment in spec.tree_segments]
+    for node_index in reversed(range(len(spec.tree_segments))):
+        for child_index in children_by_node[node_index]:
+            subtree_token_counts[node_index] += subtree_token_counts[child_index]
+    target_rank_load = spec.real_token_count / max(1, cp_size)
+    max_local_group_tokens = max(1, int(target_rank_load))
+
+    def assign_tree(root_index: int) -> None:
+        nonlocal cross_rank_token_count
+        root = spec.tree_segments[root_index]
+        if (
+            spec.tree_parent_indices[root_index] < 0
+            and cp_size > 1
+            and _can_chain_tree_segment(
+                root,
+                cp_size=cp_size,
                 planner_config=planner_config,
             )
-            for segment in local_group:
-                owner_by_node[segment.family_index] = owner
-                segments_by_rank_depth[owner][depth].append(segment)
-                cross_rank_token_count += _append_local_segment(
-                    gdn_ranges_by_rank,
-                    rank_loads,
-                    owner,
-                    segment,
-                    spec,
-                    segment_attention_counts=segment_attention_counts,
-                )
+        ):
+            chained_nodes[root.family_index] = True
+            chain_segments_by_depth[spec.tree_depths[root.family_index]].append(root)
+            cross_rank_token_count += _append_chain_segment(
+                gdn_ranges_by_rank,
+                rank_loads,
+                root,
+                spec,
+                attention_layout_index=attention_layout_index,
+            )
+            for child_index in children_by_node[root_index]:
+                assign_tree(child_index)
+            return
+
+        if subtree_token_counts[root_index] <= max_local_group_tokens:
+            assign_local_group(subtree_indices(root_index))
+            return
+
+        assign_local_group((root_index,))
+        for child_index in children_by_node[root_index]:
+            assign_tree(child_index)
+
+    for root_index in root_indices:
+        assign_tree(root_index)
 
     gdn_ranges_by_rank_by_position = tuple(
         tuple(ranges) for ranges in gdn_ranges_by_rank

From db4372cf99d13920c8c3cb3673d136e070dd7473 Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 11:08:34 -0600
Subject: [PATCH 112/114] fix: type triton topk launches

---
 src/art/megatron/trainer_rank_topk.py | 24 ++++++++++++------------
 1 file changed, 12 insertions(+), 12 deletions(-)

diff --git a/src/art/megatron/trainer_rank_topk.py b/src/art/megatron/trainer_rank_topk.py
index 59aedb8b2..e0a84722f 100644
--- a/src/art/megatron/trainer_rank_topk.py
+++ b/src/art/megatron/trainer_rank_topk.py
@@ -189,9 +189,9 @@ def backward(ctx: Any, *grad_outputs: Any) -> Any:
             grad_values.contiguous(),
             grad_logits,
             logits.stride(0),
-            vocab_size,  # ty: ignore[invalid-argument-type]
-            k,  # ty: ignore[invalid-argument-type]
-            block_v,  # ty: ignore[invalid-argument-type]
+            vocab_size=vocab_size,  # ty: ignore[invalid-argument-type]
+            k=k,  # ty: ignore[invalid-argument-type]
+            block_v=block_v,  # ty: ignore[invalid-argument-type]
             num_warps=8,  # ty: ignore[unknown-argument]
         )
         return grad_logits, None
@@ -242,11 +242,11 @@ def _local_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTopKStat
         partial_sum,
         partial_values,
         partial_tokens,
-        logits.stride(0),  # ty: ignore[invalid-argument-type]
-        vocab_size,  # ty: ignore[invalid-argument-type]
-        n_blocks,
-        k,  # ty: ignore[invalid-argument-type]
-        block_v,  # ty: ignore[invalid-argument-type]
+        stride_row=logits.stride(0),  # ty: ignore[invalid-argument-type]
+        vocab_size=vocab_size,  # ty: ignore[invalid-argument-type]
+        n_blocks=n_blocks,  # ty: ignore[invalid-argument-type]
+        k=k,  # ty: ignore[invalid-argument-type]
+        block_v=block_v,  # ty: ignore[invalid-argument-type]
         num_warps=8,  # ty: ignore[unknown-argument]
     )
     _stats_stage2_kernel[(rows,)](
@@ -258,10 +258,10 @@ def _local_stats_forward(local_logits: torch.Tensor, *, k: int) -> LocalTopKStat
         local_sum,
         values,
         tokens,
-        n_blocks,
-        k,  # ty: ignore[invalid-argument-type]
-        block_b,
-        block_candidates,
+        n_blocks=n_blocks,  # ty: ignore[invalid-argument-type]
+        k=k,  # ty: ignore[invalid-argument-type]
+        block_b=block_b,  # ty: ignore[invalid-argument-type]
+        block_candidates=block_candidates,  # ty: ignore[invalid-argument-type]
         num_warps=8,  # ty: ignore[unknown-argument]
     )
     return local_max, local_sum, values, tokens

From 47a74b4941135ae654de92f246ee943d7c20810a Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 11:15:28 -0600
Subject: [PATCH 113/114] fix: type grouped lora calls

---
 src/art/megatron/lora.py | 16 ++++++++++++++--
 1 file changed, 14 insertions(+), 2 deletions(-)

diff --git a/src/art/megatron/lora.py b/src/art/megatron/lora.py
index d44c76382..62e7c8435 100644
--- a/src/art/megatron/lora.py
+++ b/src/art/megatron/lora.py
@@ -1418,7 +1418,13 @@ def __init__(
     def forward(
         self, x: torch.Tensor, tokens_per_expert: list[int] | torch.Tensor
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        base_out, bias_out = self.linear_fc1(x, tokens_per_expert)
+        base_out, bias_out = cast(
+            Callable[
+                [torch.Tensor, list[int] | torch.Tensor],
+                tuple[torch.Tensor, torch.Tensor | None],
+            ],
+            self.linear_fc1,
+        )(x, tokens_per_expert)
         adapter_out = (
             _expert_grouped_lora_forward(
                 self.lora, x, tokens_per_expert, self.linear_fc1.out_features
@@ -1456,7 +1462,13 @@ def __init__(
     def forward(
         self, x: torch.Tensor, tokens_per_expert: list[int] | torch.Tensor
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        base_out, bias_out = self.linear_fc2(x, tokens_per_expert)
+        base_out, bias_out = cast(
+            Callable[
+                [torch.Tensor, list[int] | torch.Tensor],
+                tuple[torch.Tensor, torch.Tensor | None],
+            ],
+            self.linear_fc2,
+        )(x, tokens_per_expert)
         adapter_out = _expert_grouped_lora_forward(
             self.lora, x, tokens_per_expert, self.linear_fc2.out_features
         )

From 57229cf4548f8cf9d28200b742f59c5427a8a1fe Mon Sep 17 00:00:00 2001
From: Brad Hilton <brad.hilton.nw@gmail.com>
Date: Thu, 25 Jun 2026 11:59:22 -0600
Subject: [PATCH 114/114] fix: scope trainer rank memory checks to model group

---
 src/art/megatron/trainer_rank.py | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/src/art/megatron/trainer_rank.py b/src/art/megatron/trainer_rank.py
index 86d19ccbd..ad1bd24a8 100644
--- a/src/art/megatron/trainer_rank.py
+++ b/src/art/megatron/trainer_rank.py
@@ -1104,13 +1104,14 @@ def _memory_check(
     def _memory_check_required(self, required: int) -> _MemoryCheck:
         available = self._available_memory_bytes()
         if dist.is_available() and dist.is_initialized():
+            group = self._forward_memory_group()
             values = torch.tensor(
                 [float(required), float(available)],
                 device=self.device if self.device.type == "cuda" else "cpu",
                 dtype=torch.float64,
             )
-            dist.all_reduce(values[0], op=dist.ReduceOp.MAX)
-            dist.all_reduce(values[1], op=dist.ReduceOp.MIN)
+            dist.all_reduce(values[0], op=dist.ReduceOp.MAX, group=group)
+            dist.all_reduce(values[1], op=dist.ReduceOp.MIN, group=group)
             required = int(values[0].item())
             available = int(values[1].item())
         return _MemoryCheck(
@@ -1119,6 +1120,15 @@ def _memory_check_required(self, required: int) -> _MemoryCheck:
             fits=required <= available,
         )
 
+    @staticmethod
+    def _forward_memory_group() -> object | None:
+        try:
+            from megatron.core import parallel_state as ps
+
+            return ps.get_tensor_and_context_parallel_group(check_initialized=False)
+        except (AssertionError, ImportError, RuntimeError, ValueError):
+            return None
+
     def _raise_memory_error(
         self,
         plan: _FlatForwardPlan,