Add ragged paged attention #8659

vanbasten23 · 2025-01-31T06:03:49Z

Test plan:

LIBTPU_INIT_ARGS=--xla_tpu_scoped_vmem_limit_kib=65536  python /workspaces/persist/pytorch/xla/test/test_ragged_paged_attention_kernel.py 2>&1 | tee out.txt

cc: @miladm

test/test_ragged_paged_attention_kernel.py

torch_xla/experimental/pallas_kernels/ragged_paged_attention_kernel.py

bythew3i · 2025-01-31T22:09:33Z

Test plan:

LIBTPU_INIT_ARGS=--xla_tpu_scoped_vmem_limit_kib=65536  python /workspaces/persist/pytorch/xla/test/test_ragged_paged_attention_kernel.py 2>&1 | tee out.txt

How is 65536 calculated?

vanbasten23 · 2025-02-01T00:11:12Z

Test plan:

LIBTPU_INIT_ARGS=--xla_tpu_scoped_vmem_limit_kib=65536  python /workspaces/persist/pytorch/xla/test/test_ragged_paged_attention_kernel.py 2>&1 | tee out.txt

How is 65536 calculated?

I found a ticket and someone uses it. I remember the number is the vmem limit on a TPU generation.

…_extreme_one_tokens_per_sequence.

…added runtime check.

vanbasten23 · 2025-02-03T22:10:51Z

Build and test / CPU tests / test (benchmark_tests) failure is irrelevant to this PR. (A PR #8668 without any changes also fails this)

miladm · 2025-02-03T22:43:41Z

cc onduty @lsy323 to assist with the CI test failure before we merge @vanbasten23

miladm · 2025-02-03T22:53:30Z

test/tpu/run_tests.sh

@@ -37,7 +37,8 @@ run_xla_hlo_debug python3 "$TEST_CDIR/scan/test_scan_debug.py"
 python3 "$TEST_CDIR/test_pallas.py" -v
 python3 "$TEST_CDIR/test_pallas_spmd.py"
 XLA_DISABLE_FUNCTIONALIZATION=1 python3 "$TEST_CDIR/test_pallas_spmd.py"
-python3 "$TEST_CDIR/test_tpu_paged_attention_kernel.py"
+python3 "$TEST_CDIR/test_multi_queries_paged_attention_kernel.py"


Isn't this line renamed? do you need it?

bythew3i reviewed Jan 31, 2025

View reviewed changes

vanbasten23 force-pushed the xiowei/add_ragged_paged_attention branch from ad2f87c to 9e4b227 Compare February 1, 2025 00:32

bythew3i approved these changes Feb 1, 2025

View reviewed changes

vanbasten23 added 8 commits February 3, 2025 05:40

add the first version. All tests pass except for test_paged_attention…

b129e9a

…_extreme_one_tokens_per_sequence.

all tests passed.

6c3bf73

all tests passed except for one test which oom'ed.

dbc3fee

Improved the tests and all tests passed except for the OOM one. Also …

e589c86

…added runtime check.

clean up

9b3cdab

linter

ab69feb

address pr comments

cd65cc4

fix the rest of comments

7fe5071

vanbasten23 force-pushed the xiowei/add_ragged_paged_attention branch from 9e4b227 to 7fe5071 Compare February 3, 2025 05:41

Trigger CI

5170402

vanbasten23 requested review from lsy323 and miladm February 3, 2025 21:31

miladm approved these changes Feb 3, 2025

View reviewed changes

miladm assigned vanbasten23 Feb 3, 2025

miladm added the pallas label Feb 3, 2025

miladm reviewed Feb 3, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add ragged paged attention #8659

Add ragged paged attention #8659

vanbasten23 commented Jan 31, 2025 •

edited

Loading

bythew3i commented Jan 31, 2025

vanbasten23 commented Feb 1, 2025

vanbasten23 commented Feb 3, 2025

miladm commented Feb 3, 2025 •

edited

Loading

miladm Feb 3, 2025 •

edited

Loading

Add ragged paged attention #8659

Are you sure you want to change the base?

Add ragged paged attention #8659

Conversation

vanbasten23 commented Jan 31, 2025 • edited Loading

bythew3i commented Jan 31, 2025

vanbasten23 commented Feb 1, 2025

vanbasten23 commented Feb 3, 2025

miladm commented Feb 3, 2025 • edited Loading

miladm Feb 3, 2025 • edited Loading

Choose a reason for hiding this comment

vanbasten23 commented Jan 31, 2025 •

edited

Loading

miladm commented Feb 3, 2025 •

edited

Loading

miladm Feb 3, 2025 •

edited

Loading