G2PT: Graph Generative Pre-trained Transformer Framework

G2PT is an auto-regressive transformer model designed to learn graph structures through next-token prediction.

📑 paper: https://www.arxiv.org/abs/2501.01073

Quick Start with 🤗 HuggingFace

Loading Pre-trained Models

from transformers import AutoTokenizer, AutoModelForCausalLM

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("xchen16/g2pt-guacamol-small-deg")
model = AutoModelForCausalLM.from_pretrained("xchen16/g2pt-guacamol-small-deg")

Generating Graphs using Pre-trained Models

See example_sample_hf.py

# Generate sequences
inputs = tokenizer(['<boc>'], return_tensors="pt")
outputs = model.generate(
    inputs["input_ids"],
    max_length=tokenizer.model_max_length,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
    do_sample=True,
    temperature=1.0
)
sequences = tokenizer.batch_decode(outputs)

# Converting sequences to Smiles/RDKit Molecules/nx graphs
...

Available Pre-trained Models

		Datasets
		QM9	Moses	GuacaMol
Small	BFS	✅	✅	✅
Small	DEG	✅	✅	✅
Base	BFS		✅	✅
Base	DEG		✅	✅
Large	BFS		✅	✅
Large	DEG		✅	✅

More coming soon...

Training Your Own Model

Prerequisites and Installation

First, get the code:

git clone https://github.com/tufts-ml/g2pt_hf.git
cd g2pt_hf

Set up your Python environment:

conda create -n g2pt python==3.10
conda activate g2pt

Install dependencies:
```
pip install -r requirements.txt
```

Dataset Preparation

For dataset preparation instructions, please refer to datasets/README.md. For using custom data, make sure to provide the corresponding tokenizer configurations, see tokenizers.

Model Training

Launch training with the provided script:

sh scripts/pretrain.sh

Default training configuration:

To distributed train across N GPUs, set --nproc_per_node=N
Modify configs/datasets and configs/networks for your tasks. Training arguments are in configs/default.py

Sampling

Generate new graphs using:

sh scripts/sample.sh

Citation

If you use G2PT in your research, please cite our paper:

@article{chen2025graph,
  title={Graph Generative Pre-trained Transformer},
  author={Chen, Xiaohui and Wang, Yinkai and He, Jiaxing and Du, Yuanqi and Hassoun, Soha and Xu, Xiaolin and Liu, Li-Ping},
  journal={arXiv preprint arXiv:2501.01073},
  year={2025}
}

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
assets		assets
configs		configs
datasets		datasets
results		results
scripts		scripts
tokenizers		tokenizers
.gitignore		.gitignore
README.md		README.md
configurator.py		configurator.py
datasets_utils.py		datasets_utils.py
example_sample_hf.py		example_sample_hf.py
model.py		model.py
requirements.txt		requirements.txt
sample.py		sample.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

G2PT: Graph Generative Pre-trained Transformer Framework

Quick Start with 🤗 HuggingFace

Loading Pre-trained Models

Generating Graphs using Pre-trained Models

Available Pre-trained Models

Training Your Own Model

Prerequisites and Installation

Dataset Preparation

Model Training

Sampling

Citation

About

Releases

Packages

Languages

tufts-ml/G2PT

Folders and files

Latest commit

History

Repository files navigation

G2PT: Graph Generative Pre-trained Transformer Framework

Quick Start with 🤗 HuggingFace

Loading Pre-trained Models

Generating Graphs using Pre-trained Models

Available Pre-trained Models

Training Your Own Model

Prerequisites and Installation

Dataset Preparation

Model Training

Sampling

Citation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages