Instructions to use nickprock/zagreus-0.4B-CulturaViva-ITA-Chat with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use nickprock/zagreus-0.4B-CulturaViva-ITA-Chat with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="nickprock/zagreus-0.4B-CulturaViva-ITA-Chat")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("nickprock/zagreus-0.4B-CulturaViva-ITA-Chat")
model = AutoModelForCausalLM.from_pretrained("nickprock/zagreus-0.4B-CulturaViva-ITA-Chat")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

PEFT
How to use nickprock/zagreus-0.4B-CulturaViva-ITA-Chat with PEFT:
```
Task type is invalid.
```
Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use nickprock/zagreus-0.4B-CulturaViva-ITA-Chat with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "nickprock/zagreus-0.4B-CulturaViva-ITA-Chat"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "nickprock/zagreus-0.4B-CulturaViva-ITA-Chat",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/nickprock/zagreus-0.4B-CulturaViva-ITA-Chat

SGLang

How to use nickprock/zagreus-0.4B-CulturaViva-ITA-Chat with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "nickprock/zagreus-0.4B-CulturaViva-ITA-Chat" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "nickprock/zagreus-0.4B-CulturaViva-ITA-Chat",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "nickprock/zagreus-0.4B-CulturaViva-ITA-Chat" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "nickprock/zagreus-0.4B-CulturaViva-ITA-Chat",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use nickprock/zagreus-0.4B-CulturaViva-ITA-Chat with Docker Model Runner:
```
docker model run hf.co/nickprock/zagreus-0.4B-CulturaViva-ITA-Chat
```
Browse Quantizations to use this model in llama.cpp, Ollama, LM Studio, or any compatible app.

Zagreus 0.4B CulturaViva-ITA Chat

Questo modello è una versione fine-tuned e ottimizzata per la conversazione (Chat) del modello base mii-llm/zagreus-0.4B-ita. È stato addestrato sul dataset italiano DeepMount00/CulturaViva-ITA utilizzando il formato ChatML, rendendolo capace di interagire tramite turni di dialogo (Utente/Assistente).

Model Details

Model Description

Questo modello è stato creato applicando il Supervised Fine-Tuning (SFT) tramite la libreria trl e peft (LoRA). I pesi dell'adattatore LoRA sono stati successivamente fusi (merged) con il modello base per fornire un modello standalone pronto all'uso. Il vocabolario e gli embedding sono stati ridimensionati per supportare nativamente i token speciali del formato ChatML (<|im_start|> e <|im_end|>).

Developed by: nickprock (Sostituisci con il tuo nome/organizzazione)
Model type: Causal Language Model (AutoRegressive)
Language(s) (NLP): Italiano (it)
License: MIT
Finetuned from model: mii-llm/zagreus-0.4B-ita

Uses

Direct Use

Il modello è progettato per essere utilizzato come assistente conversazionale leggero in lingua italiana. Può rispondere a domande, fornire spiegazioni e interagire in modo naturale grazie all'addestramento sul dataset CulturaViva-ITA. È ideale per test, prototipazione veloce e applicazioni che richiedono bassi requisiti hardware.

Out-of-Scope Use

A causa delle sue dimensioni ridotte (circa 400 milioni di parametri), il modello è fortemente prono ad allucinazioni (inventare fatti). Non deve essere utilizzato per:

Fornire consigli medici, legali o finanziari.
Sistemi di produzione critici senza supervisione umana (Human-in-the-loop).
Generazione di informazioni fattuali garantite.

Bias, Risks, and Limitations

Il modello eredita i bias linguistici e culturali presenti nel modello base e nel dataset di fine-tuning. Poiché il dataset CulturaViva-ITA raccoglie dati in lingua italiana, le risposte rifletteranno le prospettive presenti in tali testi. Si consiglia cautela nell'uso in contesti sensibili.

Recommendations

Si raccomanda agli sviluppatori di implementare filtri di moderazione in output e di testare a fondo il modello per i propri casi d'uso specifici prima del rilascio ad un pubblico ampio.

How to Get Started with the Model

Usa il codice seguente per caricare il modello e chattare sfruttando il chat_template integrato.

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_id = "nickprock/zagreus-0.4B-CulturaViva-ITA-Chat"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

messages = [
    {"role": "user", "content": "Parlami della storia di Roma in breve."}
]

prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

outputs = pipe(
    prompt,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.7,
    top_p=0.9
)

print(outputs[0]["generated_text"])

Training Details

Training Data

Il modello è stato addestrato sul dataset DeepMount00/CulturaViva-ITA, una raccolta di prompt e risposte in italiano volta a migliorare le capacità di instruction-following. I dati sono stati pre-processati per aderire alla struttura dei messaggi ChatML.

Training Procedure

L'addestramento è avvenuto tramite LoRA (Low-Rank Adaptation) per ottimizzare l'uso della memoria VRAM, utilizzando tecniche di gradient checkpointing e ottimizzazione della precisione (bfloat16).

Training Hyperparameters

Training regime: bfloat16 non-mixed precision
LoRA Rank (r): 16
LoRA Alpha: 16
Target Modules: all-linear
Learning Rate: 1e-4 (Optimizer: AdamW)
Epochs: 1
Max Steps: 3232
Per Device Train Batch Size: 1
Gradient Accumulation Steps: 16
Max Sequence Length: 512 tokens

Training Results

L'addestramento ha mostrato una convergenza eccellente e stabile nel corso di una singola epoca, come dimostrato dalla costante diminuzione della Loss di validazione e dall'aumento dell'accuratezza media sui token previsti.

Step	Epoch	Training Loss (Media)	Validation Loss	Validation Entropy	Validation Accuracy
200	0.06	1.603	1.601	1.592	64.33%
400	0.12	1.547	1.539	1.524	65.28%
600	0.18	1.498	1.510	1.497	65.77%
800	0.24	1.508	1.493	1.489	66.05%
1000	0.30	1.464	1.481	1.463	66.25%
1200	0.37	1.465	1.472	1.459	66.41%
1400	0.43	1.467	1.465	1.449	66.52%
1600	0.49	1.484	1.459	1.457	66.61%
1800	0.55	1.457	1.454	1.442	66.71%
2000	0.61	1.441	1.450	1.435	66.77%
2200	0.68	1.448	1.447	1.435	66.82%
2400	0.74	1.443	1.445	1.436	66.87%
2600	0.80	1.465	1.443	1.430	66.88%
2800	0.86	1.440	1.442	1.430	66.91%
3000	0.92	1.453	1.441	1.435	66.92%
3200	0.99	1.458	1.440	1.429	66.93%

(Nota: La metrica "Validation Accuracy" indica l'accuratezza del modello nel prevedere il token successivo durante la generazione).

Environmental Impact

L'addestramento è stato eseguito su un'infrastruttura efficiente, minimizzando l'impatto grazie alla tecnica PEFT (Parameter-Efficient Fine-Tuning) e all'accumulo dei gradienti.

Hardware Type: Singola GPU NVIDIA serie RTX 5000
Precision: Native bfloat16
Training Time: ~6 ore

Technical Specifications

Model Architecture and Objective

Modello basato su architettura Transformer (decoder-only) addestrato con l'obiettivo del Causal Language Modeling (CLM) tramite Supervised Fine-Tuning (SFT).

Compute Infrastructure

Software

transformers
peft
trl
datasets
torch

Downloads last month: 1

Safetensors

Model size

0.4B params

Tensor type

BF16

Model tree for nickprock/zagreus-0.4B-CulturaViva-ITA-Chat

Base model

mii-llm/zagreus-0.4B-ita

Finetuned

(5)

this model

Quantizations

1 model

nickprock
/

zagreus-0.4B-CulturaViva-ITA-Chat