Unsloth

Unsloth FastModel Generator

UnslothFastModelGenerator ¶

Bases: UnslothGeneratorMixin, BaseGenerator

Unsloth FastModel Integration.

System Requirements (see https://docs.unsloth.ai/get-started/beginner-start-here/unsloth-requirements) - Operating System: Works on Linux and Windows. - Supports NVIDIA GPUs since 2018+. Minimum CUDA Capability 7.0 (V100, T4, Titan V, RTX 20, 30, 40x, A100, H100, L40 etc) Check your GPU! GTX 1070, 1080 works, but is slow. - Your device must have xformers, torch, BitsandBytes and triton support. - Unsloth only works if you have a NVIDIA GPU. Make sure you also have disk space to train & save your model

Source code in src/fed_rag/generators/unsloth/unsloth_fast_model.py

class UnslothFastModelGenerator(UnslothGeneratorMixin, BaseGenerator):
    """Unsloth FastModel Integration.

    System Requirements (see https://docs.unsloth.ai/get-started/beginner-start-here/unsloth-requirements)
        - Operating System: Works on Linux and Windows.
        - Supports NVIDIA GPUs since 2018+. Minimum CUDA Capability 7.0
        (V100, T4, Titan V, RTX 20, 30, 40x, A100, H100, L40 etc)
        Check your GPU! GTX 1070, 1080 works, but is slow.
        - Your device must have xformers, torch, BitsandBytes and triton support.
        - Unsloth only works if you have a NVIDIA GPU. Make sure you also have disk space to train & save your model
    """

    model_config = ConfigDict(protected_namespaces=("pydantic_model_",))
    model_name: str = Field(
        description="Name of Unsloth model. Used for loading the model from HF hub or local."
    )
    generation_config: "GenerationConfig" = Field(
        description="The generation config used for generating with the PreTrainedModel."
    )
    load_model_kwargs: dict = Field(
        description="Optional kwargs dict for loading ~unsloth.FastModel.from_pretrained(). Defaults to None.",
        default_factory=dict,
    )
    _prompt_template: str = PrivateAttr(default=DEFAULT_PROMPT_TEMPLATE)
    _model: Optional[Union["PreTrainedModel", "PeftModel"]] = PrivateAttr(
        default=None
    )
    _tokenizer: UnslothPretrainedTokenizer | None = PrivateAttr(default=None)

    def __init__(
        self,
        model_name: str,
        generation_config: Optional["GenerationConfig"] = None,
        prompt_template: str | None = None,
        load_model_kwargs: dict | None = None,
        load_model_at_init: bool = True,
    ):
        # if reaches here, then passed checks for extra
        from transformers.generation.utils import GenerationConfig

        generation_config = (
            generation_config if generation_config else GenerationConfig()
        )
        super().__init__(
            model_name=model_name,
            generation_config=generation_config,
            load_model_kwargs=load_model_kwargs if load_model_kwargs else {},
        )
        self._prompt_template = (
            prompt_template if prompt_template else DEFAULT_PROMPT_TEMPLATE
        )
        if load_model_at_init:
            self._model, tokenizer = self._load_model_and_tokenizer()
            self._tokenizer = UnslothPretrainedTokenizer(
                model_name=self.model_name, tokenizer=tokenizer
            )

    @model_validator(mode="before")
    @classmethod
    def check_dependencies(cls, data: Any) -> Any:
        """Validate that qdrant dependencies are installed."""
        check_unsloth_installed(cls.__name__)
        return data

    def _load_model_and_tokenizer(
        self, **kwargs: Any
    ) -> tuple[Union["PreTrainedModel", "PeftModel"], "PreTrainedTokenizer"]:
        from unsloth import FastLanguageModel

        load_kwargs = self.load_model_kwargs
        load_kwargs.update(kwargs)
        self.load_model_kwargs = load_kwargs
        model, tokenizer = FastLanguageModel.from_pretrained(
            self.model_name, **load_kwargs
        )
        return model, tokenizer

    @property
    def model(self) -> Union["PreTrainedModel", "PeftModel"]:
        if self._model is None:
            # load HF Pretrained Model
            model, tokenizer = self._load_model_and_tokenizer()
            self._model = model
            if self._tokenizer is None:
                self._tokenizer = UnslothPretrainedTokenizer(
                    model_name=self.model_name, tokenizer=tokenizer
                )
        return self._model

    @model.setter
    def model(self, value: Union["PreTrainedModel", "PeftModel"]) -> None:
        self._model = value

    @property
    def tokenizer(self) -> UnslothPretrainedTokenizer:
        return self._tokenizer

    @tokenizer.setter
    def tokenizer(self, value: UnslothPretrainedTokenizer) -> None:
        self._tokenizer = value

    @property
    def prompt_template(self) -> str:
        return self._prompt_template

    @prompt_template.setter
    def prompt_template(self, value: str) -> None:
        self._prompt_template = value

    def _get_peft_model(self, **kwargs: Any) -> "PeftModel":
        """A light wrapper over ~FastModel.get_peft_model()."""
        from unsloth import FastLanguageModel

        model = FastLanguageModel.get_peft_model(self.model, **kwargs)

        # Fix any potential dtype mismatch with any adapters and base model
        base_dtype = next(model.parameters()).dtype

        for _name, param in model.named_parameters():
            if param.requires_grad and param.dtype != base_dtype:
                param.data = param.data.to(base_dtype)

        return model

    def to_peft(self, **kwargs: Any) -> Self:
        """Sets the current model to PeftModel

        NOTE: Pass params to underlying get_peft_model using **kwargs.

        This returns Self to support fluent style:
            `generator = UnslothFastModelGenerator(...).to_peft(...)`
        """
        from peft import PeftModel

        if isinstance(self.model, PeftModel):
            raise GeneratorError(
                "Cannot use `to_peft` when underlying model is already a `~peft.PeftModel`."
            )

        # set model to new peft model
        self.model = self._get_peft_model(**kwargs)
        return self

check_dependencies `classmethod` ¶

check_dependencies(data)

Validate that qdrant dependencies are installed.

Source code in src/fed_rag/generators/unsloth/unsloth_fast_model.py

@model_validator(mode="before")
@classmethod
def check_dependencies(cls, data: Any) -> Any:
    """Validate that qdrant dependencies are installed."""
    check_unsloth_installed(cls.__name__)
    return data

to_peft ¶

to_peft(**kwargs)

Sets the current model to PeftModel

NOTE: Pass params to underlying get_peft_model using **kwargs.

This returns Self to support fluent style

generator = UnslothFastModelGenerator(...).to_peft(...)

Source code in src/fed_rag/generators/unsloth/unsloth_fast_model.py

def to_peft(self, **kwargs: Any) -> Self:
    """Sets the current model to PeftModel

    NOTE: Pass params to underlying get_peft_model using **kwargs.

    This returns Self to support fluent style:
        `generator = UnslothFastModelGenerator(...).to_peft(...)`
    """
    from peft import PeftModel

    if isinstance(self.model, PeftModel):
        raise GeneratorError(
            "Cannot use `to_peft` when underlying model is already a `~peft.PeftModel`."
        )

    # set model to new peft model
    self.model = self._get_peft_model(**kwargs)
    return self

Unsloth Fast Multimodal Model Generator (aligned with HF style)

UnslothFastMultimodalModelGenerator ¶

Bases: ImageModalityMixin, AudioModalityMixin, VideoModalityMixin, UnslothGeneratorMixin, BaseGenerator

Source code in src/fed_rag/generators/unsloth/unsloth_fast_multimodal_model.py

class UnslothFastMultimodalModelGenerator(
    ImageModalityMixin,
    AudioModalityMixin,
    VideoModalityMixin,
    UnslothGeneratorMixin,
    BaseGenerator,
):
    model_config = ConfigDict(
        protected_namespaces=("pydantic_model_",), arbitrary_types_allowed=True
    )
    model_name: str = Field(description="Unsloth model name or path.")
    generation_config: Optional[Any] = Field(default=None)
    load_model_kwargs: dict = Field(default_factory=dict)
    prompt_template_init: str | None = Field(default=None)
    load_model_at_init: bool = Field(default=True)

    _model: Optional["FastModel"] = PrivateAttr(default=None)
    _processor: Any = PrivateAttr(default=None)
    _prompt_template: str = PrivateAttr(default="")

    @model_validator(mode="before")
    @classmethod
    def _check_unsloth_available(cls, data: Any) -> Any:
        check_unsloth_installed(cls.__name__)
        return data

    def __init__(self, **data: Any) -> None:
        super().__init__(**data)
        self._prompt_template = self.prompt_template_init or ""
        self._model = None
        self._processor = None
        if self.load_model_at_init:
            self._model, self._processor = self._load_model_from_unsloth()

    def _load_model_from_unsloth(self) -> tuple[Any, Any]:
        from unsloth import FastModel

        model, processor = FastModel.from_pretrained(
            model_name=self.model_name,
            **self.load_model_kwargs,
        )
        return model, processor

    def to_query(self, q: str | Query | Prompt) -> Query:
        if isinstance(q, Query):
            return q
        if isinstance(q, Prompt):
            return Query(
                text=q.text,
                images=getattr(q, "images", None),
                audios=getattr(q, "audios", None),
                videos=getattr(q, "videos", None),
            )
        return Query(text=str(q))

    def to_context(self, c: str | Context | None) -> Context | None:
        if c is None or isinstance(c, Context):
            return c
        return Context(text=str(c))

    def _pack_messages(
        self,
        query: str | Query | list[str] | list[Query],
        context: str | Context | list[str] | list[Context] | None = None,
    ) -> list[dict[str, Any]]:
        queries = (
            [query] if not isinstance(query, list) else query  # type: ignore[arg-type]
        )
        queries = [self.to_query(q) for q in queries]

        if isinstance(context, list):
            contexts = [self.to_context(c) for c in context]
            if len(contexts) != len(queries):
                raise GeneratorError(
                    "Batch mode requires query and context to be the same length"
                )
        else:
            contexts = [self.to_context(context)] * len(queries)

        messages: list[dict[str, Any]] = []
        for q, ctx in zip(queries, contexts):
            content: list[dict[str, Any]] = []
            if ctx is not None:
                if getattr(ctx, "text", None):
                    content.append({"type": "text", "text": ctx.text})
                for im in getattr(ctx, "images", []) or []:
                    if isinstance(im, np.ndarray):
                        im = PILImage.fromarray(im)
                    content.append({"type": "image", "image": im})
                for au in getattr(ctx, "audios", []) or []:
                    content.append({"type": "audio", "audio": au})
                for vid in getattr(ctx, "videos", []) or []:
                    content.append({"type": "video", "video": vid})
            for im in getattr(q, "images", []) or []:
                if isinstance(im, np.ndarray):
                    im = PILImage.fromarray(im)
                content.append({"type": "image", "image": im})
            for au in getattr(q, "audios", []) or []:
                content.append({"type": "audio", "audio": au})
            for vid in getattr(q, "videos", []) or []:
                content.append({"type": "video", "video": vid})
            if getattr(q, "text", None):
                content.append({"type": "text", "text": q.text})

            messages.append({"role": "user", "content": content})
        return messages

    def complete(
        self,
        prompt: Prompt | list[Prompt] | str | list[str] | None = None,
        query: str | Query | list[str] | list[Query] | None = None,
        context: str | Context | list[str] | list[Context] | None = None,
        **kwargs: Any,
    ) -> str | list[str]:
        """Core generation method - contains the main generation logic."""
        max_new_tokens = kwargs.pop("max_new_tokens", 256)
        add_generation_prompt = kwargs.pop("add_generation_prompt", True)

        # Handle both prompt-only and query+context cases
        if prompt is not None:
            # Traditional complete() usage: convert prompt to query, no context
            messages = self._pack_messages(prompt, context=None)
            is_batch = isinstance(prompt, list)
        else:
            # Called from generate(): use query and context
            messages = self._pack_messages(query, context)
            is_batch = isinstance(query, list)

        inputs = self._processor.apply_chat_template(
            messages,
            add_generation_prompt=add_generation_prompt,
            tokenize=True,
            return_tensors="pt",
            return_dict=True,
        )

        # Unsloth: must manually move all input tensors to the model device.
        model_device = next(self.model.parameters()).device
        inputs = {
            k: v.to(model_device) if isinstance(v, torch.Tensor) else v
            for k, v in inputs.items()
        }

        input_len = inputs["input_ids"].shape[-1]
        with torch.inference_mode():
            generation = self.model.generate(
                **inputs, max_new_tokens=max_new_tokens, **kwargs
            )
            generation = generation[:, input_len:]
        decoded: list[str] = self._processor.batch_decode(
            generation, skip_special_tokens=True
        )
        if not is_batch:
            if not decoded or not isinstance(decoded[0], str):
                raise GeneratorError(
                    "batch_decode did not return valid output"
                )
            return decoded[0]
        return decoded

    def generate(
        self,
        query: str | Query | list[str] | list[Query],
        context: str | Context | list[str] | list[Context] | None = None,
        **gen_kwargs: Any,
    ) -> str | list[str]:
        """Generate method - formats query+context and calls complete()."""
        return self.complete(query=query, context=context, **gen_kwargs)

    def compute_target_sequence_proba(
        self,
        prompt: Prompt | str,
        target: str,
        **kwargs: Any,
    ) -> torch.Tensor:
        q = self.to_query(prompt)
        base_text = getattr(q, "text", "") or ""
        full_text = base_text + target

        # Create a query with the full text for processing
        full_query = Query(
            text=full_text,
            images=getattr(q, "images", None),
            audios=getattr(q, "audios", None),
            videos=getattr(q, "videos", None),
        )

        # Reuse _pack_messages logic
        messages = self._pack_messages(full_query, context=None)
        inputs = self._processor.apply_chat_template(
            messages,
            add_generation_prompt=False,
            tokenize=True,
            return_dict=True,
            return_tensors="pt",
        )
        model_device = next(self.model.parameters()).device
        inputs = {
            k: v.to(model_device) if isinstance(v, torch.Tensor) else v
            for k, v in inputs.items()
        }

        input_ids = inputs["input_ids"]

        # Create base prompt messages for length calculation
        base_query = Query(
            text=base_text,
            images=getattr(q, "images", None),
            audios=getattr(q, "audios", None),
            videos=getattr(q, "videos", None),
        )
        base_messages = self._pack_messages(base_query, context=None)
        prompt_inputs = self._processor.apply_chat_template(
            base_messages,
            add_generation_prompt=False,
            tokenize=True,
            return_dict=True,
            return_tensors="pt",
        )
        prompt_len = prompt_inputs["input_ids"].shape[-1]
        with torch.no_grad():
            outputs = self.model(**inputs)
        if not hasattr(outputs, "logits") or outputs.logits is None:
            raise GeneratorError(
                "Underlying model does not expose logits; cannot compute probabilities."
            )
        logits = outputs.logits
        target_ids = input_ids[0][prompt_len:]
        target_logits = logits[0, prompt_len - 1 : -1, :]
        log_probs = [
            F.log_softmax(target_logits[i], dim=-1)[tid].item()
            for i, tid in enumerate(target_ids)
        ]
        return torch.exp(torch.tensor(sum(log_probs)))

    @property
    def model(self) -> "FastModel":
        if self._model is None:
            self._model, self._processor = self._load_model_from_unsloth()
        return self._model

    @property
    def tokenizer(self) -> Any:
        if hasattr(self._processor, "tokenizer"):
            return self._processor.tokenizer
        if callable(getattr(self._processor, "encode", None)):
            return self._processor
        raise AttributeError(
            f"{self.__class__.__name__}: This processor does not have a `.tokenizer` attribute. "
            "For some multimodal models, please use `.processor` directly."
        )

    @property
    def processor(self) -> Any:
        return self._processor

    @property
    def prompt_template(self) -> str:
        return self._prompt_template

    @prompt_template.setter
    def prompt_template(self, value: str) -> None:
        self._prompt_template = value

complete ¶

complete(prompt=None, query=None, context=None, **kwargs)

Core generation method - contains the main generation logic.

Source code in src/fed_rag/generators/unsloth/unsloth_fast_multimodal_model.py

def complete(
    self,
    prompt: Prompt | list[Prompt] | str | list[str] | None = None,
    query: str | Query | list[str] | list[Query] | None = None,
    context: str | Context | list[str] | list[Context] | None = None,
    **kwargs: Any,
) -> str | list[str]:
    """Core generation method - contains the main generation logic."""
    max_new_tokens = kwargs.pop("max_new_tokens", 256)
    add_generation_prompt = kwargs.pop("add_generation_prompt", True)

    # Handle both prompt-only and query+context cases
    if prompt is not None:
        # Traditional complete() usage: convert prompt to query, no context
        messages = self._pack_messages(prompt, context=None)
        is_batch = isinstance(prompt, list)
    else:
        # Called from generate(): use query and context
        messages = self._pack_messages(query, context)
        is_batch = isinstance(query, list)

    inputs = self._processor.apply_chat_template(
        messages,
        add_generation_prompt=add_generation_prompt,
        tokenize=True,
        return_tensors="pt",
        return_dict=True,
    )

    # Unsloth: must manually move all input tensors to the model device.
    model_device = next(self.model.parameters()).device
    inputs = {
        k: v.to(model_device) if isinstance(v, torch.Tensor) else v
        for k, v in inputs.items()
    }

    input_len = inputs["input_ids"].shape[-1]
    with torch.inference_mode():
        generation = self.model.generate(
            **inputs, max_new_tokens=max_new_tokens, **kwargs
        )
        generation = generation[:, input_len:]
    decoded: list[str] = self._processor.batch_decode(
        generation, skip_special_tokens=True
    )
    if not is_batch:
        if not decoded or not isinstance(decoded[0], str):
            raise GeneratorError(
                "batch_decode did not return valid output"
            )
        return decoded[0]
    return decoded

generate ¶

generate(query, context=None, **gen_kwargs)

Generate method - formats query+context and calls complete().

Source code in src/fed_rag/generators/unsloth/unsloth_fast_multimodal_model.py

def generate(
    self,
    query: str | Query | list[str] | list[Query],
    context: str | Context | list[str] | list[Context] | None = None,
    **gen_kwargs: Any,
) -> str | list[str]:
    """Generate method - formats query+context and calls complete()."""
    return self.complete(query=query, context=context, **gen_kwargs)

Unsloth

UnslothFastModelGenerator ¶

check_dependencies classmethod ¶

to_peft ¶

UnslothFastMultimodalModelGenerator ¶

complete ¶

generate ¶

check_dependencies `classmethod` ¶