Module `Saga_tokenizers.Tokenizer`Source

Sourcetype t

Sourceval normalizer : t -> Normalizers.t option

normalizer tokenizer retrieves the configured normalizer.

Returns None if no normalizer is set. The normalizer is applied before all other processing stages to clean and normalize text.

Sourceval with_normalizer : t -> Normalizers.t option -> t

with_normalizer tokenizer norm replaces the tokenizer's normalizer.

Pass None to remove the normalization step entirely. Pass Some norm to install a new normalizer. Returns updated tokenizer.

  let tokenizer = Tokenizer.bpe () in
  let tokenizer = Tokenizer.with_normalizer tokenizer
    (Some (Normalizers.sequence [
      Normalizers.nfd ();
      Normalizers.lowercase ();
      Normalizers.strip_accents ();
    ]))

Sourceval pre_tokenizer : t -> Pre_tokenizers.t option

pre_tokenizer tokenizer retrieves the configured pre-tokenizer.

Returns None if no pre-tokenizer is set. The pre-tokenizer splits text into pieces before vocabulary-based encoding.

Sourceval with_pre_tokenizer : t -> Pre_tokenizers.t option -> t

with_pre_tokenizer tokenizer pre replaces the tokenizer's pre-tokenizer.

Pass None to remove pre-tokenization (text processed as-is). Pass Some pre to install a new pre-tokenizer. Returns updated tokenizer.

  let tokenizer = Tokenizer.bpe () in
  let tokenizer = Tokenizer.with_pre_tokenizer tokenizer
    (Some (Pre_tokenizers.byte_level ~add_prefix_space:true ()))

Sourceval post_processor : t -> Processors.t option

post_processor tokenizer retrieves the configured post-processor.

Returns None if no post-processor is set. The post-processor adds special tokens and sets type IDs after encoding.

Sourceval with_post_processor : t -> Processors.t option -> t

with_post_processor tokenizer post replaces the tokenizer's post-processor.

Pass None to remove post-processing. Pass Some post to install a new post-processor. Returns updated tokenizer.

  let tokenizer = Tokenizer.bpe () in
  let tokenizer = Tokenizer.with_post_processor tokenizer
    (Some (Processors.bert_processing
      ~sep:("[SEP]", 102) ~cls:("[CLS]", 101) ()))

Sourceval decoder : t -> Decoders.t option

decoder tokenizer retrieves the configured decoder.

Returns None if no decoder is set. The decoder converts token IDs back to text.

Sourceval with_decoder : t -> Decoders.t option -> t

with_decoder tokenizer dec replaces the tokenizer's decoder.

Pass None to use default decoding (concatenate tokens). Pass Some dec to install a new decoder. Returns updated tokenizer.

  let tokenizer = Tokenizer.bpe () in
  let tokenizer = Tokenizer.with_decoder tokenizer
    (Some (Decoders.byte_level ()))

Sourceval specials : t -> special list

specials tokenizer retrieves the configured special tokens.

Sourceval with_specials : t -> special list -> t

with_specials tokenizer specials replaces the special tokens with the provided list.

Sourceval add_specials : t -> special list -> t

add_specials tokenizer specials extends the set of special tokens.

Special Token Roles

These functions configure which token strings serve specific roles in the tokenizer (BOS, EOS, PAD, UNK). This follows HuggingFace's design where roles are separate from token properties.

Sourceval bos_token : t -> string option

bos_token tokenizer returns the beginning-of-sequence token string, if configured.

Sourceval set_bos_token : t -> string option -> t

set_bos_token tokenizer token sets which token serves as beginning-of-sequence marker. Pass None to unset. The token should already be in the vocabulary.

Sourceval eos_token : t -> string option

eos_token tokenizer returns the end-of-sequence token string, if configured.

Sourceval set_eos_token : t -> string option -> t

set_eos_token tokenizer token sets which token serves as end-of-sequence marker. Pass None to unset.

Sourceval pad_token : t -> string option

pad_token tokenizer returns the padding token string, if configured.

Sourceval set_pad_token : t -> string option -> t

set_pad_token tokenizer token sets which token serves as padding marker. Pass None to unset.

Sourceval unk_token : t -> string option

unk_token tokenizer returns the unknown token string, if configured.

Sourceval set_unk_token : t -> string option -> t

set_unk_token tokenizer token sets which token serves as unknown token marker. Pass None to unset.

Sourceval vocab : t -> (string * int) list

vocab tokenizer returns the vocabulary as (token, id) pairs.

Sourceval vocab_size : t -> int

vocab_size tokenizer returns the size of the vocabulary.

Sourceval token_to_id : t -> string -> int option

token_to_id tokenizer token maps a token string to its id.

Sourceval id_to_token : t -> int -> string option

id_to_token tokenizer id maps an id back to its token string.

package saga

Install

dune-project Dependency

Authors

Maintainers

Sources

doc/saga.tokenizers/Saga_tokenizers/Tokenizer/index.html

Module Saga_tokenizers.TokenizerSource

Special Token Roles

Hugging Face Compatibility

dune-project
Dependency

Module `Saga_tokenizers.Tokenizer`Source