Burmese Tokenizer

Simple, fast Burmese text tokenization. No fancy stuff, just gets the job done.

Install

pip install burmese-tokenizer

Quick Start

from burmese_tokenizer import BurmeseTokenizer

tokenizer = BurmeseTokenizer()
text = "မင်္ဂလာပါ။ နေကောင်းပါသလား။"

# tokenize
tokens = tokenizer.encode(text)
print(tokens["pieces"])
# ['▁မင်္ဂလာ', '▁ပါ', '။', '▁နေ', '▁ကောင်း', '▁ပါ', '▁သလား', '။']

# decode back
text = tokenizer.decode(tokens["pieces"])
print(text)
# မင်္ဂလာပါ။ နေကောင်းပါသလား။

CLI

# tokenize
burmese-tokenizer "မင်္ဂလာပါ။"

# show details
burmese-tokenizer -v "မင်္ဂလာပါ။"

# decode tokens
burmese-tokenizer -d -t "▁မင်္ဂလာ,▁ပါ,။"

API

encode(text) - tokenize text
decode(pieces) - convert tokens back to text
decode_ids(ids) - convert ids to text
get_vocab_size() - vocabulary size
get_vocab() - full vocabulary

Links

License

MIT - Do whatever you want with it.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.github/workflows		.github/workflows
docs		docs
src/burmese_tokenizer		src/burmese_tokenizer
tests		tests
.gitignore		.gitignore
.python-version		.python-version
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Burmese Tokenizer

Install

Quick Start

CLI

API

Links

License

About

Uh oh!

Releases

Packages

Languages

License

Code-Yay-Mal/burmese_tokenizer

Folders and files

Latest commit

History

Repository files navigation

Burmese Tokenizer

Install

Quick Start

CLI

API

Links

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages