MyanmarGPT-Big: Прорыв в языковой обработке — как генерировать бирманский текст
17 января 2024 г.MyanmarGPT, первый и крупнейший используемый генеративный предварительно обученный преобразователь бирманского языка, представляет собой важную веху на пути Мьянмы к искусственному интеллекту. Эти модели, разработанные Мин Си Тху, являются не просто технологическими чудесами, но также поддерживаются надежным и хорошо документированным кодом, что делает их доступными и удобными для разработчиков.
МьянмаGPT: сочетание силы и ясности
- Бесплатное использование и открытый исходный код: MyanmarGPT и MyanmarGPT-Big — это модели с открытым исходным кодом, позволяющие разработчикам свободно исследовать, вносить вклад и интегрировать их в свои проекты. Вы можете получить доступ к MyanmarGPT здесь и MyanmarGPT-Big здесь.
- Легкость и точность: 128 миллионов параметров MyanmarGPT обеспечивают легкую конструкцию, которую легко развернуть на всех устройствах без ущерба для точности. Между тем, MyanmarGPT-Big с 1,42 миллиарда параметров обслуживает языковую обработку корпоративного уровня, обеспечивая точность и универсальность.
- Бирманский + международные языки: MyanmarGPT поддерживает в общей сложности 61 язык, отдавая приоритет бирманскому языку и одновременно учитывая международное разнообразие. Многоязычность делает его ценным ресурсом для широкого круга разработчиков.
- Развитие, управляемое сообществом: Успех MyanmarGPT обусловлен вкладом сообщества. Под руководством Мин Си Тху эти модели постоянно развиваются, обеспечивая их актуальность и эффективность в различных приложениях. ол>
Представляем модели МьянмыGPT:
МьянмаGPT — 128 млн параметров
MyanmarGPT благодаря своей легкой конструкции подходит для различных применений. Ниже приведен пример его использования с библиотекой Hugging Face Transformers.
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
# Using Pipeline
pipe_gpt = pipeline("text-generation", model="jojo-ai-mst/MyanmarGPT")
outputs_gpt = pipe_gpt("အီတလီ", do_sample=False)
print(outputs_gpt)
# Using AutoTokenizer and CausalLM
tokenizer_gpt = AutoTokenizer.from_pretrained("jojo-ai-mst/MyanmarGPT")
model_gpt = AutoModelForCausalLM.from_pretrained("jojo-ai-mst/MyanmarGPT")
input_ids_gpt = tokenizer_gpt.encode("ချစ်သား", return_tensors='pt')
output_gpt = model_gpt.generate(input_ids_gpt, max_length=50)
print(tokenizer_gpt.decode(output_gpt[0], skip_special_tokens=True))
МьянмаGPT-Big — параметры 1,42 Б
MyanmarGPT-Big, предназначенный для языкового моделирования корпоративного уровня, в настоящее время поддерживает 61 язык. Ниже приведен пример его использования с библиотекой Hugging Face Transformers.
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
# Using Pipeline
pipe_big = pipeline("text-generation", model="jojo-ai-mst/MyanmarGPT-Big")
outputs_big = pipe_big("အီတလီ", do_sample=False)
print(outputs_big)
# Using AutoTokenizer and CausalLM
tokenizer_big = AutoTokenizer.from_pretrained("jojo-ai-mst/MyanmarGPT-Big")
model_big = AutoModelForCausalLM.from_pretrained("jojo-ai-mst/MyanmarGPT-Big")
input_ids_big = tokenizer_big.encode("ချစ်သား", return_tensors='pt')
output_big = model_big.generate(input_ids_big, max_length=50)
print(tokenizer_big.decode(output_big[0], skip_special_tokens=True))
Признание участников:
Успех MyanmarGPT стал результатом совместных усилий, и мы выражаем благодарность Мин Си Ту и энергичному сообществу участников, которые сыграли решающую роль в формировании и совершенствовании этих моделей.
Вывод: МьянмаGPT — это не просто языковая модель; это инструмент, предназначенный для разработчиков, поддерживаемый четкой и подробной документацией по коду. Поскольку Мьянма внедряет искусственный интеллект, MyanmarGPT выступает символом прогресса и инклюзивности, предлагая сообществу ресурсы, необходимые для расширения границ технологий в Мьянме и за ее пределами.
:::информация Также появляется здесь.
:::
Оригинал