Разработаны правила формирования и ведения Национального корпуса казахского языка

Министерство науки и высшего образования подготовило проект Правил формирования и ведения Национального корпуса казахского языка, сообщает prosud.kz.
Правила устанавливают общие требования и процедуры для создания, пополнения, обработки, хранения и использования Национального корпуса казахского языка (Корпус), который служит основой для научных, образовательных и практических исследований в области казахского языка и лингвистики.
Корпус непрерывно обновляется за счет добавления новых материалов, отражающих изменения в языке и актуальные достижения в различных областях, также расширяется с учётом изменений в языке, новых тенденций, а также появления новых жанров, стилей и направлений, что гарантирует его актуальность и соответствие языковым инновациям.
Администратор Корпуса — Министерство науки и высшего образования РК. Работу по координации Корпуса осуществляет Институт языкознания имени А. Байтурсынова (Институт).
Все работы, связанные с формированием, ведением и использованием Корпуса, проводятся в рамках единого национального подхода с обеспечением высокого уровня качества, безопасности и доступности данных.
Формирование Корпуса начинается с тщательного сбора и отбора текстов, представляющих все аспекты его функционирования — от письменных источников до устных материалов, которые отражают особенности языка, используемый в различных сферах и временных срезах.
Все материалы Корпуса соответствуют научным стандартам качества, имеют метаданные и источниковедческую информацию, проходят проверку на грамматические и орфографические ошибки, а также редактируются и упорядочиваются в соответствии с единой системой кодирования и классификации.
Корпус отражает разнообразие языковых практик, включая различные жанры, типы текстов, диалекты и стили, а также учитывает региональные и исторические особенности, — говорится в проекте.
При этом все собранные тексты систематизируются и аннотируются по жанру, стилю, времени, источнику, по лексическим и грамматическим уровням.
Правилами определены следующие функции Корпуса:
- Метаразметка предоставляет информацию, которая подробно описывает текст и его характеристики, включая автора, название, жанр, источник, дату создания, целевую аудиторию, стиль, размер, формат, структурные особенности;
- Цифровая структура обеспечивает систематизацию текстов в цифровом формате, что позволяет использовать современные инструменты автоматизированного анализа;
- Многофункциональность позволяет использовать его в различных областях, включая лингвистические исследования, лексикографию, обучение языкам, компьютерную лингвистику и нейролингвистическое программирование;
- Прикладные задачи позволяют автоматизировать обработку текстов, улучшать качество языковых моделей, разрабатывать эффективные инструменты для анализа текста, создания приложений для обучения языкам, машинного перевода и разработки искусственного интеллекта.
Корпус имеет следующую структуру:
- состоит из отдельных подкорпусов, каждый из которых охватывает конкретные направления;
- все подкорпусы соответствуют техническим, функциональным и операционным характеристикам основного Корпуса, установленным Институтом с согласования Администратора, обеспечивая единообразие, совместимость и безошибочную интеграцию в процессе эксплуатации;
- все тексты в Корпусе хранятся в унифицированных форматах, также обеспечивается интеграция API;
- текстовые данные охватывают широкий спектр жанров и стилей, включая научные работы, художественные произведения, публицистику, деловую документацию, разговорную речь и цифровые тексты;
- лексическая информация включает сведения о словах, их формах, значениях, сочетаемости и метаданные, такие как частотность, стилистика, синонимы, антонимы, с классификацией по частям речи и тематическим областям;
- грамматическая информация включает описание синтаксиса, морфологии и словообразования с разбором структуры предложений, частей речи, синтаксических связей и морфологических характеристик;
- стилистическая информация включает описание особенностей текста, различие между стилями, анализ языка в различных жанрах и классификацию текстов по категориям, таким как формальные и неформальные стили, жанры и их характерные черты;
- имеется кросс-языковая привязка, включающая параллельные тексты, которая позволяет проводить исследования в области машинного перевода, контрастивной лингвистики и изучения влияния языковых контактов;
- каждый текст снабжается метаданными, включая идентификационные данные, библиографические данные, жанрово-стилистические характеристики, лингвистические данные, контекстуальные данные, технические данные и аннотативные данные;
- медиафайлы, сопровождающие текстовые данные, служат для анализа различных аспектов языка в контексте мультимодальной информации;
- интерфейс обеспечивает удобное взаимодействие пользователя с Корпусом для поиска, анализа и аннотирования данных;
- поисковая система позволяет пользователям искать и извлекать данные из Корпуса на основе различных критериев;
- официальная платформа Корпуса позволяет отслеживать количество словоупотреблений в Корпусе в реальном времени;
- структура данных позволяет добавлять в Корпус новые категории и компоненты по мере необходимости.
Для повышения качества и актуальности базы данных обеспечивается взаимодействие с международными научными и лингвистическими организациями.
В корпус могут быть включены материалы из открытых и доступных источников, если их использование не нарушает авторские права и соответствует нормам добросовестного использования.
При ведении Корпуса учитываются этические принципы, включая исключение дискриминационного контента и обеспечение инклюзивности, — говорится в документе.
Ожидается, что Корпус будет общедоступным и будет служить основой для разработки лексикографических и грамматических проектов, научных и образовательных материалов, а также для создания программных продуктов.
Правила разработаны в целях реализации закона «О внесении изменений и дополнений в некоторые законодательные акты Республики Казахстан по вопросам культуры, образования и наставничества».
Разработчики утверждают, что принятие проекта приказа не повлечет предполагаемых социально-экономических, правовых или иных последствий и не повлияет на обеспечение национальной безопасности. Финансовых затрат из республиканского бюджета также не потребуется.
Проект находится на публичном обсуждении на портале «Открытые НПА» до 28 марта.
Мы сообщали, что нейросети задействуют в создании Национального словарного фонда казахского языка.
Также мы рассказывали, что Министерству науки поручат разработку профстандарта по языковой политике.