ИИ задействуют в создании Национального словарного фонда казахского языка

Министерство науки и высшего образования разработало проект правил формирования и ведения государственной информационной системы «Национальный словарный фонд казахского языка», сообщает
Целями формирования Национального словарного фонда являются сохранение, защита и развитие казахского языка как культурной ценности, а также укрепление статуса государственного языка, накопление ресурсов, охватывающих все сферы применения казахского языка, упорядочение, цифровизация, генерация действующего лексического состава языка, адаптация его к искусственному интеллекту и современным технологиям, автоматизация процессов обработки.
В правилах используются следующие понятия:
- генерация — процесс автоматического создания нового контента (текста, изображения, звука) на основе данных и заранее установленных правил;
- модели искусственного интеллекта (ИИ) — процесс внедрения технологий и алгоритмов ИИ для обработки данных на казахском языке в различные системы, приложения или платформы;
- обработка естественного языка — технология машинного обучения, которая дает компьютерам возможность интерпретировать, манипулировать и понимать человеческий язык.
Национальный словарный фонд формируется на основании академических и переводческих словарей, Национального корпуса казахского языка, терминологической базы и датасета, который является совокупностью данных различных форматов.
Формирование Национального словарного фонда включает:
- разработку поэтапного плана мероприятий по вопросам создания и развития Национального словарного фонда;
- утверждение функциональных и технических требований к Национальному словарному фонду, графика технического оказания услуг и технических спецификаций информационной системы, предназначенной для сбора, обработки и систематизации данных;
- обеспечение интерактивного пользовательского интерфейса, поисковой системы и возможности экспорта данных;
- координацию действий субъектов в области создания и совершенствования Национального словарного фонда;
- формирование списка информационных ресурсов, способных к интеграции с Национальным словарным фондом;
- использование платформ открытых данных и обеспечение соответствия международным стандартам.
Ведение Национального словарного фонда требует:
- разработки базы словарей, включающих значение, этимологию и модели общего употребления слов;
- создания централизованной системы языковых корпусов;
- совершенствования терминологической базы казахского языка;
- разработки технических требований для сбора датасетов, включающих все сферы применения казахского языка;
- предоставления доступной платформы для научных исследований;
- интеграции моделей ИИ, современных технологий на казахском языке;
- разработки интерактивной поисковой системы;
- обеспечения деятельности модератора, постоянно контролирующего работу системы и анализирующего предложения и замечания;
- формирования самостоятельной коллегиальной группы (рабочие группы по экспертизе и цифровизации), не относящейся к государственным органам, сформированной из отраслевых специалистов.
Также говорится, что вестись Национальный словарный фонд будет во взаимодействии с заинтересованными государственными органами, государственными юридическими лицами, субъектами квазигосударственного сектора, общественными организациями, субъектами бизнеса.
Функционирование Национального словарного фонда охватывает:
- осуществление сбора, обработки, хранения базы данных, вносимых в информационную систему;
- размещение общедоступной информации в открытом пространстве Интернета;
- информационный обмен данными между субъектами информационной системы;
- предоставление текстовых материалов в цифровом формате.
Формировать и вести Национальный словарный фонд будет юридическое лицо, определенное уполномоченным органом в области развития языков.
Юридическое лицо, ответственное за формирование и ведение Национального словарного фонда, разрабатывает документы, необходимые для обучения информационной системы.
Для обеспечения информационной безопасности необходимы защита от кибератак, усиление доступа к системе через многофакторную аутентификацию, обеспечение управления уровнем доступа пользователей.
Проект находится на публичном обсуждении на портале «Открытые НПА» до 19 марта.