ИИ задействуют в создании Национального словарного фонда казахского языка

Фото: из открытых источников
Читайте нас в

Министерство науки и высшего образования разработало проект правил формирования и ведения государственной информационной системы «Национальный словарный фонд казахского языка», сообщает 

Целями формирования Национального словарного фонда являются сохранение, защита и развитие казахского языка как культурной ценности, а также укрепление статуса государственного языка, накопление ресурсов, охватывающих все сферы применения казахского языка, упорядочение, цифровизация, генерация действующего лексического состава языка, адаптация его к искусственному интеллекту и современным технологиям, автоматизация процессов обработки.

В правилах используются следующие понятия:

  • генерация — процесс автоматического создания нового контента (текста, изображения, звука) на основе данных и заранее установленных правил;
  • модели искусственного интеллекта (ИИ) — процесс внедрения технологий и алгоритмов ИИ для обработки данных на казахском языке в различные системы, приложения или платформы;
  • обработка естественного языка — технология машинного обучения, которая дает компьютерам возможность интерпретировать, манипулировать и понимать человеческий язык.

Национальный словарный фонд формируется на основании академических и переводческих словарей, Национального корпуса казахского языка, терминологической базы и датасета, который является совокупностью данных различных форматов.

Формирование Национального словарного фонда включает:

  • разработку поэтапного плана мероприятий по вопросам создания и развития Национального словарного фонда;
  • утверждение функциональных и технических требований к Национальному словарному фонду, графика технического оказания услуг и технических спецификаций информационной системы, предназначенной для сбора, обработки и систематизации данных;
  • обеспечение интерактивного пользовательского интерфейса, поисковой системы и возможности экспорта данных;
  • координацию действий субъектов в области создания и совершенствования Национального словарного фонда;
  • формирование списка информационных ресурсов, способных к интеграции с Национальным словарным фондом;
  • использование платформ открытых данных и обеспечение соответствия международным стандартам.

Ведение Национального словарного фонда требует:

  • разработки базы словарей, включающих значение, этимологию и модели общего употребления слов;
  • создания централизованной системы языковых корпусов;
  • совершенствования терминологической базы казахского языка;
  • разработки технических требований для сбора датасетов, включающих все сферы применения казахского языка;
  • предоставления доступной платформы для научных исследований;
  • интеграции моделей ИИ, современных технологий на казахском языке;
  • разработки интерактивной поисковой системы;
  • обеспечения деятельности модератора, постоянно контролирующего работу системы и анализирующего предложения и замечания;
  • формирования самостоятельной коллегиальной группы (рабочие группы по экспертизе и цифровизации), не относящейся к государственным органам, сформированной из отраслевых специалистов.

Также говорится, что вестись Национальный словарный фонд будет во взаимодействии с заинтересованными государственными органами, государственными юридическими лицами, субъектами квазигосударственного сектора, общественными организациями, субъектами бизнеса.

Функционирование Национального словарного фонда охватывает:

  • осуществление сбора, обработки, хранения базы данных, вносимых в информационную систему;
  • размещение общедоступной информации в открытом пространстве Интернета;
  • информационный обмен данными между субъектами информационной системы;
  • предоставление текстовых материалов в цифровом формате.

Формировать и вести Национальный словарный фонд будет юридическое лицо, определенное уполномоченным органом в области развития языков. 

Юридическое лицо, ответственное за формирование и ведение Национального словарного фонда, разрабатывает документы, необходимые для обучения информационной системы.

Для обеспечения информационной безопасности необходимы защита от кибератак, усиление доступа к системе через многофакторную аутентификацию, обеспечение управления уровнем доступа пользователей.

Проект находится на публичном обсуждении на портале «Открытые НПА» до 19 марта.