Қазақ тілінің латын графикасына көшуі: техникалық аспектілер

Қазақ тілінің латын графикасына көшуі: техникалық аспектілер [Информатика]

Автор статьи : Алмас О.
Организация : Зияткерлік технологиялар институты
Должность : профессор
Дата : 16.11.2017
Номер журнала : 02-08-2017

Аннотация қазақ тілінде

Бұл мақалада қазақ тілінің кириллицадан латын әліпбиіне көшу процесінде туындайтын техникалық мәселелерді талдау және оларды шешу жолдары ұсынылады. Зерттеудің мақсаты – алфавиттік реформаны іске асыру кезіндегі бағдарламалық жасақтамаларды, деректерді түрлендіру алгоритмдерін және веб-интеграциясын қамтитын негізгі техникалық қиындықтарды анықтау болып табылады. Жұмыста практикалық тәжірибені талдау, эксперимент және салыстырмалы әдіс қолданылды. Зерттеу нысаны ретінде Зияткерлік технологиялар институтының мамандары әзірлеген қазақ мәтіндерін автоматты түрлендіретін веб-портал мен WordPress плагиндерінің жұмысы қарастырылды. Нәтижелер көрсеткендей, негізгі техникалық қиындықтарға апострофтың арнайы таңба ретінде қолданылуы, кириллицаға тән белгілерді (жіңішке/жуан) латын алфавитінде қайта өңдеу және басқа тілдерден енген сөздерді транслитерациялау жатады. Мақалада осы мәселелерді шешудің ықтимал жолдары, сонымен қатар мемлекеттік деңгейдегі ауқымды цифрлық аударудың маңыздылығы туралы қорытындылар жасалған.

Аннотация на русском языке

В данной статье анализируются технические проблемы, возникающие в процессе перевода казахского языка с кириллицы на латинскую графику, и предлагаются пути их решения. Цель исследования – определить ключевые технические сложности, включающие программное обеспечение, алгоритмы преобразования данных и веб-интеграцию при реализации алфавитной реформы. В работе использованы методы анализа практического опыта, эксперимента и сравнительный метод. В качестве объекта исследования рассмотрена работа веб-портала и плагинов WordPress для автоматической конвертации казахских текстов, разработанных специалистами Института интеллектуальных технологий. Результаты показывают, что основными техническими трудностями являются использование апострофа как специального символа, перекодировка специфических знаков кириллицы (палатализация) в латинском алфавите и транслитерация заимствованных слов. В статье сделаны выводы о возможных путях решения этих проблем, а также о важности масштабной цифровой конвертации на государственном уровне.

Abstract in English

This article analyzes the technical issues arising during the transition of the Kazakh language from Cyrillic to the Latin script and proposes ways to solve them. The aim of the study is to identify the key technical challenges, including software, data transformation algorithms, and web integration, in implementing the alphabetic reform. The work uses methods of analysis of practical experience, experimentation, and comparative method. The operation of a web portal and WordPress plugins for the automatic conversion of Kazakh texts, developed by specialists of the Institute of Intellectual Technologies, is considered as the object of research. The results show that the main technical difficulties are the use of the apostrophe as a special character, the recoding of specific Cyrillic signs (palatalization) in the Latin alphabet, and the transliteration of borrowed words. The article draws conclusions about possible solutions to these problems, as well as the importance of large-scale digital conversion at the state level.

Кіріспе

Қазақ тілінің латын графикасы негізіндегі жаңа әліпбиіне көшу – бұл тек лингвистикалық және мәдени ғана емес, сонымен қатар күрделі техникалық міндет. Бұл үдеріс ақпараттық кеңістіктегі барлық мәтіндердің, дерекқорлардың, бағдарламалық жасақтамалардың және веб-ресурстардың тұтас конвертациясын талап етеді. Техникалық аспектілерді шешпей, тек теориялық деңгейде қалған алфавит реформасының жүзеге асырылуы мүмкін емес. Осыған байланысты, кириллицадан латын графикасына ауысу кезіндегі бағдарламалық шешімдерді, конвертация алгоритмдерін және интеграциялау мәселелерін зерттеу өзектілігі жоғары тақырып болып табылады. Бұл мақалада қазақ тілінің жаңа латын әліпбиін енгізуге арналған тәжірибелік жобаларды (веб-портал, плагиндер) талдау негізінде негізгі техникалық қиындықтар ашылып, оларды шешудің ықтимал жолдары ұсынылады.

Негізгі бөлім

1. Техникалық көшу процесінің жалпы сипаттамасы және негізгі міндеттер

Алфавиттік көшу процесін техникалық тұрғыдан екі негізгі кезеңге бөлуге болады: біріншілік мәтіндерді түрлендіру (конвертация) және жүйелерді интеграциялау. Бірінші кезеңде қазақ тіліндегі барлық электрондық мәтіндер (мемлекеттік мекемелердің құжаттары, білім беру ресурстары, мәдениет мұралары, СМИ материалдары, т.б.) кириллицадан латын графикасына аударылуы керек. Екінші кезеңде операциялық жүйелер, бағдарламалар, веб-браузерлер, іздеу жүйелері, қолданбалы бағдарламалық жасақтама (ПО) жаңа стандартты қолдайтындай етіп өзгертілуі тиіс. Бұл процестерді автоматтандыру және олардың дәлдігі шешуші рөл атқарады.

2. Автоматты конвертация алгоритмдерінің қиындықтары

Қазақ тілі үшін латын әліпбиіне аударудың ресми стандарты белгіленген. Дегенмен, мәтінді автоматты түрлендіру кезінде бірқатар техникалық қиындықтар туындайды, олардың негізгілері төмендегідей:

  1. Апострофтың (') рөлі. Қазақ тілінің жаңа латын әліпбиінде апостроф арнайы таңба ретінде қолданылады (мысалы, jan'a). Ал, бағдарламалау тілдерінде, деректерді өңдеуде және URL мекенжайларында апостроф ерекше мағынаға ие (мысалы, SQL сұрақтарында, жол аяқтауышы ретінде). Бұл автоматты конвертация алгоритмдерін жасау кезінде қателіктерге әкелуі мүмін, себебі бағдарлама бұл таңбаны қате түсініп, синтаксистік қатеге әкелуі мүмкін [1, б. 34].
  2. Жіңішке/жуан (палатализация) белгілерінің жоғалуы. Кириллицада бұл айырмашылық әріптердің өздері арқылы берілді (мысалы, к / қ). Жаңа латын әліпбиінде бұл айырмашылық кейбір жағдайларда қосарланған әріптер арқылы (k / q) немесе диакритикалық белгілермен беріледі. Алгоритмнің дәл әріпті таңдауы контекстік талдауды талап етеді, бұл табиғи тілді өңдеу (Natural Language Processing, NLP) технологияларын қажет етеді.
  3. Шет тілдерден енген сөздерді транслитерациялау. Қазақ тілінде кириллица арқылы жазылатын көптеген шетелдік сөздер бар (мысалы, центр, цирк). Оларды латын графикасына аударғанда (sentr, sırk), кейбір әріптердің (мысалы, «ц» → «ts») біркелкі аударылуын қамтамасыз ету қиын. Бұл сөздіктердің және транслитерация ережелерінің арнайы дерекқорларын құруды талап етеді.

Бұл мәселелерді шешу үшін жай ғана символдарды ауыстыратын транслитерация алгоритмі жеткіліксіз. Контекстке сезімтал, морфологиялық талдауды қолданатын күрделірек алгоритмдер қажет.

3. Веб-интеграция және плагиндер тәжірибесі

Веб-кеңістік – алфавиттік көшудің ең маңызды саласы. Институт мамандарының тәжірибесі көрсеткендей, кириллицалық контенті бар қазақ веб-сайттарына көмектесу үшін арнайы бағдарламалық шешімдер әзірленуі тиіс. Мысалы, QAZAQLAT плагині WordPress басқару панеліне орнатылып, веб-сайттағы барлық қазақ тіліндегі мәтіндерді жаңа латын әліпбиіне дер кезінде түрлендіре алады. Мұндай плагиндер көптеген веб-мастерлерге және контент-менеджерлерге көшу процесін жеңілдетеді.

Тағы бір маңызды аспект – URL мекенжайларын (сілтемелерді) түрлендіру. Қазақ тіліндегі кириллицалық сөздерден құралған URL мекенжайлары іздеу жүйелерінде және браузерлерде проблемалар тудыруы мүмкін. QAZLAT плагині осыған байланысты арнайы шешім ұсынады – ол кириллицалық мәтіннен латын графикасындағы қысқа және түсінікті URL құра алады (мысалы, транслит не сәйкес әріптермен ауыстыру). Бұл веб-ресурстардың SEO-оңтайландырылуына (іздеу жүйелеріндегі орын) және пайдаланушылардың ыңғайлылығына ықпал етеді [2].

4. Дерекқорлар және операциялық жүйелер деңгейіндегі көшудің мәселелері

Техникалық көшу тек веб-сайттармен шектелмейді. Мемлекеттік мекемелердің ірі дерекқорлары (заңдар, халық тізімі, архивтер), сондай-ақ жергіліктілендірілген бағдарламалық жасақтама (мысалы, MS Office, операциялық жүйелердің қазақ тіліндегі интерфейстері) конвертацияға ұшырауы тиіс. Бұл жерде мәселе кері қатынасты (латыннан кириллицаға) сақтау қажеттілігінде де жатыр, өйткені тарихи құжаттарға, ескі жазбаларға қол жеткізу сақталуы керек. Сондықтан, екі жақты конвертацияны қамтамасыз ететін және деректердің бүтіндігін сақтайтын күрделі жүйелер қажет.

Операциялық жүйелер деңгейінде (Windows, macOS, Android, iOS) жаңа қазақ латын әліпбиі үшін стандартты қолдау енгізу маңызды. Бұл қолданбалардағы клавиатуралардың орналасуын, фонтикалық іздеуді, сөзді тексеру (spell-checking) функцияларын өзгертуді қамтиды. Бұл процесс әлемдік технологиялық компаниялармен тығыз ынтымақтастықты талап етеді [3, p. 78].

5. Автоматты аудару жүйелерін сынау және қателерді басқару

Автоматты конвертация алгоритмдерінің сапасын бағалау және жетілдіру үшін оларды әртүрлі типтегі мәтіндерде (ғылыми, әдеби, ресми, блог) кеңінен сынау қажет. Сынау кезінде «алтын стандарт» ретінде қолмен дұрыс аударылған мәтіндер жиынтығы пайдаланылады. Алгоритмнің нәтижесі осы эталонмен салыстырылып, дәлдік (accuracy), еске алу (recall) сияқты метрикалар бойынша бағаланады. Конвертация кезіндегі қателер (мысалы, жіңішке/жуанды қате таңдау, апострофты орналастыру қатесі) арнайы журналға түсіріліп, олардың себептері талданады. Бұл алгоритмдерді итерациялық түрде жетілдіруге мүмкіндік береді. Сынау және сапаны басқару процесі үздіксіз және көпсалалы болуы тиіс.

6. Ашық бастапқы код және қауымдастық қатысуының рөлі

Техникалық көшу процесін жеделдету және сапасын арттыру үшін ашық бастапқы код (open source) әрекеттері мен кең қауымдастықтың қатысуы маңызды рөл атқаруы мүмкін. Қазақ тілінің латын графикасына аударуға арналған конверторлар, сөздіктер, транслитерация кітапханалары (мысалы, Python, JavaScript тілдерінде) ашық лицензиямен шығарылса, оларды әлемнің түкпір-түкпіріндегі бағдарламашылар, лингвистер және қызығушылық танытқан азаматтар тегін пайдаланып, сынап, жетілдіре алады. Бұл жолмен көптеген қателер тез анықталып, әртүрлі пайдошылар үшін бірнеше нұсқалар пайда болады. Сонымен қатар, конвертация дәлдігін жоғарылату үшін «толықтырушы ақпарат» (crowdsourcing) әдісін қолдануға болады: қазақ тіліндегі классикалық және заманауи мәтіндердің дұрыс аудармасын тексеруге немесе жасауға көптеген адамдарды тарту. Мұндай ашық және қоғамдық мазмұндағы жобалар тек техникалық шешімдерді ғана емес, сонымен қатар алфавитке көшуді қоғамдық санада бекітуге ықпал етеді.

7. Қауіпсіздік және деректердің бүтіндігі мәселелері

Кең ауқымды автоматты конвертация жүйелерін енгізу кезінде қауіпсіздік пен деректердің бүтіндігі бойынша мәселелерді ескеру қажет. Біріншіден, мемлекеттік маңызы бар және жеке ақпаратты қамтитын құжаттарды түрлендіру процесі қауіпсіз каналдар мен алгоритмдер арқылы жүргізілуі тиіс, деректердің бұзушылыққа ұшырауын болдырмау үшін. Екіншіден, конвертация барысында деректердің жоғалуына, пішімдеуінің бұзылуына (мысалы, кестелер, формулалар, арнайы таңбалар бар мәтіндерде) жол берілмеуі керек. Үшіншіден, конвертациядан кейінгі мәтіндердің авторлық құқықтары мен дереккөздері сақталуы тиіс. Осыған байланысты, әрбір ірі конвертация жобасында деректердің түпнұсқасын сақтау, өзгерістер журналын жүргізу (version control) және конвертациядан кейін нәтижені тексеру міндетті болып табылады. Бұл талаптар ресми мекемелер мен ірі корпорациялар үшін әсіресе маңызды.

Қорытынды

Қазақ тілінің латын графикасына көшуінің техникалық аспектілері күрделі және көпқырлы міндеттер жиынтығын көздейді. Негізгі қиындықтарға дәл конвертация алгоритмдерін әзірлеу (апостроф, палатализация, транслитерация мәселелерін шешу), веб-ресурстар мен бағдарламалық жасақтаманы интеграциялау, сондай-ақ дерекқорлар мен операциялық жүйелер деңгейіндегі жаңартулар жатады. Бұл процесті сәтті іске асыру үшін лингвистер, бағдарламашылар, жүйелік әкімшілер және мемлекеттік органдар арасындағы үйлестіру мен ынтымақтастық шешуші рөл атқарады.

Тәжірибелік жобалар (веб-порталдар, плагиндер) көшудің техникалық жағын іс жүзінде сынауға және нақты проблемаларды анықтауға мүмкіндік береді. Болашақта техникалық жұмыстарды масштабтау, ашық стандарттар мен API (Application Programming Interface) интерфейстерін әзірлеу, сондай-ақ қазақ тіліндегі барлық цифрлық контентті түрлендіруге арналған орталықтандырылған мемлекеттік қызметтерді құру маңызды болады. Тек кешенді және жоспарлы техникалық дайындық ғана алфавиттік реформаның тең орнықты және қоғамға аз қиындықпен енуін қамтамасыз ете алады.

Әдебиеттер тізімі

  1. Қазақстан Республикасының Үкіметі. Қазақ тілінің латын графикасы негізіндегі әліпбиі туралы. – Астана, 2018. – 15 б.
  2. Unicode Consortium. The Unicode Standard, Version 14.0. – 2021. – URL: https://www.unicode.org/versions/Unicode14.0.0/ (қаралған күні: 20.03.2024).
  3. Korpela, J. Unicode Explained. – O'Reilly Media, 2006. – 658 p.
  4. Алпамысова А.Б. Тіл саясаты және ақпараттық технологиялар: өзара әрекеттесу проблемалары. – Хабаршы. Филология сериясы, 2020. – №3. – Б. 45–52.
  5. W3C (World Wide Web Consortium). Internationalization (i18n) Activity. – URL: https://www.w3.org/International/ (қаралған күні: 20.03.2024).
  6. Әдістемелік журналға мақала жариялаудың негізгі талаптары [Электрондық ресурс] – https://adisteme.kz/rules.html