Другие статьи

Цель нашей работы - изучение аминокислотного и минерального состава травы чертополоха поникшего
2010

Слово «этика» произошло от греческого «ethos», что в переводе означает обычай, нрав. Нравы и обычаи наших предков и составляли их нравственность, общепринятые нормы поведения.
2010

Артериальная гипертензия (АГ) является важнейшей медико-социальной проблемой. У 30% взрослого населения развитых стран мира определяется повышенный уровень артериального давления (АД) и у 12-15 % - наблюдается стойкая артериальная гипертензия
2010

Целью нашего исследования явилось определение эффективности применения препарата «Гинолакт» для лечения ВД у беременных.
2010

Целью нашего исследования явилось изучение эффективности и безопасности препарата лазолван 30мг у амбулаторных больных с ХОБЛ.
2010

Деформирующий остеоартроз (ДОА) в настоящее время является наиболее распространенным дегенеративно-дистрофическим заболеванием суставов, которым страдают не менее 20% населения земного шара.
2010

Целью работы явилась оценка анальгетической эффективности препарата Кетанов (кеторолак трометамин), у хирургических больных в послеоперационном периоде и возможности уменьшения использования наркотических анальгетиков.
2010

Для более объективного подтверждения мембранно-стабилизирующего влияния карбамезапина и ламиктала нами оценивались перекисная и механическая стойкости эритроцитов у больных эпилепсией
2010

Нами было проведено клинико-нейропсихологическое обследование 250 больных с ХИСФ (работающих в фосфорном производстве Каратау-Жамбылской биогеохимической провинции)
2010


C использованием разработанных алгоритмов и моделей был произведен анализ ситуации в системе здравоохранения биогеохимической провинции. Рассчитаны интегрированные показатели здоровья
2010

Специфические особенности Каратау-Жамбылской биогеохимической провинции связаны с производством фосфорных минеральных удобрений.
2010

Об Алматинском корпусе казахского языка

Специалисты различных сфер деятельности: политологи, культурологи, экономисты и, в первую очередь, лингвисты, неоднократно отмечают, что за последние годы казахский язык все больше расширяет свои границы. Так, Ельдесов Д. пишет, что «С приданием казахскому языку статуса государственного его роль в республике значительно усилилась, обеспечивая законодательным правом использоваться во всех функциях и сферах общения. Статусному положению языка, политическим и законодательным мерам должно быть соответственное сугубо лингвистическое наполнение, и в этом плане появилась проблема корпусного планирования – попытки стандартизировать, упорядочить и систематизировать язык. В Республике Казахстан в рамках Государственной программы функционирования и развития языков (2011-2020), необходимо создать Национальный корпус казахского языка. Формирование национального корпуса языка стало актуальной проблемой во многих республиках после распада Советского Союза, поскольку государственному статусу языка могут соответствовать лишь кодифицированные (нормированные) языки» [1].

Ведущий лингвист не только казахстанского, но и мирового сообщества Сулейменова Э.Д. отмечает: «Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус.

Создание корпуса позволит изучать историю казахского языка, осуществить статистический мониторинг функционирования лексических, грамматических и стилистических языковых средств, работать по лексикографической поддержке современного казахского языка, его стандартизации, создавать словари, учебники, справочные пособия. Национальный корпус казахского языка способен служить современным источником его кодификации и стандартизации, поскольку в корпусе оказывается зафиксированным письменный и звучащий язык в его максимально репрезентативном виде. Формирование Национального корпуса казахского языка одна из важнейших, задач суверенного Казахстана» [2].

В Википедии лингвистический корпус определяется как «совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой» [3]. Из чего можно заключить, «что национальный корпус казахского языка 

– это информационно-справочная система на базе электронного собрания письменных и звучащих текстов, сбалансированная и представительная по объему (сотни миллионов словоупотреблений), оснащенная всеми возможными видами полной и удобной разметки» (Сулейменова Э.Д.) [2].

Учитывая назревшую острую необходимость, в рамках идеи «Мәңгі ел – Мәңгі қазақ тілі» в Казахском национальном университете имени аль-Фараби в мае 2012 г. при поддержке ректора Г.М. Мутанова началась работа над проектом Корпуса. Силами кафедры общего языкознания и европейских языков факультета филологии и мировых языков под руководством заведующей кафедрой Г.Б. Мадиевой при участии сотрудников факультета филологии Национального исследовательского университета Высшая школа экономики (Москва) Архангельского Т.А., Бонч-Осмоловской А.А., Даниэля М.А., Ляшевской О.Н., Толдовой С.Ю. в мае 2014 года была выпущена пилотная версия Алматинского корпуса казахского языка, представляющего собой интеллектуальную информационно-справочную систему на основе обширного фонда размеченных текстов в удобной для использования современной виртуальной форме [4].

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC).

Это первая версия корпуса Национального корпуса казахского языка – НККЯ как справочно-информационной системы на основе обширного фонда размеченных текстов литературного казахского языка, государственного языка Республики Казахстан. В настоящий момент размер корпуса составляет около 1 миллиона словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, 75 % словоформ корпуса имеют грамматический разбор. Омонимия в корпусе не снималась, т.е. каждой словоформе приписаны все возможные варианты разбора без учета контекста.

Алматинский корпус казахского языка представлен письменными текстами современного казахского языка, которые сбалансированно распределены по нескольким подкорпусам:

  • художественный;
  • научный;
  • художественно-публицистический. Ключевой особенностью любого корпуса является наличие не только метатекстовой информации, но и дополнительной, так называемой разметки, позволяющей использовать его данные для научных исследований. В Алматинском корпусе в настоящее время используется три вида разметки:
  • морфологическая, т.е. частеречная разметка, которая включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Схема морфологической разметки предполагает наличие, вопервых, набора тэгов каждого казахского слова, попавшего в словарь во-вторых, описания того, что каждый из них означает и, в-третьих, правил присвоения тэгов единицам текста;
  • синтаксическая, как результат синтаксического анализа или парсинга (от англ. parsing), т.е. это грамматика структур непосредственно составляющих;
  • семантическая, при помощи специального кода, состоящего из букв и цифр или только цифр, в котором первая буква или цифра обозначает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специализирующие его значение. В схемах семантической разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдельное слово, а словосочетание.

Была разработана поисковая система корпуса казахского языка, в которой поиск производится не только по конкретному слову, но и по грамматическим признакам.

К настоящему времени текстовая база электронных произведений представлена казахскими авторами, прежде всего, классиков казахской литературы: Абай, М. Ауэзов, А. Нуршаихов, И. Есенберлин, А. Нурпеисов, Г. Мусрепов, С. Торайгыров, С. Сейфуллин и др.; произведениями классиков мировой литературы, переведенные на казахский язык: Ч. Айтматов, публицистика: газеты Егемен Казакстан, Айкын, Халык сөзі, Ана тілі, Айқын и др.; научные тексты: докторские и кандидатские диссертации, монографии, статьи.Мадиева Г.Б., Уматова Ж.М.

Об Алматинском корпусе казахского языка

Кроме того, для полноты данных была составлена таблица метаинформации, включающая в себя все выходные данные.

Нужно отметить, что Алматинский корпус

  • в отличие от многих языковых корпусов, которые обладают только частеречной разметкой (а иногда не имеют грамматической разметки вообще), обладает полной морфологической разметкой;
  • в отличие от большинства корпусов, содержит переводы слов на другой язык (русский), что облегчает работу пользователям, для которых казахский язык не является родным. Корпус обладает интерфейсами на трех языках. Например, в Национальном корпусе русского языка нет переводов слов на английский, а английский интерфейс обладает урезанными возможностями по сравнению с русским;
  • обладает бесплатным общедоступным поисковым интерфейсом с мощным функционалом, что характерно для большинства корпусов, созданных за последние годы в рамках российской школы корпусной лингвистики и реже встречается в корпусах, создаваемых на Западе;
  • в отличие от большинства корпусов малых языков России, созданных по схожей технологии в последние 5 лет, является относительно хорошо сбалансированным и содержит большое количество текстов, относящихся к художественной литературе.

Планируется, что в корпусе до конца года будет 2 млн. словоупотреблений. Сейчас в обработке находится 111 тыс.

Тексты корпуса, в первую очередь, предназначены для поддержки работы лингвистов, лексикографов, переводчиков, литературоведов, специалистов в области компьютерных исследований, организации образовательной среды в целях изучения и исследования казахского языка широким кругом как отечественных, так и зарубежных потребителей.

Алматинский корпус казахского языка способствует проведению фундаментально-прикладных исследований казахского языка на основе информационных технологий, внедрению их результатов в учебный процесс.

Корпус в связи с активным выходом Казахстана на мировую арену в последнее время приобретает активное значение и для преподавания и изучения казахского языка в качестве не только родного, но и иностранного. Немаловажное значение при этом, как уже говорилось, имеет то, что в отличие от других корпусов мира, казахский имеет перевод на русский и английский языки. В целях оптимизации преподавания родного и иностранного языков при составлении учебников имеется возможность наполнять их реальными примерами, что будет способствовать навыку развития естественных высказываний, поскольку у казахского языка нет такого широкого применения, в отличие от мировых и других более распространенных языков. Помимо этого существенным является то, что в настоящее время лексика казахского языка активно пополняется за счет английского и перевода уже имеющихся слов, ранее заимствованных из других языков.

По мере наполнения корпуса можно будет надеяться, что учебники и компьютерные обучающие программы (КОПР) будут ориентированы на корпус.

Кроме того, большое практическое значение корпус казахского языка имеет и при составлении лексикографических источников. Нужно учитывать, что в настоящее время лексикография казахского языка не изобилует источниками различных направлений. Этот фронт работы нуждается в максимальной доработке.

Корпус позволит осуществить формирование онлайнового электронного корпуса/подкорпусов текстов на казахском языке.

Безусловно, поскольку в настоящее время Алматинский корпус казахского языка составляет пилотную версию, он будет дополняться, обновляться как количественно, так и качественно, кроме того будет существенно улучшаться поисковая функциональность корпуса.

В перспективе для развития и усовершенствования Алматинского корпуса казахского языка предполагается следующее:

  • лингвистически репрезентативный корпус;
  • мощный поисковый аппарат для осуществления сложных лексико-морфологических запросов;
  • удобный инструмент для самостоятельного изучения казахского языка, дающий для большинства словоформ лексико-морфологические разборы и русские/английские переводные эквиваленты;
  • диахронически ориентированный корпус, покрывающий различные периоды истории современного казахского языка;
  • диверсифицированный корпус, включающий разножанровые письменные и устные тексты разных типов;
  • аннотированный корпус, снабженный грамматической и библиографической разметкой;
  • корпус, находящийся в открытом доступе;
  • электронная библиотека, включающая более 100 классических произведений казахской литературы.

Подводя итоги, можно сказать, что корпус казахского языка – это хранилище текстов, предназначенных для создания цельной информационной базы, дающей пользователю доступ пользователю к самому материалу как в его современном состоянии, так и в исторической перспективе.

 

Литература

  1. Ельдесов Д. Язык без корпуса: возродится ли казахский язык? // http://www.altyn-orda.kz/dastan-eldesov-yazyk-bez- korpusa-vozroditsya-li-kazaxskij-yazyk/. – 2012. – 21 июня.
  2. Сулейменова Э.Д. Языковая политика – фактор укрепления национально-государственной идентичности // http:// dknews.kz/yazykovaya-politika-faktor-ukrepleniya-nacionalno-gosudarstvennojj-identichnosti/. – 2013. – 29 ноября.
  3. Википедия // https://ru.wikipedia.org/wiki/.
  4. Алматинский корпус казахского языка // http://web-corpora.net/KazakhCorpus/search/?interface_language=ru.
  5. Корпус казахского языка // http://new.til.gov.kz/index.php/ru/the-corpus-of-kazakh-language.
  6. Национальный корпус русского языка // http://www.ruscorpora.ru/.
  7. Британский национальный корпус // http://www.natcorp.ox.ac.uk/.

Разделы знаний

Архитектура

Научные статьи по Архитектуре

Биология

Научные статьи по биологии 

Военное дело

Научные статьи по военному делу

Востоковедение

Научные статьи по востоковедению

География

Научные статьи по географии

Журналистика

Научные статьи по журналистике

Инженерное дело

Научные статьи по инженерному делу

Информатика

Научные статьи по информатике

История

Научные статьи по истории, историографии, источниковедению, международным отношениям и пр.

Культурология

Научные статьи по культурологии

Литература

Литература. Литературоведение. Анализ произведений русской, казахской и зарубежной литературы. В данном разделе вы можете найти анализ рассказов Мухтара Ауэзова, описание творческой деятельности Уильяма Шекспира, анализ взглядов исследователей детского фольклора.  

Математика

Научные статьи о математике

Медицина

Научные статьи о медицине Казахстана

Международные отношения

Научные статьи посвященные международным отношениям

Педагогика

Научные статьи по педагогике, воспитанию, образованию

Политика

Научные статьи посвященные политике

Политология

Научные статьи по дисциплине Политология опубликованные в Казахстанских научных журналах

Психология

В разделе "Психология" вы найдете публикации, статьи и доклады по научной и практической психологии, опубликованные в научных журналах и сборниках статей Казахстана. В своих работах авторы делают обзоры теорий различных психологических направлений и школ, описывают результаты исследований, приводят примеры методик и техник диагностики, а также дают свои рекомендации в различных вопросах психологии человека. Этот раздел подойдет для тех, кто интересуется последними исследованиями в области научной психологии. Здесь вы найдете материалы по психологии личности, психологии разивития, социальной и возрастной психологии и другим отраслям психологии.  

Религиоведение

Научные статьи по дисциплине Религиоведение опубликованные в Казахстанских научных журналах

Сельское хозяйство

Научные статьи по дисциплине Сельское хозяйство опубликованные в Казахстанских научных журналах

Социология

Научные статьи по дисциплине Социология опубликованные в Казахстанских научных журналах

Технические науки

Научные статьи по техническим наукам опубликованные в Казахстанских научных журналах

Физика

Научные статьи по дисциплине Физика опубликованные в Казахстанских научных журналах

Физическая культура

Научные статьи по дисциплине Физическая культура опубликованные в Казахстанских научных журналах

Филология

Научные статьи по дисциплине Филология опубликованные в Казахстанских научных журналах

Философия

Научные статьи по дисциплине Философия опубликованные в Казахстанских научных журналах

Химия

Научные статьи по дисциплине Химия опубликованные в Казахстанских научных журналах

Экология

Данный раздел посвящен экологии человека. Здесь вы найдете статьи и доклады об экологических проблемах в Казахстане, охране природы и защите окружающей среды, опубликованные в научных журналах и сборниках статей Казахстана. Авторы рассматривают такие вопросы экологии, как последствия испытаний на Чернобыльском и Семипалатинском полигонах, "зеленая экономика", экологическая безопасность продуктов питания, питьевая вода и природные ресурсы Казахстана. Раздел будет полезен тем, кто интересуется современным состоянием экологии Казахстана, а также последними разработками ученых в данном направлении науки.  

Экономика

Научные статьи по экономике, менеджменту, маркетингу, бухгалтерскому учету, аудиту, оценке недвижимости и пр.

Этнология

Научные статьи по Этнологии опубликованные в Казахстане

Юриспруденция

Раздел посвящен государству и праву, юридической науке, современным проблемам международного права, обзору действующих законов Республики Казахстан Здесь опубликованы статьи из научных журналов и сборников по следующим темам: международное право, государственное право, уголовное право, гражданское право, а также основные тенденции развития национальной правовой системы.