STATISTICAL SOFTWARE R IN CORPUS-DRIVEN RESEARCH AND MACHINE LEARNING

Information Technologies and Learning Tools

View Publication Info
 
 
Field Value
 
Title STATISTICAL SOFTWARE R IN CORPUS-DRIVEN RESEARCH AND MACHINE LEARNING
СТАТИСТИЧЕСКОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ R В КОРПУСО-УПРАВЛЯЕМЫХ ИССЛЕДОВАНИЯХ И МАШИННОМ ОБУЧЕНИИ
СТАТИСТИЧНЕ ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ R У КОРПУСО-КЕРОВАНИХ ДОСЛІДЖЕННЯХ ТА МАШИННОМУ НАВЧАННІ
 
Creator Zhukovska, Viktoriia V.
Mosiiuk, Oleksandr O.
 
Subject corpus linguistics
machine learning model
linguistic classifier
statistical software R
RStudio
grammatical construction
linguistic parameter
univariate analysis of variance (ANOVA)
multivariate analysis of variance (MANOVA)
the Tukey test
linear discriminant analysis
methodological aspects of interdisciplinary studies
корпусна лінгвістика
модель машинного навчання
лінгвістичний класифікатор
статистична система аналізу даних R
RStudio
граматична конструкція
лінгвальний параметр
однофакторний дисперсійний аналіз (ANOVA)
багатофакторний дисперсійний аналіз (MANOVA)
апостеріорний тест Тьюкі
дискримінантний аналіз
методологічні аспекти міждисциплінарних досліджень
корпусная лингвистика
модель машинного обучения
лингвистический классификатор
статистическая система анализа данных R
RStudio
грамматическая конструкция
лингвальный параметр
однофакторный дисперсионный анализ (ANOVA)
многофакторный дисперсионный анализ (MANOVA)
апостериорный тест Тьюки
дискриминантный анализ
методологические аспекты междисциплинарных исследований
 
Description The rapid development of computer software and network technologies has facilitated the intensive application of specialized statistical software not only in the traditional information technology spheres (i.e., statistics, engineering, artificial intelligence) but also in linguistics. The statistical software R is one of the most popular analytical tools for statistical processing a huge array of digitalized language data, especially in quantitative corpus linguistic studies of Western Europe and North America. This article discusses the functionality of the software package R, focusing on its advantages in performing complex statistical analyses of linguistic data in corpus-driven studies and creating linguistic classifiers in machine learning. With this in mind, a three-stage strategy of computer-statistical analysis of linguistic corpus data is elaborated: 1) data processing and preparing to be subjected to a statistical procedure, 2) utilizing statistical hypothesis testing methods (MANOVA, ANOVA) and the Tukey post-hoc test, and 3) developing a model of a linguistic classifier and analyzing its effectiveness. The strategy is implemented on 11 000 tokens of English detached nonfinite constructions with an explicit subject extracted from the BNC-BYU corpus. The statistical analysis indicates significant differences in the realization of the factors of the parameter “Part of speech of the subject”. The analyzed linguistic data are employed to build a machine model for the classification of the given constructions. Particular attention is devoted to the methodological perspectives of interdisciplinary research in the fields of linguistics and computer studies. The potential application of the elaborated case study in training undergraduate, master, and postgraduate students of Applied Linguistics is indicated. The article provides all the statistical data and codes written in the R script with comprehensive descriptions and explanations. The concluding part of the article summarizes the obtained results and highlights the issues for further research connected with the popularization of the statistical software complex R and raising the awareness of specialists in this statistical analysis system.
Динамическое развитие вычислительной техники, сетевых технологий и прикладного программного обеспечения позволяет широко использовать специализированные статистические комплексы для решения различного типа и сложности задач не только в пределах классических направлений применения информационных технологий (статистике, инженерии, искусственном интеллекте), но и в языкознании. Как следствие, наблюдается экспоненциальное увеличение числа прикладных языковедческих исследований, в частности в таких технологически ориентированных отраслях, как корпусная и компьютерная лингвистика. Статистическая система анализа данных R является одним из популярнейших аналитических инструментов обработки больших массивов диджитализированных языковых данных, особенно в квантитативно-корпусных исследованиях Западной Европы и Северной Америки. Предложенная статья раскрывает преимущества применения функционала программного комплекса R для выполнения сложных статистических анализов лингвальных данных в корпусоуправляемых исследованиях и в машинном обучении для создания лингвистических классификаторов. С этой целью в работе предложено стратегию компьютерно-статистического анализа лингвальных корпусных данных, которая включает три последовательных этапа: 1) разработка и стандартизация данных для применения статистических методов, 2) применение методов проверки статистических гипотез (MANOVA, ANOVA) и апостериорного теста Тьюки, 3) создание модели лингвистического классификатора и анализ ее эффективности. В результате применения предложенной стратегии к 11 000 токенов английских обособленных нефинитных конструкций с эксплицитным субъектом, отобранных из корпуса BNC-BYU, установлено статистически значимые различия в реализации лингвальных факторов параметра “Частеречная принадлежность субъекта” и построено машинную модель классификации исследуемых конструкций в корпусном материале. Отдельным вопросом рассмотрены методологические аспекты междисциплинарных исследований в лингвистике и компьютерных науках, а также указаны возможности практического использования представленного кейса в подготовке бакалавров, магистров и аспирантов в области прикладной лингвистики. Статья содержит необходимые статистические данные, представленные в таблицах, и код, написанный с применением скрипта R. Все материалы сопровождаются подробным описанием и объяснениями. В выводах анализируются полученные результаты и определяются перспективы дальнейших исследований, которые связываются с популяризацией статистического программного комплекса R и повышением осведомленности специалистов с этой статистической системой анализа.
Динамічний розвиток обчислювальної техніки, мережевих технологій та прикладного програмного забезпечення уможливлює широке використання спеціалізованих статистичних комплексів для вирішення різного типу і складності завдань не лише в межах класичних напрямів застосування інформаційних технологій (статистиці, інженерії, штучному інтелекті), а й у мовознавстві. Статистична система аналізу даних R є одним із найпопулярніших аналітичних інструментів оброблення великих масивів диджиталізованих мовних даних, особливо у квантитативно-корпусних розвідках Західної Європи та Північної Америки. Запропонована стаття розкриває переваги застосування функціоналу програмного комплексу R для виконання складних статистичних аналізів лінгвальних даних у корпусо-керованих дослідженнях та в машинному навчанні для створення лінгвістичних класифікаторів. З цією метою у роботі запропоновано стратегію комп’ютерно-статистичного аналізу лінгвальних корпусних даних, що складається з трьох послідовних етапів: 1) опрацювання й стандартизація даних для застосування статистичних методів, 2) застосування методів перевірки статистичних гіпотез (MANOVA, ANOVA) та апостеріорного тесту Тьюкі, 3) створення моделі лінгвістичного класифікатора та аналіз її ефективності. У результаті застосування запропонованої стратегії до 11 000 токенів англійських відокремлених нефінітних конструкцій з експліцитним суб’єктом, відібраних з корпусу BNC-BYU, встановлено статистично значущі відмінності в реалізації лінгвальних факторів параметру “Частиномовна приналежність суб’єкту” та побудовано машинну модель класифікації досліджуваних конструкцій у корпусному матеріалі. Окремим питанням розглянуто методологічні аспекти міжпредметних досліджень з лінгвістики та комп’ютерних наук та окреслено можливості практичного застосування презентованого кейсу в підготовці бакалаврів, магістрів та аспірантів у галузі прикладної лінгвістики. Стаття містить необхідні статистичні дані, представлені в таблицях, та код, написаний із застосуванням скрипту R. Усі матеріали супроводжуються детальним описом та поясненнями. У підсумку аналізуються отримані результати та окреслюються перспективи подальших досліджень, які пов’язуються з популяризацією статистичного програмного комплексу R та підвищенням обізнаності фахівців з цією статистичною системою аналізу.
.
 
Publisher Institute of Information Technologies and Learning Tools of NAES of Ukraine
 
Date 2021-12-30
 
Type info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Peer-reviewed Article
рецензируемая статья
рецензована стаття
 
Format application/pdf
 
Identifier https://journal.iitta.gov.ua/index.php/itlt/article/view/4627
10.33407/itlt.v86i6.4627
 
Source Information Technologies and Learning Tools; Vol. 86 No. 6 (2021); 1-18
Информационные технологии и средства обучения; Том 86 № 6 (2021); 1-18
Інформаційні технології і засоби навчання; Том 86 № 6 (2021); 1-18
Інформаційні технології і засоби навчання; ##issue.vol## 86 ##issue.no## 6 (2021); 1-18
2076-8184
10.33407/itlt.v86i6
 
Language eng
 
Relation https://journal.iitta.gov.ua/index.php/itlt/article/view/4627/1944
 
Rights Copyright (c) 2021 Олександр Олександрович Мосіюк, Вікторія Вікторівна Жуковська
https://creativecommons.org/licenses/by-nc-sa/4.0
 

Contact Us

The PKP Index is an initiative of the Public Knowledge Project.

For PKP Publishing Services please use the PKP|PS contact form.

For support with PKP software we encourage users to consult our wiki for documentation and search our support forums.

For any other correspondence feel free to contact us using the PKP contact form.

Find Us

Twitter

Copyright © 2015-2018 Simon Fraser University Library