ВСТУП
Актуальність теми. Область застосування статистичних законів дуже широка, і в першу чергу їм підпорядковуються всі складні системи. До таких систем належать дослідження організмів та їх поведінки на основі імітаційних моделей, економіка та аналіз наслідків діяльності великих популяцій, методи інтерпретації лінгвістичних особливостей розвитку мови тощо. Важко знайти лінгвістичні роботи, які не потребують елементарних обчислень. Кількісні методи в лінгвістиці допомагають забезпечити правильну організацію лінгвістичних спостережень і надійність, точність і достовірність висновків у лінгвістичній науці. Ці методи увійшли в лінгвістичну практику, а лінгвістична статистика як наука існує вже десятки років. З цим пов’язана проблема оптимального формування статистичних вибірок при обробці великих масивів даних.
Сьогодні результати теорії статистичних рішень лягли в основу побудови алгоритмів розпізнавання, що дає можливість забезпечувати віднесення об’єктів до їх класів на основі експериментальних апостеріорних даних (ознак, що характеризують об’єкт) і апріорних даних, що описують клас об’єкта. Надалі математичний апарат було розширено за рахунок використання методів алгебри логіки та деяких розділів прикладної математики, теорії інформації, математичного програмування та системотехніки.
Як відомо, мова являє собою дуже складну систему дискретних одиниць, які можуть мати кількісні характеристики. Ці кількісні характеристики притаманні одиницям на всіх рівнях мовної системи. Структура мови, функції в мові, відносини між мовою і мисленням, між мовою і суспільством підкоряються статистичним законам. Статистичні методи в лінгвістиці допомагають правильно організувати лінгвістичні спостереження, отримати об’єктивні дані, що не залежать від суб’єктивних подань дослідника, забезпечити надійність, точність і достовірність висновків. У зв’язку з цим залучення статистичних методів важливо при обробці великих масивів даних в лінгвістичних дослідженнях.
Мета даної роботи полягає у аналізі основних понять та інструментів математичної статистики, застосуванні основних методів та прийомів статистичного дослідження мовного матеріалу та формуванні статистичних вибірок у лінгвістиці.
Методи дослідження. Для досягнення мети та вирішення завдань використовувалися такі методи дослідження як вивчення й аналіз літературної бази з метою уточнення понять тощо.
Структура роботи. Робота складається зі вступу, основної частини, висновків, списку використаних джерел та літератури.
ЩО ТАКЕ ВИБІРКА. ДОСЛІДЖЕННЯ ВИБІРКИ У ЛІНГВІСТИЦІ
У сучасному мовознавстві домінує чітка тенденція: досліджувати мовний та мовленнєвий матеріал на репрезентативному масиві текстів. Однорідний масив певних одиниць, які потрібно обстежити, називають генеральною сукупністю. Обсяг і характер генеральної сукупності залежать від завдань дослідження. Наприклад, якщо досліджують особливості стилю Івана Франка, то генеральна сукупність — усі його твори. Якщо досліджують українську мову XІX ст., то генеральна сукупність — усі тексти (мовлені та писані) XІX ст. Межі останньої важко виявити точно, а все усне мовлення просто неможливо дослідити. У подібних випадках, коли суцільне обстеження генеральної сукупності неможливе, роблять вибірку. Вибірка — це певна кількість матеріалу, на підставі дослідження якого можна зробити правильні висновки про всю генеральну сукупність [2]. Основні вимоги до вибірки подано на рис. 1.

Рис. 1 Вимоги до вибірки
Існує два види однорідності вибірки: лінгвістична однорідність і статистична однорідність. Основним завданням статистичної лінгвістики є застосування кількісних методів для виявлення закономірностей у функціонуванні мовних одиниць у мовленні та встановлення закономірностей у структурі тексту. Перші дослідження з розпізнавання образів стосувалися теорії і практики побудови зчитувальних машин (як образи виступали символи, картинки, букви або цифри). Математичним апаратом для вирішення задач розпізнавання з самого початку була теорія статистичних рішень.
У межах лінгвістичного однорідності вибірки виділяються наступні:
- хронологічну (тексти вибірки повинні мати хронологічні межі).
- жанрова (тексти вибірки повинні бути жанровими).
- тематична (тексти повинні бути тільки тематичними)
Вибірка вважається статистично однорідною, якщо досліджувані одиниці демонструють статистичну поведінку без істотних відмінностей між ними [1; 4]. Якщо середня частота будь-якого явища (знаків, морфем, слів, довжини слова, довжини речення тощо) у вибірці істотно не відрізняється від частот в інших вибірках, то ці вибірки є статистично однорідними щодо цього явища.


Відгуки
Відгуків немає, поки що.