Statistica — универсальная система анализа данных и дейта сайнс, содержащая как классические, так и современные методы анализа данных, доступные пользователям в удобном диалоговом режиме.

Statistica содержит более 10 000 аналитических и статистических процедур, включая машинное обучение и нейронные сети, и имеет более миллиона пользователей во всем мире. Коннектор Statistica с R позволяет эффективно использовать библиотеки открытого программного обеспечения.

Apache Hadoop — платформа с открытым исходным кодом для обработки большого объема данных в кластерной среде. Он использует простую модель программирования MapReduce для надежных, масштабируемых и распределенных вычислений. Хранилище и вычисления распределены в этой структуре. Apache Hadoop обеспечила революцию больших данных, по крайней мере, с точки зрения программного обеспечения.

Apache Spark — мощный движок обработки исходного кода, основанный на скорости, простоте использования и сложной аналитике с API-интерфейсами в Java, Scala, Python, R и SQL. Spark запускает программы до 100 раз быстрее, чем Apache Hadoop MapReduce в памяти, или в 10 раз быстрее на диске. Может использоваться для создания приложений данных в виде библиотеки или для интерактивного анализа данных ad hoc.

Spark предоставляет стек библиотек, включая SQL, DataFrames и Datasets, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming. Вы можете объединить эти библиотеки в одном приложении. Кроме того, Spark работает на ноутбуке, Apache Hadoop, Apache Mesos, автономно или в облаке. Он может обращаться к различным источникам данных, включая HDFS, Apache Cassandra, Apache HBase и S3.

JavaScript — язык сценариев (не имеющий отношения к Java), первоначально разработанный в середине 1990-х годов для встраивания логики в веб-страницы, но впоследствии зарекомендовал себя как универсальный язык разработки. JavaScript по-прежнему очень популярен для встраивания логики в веб-страницы, так как доступно множество библиотек для улучшения работы и визуального представления этих страниц.

C-статистика — оценивает площадь под ROC-кривой и может использоваться для оценки качества и сравнения диагностических тестов.

CART — Classification and regression trees — деревья классификации и регрессии. Алгоритм Classification and Regression Tree разработан Leo Breiman, Jerry Friedman, Charles Stone и Richard Olshen. Алгоритм строит бинарные деревья, имеющие двух потомков в каждом узле дерева. На каждом шаге построения дерева правило, формируемое в узле, делит заданную обучающую выборку на две части – часть, в которой выполняется правило (левый потомок) и часть, в которой правило не выполняется (правый потомок). Для выбора оптимального правила разбиения используется функция оценки качества разбиения. Функция оценки качества разбиения основана на идее уменьшения неопределенности в узле. Дерево решений с непрерывными выходными значениями называется деревом регрессии, деревья классификации выводят конкретные категориальные значения. В дереве имеется один особый узел, известный как корневой. Это основа дерева, от которой можно перейти по дереву к любому узлу. Ключевым моментом является иерархия разбиений. В результате последовательности проверок организуется процесс разбиения данных на непересекающиеся подмножества. Каждый листовой узел соответствует небольшой, но исключительной (неповторяющейся) части исходного множества.

ETL (Extract, Transform, Load — Извлечение, Преобразование, Загрузка) — процесс извлечения данных из исходных систем, таких как транзакционные базы данных, и помещения их в хранилища данных. Если вы знакомы с онлайн-транзакционной обработкой (OLTP) и онлайн-аналитической обработкой (OLAP), ETL можно рассматривать как мост между этими двумя системными типами. Под ETL часто подразумевают как отдельную систему класса BI (или её компоненту), так и этап в анализе данных. Необходимость в ETL обусловлена разнообразием источников, в которых хранятся данные. Источники могут сильно отличаться как платформами, так и архитектурой: структура таблиц, разные справочники, различная детализация данных и др. Например, на производстве потоковые данные могут хранится в системе PI, а результаты прецизионных лабораторных замеров в системе LIMS. Причем разрешение данных в PI системе может быть доли секунды, а в LIMS – часы и даже сутки. Аналогично, может возникнуть задача компоновки данных из ERP, CRM, систем веб-аналитики и т.д. Этапы ETL процесса можно представить следующим образом:

  1. Загрузка данных из источников.
  2. Поиск, очистка/исправление ошибок в данных.
  3. Приведение к единим метрикам/размерностям/справочникам.
  4. Агрегация до необходимой детализации.
  5. Выгрузка в целевую систему/хранилище.

F-распределение Фишера — вытянутое вправо непрерывное распределение, характеризующееся степенями свободы числителя и знаменателя. Используется в дисперсионном анализе.

Keras — открытая нейросетевая библиотека, написанная на языке Python. Представляет собой надстройку над фреймворками Deeplearning4j, TensorFlow, Theano. Ключевая идея Keras: дать возможность переходить от идеи к результату в глубоком обучении с наименьшей возможной задержкой. Согласно исходной концепции Keras, является скорее интерфейсом, чем сквозной системой машинного обучения.

N факториал — для положительного целого n, обозначение n! используется в таком виде:

n х (n-1) х (n-2) … х 2 х 1.

Например 5!=5х4х3х2х1=120. 
0! определяется как 1.

P-значение — вероятность получения наших результатов или чего-либо большего, если нулевая гипотеза верна; уровень значимости.

PageRank — алгоритм, который определяет важность чего-либо, обычно ранжирует его в списке результатов поиска. PageRank работает путем подсчёта количества и качества ссылок на страницу, чтобы определить приблизительную оценку важности веб-сайта. Основное предположение заключается в том, что более важные веб-сайты могут получать больше ссылок с других веб-сайтов. PageRank назван не по названию страниц, которые он занимает, а по имени своего изобретателя, соучредителя и генерального директора Google Ларри Пейджа.

Pandas — библиотека Python для манипулирования данными, популярная среди исследователей данных.

Python — язык программирования, доступный с 1994 года, популярный среди исследователей, занимающихся наукой о данных. Python отличается простотой использования среди новичков и большой мощностью при использовании опытными пользователями, особенно когда используются преимущества специализированных библиотек, таких как библиотеки, предназначенные для машинного обучения и генерации графиков.

R2 — коэффициент детерминации, доля общей дисперсии зависимой переменной в регрессионном анализе, которая объясняется моделью.

Structures Query Language (SQL) — язык программирования, разработанный для управления и извлечения данных из системы реляционных баз данных.

t-распределение — также называется распределением Стьюдента. Непрерывное распределение, чья форма подобна нормальному распределению и которое характеризуется своей степенью свободы. Используется для проверки гипотез о средних значениях выборки.

TensorFlow™ — программная библиотека с открытым исходным кодом для высокопроизводительных численных расчетов. Гибкая архитектура позволяет развертывать вычисления на различных платформах (процессорах, графических процессорах, TPU), от настольных компьютеров до кластеров серверов, мобильных и периферийных устройств. Обеспечивает поддержку машинного обучения и глубокого обучения, гибкое ядро для численных вычислений используется во многих других научных областях.

Абсолютное значение — неотрицательное число, обозначаемое |x| и определяемое как:

если x < 0, то |x| = -x,
если x ≥ 0, то |x| = x.

Алгоритм — упорядоченный набор действий (операций, процедур), которые приводят к достижению заранее поставленной цели. Например, алгоритм Евклида указывает, как найти наибольший общий делитель (НОД) двух натуральных чисел a и b.

Пусть a > b.
Шаг 1. a = b*q1 + r1
Если r1 = 0, то НОД (a, b) = b
Если r1 > 1, то шаг 2.
Шаг 2. b = r1*q2 + r2
Если r2 = 0, то НОД (a, b) = r1
Если r2 > 0, то шаг 3 и тд.
Так как b > r1 > r2 >…, то процесс заканчивается при любых заданных a и b за конечное число шагов и наибольший общий делитель будет найден.
Пусть требуется решить систему двух уравнений первой степени с двумя неизвестными x, y:

Алгоритм решения этой системы дается формулами:

в которых полностью выражен как состав действий, так и порядок их выполнения.

В приведенных формулах предусмотрена одна и та же цепочка действий для всех задач данного типа. Алгоритм работает при любых коэффициентах в предположении, что знаменатели приведенных выражений не обращаются в 0.

В противоположность классическому алгоритму, эвристические алгоритмы — алгоритмы решения задачи, правильность которых не доказана для всех случаев, но про которые известно, что они дают достаточно хорошее решение в большинстве случаев. В дейта сайнс интенсивно используются разнообразные алгоритмы, в частности алгоритм градиентного спуска нахождения локального минимума функции потерь с помощью движения вдоль градиента.

Алгоритм градиентного бустинга (boosting — улучшение, xgboost) — процедура последовательного построения композиции алгоритмов машинного обучения с целью улучшения качества классификации или предсказательной силы модели.

Алгоритм обратного распространения ошибки (backpropagation) — применяется для обучения многослойных персептронов. Ключевая идея состоит в том, чтобы вычислить градиент функции потерь, необходимый для корректировки весов, которые необходимо использовать в сети. Вначале веса нейронов выбираются случайным образом, далее сеть обучается на входных наборах обучающей выборки. Выход нейрона зависит от взвешенной суммы его входов, который далее через передаточную функцию передается на другие нейроны и достигает последнего слоя. Функция потерь зависит от параметров сети и интуитивно представляет собой некоторую «стоимость», связанную с этими значениями. Фактически функция потерь задает меру несоответствия между ожидаемым сигналом на выходе сети и значением, которое наблюдается на обучающей выборки. Вначале ошибка вычисляется на последнем выходном слое, далее она подается на нейроны предыдущего слоя и тд. Корректировка весов производится с помощью метода градиентного спуска. Обычно функция потерь является квадратичной, функции активации нейронов дифференцируемые функции, что позволяет применять градиентный спуск.

Альтернативная гипотеза, альтернатива — гипотеза относительно интересующего нас эффекта, которая противоречит нулевой гипотезе и верна, если нулевая гипотеза ложная.

Альфа зиро (Alpha Zero) — алгоритм игры в шахматы, основанный на нейронных сетях и самообучении.

Апостериорная вероятность — индивидуальное доверие, основанное на априорной вероятности и новой информации (например, результат критериальной проверки), в то, что событие произойдёт.

Апостериорные сравнения — делаются для корректировки значения P, когда проводятся множественные (многократные) сравнения гипотез, например поправка Бонферрони или более мощная современная поправка Холма (1979).

Априорная, доопытная вероятность — априорная вероятность, оценённая до появления результата диагностического теста.

Арифметическое среднее — мера положения, полученная делением суммы значений переменной по наблюдениям на число слагаемых, часто называемая просто средним.

Асимметричное распределение — асимметричное распределение данных имеет длинный хвост справа с несколькими высокими значениями (положительно скошенное) или длинный хвост слева с несколькими низкими значениями (отрицательно скошенное).

База данных (Database). Для данных необходим особый способ хранения и обработки, чтобы они могли трансформироваться в информацию и далее использоваться для каких-либо полезных выводов. Базы данных обычно содержат совокупности записей данных или файлов, таких как последовательность производственных действий, транзакции, каталоги продуктов, запасы, профили клиентов и т.д. Данные обновляются, расширяются и удаляются по мере добавления новой информации. Данные организованы в строки, столбцы, таблицы, которые индексируются, чтобы упростить поиск необходимой информации. Одна из задач специалиста в дейта сайнс — уметь работать с системами управления базами данных, выгружать данные из различных баз данных для дальнейшего их анализа.

Базы данных XML позволяют хранить данные в формате XML. Базы данных XML часто связаны с документно-ориентированными базами данных. Данные, хранящиеся в базе данных XML, можно запрашивать, экспортировать в любой необходимый формат.

Байесовский метод вывода — вывод на основе теоремы Байеса, использует не только текущую информацию, но и прежнее суждение о гипотезе для оценки апостериорной вероятности, оценивающей уровень доверия к гипотезе после наблюдаемых событий.

Байесовская сеть — это вероятностная графическая модель (тип статистической модели), которая представляет набор переменных и их условных зависимостей с помощью направленного ациклического графа. Например, байесовская сеть может представлять вероятностные отношения между признаками клиента и его покупками. С учетом различных признаков сеть можно использовать для расчета вероятности приобретения тех или иных групп товаров, отклика на рекламу и т. д. Эффективные алгоритмы могут выполнять вывод и обучение в байесовских сетях. Байесовские сети, моделирующие последовательности переменных (например, речевые сигналы или белковые последовательности), называются динамическими байесовскими сетями. Обобщения байесовских сетей, которые могут представлять и решать задачи решения в условиях неопределенности, называются диаграммами влияния, основаны на теореме Байеса.

Бернулли испытание — эксперимент только с двумя возможными исходами, например, выпадение герба или решки при бросании монеты. Вероятность выпадения герба полагается равной p, вероятность выпадения решки q. 
0 < p, q < 1, p + q = 1. 
Для симметричной монеты имеем следующие значения параметров распределения Бернулли: p = q = ½.

Случайная величина, равная числу успехов в N независимых испытаниях Бернулли, имеет биномиальное распределение, которое интенсивно используется в различных областях, включая телекоммуникации, страхование, промышленность (карты контроля качества).

Бета-уровень (β-уровень) — вероятность ошибочного принятия нулевой гипотезы, когда в действительности верна альтернатива. В клинических исследованиях значение β-уровня обычно устанавливается равным 0,2 или 0,1. Величина (1- β) – статистическая мощность теста, в клинических исследованиях обычно 0,8 вероятность выявления разницы между группами при условии, что она действительно существует. Если выборки малы, то статистическая мощность может быть низкой. Для больших выборок статистические тесты имеют большую статистическую мощность, это означает, что истинные различия между группами выявляются с большей вероятностью.

Бизнес-аналитика (Business Intelligence). Бизнес-аналитика включает в себя стратегии, технологии и информационные системы, стремясь улучшить принятие решений на основе прошлых результатов с использованием отчетов, OLAP, панелей мониторинга, систем показателей, таблиц, визуализация данных, предиктивных моделей, построенных как с помощью классических статистических методов, так и с помощью дейта майнинга и машинного обучения.

Бимодальное распределение — распределение, имеющее две моды, два максимума плотности распределения. Обычно свидетельствует о неоднородности данных.

Бинарная переменная — качественная переменная с двумя категориями, также называется дихотомической переменной.

Бинарные данные — данные, выражаемые только двумя альтернативными значениями, например, да, нет, при ответе респондентов.

Биномиальная теорема — даёт разложение (x + y)n, где n — любое натуральное число в виде:

где число сочетаний из n по k.

Например, (x + y)2 = x2 + 2xy + y2

(x + y)3 = x3 + 3x2y + 3xy2 + y3

Биномиальное распределение — распределение количества «успехов» в последовательности из n независимых случайных экспериментов, таких что вероятность «успеха» в каждом из них равна p.
Рассмотрим независимые случайные величины Ei, имеющие распределение Бернулли: Ei, принимает значение 1 или «успех» с вероятностью p; значение 0 или «неудача&quot; с вероятностью q = 1 — p. Вероятность получить k успехов в серии n независимых испытаний равна:

p — вероятность успеха в каждом испытании; 
q — величина, равная 1-p;
n — число независимых испытаний.

Пример: вероятность выпадения двух гербов при двукратном бросании симметричной монеты равна ¼. Для симметричной (правильной) монеты выпадения герба или решки равновероятно: q = p = ½ = 1, следовательно, вероятность выпадения двух гербов P (=2) =¼.

Блок, группа — однородная группа экспериментальных единиц, которые имеют подобные характеристики, также называется «страта».

Большие данные (Big Data) — включает в себя стратегии, технологии и информационные системы, направленные на получение, обработку, хранение, анализ и визуализацию сложных структурированных и неструктурированных наборов данных с помощью пакетной обработки, потоковой обработки, NoSQL, HPC, MPP, In-Memory и других.

Большой объём данных (Big Data Volume). Объём относится к количеству сгенерированных и сохраненных данных. Размер данных определяет ценность и потенциальное понимание, и действительно ли это можно считать большими данными или нет.

Бонферрони поправка — поправка к уровню значимости, рассчитанному с помощью критерия парных сравнений, например, t-критерия, в случае, если сравниваются k > 2 выборок и проверяется k гипотез. При увеличении числа проверяемых гипотез мощность статистической процедуры резко уменьшается. Метод Холма равномерно более мощный, чем поправка Бонферрони в множественных (многократных) сравнениях, и решает проблему уменьшения мощности при увеличении числа проверяемых гипотез.

Бустинг (boosting — улучшение) — процедура последовательного построения композиции алгоритмов машинного обучения с целью улучшения, например, качества классификации. При использовании комбинированного алгоритма качество классификации может быть увеличено.

Бутстреп — процесс моделирования, используемый обычно при получении оценок доверительного интервала для параметра. Использует для оценки параметра многократное извлечение случайных выборок, полученных из первоначальной выборки; после получения доверительного интервала рассматривается вариабельность распределения этих оценок.

Вариация остатков — вариация переменной, которая остаётся после того, как удалена вариабельность, относящаяся к интересующим нас факторам. Это вариация, не объяснимая моделью, также называется «ошибочная, или необъяснённая, вариация».

Вероятностные модели. Вероятностная модель представляет собой математическое представление случайного события. Он определяется пространством элементарных событий и вероятностью событий.

Вероятность события — вероятность события А, обозначаемая P{A}, есть число, лежащее в диапазоне от нуля до единицы, указывающее, насколько правдоподобно данное событие. Вероятности событий подчиняются следующим правилам:

  1. P {A} = 1, если событие A наверняка произойдет (достоверное событие);
  2. P {A} = 0, если событие A невозможно (не может осуществиться);
  3. P {AꓴB} = P{A}+P{B} — P{A∩B}
  4. Если события A и B не могут осуществиться одновременно (являются несовместными), то: P {AꓴB} = P{A}+P{B}
  5. P {не A} = 1-P{A}

Вероятность условная — вероятность наступления события А при условии, что наступило событие В: P {A|B} = P{A∩B}/P(B), P(B) > 0.

Взвешенное среднее — модификация среднего арифметического, полученная путём учёта веса по каждому значению переменной в группе данных.

Взвешенное среднее арифметическое (Weighted Average) — метод вычисления среднего арифметического набора чисел, в котором одни элементы множества имеют большее значение (вес), чем другие.

Воспроизводимость — степень совпадения экспериментальных значений, полученные в идентичных условиях.

Временной ряд — значение переменной, наблюдаемые в последовательных точках во времени.

Вторая конечная точка — исходы в клиническом исследовании, которые не имеют главного значения.

Выбор модели — процедура формирования упрощённой схемы изучаемого явления. В регрессионном анализе выбор модели может проводиться с использованием разных алгоритмов отбора предикторов в уравнении регрессии. Наиболее популярны модели пошагового включения и исключения предикторов, а также их комбинации.

Выборка (sample, set) — конечный набор данных из генеральной совокупности, который получается с помощью определенного процесса, возможно случайного выбора или отбора на основе определенных критериев для расследования свойств основной исходной совокупности.

Выборка обучающая (training sample) — выборка, на которой производится обучение алгоритма, в частности, нейронной сети с целью минимизации заданной функции потерь.

Выборка тестовая (или контрольная) (test sample) — выборка, на которой оценивается качество построенной модели и контролируется процесс обучения с целью исключения эффекта переобучения. Тестовый набор данных не зависит от обучающей выборки, но имеет одинаковое с ней распределение вероятностей.

Выборка проверочная (validation sample) — выборка, на которой осуществляется проверка модели из множества моделей, построенных по обучающей выборке и выбирается лучшая модель.

Выброс, аномальное значение — наблюдение, которое отличается от основной части данных и несовместимо с остальными данными. Выбросы смещают оценки и устраняется на этапе предварительной обработки (чистки) данных.

Генератор случайных чисел — программа, которая позволяет генерировать псевдослучайные числа.

Геометрическое распределение — дискретное распределение вероятности числа испытаний, необходимых для достижения первого успеха в последовательности испытаний Бернулли. Вероятность того, что первый успех произойдет на шаге k равна Pk = p (1 — p)k-1. Например, вероятность того, что при бросании симметричной монеты герб первый раз выпадет на шаге 3 равна:

P3 = 0,5 (0,5)2 = 0,125

Вероятность того, что при бросании симметричной монеты герб первый развыпадет на шаге 5 равна:

P5 = 0,5 (0,5)4 = 0,03125

Гистограмма — диаграмма, представляющая распределение частот значений переменной (или частот значений на каждом из интервалов, на которые разбита выбранная область изменения переменной). Огибающая гистограммы показывает форму функции плотности распределения.

Градиент — градиент скалярной функции f(x1, … xk) определяется как вектор ее частных производных:

Для обозначения градиента используется также оператор набла:

Градиент указывает направление наибольшего возрастания функции и перпендикулярен линии уровня в данной точке. Модуль градиента показывает максимальную скорость изменения функции в окрестности точки или частоту линий уровня.

Антиградиент — вектор, противоположный градиенту, т.е. это вектор, компоненты которого по абсолютной величине совпадают с компонентами градиента, но имеют противоположный знак. Антиградиент указывает направление наибольшего убывания функции. Формально антиградиент функции f(x1, … xk) равен — grad f. Пример: f(x,y) = x**2 + y**2, в точке (1,1) имеем: grad f (1,1) = (2, 2), antigrad (1,1) = (-2, -2).

Группа контроля, группа сравнения — пациенты в рандомизированном контролируемом исследовании, которые не получают активного лечения.

Данные структурированные — данные, которые организованы по заранее определенной структуре.

Данные неструктурированные — данные, которые либо не имеет заранее определенной структуры, либо не организованы в определенном порядке, например, текстовые данные. Большие данные представляют собой совокупность структурированных и неструктурированных данных.

Двухвыборочный критерий Вилкоксона ранговых сумм — непараметрический критерий, сравнивающий распределение двух независимых групп наблюдений.

Дерево решений — формально дерево решений — это древовидный граф, состоящий из узлов и листьев, соединённых между собой рёбрами. В узлах графа происходит принятие решений, а листья указывают на классы. Граф дерева решений должен быть ациклический, иначе он перестает быть древовидным. Деревья решений подразделяются на два типа: деревья классификации и деревья регрессии. Определяющим фактором, от которого зависит тип дерева, является выходное значение, непрерывное или категориальное.

Детерминированный эксперимент — процесс, в котором результат определен заранее.

Децили — величины, которые делят упорядоченные наблюдения на 10 равных частей (по числу наблюдений).

Диаграмма «стебель-листья» — полуграфический метод, используемый для представления числовых данных, в котором первая (крайняя слева) цифра каждого значения данных является стеблем, а остальные цифры числа — это листья.

Диаграмма Венна — графические средства отображения пересечения и объединения множеств, представляя их как ограниченные области.

Диаграмма рассеяния — график двух переменных, в которых каждая точка определяется по ее координатам (X, Y). Например, высота и вес.

Дискретная переменная — числовая переменная, которая может принимать дискретные значения.

Дисперсионный анализ (ANOVA) — общий термин для методов, которые сравнивают средние значения групп наблюдений путём расщепления общей дисперсии переменной на её компоненты, причём каждая относится к отдельному фактору. Дисперсионный анализ (ДА) представляет собой набор статистических моделей для анализа различий между групповыми средними и связанными с ними процедур (например, «вариации» в группе и между группами). В ДА наблюдаемое отклонение конкретной переменной разбивается на составляющие, относящихся к разным источникам вариации. В своей простейшей форме, ДА является статистическим тестом на равенство средних нескольких групп, и поэтому обобщает t-тест Стьюдента на случай трех и более групп. Многократное использование двухвыборочного t-теста приведет к увеличению вероятности ошибки первого рода. По этой причине ДА полезен при сравнении трех и более средних (групп и переменных) с точки зрения статистической значимости. Существует три класса моделей, которые используют в дисперсионном анализе:

  • Модель с фиксированными эффектами — данная модель используется тогда, когда экспериментатор применяет одно или несколько воздействий на объект исследования, чтобы понять, меняется ли зависимая переменная. Это позволяет экспериментатору оценить диапазон значений зависимых переменных, который бы наблюдался, если бы воздействие было направлено на всю популяцию.
  • Модель со случайными эффектами — данная модель используется тогда, когда воздействия не фиксированы. Это происходит тогда, когда различные уровни факторов является выборкой из большей популяции. Поскольку сами уровни являются случайными величинами, некоторые предположения и метод контрастирующего воздействия отличаются от модели с фиксированными эффектами.
  • Модель со смешанными эффектами — данная модель содержит экспериментальные факторы и фиксированного и случайного типа, с соответствующими различными интерпретациями и анализами двух типов.

Пример: Эксперимент состоит в том, что несколько дизайнеров разрабатывают упаковку продукта. При этом каждый вариант упаковки считается воздействием. Модель с фиксированными эффектами будет сравнивать вид упаковки. Модель со случайными эффектами могла бы определить, существуют ли важные различия между восприятиями случайно выбранных покупателей. Модель со смешенными эффектами будет сравнивать данную упаковку с несколькими случайно выбранными альтернативами.

Дисперсия — способ описания рассеяния или вариабельности наблюдений в выборке. Общими мерами вариабельности данных являются дисперсия, стандартное отклонение, межквартильный размах.

Доверительные границы — верхняя и нижняя величины доверительного интервала.

Доверительный интервал для параметра — диапазон значений, внутри которого, как мы (обычно) верим на 95%, лежит истинный параметр популяции. Строго говоря, после повторных отборов в этом интервале лежит 95% оценок этого параметра.

Доверительный интервал — интервал, вычисленный из выборки, который содержит значение определенного параметра совокупности с определенной вероятностью.

Достоверность больших данных (Big Data Veracity). Достоверность — это качество данных, которое может сильно различаться, что влияет на точный анализ.

Древовидная диаграмма — диаграмма, отображающая все возможные результаты события.

Зависимая переменная — переменная (обычно обозначенная как Y), которая предсказана независимой переменной в регрессионном анализе, также называется откликом.

Зависимые события — два события зависимы, если наступление одного влияет на вероятность наступления другого.

Интеллектуальный анализ данных или дейта майнинг (Data Mining).Обычно интеллектуальный анализ данных определяют как «применение определенных алгоритмов для извлечения шаблонов из данных». При интеллектуальном анализе данных акцент делается на применении алгоритмов, в отличие от самих алгоритмов. Мы не выдвигаем заранее гипотез относительно данных, а находим взаимосвязи в данных. Мы можем определить взаимосвязь между машинным обучением и интеллектуальным анализом данных следующим образом: интеллектуальный анализ данных — это процесс, в ходе которого алгоритмы машинного обучения используются в качестве инструментов для извлечения потенциально ценных шаблонов, хранящихся в наборах данных.

Интерквартильный размах — разница между первым и третьим квартилем (IQR).

Интернет вещей (Internet of Things) (IoT). Концепция IoT позволяет вести интернет-связь между физическими объектами, датчиками и контроллерами. Данные IoT поступают с устройств, которые часто записывают процессы с большим количеством помех (температура, давление, скорость), в результате данные этих устройств зачастую содержат ощутимые пробелы, поврежденные сообщения и ложные показания, которые необходимо очистить перед тем, как провести анализ и провести предобработку (предпроцессинг).

В металлургии прокатка стали может проводиться с разной скоростью, давлением, температурой, в нефтедобывающей промышленности в реальном времени проводится мониторинг состояния погружного насосного оборудования (УЭЦН). Технологии IoT позволяют вести мониторинг потребления электроэнергии на предприятии, состояния оборудования, онлайн-мониторинг вибрации позволяет предотвратить отказ оборудования, разрушение зубцов в редукторе, отказ подшипников, выявить проблемы со смазкой и т. д. Отслеживание пиков вибрации в реальном времени, так называемая технология пиковых нагрузок (Peak Value), позволяет минимизировать отказы насосов и сократить расходы на обслуживание. Данные о вибрации передаются в систему управления технологическими процессами, анализируются с помощью заранее настроенных и тестированных моделей. Интернет вещей — Internet of Things (IoT) — является растущим источником генерации больших данных. Внедрённая сеть позволяет технически быстро и эффективно получать информацию о состоянии объектов контроля, добавлять и переносить беспроводные приборы для получения дополнительной информации о процессах в удаленных или труднодоступных местах.

Интерполяция — оценка неизвестного значения, которое лежит между двумя известными значениями.

Каппа Кохена — мера согласия между двумя группами качественных измерений на одних субъектах.

Если ĸ=1 — совершенное согласие, если ĸ=0 — не лучше, чем случайное согласие.

Использование коэффициентов корреляции, таких как r Пирсона, может плохо отражать степень согласия между экспертами, что приводит к чрезмерному завышению или занижению истинного уровня согласия. Значения каппа ≤ 0 указывают на отсутствие согласия, 0,01–0,20 — на несущественное, 0,21–0,40 — на удовлетворительное, 0,41–0,60 — на умеренное, 0,61–0,80 — на значительное и 0,81–1,00 на почти полное, идеальное согласие.

Пусть два эксперта оценивают одни и те же объекты, например, качество товара или эффективность рекламной кампании. Проверяемая гипотеза: оценки экспертов являются независимыми. Альтернатива — между экспертами есть согласие. Гипотезу можно проверить с помощью статистики каппа Кохена (Cohen’s kappa). Формула для каппа Кохена имеет вид:

Каппа Кохена = k =

где P(a) вероятность наблюдаемого согласия экспертов, P(e) вероятность случайного согласия экспертов (в предположении, что действия экспертов независимы).

Для таблицы сопряженности 2 на 2, в случае, когда 2 эксперта при сравнении nобъектов дают ответ да или нет, P(e) оценивается следующим образом:

Пусть два эксперта оценивают 222 объекта, n = 222

Тогда каппа Кохена = k = (0.94 – 0.57)/(1 — 0.57) = 0.86

95% доверительный интервал для каппа определяется как

(k − 1.96 × SEk , k + 1.96 × SEk)

где SEk стандартная ошибка оценки.

где p вероятность согласия, вычисленная как

p = (n11 + n22) / n

Обобщением каппа Кохена является статистика каппа Флейса (Fleiss kappa), применяемая для оценки согласия трех и более экспертов. Заметим, что каппа Кохена — это форма коэффициента корреляции. Коэффициенты корреляции не могут быть интерпретированы непосредственно, но квадрат коэффициента корреляции, называемый коэффициентом детерминации, интерпретируется и объясняет, какая доля вариации в зависимой переменной может быть объяснена независимой переменной. Возведение в квадрат значения каппа концептуально преобразуется в величину точности в данных, возникающую из-за согласия экспертов.

Категориальные данные — данные, которые описываются небольшим числом дискретных категорий, например, пол респондента, мужской или женский, является категориальной переменной.

Квартили — значения, которые делят упорядоченные наблюдения на четыре равные части. Различают нижний, верхний квартиль, а также медиану выборки.

Кластеры данных — часть высокой концентрации групп данных в наборе данных, скопление однотипных объектов, которые близки между собой и отличаются от других объектов выборки.

Кластерный анализ — метод машинного обучения без учителя, который включает группировку данных. Учитывая набор точек данных, мы можем использовать алгоритм кластеризации для классификации каждой точки в определенную группу или коастер. Теоретически, наблюдения, которые находятся в одной и той же группе, должны иметь схожие свойства, тогда как наблюдения в разных группах должны иметь очень разнородные свойства. Кластеризация — это метод неконтролируемого обучения и является общей методикой анализа статистических данных, используемой во многих областях.

В Data Science мы можем использовать метод кластеризации, чтобы получить ценную информацию из наших данных, видя, к каким группам они относятся, после применения алгоритма кластеризации. Популярные методы кластерного анализа: K-Means, MeanShift, DBSCAN, expectation maximization (EM) algorithm, иерархическая кластеризация.

Клетка таблицы сопряжённости — пересечение отдельной строки и отдельного столбца таблицы сопряженности. Матрица ошибочной классификации алгоритма машинного обучения является типичным примером таблицы сопряженности, в которой на диагонали указано число правильно классифицированных объектов, вне диагонали число ошибочно классифицированных объектов.

Коллинеарность — пары независимых переменных в регрессионном анализе высоко коррелируют, если их корреляции по модулю близки к единице.

Контрольная группа — термин, применяемый в сравнительных исследованиях, например, в клинических испытаниях, для обозначения группы сравнения.

Конфаундинг (также confounding variableconfounding factor, lurking variable). В анализе данных и дейта сайнс смешивающая переменная (смешивающий фактор) — переменная, которая влияет как на зависимую переменную, так и на независимую переменную, искажая результаты исследования.

Корреляция — корреляция между двумя переменными x и y является мерой связи между переменными. Корреляционный анализ исследует степень связи между переменными x и y, например, между числом посетителей интернет-магазина (хостов) и покупкой товаров, площадью квартиры и цена, объемом двигателя и стоимостью автомобиля и др.

Пусть имеем выборку (x1. y1), (x2, y2),…,(xn, yn)

Выборочный коэффициент корреляции Пирсона r формально определяется как

  • Коэффициент корреляции изменяется в интервале от -1 до +1
  • Если r>0, то говорят о положительной коррелированности величин
  • Если r<0, то говорят об отрицательной коррелированности величин
  • Если r = 0, то говорят о некоррелированности величин
  • Чем ближе r к крайним точкам (±1), тем больше степень линейной связи

На практике используют следующее эмпирическое правило:

  • r [-0.25 to +0.25] → нет связи
  • r (0.25 to +0.50] или (-0.25 to -0.50] → слабая связь
  • r (0.50 to +0.75] или (-0.50 to -0.75] → умеренная связь
  • r (0.75 to +1) или (-0.75 to -1) → сильная связь

Эквивалентное выражение дает коэффициент корреляции как среднее стандартных оценок. Основываясь на выборке из парных данных (Xi, Yi), выборочный коэффициент корреляции Пирсона определяется также как:

где

— это стандартизация, выборочное среднее и выборочное стандартное отклонение, соответственно. Мы можем отметить точку, соответствующую паре величин, на графике. Обычно на графике переменную x располагают на горизонтальной оси, а у — на вертикальной. Получаем график, так называемая диаграмма рассеяния, который говорит о соотношении между двумя переменными. Величина r показывает, как близко расположены точки к прямой линии. Ключевым математическим свойством коэффициента корреляции Пирсона является инвариантность (с точностью до знака) при сдвиге и масштабировании двух переменных. То есть, мы можем преобразовать переменную X в a + bX и переменную Y в c + dY, где a, b, c, и d – некоторые постоянные, не меняя коэффициент корреляции. На практике, доверительные интервалы и проверка гипотез, относящихся к ρ обычно осуществляется с использованием преобразования Фишера:

Бутстреп может быть использован для построения доверительных интервалов для коэффициента корреляции Пирсона.

Коэффициент вариации — стандартное отклонение, делённое на среднее, часто выражено в процентах, является мерой вариабельности данных.

Коэффициент детерминации. Квадрат коэффициента корреляции обозначается r2 и называется коэффициентом детерминации. Коэффициент детерминации оценивает долю изменчивости переменной Y, которая объясняется с поощью переменной X в линейной регрессионной модели. Пусть имеем пару переменных Х и Y, принимающих значения X1 … Xn, Y1 … Yn.Например, наблюдаем значения независимой переменной Xi и соответствующие значения отклика Yi, дозу лекарственного препарата и эффект, долю примеси и проводимость медной проволоки и т. д. Мы хотим понять, как переменные Х и Y связаны между собой. Одной из разумных мер зависимости является коэффициент корреляции. Формально выборочный коэффициент корреляции между переменными Х и Y имеет вид:

Так как коэффициент корреляции меняется в пределах от -1 до +1, то коэффициент детерминации лежит в пределах от 0 до +1. На первый взгляд громоздкая формула имеет простой смысл. Покажем, как коэффициент корреляции и коэффициент детерминации связаны с линейной регрессией. Пусть по наблюдениям Xi, Yi построена линейная регрессионная модель:

где коэффициенты a, b оценки по методу наименьших квадратов. Общее изменение Yi относительно среднего значения можно разложить по формуле:

Это замечательное выражение называется основным тождеством регрессионного анализа.

Выражение (*) можно преобразовать:

Затем мы применяем свойство наименьших квадратов регрессионной модели, заключающееся в том, что ковариация выборки между предсказанными значениями и остатками и Yi — равна нулю. Таким образом, коэффициент корреляции выборки между наблюдаемыми и предсказанными значениями равен:

Отсюда получаем, что квадрат коэффициента корреляции или коэффициент детерминации равен доле дисперсии, которая объясняется в линейной регрессионной модели:

Коэффициент корреляции Пирсона. Пусть имеем выборку (x1. y1), (x2, y2),…,(xn, yn). Выборочный коэффициент корреляции Пирсона r формально определяется как

где

  • Коэффициент корреляции лежит в интервале от -1 до +1
  • Если r>0, то говорят о положительной коррелированности величин
  • Если r<0, то говорят об отрицательной коррелированности величин
  • Если r = 0, то говорят о некоррелированности величин
  • Чем ближе r к крайним точкам (±1), тем больше степень линейной связи

На практике используют следующее эмпирическое правило оценки связи между двумя переменными:

  • r [-0.25 to +0.25] → нет связи
  • r (0.25 to +0.50] или (-0.25 to -0.50] → слабая связь
  • r (0.50 to +0.75] или (-0.50 to -0.75] → умеренная
  • r (0.75 to +1) или (-0.75 to -1) → сильная связь

Для пар с некоррелированным двумерным нормальным распределением, выборочное распределение коэффициента корреляции Пирсона соответствует t-распределению Стьюдента с степенями свободы n — 2. Доверительные интервалы и проверка гипотез относительно коэффициента корреляции Пирсона обычно проводится с использованием преобразования Фишера:

Для получения доверительного интервала для ρ, вначале вычислим доверительный интервал для F(ρ):

Далее используем обратное преобразование Фишера:

Коэффициент логистической регрессии — коэффициент регрессии для конкретного предиктора в логистической регрессии.

Коэффициент ранговой корреляции Спирмена — аналог коэффициента корреляции Пирсона, вычисленный по рангам наблюдаемых величин. Если заменить в формуле для коэффициента корреляции Пирсона наблюдаемые значения их рангами, то получим коэффициент корреляции Спирмена. Пусть имеется две выборки: X=(x1,x2,…,xn)Y=(y1, y2, …, yn). Обозначим за Ri — ранг наблюдения xi, а Si — ранг наблюдения yi. Тогда коэффициент корреляции Спирмена вычисляется по формуле:

В случае несовпадающих рангов имеет место следующая формула для коэффициента ранговой корреляции Спирмена:

Коэффициент корреляции Спирмена r всегда лежит в интервале −1 ≤ r ≤ 1. Для проверки гипотезы об отсутствии корреляции можно использовать критерий перестановок или аналог преобразования Фишера. Один из подходов к проверке того, значительно ли выборочное значение корреляции Спирмена отличается от нуля заключается в применении теста перестановок. Преимущество подхода заключается в том, что автоматически учитывается число совпадающих значений в данных.

Корреляция Кендалла. Пусть наблюдаются значения (x1, y1), (x2, y2), …, (xnyn) случайных величин X и Y такие, что все наблюдаемые значения различны. Тогда коэффициент ранговой корреляции Кендалла равен:

Если наблюдаемые величины являются независимыми, то среднее статистики rравно 0. Для малых выборок распределение ранговой корреляции Кендалла rможно вычислить точно, для больших выборок используют нормальное приближение. При больших распределение коэффициента Кендалла приблизительно равно нормальному распределению со средним 0 и дисперсией 2(2n + 5)/9n(n-1).

Кривая операционной характеристики (ROC-кривая) — монотонная кривая, позволяющая оценить качество бинарной классификации. По оси Х откладывается вероятность ошибочной классификации объекта без признака (false positive rate), по оси Y вероятность истинной классификации объекта с признаком (true positive rate). Применяется для сравнения тестов и выбора оптимального порога классификации. Ключевым показателям является AUC(area undercurve), площадь под ROC-кривой. Чем выше показатель AUC, тем качественнее работает алгоритм классификации.

Критерий Краскела  Уоллиса — непараметрическая альтернатива однофакторного дисперсионного анализу ANOVA. Применяется для сравнения распределений более двух независимых групп наблюдений.

Критерий Мак-Немара: сравнивает доли (пропорции) в двух соотносящихся группах, применяя статистику критерия хи-квадрат Пирсона.

Критерий отношения дисперсий — F-критерий Фишера-Снедекора, используется для проверки гипотез о равенстве дисперсий в популяции.

Критерий хи-квадрат Пирсона: используется в частотных данных. Он проверяет нулевую гипотезу, что нет связи между факторами, которые определяют таблицу сопряженности. Также применяется для тестирования разницы в долях (пропорциях) данных.

Критическая область (critical region) —критическая область проверки гипотезы — область выборочных значений, при которых нулевая гипотеза отклоняется.

Круговой график — диаграмма, показывающая частотное распределение категориальной переменной. Круг делится на сегменты, площадь каждого пропорциональна частоте категории, к которой он относится.

Кумулятивная частота — сумма частот всех значений до заданного значения. Если значения x1, x2,… xn в порядке возрастания, происходят с частотами f1, f2, … fn соответственно, то кумулятивная частота xi определяется как f1 + f2 + … + fi.

Линейный график — линейный график, который упорядочивает данные по реальной линии. Также называется точечным графиком.

Линия регрессии — прямая линия, используемая для оценки взаимосвязи между двумя переменными, основанная на точках участка рассеяния; часто определяется методом наименьших квадратов. Когда линия склоняется вниз (сверху слева направо вниз), это указывает на отрицательную или обратную связь между переменными; когда она наклоняется (снизу слева направо вверх), указывается положительная или прямая связь.

Лог-нормальное распределение — вытянутое вправо распределение вероятности непрерывной случайной переменной, чей логарифм подчиняется нормальному распределению.

Логистическая регрессия, логит-регрессия. Логистическая регрессия предоставляет метод моделирования бинарной переменной отклика, принимающей значения 1 и 0. Например, вероятность того, что посетитель с данными признаками сделает покупку в интернет-магазине. В общем случае решается задача классификации с двумя классами (y=0 или 1, где переменная y указывает класс объекта) в предположении, что вероятность принадлежности объекта к одному из классов выражается через набор признаков этого объекта x1,…, xk.

В данном случае мы не можем применить обычную линейную регрессию, так как отклик является категориальным. Для получения оценок проводится логистическое преобразование наблюдаемых частот. Логистическая или логит функция используется для преобразования S’-образной кривой приблизительно в прямую линию и изменения долей в диапазоне -∞ -+ ∞. Определим логит-преобразование наблюдаемых частот определенного исхода формулой:

где р есть вероятность исхода. 
Заметим, что при р, стремящихся к 0, logit(p) стремится к -∞.
При р, стремящихся к 1, logit(p) стремится к +∞.
Величина p/(1-p) называется отношением шансов (odds ratio) – вероятность наступления определенного исхода, деленная на вероятность не наступления исхода.
Соотношение между вероятностью исхода и значение предиктора х может быть описано линейной моделью: logit (р) = а + bх

Хотя данная модель кажется похожей на обычную модель линейной регрессии, лежащее в основе распределение — биномиальное, параметры a и b не могут быть оценены как в простой линейной регрессии методом наименьших квадратов.
В логит-регрессии параметры оцениваются с помощью метода максимального правдоподобия.

Лог-ранговый критерий – непараметрический подход к сравнению двух кривых выживаемости.

Ложноотрицательный – пациент, который имеет заболевание, но диагностируется как не имеющий его.

Ложноположительный – пациент, который не имеет заболевания, но диагностируется как имеющий его.

Источник