Вы хотите изучать статистику и применять ее в науке о данных без долгих и дорогих курсов? Хорошие новости… Вы можете освоить основные понятия, вероятность, Байесовскую вероятность и даже статистическое машинное обучение, используя только бесплатные онлайн-ресурсы.

Сегодня мы подобрали лучшие ресурсы для начинающих интересоваться базовыми понятиями анализа данных. Эти знания пригодятся вам в дальнейшей работе, в том числе и для участия хакатонах.

# Вы можете больше узнать о соревнованиях в нашей статье «Kaggle для начинающих»

Вам не обязательно иметь ученую степень по Математике чтобы стать специалистом по анализу данных, однако если у вас технический склад ума, вам определенно понравится практический подход к решению задач.

Это руководство предоставит вам инструменты статистического анализа, необходимые для науки о данных. Это даст вам огромное преимущество перед другими аналитиками, которые пытаются обойтись без этого.

У вас может возникнуть соблазн сразу перейти к использованию пакетов машинного обучения, как только вы научитесь программировать … И это довольно распространенная практика для начинающих специалистов, т.к. она позволяет познакомиться с работой на реальных задачах.

Но полностью пропускать статистику и теорию вероятностей ни в коем случае нельзя. Это крайне важный этап для вашей карьеры в качестве аналитика данных.

Предварительные требования: базовые навыки Python

Чтобы полностью пройти это руководство, вам понадобятся хотя бы базовые навыки программирования на Python. Мы будем изучать статистику на прикладном, практическом уровне.

Ранее мы писали о том как изучать Python для машинного обучения. Вы можете ознакомиться с руководством в нашей группе.

Другие языки тоже прекрасны, но примеры будут в Python. Это самый популярный язык в нашей компании и на то есть свои причины.

Статистика, необходимая для науки о данных

Статистика- очень емкое понятие, применимое во многих областях.

Как и в программировании, вам не обязательно знать досконально все. Мы возьмем из статистики только то, что нужно для анализа данных.

Как минимум необходимо понимать описательную статистику и теорию вероятностей. Эти концепции помогут вам принимать эффективные бизнес-решения исходя из полученных данных.

Ключевыми понятиями являются распределение вероятностейстатистическая значимостьтестирование гипотез и регрессия.

Кроме того, машинное обучение требует понимания байесовской вероятности. Байесовская вероятность — это процесс переучивания при получении новых данных. Этот принцип лежит в основе многих моделей машинного обучения.

Здесь ключевыми понятиями являются условная вероятность, априорная и апостериорная вероятности и метод максимального правдоподобия.

Не пугайтесь сложных терминов. Как только вы погрузитесь в учебу, они быстро приобретут смысл.

Лучший способ учить статистику для анализа данных

Когда мы говорим людям о нашей «суперстратегии как быстро и эффективно научиться **вставьте нужное**, да еще и бесплатно», их лица обычно становятся такими:

И вот тут мы дарим вам долгожданное просветление: самый действенный способ чему-то научиться это просто перестать «сидеть за школьной партой» и закатать рукава.

Освоение статистики для науки о данных не является исключением. Мы будем осваивать ключевые статистические концепции, программируя их. Доверьтесь нам … это будет интересно.

Если у вас не хватает математической подготовки, этот подход подойдет как более интуитивный, чем расшифровка сложных формул. Это позволит вам делать каждый шаг осознано.

Тем у кого хорошая математическая база тоже не будет скучно. Вы сможете перейти от теории к практике, а также поработать над реализацией идей с помощью кода.

Вот 3 шага к изучению статистики и вероятности, необходимой для науки о данных:

  1. Основные понятия базовой статистики

Описательная статистика, распределения, тестирование гипотез и регрессия.

2. Байесовская вероятность

Условная вероятность, априорная и апостериорная вероятности и метод максимального правдоподобия

3. Введение в статистическое машинное обучение

Изучите основные концепции машинного обучения, и то как статистика здесь применяется.

После завершения этих трех шагов вы будете готовы браться за более сложные проблемы с машинным обучением и реальные задачи в области науки о данных.

Шаг 1. Основные понятия статистики

Аналитик данных принимает сотни решений каждый день.

Они варьируются от небольших, например, настройка модели, до таких крупных как создание новой стратегии для компании.

Многие из этих решений требуют глубоких знаний статистики и теории вероятностей.

Например, аналитикам данных часто приходится решать, какие результаты правдоподобны, а какие ошибочны. Кроме того, им необходимо понимать в каком направлении двигаться, какие шаги применять. Интуитивный поиск решений может быть изматывающим и не приведет к желаемому результату.

Вам нужно освоить основные понятия в принятии аналитических решений (знание того, как вычислять p-значение, это словно помочить ножки в океане).

Вот один из лучших ресурсов, которые мы нашли для изучения базовой статистики для самостоятельного обучения:

«Think Stats» by Allen B. Downey

Эта книжка для тех, кто знаком с языком Python и азами теории вероятностей, и хочет изучить основы прикладной статистики. В книге на примере анализа реальных данных объясняются основные понятия. Книга отлично подходит программистам, желающим научиться применять статистику, не вдаваясь в теорию. Конечно, в книге описаны только самые базовые (aka простые) вещи, но на большее она и не претендует, а со своей задачей справляется на «отлично». Книжку бесплатно можно скачать с сайта издательства.

Шаг 2: Байесовская вероятность

В статистике есть два подхода, которые постоянно становятся источником дебатов: байесовская и частотная вероятности. Байесовская в частности больше подходит для анализа данных.

Используя частотный подход, аналитики только назначают вероятности для описания данных, которые они уже собрали. Байесовский подход в корне отличается. Если вы хотите узнать больше об этом различии, ознакомьтесь с этой статьей: For a non-expert, what’s the difference between Bayesian and frequentist approaches?

В Байесовской вероятности, уровень неопределенности перед сбором данных называется априорной вероятностью. Затем он обновляется до апостериорной вероятности после сбора данных. Это базовые понятия для многих моделей машинного обучения, поэтому важно овладеть ими.

Опять же, все эти понятия будут вам понятны как только вы начнете применять их на практике.

Вот один из лучших ресурсов, которые мы нашли для изучения Байесовской вероятности для самостоятельного обучения:

«Think Bayes» by Allen B. Downey

Think Bayes — это следующая книга после Think Stats (с бесплатной версией в формате PDF). Она полностью посвящена байесовской вероятности, и он использует тот же подход применения программирования для изучения статистики. Этот подход интересен и интуитивно понятен, и вы изучите механику каждой концепции, так как вы будете ее самостоятельно реализовывать.

Шаг 3: Введение в статистическое машинное обучение

Если вы хотите изучить статистику для науки о данных, нет лучшего способа, чем поиграться с моделями машинного обучения.

Статистики и Машинного обучение тесно связаны, а «статистическое» машинное обучение является основой современного подхода.

На этом этапе вы будете строить модели машинного обучения с нуля. Это поможет вам достичь глубокого понимания механики, лежащей в их основе.

Это нормально, если поначалу вы просто копируете код, строчка за строчкой.

Ниже приведены модели, иллюстрирующие некоторые из ключевых концепций:

Линейная регрессия

Линейная регрессия с нуля в Python

Наивный байесовский классификатор

Простая и хорошо показавшая себя модель

Интуитивное введение, Наивный Байес с нуля в Python

Многорукие бандиты

И, наконец, у нас есть знаменитые «20 строк кода, которые превзошли любой тест A / B!»

Intuitive Introduction, Multi-Armed Bandits from Scratch in Python

Если вам хочется узнать больше, рекомендуем следующий ресурс:

Введение в статистическое машинное обучение — замечательный учебник (со свободной версией в формате PDF), который вы можете использовать в качестве справочника. Примеры приведены в R. Книга охватывает широкий круг тем, что делает ее ценным инструментом, даже когда вы перейдете к большим проектам.

Мы публикуем статьи, а также вакансии и мероприятия у нас в группе.