Перевод статьи Дэвида Тейлора.

Чтобы не потерять смысловые оттенки при переводе терминологии, рядом с русским переводом в скобках курсивом указан оригинал.

В начале Дрю Конуэй создал свою диаграмму Венна о Науке о данных (Data science). Потом появились все остальные. Этот сравнительный обзор создан как для более глубокого понимания профессии, так и просто для забавы. Всегда пожалуйста.

Наука о данных (Data science)— довольно расплывчатое понятие, вот несколько определений, которые я слышал:

«Работа, которая требует больше навыков программирования, чем у большинства статистиков, и больше понимания статистики, чем у программиста».

«Прикладная статистика, но в Сан-Франциско».

«Кучка людей, которые решили распечатать «Аналитик данных» (‘Data Scientist’) на своих визитных карточках и получить прибавку к зарплате».

Так как для этой области все еще нет точного определения, ничего удивительного, что можно найти много попыток его составить.

И так как в этой сфере полно ботаников со склонностью к визуализации, также нет ничего удивительного, что многие из них использовали диаграмму Венна.(Забавный факт: Джон Венн, который изобрел одноименные диаграммы, и его сын в 1909 году подали патент на газонокосилку.)

  1. Все началось с Дрю Конуэй в 2010 году (огромную популярность диаграмма приобрела в 2013 году, когда он ее опубликовал):

Конуэй сделал Науку о данных(Data science) центром диаграммы. Есть некоторые разногласия относительно того, что означает нижний круг (я рассмотрю его дальше). Все, что я могу сказать- это то, что Конуэй имел в виду нечто иное, чем то, что я бы назвал узкоспециализированными знаниями (например, Физики), и что он очень плохо подобрал название «Профессиональные знания»(Substantive Expertise).

Предположим что понятие «узкоспециализированные знания» является, по крайней мере, частью того, что он имел в виду. Тогда идея состоит в том, что физик, скажем, может обладать знаниями в области физики и математики / статистики, но не обладать навыками программирования(сейчас это менее актуально, чем раньше). И наоборот, специалисты по машинному обучению склонны применять алгоритмы без понимания области, которую они анализируют (Это было в моем случае, когда я впервые начал создавать модели в совершенно новой для меня отрасли, и мне пришлось многое наверстывать). Люди, которые могут программировать, но не способны понять процессы, которые привели к полученному результату, опасны. Они могут прийти к совершенно неправильным решениям и, как следствие, нанести компании большой финансовый ущерб.

В диаграмме Конуэй есть недочеты. Например, навыки программирования должны применяться ко всему кругу, а часть, которая не пересекается ни с чем, должна быть маркирована, например «программисты».Но это скорее придирки.

2. После Конуэй, Брендан Тирни в 2012 году сделал подобную диаграмму.

Она … довольно запутанная. В ней KDD означает Обнаружение скрытых паттернов (Knowledge Discovery) и Анализ данных (Data Mining). При этом Анализ данных (Data Mining) также имеет собственный круг. Стоит отметить то, что он обозначил на своей диаграмме широкий круг необходимых навыков. Тирни даже включил в них Вычисления с помощью нейронных сетей (Neurocomputing), которые кажутся немного … специфичным.

3. Буквально наступая Конуэй на пятки,в тот же месяц 2013 года, Ульрих Мэттер опубликовал свой вариант:

Он поменял поля местами, заменил Профессиональные знания(Substantive Expertise) на Общественную науку (Social Sciences) (его специальность), изменил Программирование(hacking) на Информатику(Сomputer science) (в оригинале hacking имеет отрицательный оттенок, неудивительно, что это не всем понравилось), и по какой-то причине заменил Математику и Статистику (Math & Stats) на Вычислительные методы(Quantitative Methods). Важнее то, что он переместил Науку о данных(Data science) туда, где в версииКонуэй было Машинное обучение (Machine Learning)- это интересное различие, и я видел много споров по этому поводу. на практике существуют аналитики данных, которые применяют свои знания в одной специфической области, а есть те, кто обобщают свой подход (обычно они начинают с одной области, а потом переходят в новые. Например, как я: начинал с Химии, а теперь работаю в сфере страхования). Видимо, понятие Опасная зона также ему не понравилось, поэтому он заменил его на вопросительный знак. В центре диаграммы Мэттера оказалось то, что по-видимому для него важнее- Основанная на анализе данных вычислительная социальная наука(Data-driven Computational [Social] Science.)

Эээ… слегка громоздко, не так ли? Он также добавил в Классическое исследование (Traditional Research) прилагательное «эмпирическое»(Empirical).

4. После нашумевшей истории об Эдварде Сноудене, Джоэл Грус создал свою «шуточную» версию, с более редкой диаграммой Венна из четырех кругов, где последний- «Зло».

5. В сентябре 2013 года Харлан Харрис адаптировал диаграмму для практической обработки данных, а не теоретической науки.

Эту диаграмму уже нет смысла сравнивать с версией Конуэй, мы перешли от теории к практическому применению. Но все же, обратите внимание на составляющие: знания предметной области(Domain Knowledge) остаются, Информатика(Computer Science) интерпретируется как программное обеспечение (Software Engineering). Также Харрис добавил прогнозирование(Predictive Analytics) и визуализацию (Visualization) в круг статистики, а все инструменты, которые они используют в работе, находятся на пересечении с программным обеспечением (Software Engineering).

6. В январе 2014 года Стивен Герингер сделал уточнение диаграммы Конуэй. В центр схемы, на пересечении всех областей, вместо науки о данных (Data Science) он помещает Единорога (мифического зверя с магическими силами, который, по слухам, существуют, но на самом деле никогда не встречаются в дикой природе.)

Думаю все понимают к чему он клонит. Когда впервые заговорили про Аналитиков данных(Data scientists), я часто слышал фразу: «Разве не все ученые, по определению, аналитики данных?». Действительно, нет таких наук, которые не занимаются анализом (вставить здесь шутку про психиатров), но все же наука о данных (Data Science), хотя и довольно неопределенная, не просто общий термин.

7. В феврале 2014 года Майкл Малак добавил четвертый пузырь, утверждая, что Конуэй не имел в виду знания предметной области(Domain Knowledge), когда он сказал «Профессиональные знания»(Substantive Expertise).

По словам Малака, он- Иниго Монтойя, и все мы — Виззини (вымышленные персонажи в романе Уильяма Голдмана «Принцесса-невеста»), когда дело доходит до «Профессиональных знаний»(Substantive Expertise): «Вы продолжаете использовать это слово. Я не думаю, что оно означает то что вы думаете, что оно означает». Малак разделил понятие на «Эксперт в области»(Domain Expertise) и … э-э, знание области, к примеру, «Общественной науки»(Social Sciences). Возможно я толстолобый, но я не понимаю разницы. Я также не знаю что он хотел сказать, разделив Комплексное традиционное исследование(Holistic Traditional Research) и просто Традиционное исследование (Traditional Research). Судя по диаграмме, последнее не включает в себя экспертные знания в исследуемой области. Существует такой термин, как «комплексный подход» в исследованиях, но это не то, что имеет ввиду автор диаграммы. В любом случае, Наука о данных(Data science) снова встала на позицию Единорога, и в этой схеме есть целых три опасные зоны (одна из них даже двойная!). Все хэйтят(hatin’) хакеров.

8. Мой следующий пример опубликовал Винсент Гранвиль в апреле 2014 года, скопировав его у компании Gartner. Дата оригинала неизвестна.

Это диаграмма Венна для научных исследований данных (Data Science Solutions), а не науки о данных (Data Science) как таковой. Здесь Наука о данных (Data Science) является одним из кругов, где другие два обычно не относятся к одному человеку, а распределяются в команде-это IT и Деловые навыки.

9. Шелли Палмер в своей статье для Huffington Post в 2015 году, использовал эту схему из своей книги:

Довольно стандартная схема с секторами Математика-Информатика-Экспертная область, которую мы уже видели у Конуэй.

10. В ноябре 2015 года пользователь StackExchange Data Science Стефан Коласса придумал мою любимую схему, добавив Связи (Communications) в диаграмму Конуэй и изменив «Профессиональные знания(Substantive Expertise)» на «Бизнес(Business)»:

И при всех его усилиях он был вознагражден только 21 лайком (мой один из них) на форуме. Мне нравится его выбор категорий, особенно покорил Хороший консультант(The Good Consultant). Интересно,а где так-себе консультант? Или который-очень-старается консультант? Для заметки, именно так выглядит диаграмма Венна с четырьмя областями, а не четыре круга как у Малака, где не хватает комбинаций пересечений областей.

11. В 2016 году Мэтью Майо написал диаграмму Григория Пятецкого-Шапиро:

Эта схема обязана своему появлению диаграмме Тирни, которая появилась на 4 года раньше, и хотя она претендует на звание диаграммы Венна для Науки о данных (Data science), (a.) это не диаграмма Венна, и (б.) Наука о данных (Data science) это только ее часть. Конечно хорошо что автор включил в схему Обработку больших данных(Big Data). Но….Колибри? Серьезно? Вы что просто взяли шрифт по умолчанию?

12. Наконец (я уверен что собрал не все, если вы знаете какие-либо диаграммы Венна, которые я пропустил, сообщите мне об этом!), позже в 2016 году Gartner переделал свою сложную диаграмму научных исследований данных (Data Science Solutions):

Как пишет в блоге Кристи Юбенкс в своем блоге:«Мы прошли полный круг, вернувшись к Конуэй, за исключением того, что снова была заменена Опасная зона, на этот раз на Инженеров Данных (Data Engineer). Мне нравятся что выноски теперь организованы лучше чем раньше.»

13. Будущее диаграмм Венна Науки о данных(Data Science):

На странице Науки о данных(Data Science) в Википедии имеется следующая схема, которая не имеет ничего общего с диаграммами Венна:

Она неплохо иллюстрирует один из способов взглянуть на эту область. Может не сточки зрения конкретных навыков, а скорее слияния различных дисциплин. К сожалению, умение в одной дисциплине иногда может маскировать серьезные недостатки в другой, что вносит недопонимание в понятие Науки о данных(Data Science).

Чтобы разложить все по полочкам, нужно строить очень сложную диаграмму Венна. И не сомневайтесь, они существуют. Вот, пожалуйста одна из них:

Кто-нибудь хочет еще попробовать?

Оригинал статьи на английском языке