Kitabı oku: «Data Science для карьериста», sayfa 6
Итоги
• Многие типы компаний нанимают дата-сайентистов.
• Работа в Data Science различается в основном в зависимости от отрасли, размера, истории и культуры каждой компании.
• Важно понимать, в какой компании вы хотите работать.
3. Приобретение навыков
В этой главе
• Различные способы изучения Data Science.
• Что делает академический курс или буткемп хорошим.
• Как выбрать наиболее подходящий путь.
Теперь, когда вы решили стать дата-сайентистом, нужно приобрести соответствующие навыки! Не переживайте: размышления на тему того, как это лучше сделать, – естественная часть становления всех специалистов. Есть много способов выучиться, начиная c просмотра роликов на YouTube и заканчивая получением диплома, при этом многие будут настаивать, что именно они пошли единственно правильным путем. Хуже того, можно легко впасть в отчаяние от количества материала для изучения: все эти алгоритмы, языки программирования и статистические методы – еще и различные области бизнеса сверху накиньте. Сама мысль обо всем этом приводит в ужас.
Но не все так плохо. Основных методов получения необходимых навыков всего четыре, и у каждого из них есть свои преимущества и недостатки: обычно, если их расписать, можно понять, что вам ближе. К концу этой главы вы сможете научиться разбираться в методах и затем, немного поразмыслив, выбрать наиболее подходящий для себя. Вы справитесь!
Четыре метода получения навыков работы с данными, описанные в этой главе:
• Получение диплома по Data Science или в смежной области.
• Прохождение буткемпа по Data Science (ускоренный курс от 8 до 15 недель).
• Изучение Data Science на текущем месте работы.
• Обучение с помощью онлайн-курсов и книг по Data Science.
Ниже мы рассмотрим все эти методы.
Что делать, если у вас нет диплома?
В этой главе в основном предполагается, что вы окончили вуз, и скорее всего по технической специальности. Если это не ваш случай, не волнуйтесь: бо́льшая часть информации по-прежнему актуальна, но читать ее нужно будет с поправкой на этот факт.
Если вы еще не окончили вуз, лучше все же получить степень бакалавра, прежде чем следовать рекомендациям этой главы. Лучший вариант – соответствующее техническое направление, где можно получить некоторые навыки для Data Science, например математика, статистика или информатика. При выборе таких специальностей постарайтесь спланировать программу обучения так, чтобы максимально заполнить пробелы в знаниях. Сейчас некоторые вузы предлагают степень бакалавра в Data Science, что должно сделать из вас весьма подходящую кандидатуру для работодателя. С таким дипломом можно найти работу в этой области сразу после выпуска (особенно если будете следовать указаниям в частях 1 и 2 этой книги). Вы также можете взять на вооружение дополнительные советы из этой главы, например обучаться самостоятельно или заниматься Data Science на первой работе.
Если у вас нетехническая специальность, рекомендации из этой главы остаются в силе. Но закончить магистратуру в Data Science – все же отличная идея, ведь чем дольше длится обучение, тем больше времени у вас будет на подтягивание технических навыков. Возможно, вы захотите получить техническую специальность как второе высшее, но этого следует избегать любой ценой. Получение второго образования чрезвычайно затратно по времени и деньгам; к тому же эти знания можно получить другими способами.
3.1. Получение образования в Data Science
Многие вузы предлагают магистратуру в Data Science по программам со смесью тем из информатики, статистики и бизнеса. Такие программы обычно рассчитаны на два года и стоят от $70 0002. Как и в случае с другими направлениями, можно растянуть этот срок и совмещать учебу с работой и/или заниматься онлайн. Хотя многие учебные заведения предлагают образование непосредственно в Data Science, вместо этого вы можете выбрать другое направление – информатику, статистику, бизнес-аналитику, исследования операций или что-то очень близкое к науке о данных.
Преимущество направления Data Science – его всесторонность. Благодаря длительности программы и затраченному времени вы получите все знания, необходимые для начала работы в качестве младшего дата-сайентиста. Курсовые работы и проекты дают опыт использования статистики, методов МО и практического программирования. Даже если в начале обучения вы не будете особо знать программирование, то сможете все наверстать в процессе (хотя возможно, что для этого вам придется пройти пару дополнительных курсов).
Однако у полноценных программ по Data Science есть и несколько недостатков:
• Они очень дорого обходятся, учитывая и стоимость обучения, и шанс не получить ни прибыли, ни опыта работы, пока вы учитесь на дневной форме.
Полноценные образовательные программы требуют на порядок больше времени и денег, чем другие варианты. Потратить годы на учебу, чтобы сменить карьеру, – это огромная часть жизни, и если на полпути вы решите, что Data Science не для вас, никто уже не вернет вам эти ресурсы.
• Если вы пришли из смежной сферы – скажем, из разработки ПО – или закончили солидный ряд схожих курсов по программе бакалавриата, то магистратура не даст вам практически ничего нового. То есть из этой длинной программы вы сможете почерпнуть лишь крупицу полезной информации – огромный недостаток, который может раздражать.
• Эти программы создают и читают профессора и преподаватели, в большинстве своем получившие весь свой опыт исключительно в научном сообществе. Материалы, которые они дают, часто существенно отличаются от того, что действительно используется в отрасли. Например, особенно оторванный от практики профессор может пользоваться устаревшими языками программирования вроде SPSS или не разбираться в современных инструментах, таких как управление версиями. Ситуация особенно типична для программ, не относящихся к Data Science. Некоторые университеты, наоборот, привлекают профессионалов отрасли, однако такие люди могут не особо разбираться в преподавании. Без поступления трудно понять, насколько современные методы применяются в обучении. По возможности во время подачи заявления старайтесь поговорить с нынешними или бывшими студентами, чтобы понять, на что похожа программа и поможет ли она в будущей карьере.
3.1.1. Выбор учебного заведения
В огромном количестве образовательных программ по Data Science и так сложно ориентироваться. Еще хуже, если ваш почтовый ящик переполнен флаерами с рекламой различных курсов, а телефон разрывается от назойливых звонков сотрудников приемной комиссии. Лучше всего подавать заявления на 3–10 программ. Подадите слишком мало – рискуете никуда не попасть, слишком много – потратите кучу времени (и денег).
При выборе учебного заведения руководствуйтесь следующими параметрами:
• Будете ли вы довольны местоположением и образом жизни [очень важно]. Скорее всего, вы будете искать программы магистратуры по всей стране, но студенческая жизнь в Лос-Анджелесе отличается от жизни в Нью-Йорке. Если климат, близость к друзьям или стоимость жизни вам не подходят, то не важно, насколько хороша программа, потому что вы все равно будете недовольны.
• Какие темы охватывает курс программы [важно]. Поскольку Data Science – новая сфера, университеты могут иметь совершенно разные представления о том, как ее преподавать. Ситуация особенно осложняется тем, на какой кафедре реализуется программа. Если это кафедра информатики, то упор будет делаться на методы и алгоритмы, а если это бизнес-школа, то главными будут прикладные методы и практические кейсы. Проверьте, закрывает ли материал курса пробелы в вашем наборе навыков (см. главу 1).
• Объем проектной работы в программе [важно]. Чем больше в программе проектов, тем больше вы узнаете о том, как Data Science работает на практике, и тем лучше будете готовы к работе в отрасли. (Проекты подробно рассматриваются в главе 4.) Важные проекты также отлично подходят для включения в резюме, которое поможет пройти стажировку во время обучения в аспирантуре или устроиться на первую работу.
• Судьба выпускников учебного заведения [важно]. Часто вузы собирают данные о том, где работают студенты после окончания учебы, например какой процент попадает в научные круги или в компании из списка Fortune 500. Эта статистика может быть информативной, но учебные заведения делятся только той, которая представляет их в выгодном свете, даже если показатели обманчивы (ирония в том, что понимание обманчивости показателей – один из навыков, которому вы учитесь на программе Data Science). Чтобы получить объективное представление, попытайтесь по возможности связаться с некоторыми выпускниками программы через LinkedIn. Если хотите работать в крупной корпорации, узнайте, какие компании нанимают выпускников именно этого заведения. Конечно, вы в любом случае можете участвовать в конкурсном отборе при приеме на работу, но, вероятно, вашему отклику будет уделено меньше внимания.
• Финансирование [бывает редко, но очень важно]. В редких случаях учебные заведения предлагают финансирование для студентов магистратуры, оплачивая их обучение и иногда добавляя стипендию помощникам преподавателей. Если вам предложили стипендию, мы настоятельно рекомендуем согласиться. Не платить за учебу и при этом получать зарплату гораздо приятнее, чем самостоятельно оплачивать счета. Если финансирование предполагает педагогическую практику, вам придется научиться общаться с большим количеством людей, что пригодится в дальнейшем. Минус такой ситуации в том, что преподавание занимает много времени, а это отвлекает от учебы.
• Насколько тесно программа взаимодействует с предприятиями в этом регионе [довольно важно]. Если учебное заведение сотрудничает с местными компаниями, особенно с технологическими, значит, оно связано с профессиональным сообществом. В этом случае будет проще получить стажировку или работу, а материалы во время учебы будут интереснее. Кроме того, преподаватели, скорее всего, будут знакомы с практическими методами.
• Требования к зачислению [не очень важно]. Некоторые учебные заведения требуют, чтобы у поступающих был определенный багаж из пройденных курсов. Для большинства программ это математические дисциплины вроде линейной алгебры и программирование, например введение в Java. Если вам не хватает всего пары курсов, возможно, у вас получится проскочить эти требования или наверстать пробел уже во время учебы на программе. Если же вы не прошли ни один из них или не закончили требуемое направление бакалавриата (например, информатику), возможно, программа вам не подойдет.
• Престиж учебного заведения [совершенно не важно]. Если речь не идет о невероятно престижных заведениях вроде Стэнфорда или MIT, работодателям все равно, что вы окончили. Престиж имеет значение, в основном если вы планируете работать в научных кругах, а не в промышленности, но тогда вам придется идти в аспирантуру, а не в магистратуру (а также читать другую книгу). Он важен только для формирования крепкого научного сообщества топовых университетов.
• Ваш научный руководитель [очень важно, но…]. Если программа, которую вы рассматриваете, предполагает написание диплома или диссертации, то у вас будет научный руководитель. Когда его стиль работы и сфера интересов совпадают с вашими, а вдобавок он еще и приятный человек, ваши шансы успешно закончить программу возрастают в разы. К сожалению, до поступления очень сложно определить, кто будет вашим научным руководителем, не говоря уже о его личностных качествах. Так что, несмотря на огромную важность этого критерия, вы вряд ли сможете принимать решение на его основе. А вот если программа полностью основана на выполнении курсовых работ или включает только один финальный проект, личность руководителя не особо важна.
Размышляя над перечнем вузов, попробуйте составить таблицу, в которой будут расписаны их качества по этим критериям. Однако даже со всеми данными на руках сложно объективно ранжировать учебные заведения. Разве можно наверняка решить, что лучше: вуз в ужасном городе, но с хорошими связями в компаниях или вуз в отличном месте, но без проектной работы? Мы советуем отказаться от идеи найти «лучшее». Вместо этого сгруппируйте варианты по принципам «люблю», «нравится» и «сойдет» и подавайте заявления только в заведения из первых двух групп.
Дистанционные программы магистратуры
Все чаще стали появляться дистанционные программы, где диплом магистра можно получить онлайн и не ходить на лекции непосредственно в университет. Очевидное преимущество этого варианта в том, что проходить онлайн-курсы гораздо удобнее, чем тратить время на дорогу. Кроме того, к онлайн-программам перестали относиться предвзято, как это было на заре их существования, поэтому вам в принципе не следует беспокоиться о ее признании. Недостаток же такого подхода в том, что удаленно гораздо труднее оставаться вовлеченным в программу и материалы. Задавать вопросы профессорам сложнее, зато проще работать в полсилы и отлынивать от выполнения домашних заданий. В некотором смысле удобство онлайн-программы также может быть ее недостатком: у вас остается меньше стимулов для работы. Если вы уверены в своей мотивации и способности удерживать внимание, онлайн-обучение может стать отличным выбором – просто имейте в виду его риски.
3.1.2. Поступление
Для поступления нужно подать документы. Процедуры для магистратуры и бакалавриата похожи, поэтому никаких сложностей возникнуть не должно. Первый шаг – это подача заявления. Осенью университеты обычно публикуют все требования и устанавливают процедуру подачи документов, включая сроки. Для поступления в магистратуру обычно требуется следующее:
• Мотивационное письмо на 1–2 страницы, в котором вы должны аргументировать, почему подходите для этой программы. Максимально подробно опишите, каким образом вы могли бы внести хороший вклад в эту программу. Ваши навыки, опыт или примеры работ будут плюсом. Избегайте клише вроде «Я с детства интересуюсь Data Science». Есть множество материалов по написанию хороших эссе, а в выбранном университете даже может быть отдел, помогающий справиться с этой задачей.
• Выписка об академической успеваемости из программы бакалавриата, которая подтверждает, что вы соответствуете всем исходным требованиям. На веб-сайте университета должны быть инструкции по получению этого документа, но учтите, что обычно за него нужно заплатить, а доставка занимает неделю или больше. Не откладывайте это на последний день!
• Результаты экзамена Graduate Record Examination (GRE) с проходными баллами по языку и математике. Теоретически GRE по математике должен показаться простым для любого, кто идет в Data Science, ведь математика – основа этой дисциплины. Однако многие не видели сложных математических задач со школы, поэтому лучше подготовиться. Языковая часть может быть сложнее и потребовать серьезной подготовки. Обычно экзамен сдается в конкретном месте, куда вам нужно добраться (а это может быть непросто), поэтому постарайтесь сдать его заранее. Если английский не ваш родной язык, скорее всего, потребуется набрать минимальный балл на экзаменах TOEFL (Test of English as a Foreign Language – тест на знание английского языка как иностранного) или IELTS (International English Language Testing System – международная система оценки знания английского языка).
• Три рекомендательных письма, объясняющих, почему вы подходите для этой программы. Это могут быть письма от ваших преподавателей или от начальника, если ваша работа связана с Data Science. В идеале авторы должны рассказать о том, почему вы будете хорошим дата-сайентистом, то есть они должны видеть ваши результаты. Не обращайтесь к преподавателям, которые не могут написать ничего, кроме: «Он получил пятерку на моем семинаре», а также к работодателям, которые мало что могут сказать о вашей работе в технической среде. Если вы студент бакалавриата, который читает эту книгу, возможно, сейчас самое подходящее время, чтобы получше узнать своих преподавателей на консультациях, семинарах и в научных клубах.
Все это требует времени, так что если вы подаете заявления сразу в несколько университетов, придется хорошенько потрудиться. Большинство заявлений подается в период с декабря по февраль, а ответ приходит примерно в феврале или марте. Если вас примут, то до апреля нужно решить, хотите ли вы учиться по этой программе. Получив положительный ответ, не пытайтесь выбрать «лучшее» – идите туда, где, на ваш взгляд, будете счастливы!
3.1.3. Заключение по академическому образованию
В целом академические программы по Data Science хорошо подходят людям, которые хотят получить всестороннее образование и могут себе это позволить. Можно перейти из другой сферы деятельности, где не приходилось заниматься программированием или технической работой, например из маркетинга. Такая программа позволит изучить все составляющие науки о данных в удобном ритме.
Академические программы не подходят людям, у которых уже есть многие из требуемых навыков: для них это будет слишком долго и дорого и в итоге не окупится. К тому же преподаватели не работают непосредственно в отрасли, и то небольшое количество новых знаний, которое они дадут, может вовсе не пригодиться на практике. Возможно, вам придется получить практический опыт на стажировке во время программы, чтобы дополнить свое образование.
Если вы считаете, что вам нужно углубленное обучение, чтобы стать дата-сайентистом, то вперед. Начинайте искать подходящее учебное заведение. Если же вы чувствуете, что такое обучение потребует слишком больших затрат и вместо этого есть более легкий путь, рассмотрите варианты, описанные в следующих разделах.
Нужна ли мне кандидатская степень для работы в Data Science?
Скорее всего, нет.
Кандидат наук – это степень, на получение которой уходит много лет и которая готовит обучающихся к должности профессора. Придется потратить годы на исследования, чтобы найти новый метод, который не особо лучше предыдущего. Нужно публиковаться в академических журналах и продвигать новейшие исследования в конкретной области. Но, как мы уже говорили в главах 1 и 2, та небольшая работа, которую выполняет дата-сайентист, похожа на научное исследование. Специалист по работе с данными гораздо меньше заботится о поиске элегантного искусного решения – ему достаточно чего-то работающего.
Небольшое число вакансий в области Data Science требует наличия степени кандидата наук. Но навыки, приобретенные в аспирантуре, редко бывают необходимыми для работы; как правило, такое требование говорит о статусе должности. Знаний, которые вы получите на программах магистратуры или бакалавриата, будет достаточно для большинства должностей в этой области.
Кроме того, у степени кандидата наук высокая цена, и речь не только о деньгах. Подумайте только, что за те семь лет, которые уйдут на ее получение, вы могли бы проработать в компании, улучшить свои навыки и зарабатывать гораздо больше денег.
Конечно, можно пойти и получить кандидатскую степень, а затем стать дата-сайентистом, но не позволяйте никому говорить, что вам без этого никак.
3.2. Буткемпы
Буткемпы – это интенсивные курсы продолжительностью 8–15 недель, которые организовывают тренинговые компании вроде Metis и Galvanize в США. Каждый день на лекции от специалистов отрасли, практику и работу над проектами уходит около восьми часов. В конце слушатели обычно выступают с финальным проектом перед аудиторией из сотрудников компаний, которым нужны дата-сайентисты. В идеале далее происходят собеседование и прием на работу.
Буткемпы дают много знаний за очень короткий срок, а это значит, что они подойдут тем, у кого уже есть большинство нужных навыков, но нескольких все же не хватает. Представьте себе нейробиолога, которому по работе приходилось заниматься программированием. На курсе по анализу данных он может пройти темы вроде логистической регрессии и баз данных SQL. С этими навыками и опытом работы в науке такой человек будет готов к работе в Data Science. Иногда лучшее в буткемпе – не сами знания, а уверенность, которую дает программа, что вы действительно можете выполнять работу в DS.
3.2.1. Чему можно научиться
У хорошего буткемпа есть оптимизированная программа, которая научит вас всему необходимому для устройства на работу в Data Science, и не более того. Она дает не только технические навыки, но и возможность работать над проектами и общаться с людьми. В следующих разделах подробно описано, чего вам следует ожидать от буткемпа.
Навыки
Буткемп – это отличное дополнение к имеющемуся образованию. После него вы сможете быстро получить работу без потери двух лет на учебу (например, в магистратуре). Это может быть особенно приятно, если у вас уже есть степень магистра в области, не связанной с Data Science. В буткемпе вы обычно получаете следующие навыки:
• Введение в статистику. Этот курс включает методы прогнозирования на основе данных, например линейную и логистическую регрессию, а также методы тестирования, которые вы можете использовать в работе, например t-критерий Стьюдента. Из-за очень ограниченного времени вы не успеете разобраться в том, почему эти методы работают, но зато много узнаете об их применении.
• Методы машинного обучения. В программе расскажут об алгоритмах МО, таких как случайные леса и метод опорных векторов, и научат пользоваться ими с помощью разделения данных на тренировочные и испытательные наборы и выполнения перекрестной проверки. Можно изучать алгоритмы для конкретных случаев, например для обработки естественного языка или для поисковиков. Если вы не поняли ни слова из этого абзаца, возможно, буткемп для вас самое то!
• Программирование на R или Python (средний уровень). Вы изучите основы хранения и работы с данными во фреймах – как их складывать, фильтровать и строить графики. Научитесь использовать методы статистики и МО в выбранной программе. Скорее всего, вы будете проходить только один из этих языков, так что второй придется освоить самостоятельно, если вдруг он понадобится вам для работы.
• Реальные кейсы. Вы не только изучите разные алгоритмы, но и узнаете, как их можно применять на практике. Например, как с помощью логической регрессии спрогнозировать, когда клиент откажется от подписки на продукт, или как использовать алгоритм кластеризации для сегментирования покупателей в маркетинговых целях. Эти знания чрезвычайно полезны для устройства на работу, и на собеседованиях можно часто услышать вопросы на эту тему.
Проекты
В буткемпах много внимания уделяется проектам. Вместо того чтобы слушать лекции по восемь часов в день, бо́льшую часть времени вы будете работать над проектами, которые помогут вам лучше понять Data Science и начать работу над собственным портфолио (тема главы 4). Это огромный плюс по сравнению с академическим образованием, потому что эти навыки больше пригодятся в компаниях, где обязанности часто напоминают работу над проектами.
Для проекта сначала нужно собрать данные. Для этого можно использовать веб-API, созданный компанией для извлечения своих данных, скрейпить веб-сайты или же взять существующие публичные датасеты с таких ресурсов, как государственные веб-сайты. Затем вы будете загружать данные в R или Python, писать сценарии для управления и запускать на них модели МО. Полученные результаты понадобятся для презентации или отчета.
Для выполнения всего этого вовсе не обязательно идти в буткемп. Вообще-то, глава 4 этой книги полностью посвящена тому, как можно самостоятельно выполнять DS-проекты. Зато в буткемпе есть преподаватели, которые будут направлять вас и помогать с проектом, если что-то пойдет не так. Трудно сохранять мотивацию, если вы работаете в одиночку, и легко застрять с чем-нибудь, когда рядом нет человека, к которому можно обратиться за помощью.
Сеть
Многие люди после буткемпов строят успешную карьеру в таких компаниях, как Google и Facebook. В подобные организации можно проскочить через сообщества выпускников. В буткемпы порой приглашают DS-спикеров, а на защиту вашей итоговой работы могут прийти представители компаний. Связи с такими людьми помогают устроиться в их организации. Эту особенность стоит выделить, ведь когда дело доходит до поиска работы, ворота в компанию с вакансиями в Data Science могут решить дело.
Помимо знакомства с людьми в процессе обучения можно использовать такие инструменты, как LinkedIn, для связи с выпускниками буткемпов. Эти люди могут помочь с устройством в компанию, где они работают, или хотя бы подсказать, как выбрать подходящую.
Все эти варианты предполагают, что вы должны действовать активно, например общаться со спикерами после презентаций или писать в социальных сетях людям, с которыми вы прежде не общались. Это может пугать, особенно если вам не слишком-то комфортно болтать с незнакомцами, но именно так вы получите максимум пользы от курсов. Ознакомьтесь с главой 6, чтобы узнать, как написать эффективный запрос на нетворкинг.