Почему считаю это путь дата джедая

Я считаю хороший трек развития - учить базовую статистику, мат методы, линейные модели и постепенно расти в зоне компетенций как t-shaped специалист (изучать более сложные бустинговые модели, нейронные сети класcические конвуляционные , изучать инфраструктуру данных, батчинг и стриминг) - считаю это делает специалиста, кто горит данными действительно экспертом высшего уровня - таких людей обожаю, но к сожалению путь этот проходят в среднем 1-2% из тех кого учил/студентов/курсов/менторства - выборка порядка 500 человек по ощущению за все время.

UPD

Шаги пути

  1. основы программирования на Python от ВШЭ https://www.coursera.org/learn/python-osnovy-programmirovaniya - хороший фундамент просто понимания языка Python. Чтобы начать делать первые шаги в анализе данных - считаю эффективно начинать с именно с python, чтобы в первую очередь заложить - что нужно уметь кодить.
  2. закрепите пройденные знания и немного отдохните https://pythontutor.ru/ . простые задачки, чтобы закрепить знания python
  3. специализация по анализу данных и машинному обучению от Яндекса и МФТИ https://www.coursera.org/specializations/machine-learning-data-analysis . Один из главных фундаментов изменения/укрепления мозга человека , что python + анализ данных + статистика и моделирование = лучший путь как по мне. Самая шедевральная специализация для начинающих считаю до сих пор - очень фундаментальная, состоит из 6 курсов, 6 курс это проект. Много теории, формул, практики, крутые преподователи - познакомился почти со всеми и подтверждаю их крутость
  4. закрепите материалы и отдохните с сообществом Open Data Science (ODS) и Хабром в серии курсов https://habr.com/company/ods/blog/322626/ . Мой любимый ODS, хоть и сдает сейчас позиции считаю - слак умирает, хабы, евенты, соревнования умирают - ods.ai все обновлялось около года назад - увы. Но курс хороший - после получения фундамента он утверждает пройденные знания, так как идет по верхам разных тем - не советовал бы его проходить в первую очередь - потеряете фундамент
  5. окунитесь в мир нейронных сетей с пониманием работы гиперпараметров и оптимизационных алгоритмов https://www.coursera.org/specializations/deep-learning - курс хороший так как дает понимание, что мир нейронных сетей гораздо глубже и детальнее - хороший фундамент в математике глубоких нейронных сетей
  6. внезапно курс на степике от самсунга - https://stepik.org/course/50352/promo - мне очень понравился курс, на основании пройденного фундамента дает очень предметное понимание расчета математики прям пошагово по рассчетам ошибки и сдвига весов - мне очень понравился, понял как нейронки в плане математики работают прозрачно прям, учителя безумные молодцы - полюбил samsung ai лабораторию и познакомился потом с ребятами - обожаю их
  7. погрузитесь в более сложные модели нейронных сетей как готовое решение и повеселитесь с fast.ai https://www.youtube.com/watch?v=IPBSB1HLNLo - просто выдохнуть, чтобы понять, что есть разные способы и можно модельки готовить быстро
  8. если вам все же мало нейронных сетей - следущий шаг это стенфордские курсы... http://cs231n.stanford.edu/ - там кладезь информации - я проходил не все, мне было интересно nlp, timeseries - мой байес идет в сторону данных структурированных, нежели картинки/звук, только текст люблю еще . Но считаю это не обязательно - это гиковость показывает и относит тебя к классу людей - которых я люблю, так как тут могут начаться проблемы с здоровьем и всем остальным - может быть жестко по срокам
  9. когда вы стали экспертом, надо понимать, что аналитика != модели, инфраструктура математики , градиенты и тд - это в первую очередь помощь бизнесу. Мне очень понравился из всего, что изучал - специализация от гугла - https://www.coursera.org/professional-certificates/google-data-analytics?utm_source=banners&utm_medium=coursera&utm_campaign=May2021-google-data-analytics&utm_content=logged-in . Один момент есть - аналитика там делается на R - это может быть ограничением для кого то. Но мне понравилось - как формировать выводы, визуализацию делать, как должен мыслить аналитик, 5 почему и так далее - считаю эту специализацию как заварной крем поверх торта пройденного пути развития
  10. Считаю что после шага 9 человек становится экспертом, но я для себя заметил просадку в эффективном использовании python - после R убедился как Python прекрасен (что доказывают все современные тренды популярности языков программирования) - далее я рекомендую двигаться в развитии закрыть пропуски технического алгоритмического характера - здесь лучший вариант leetcode считаю https://leetcode.com/ - пройдя до medium можно считать - человек супер крут считаю. Это хороший способ видеть как можно использовать python для обработки всего считаю - очень развивает голову и мышление как плюс к фундаменту
  11. после этого считаю нужно развивать фундаментальное знание инфраструктуры поставки данных - так как ошибки в метриках, витринах, обновлении данных является фундаментом ошибок во всех компаниях - некоторые оценивают в исследованиях что работа с проблемами в данных составляет до 70% рабочего времени аналитиков/ds/de - поэтому считаю эффективно инвестировать в эту экспертизу - чтобы выработать интуицию проблем в данных и уметь реализовывать/менеджерить реализацию эффективных решений по дата инфраструктуре - сейчас делаю как основной куратор и развиваю активно курс на Яндекс.Практикуме инженер данных - https://practicum.yandex.ru/data-engineer/ - его делаю таким образом, чтобы он был максимально практичным и учил тому, с чем предстоит встретиться на практике - строковые бд, колоночные бд, s3, hdfs, pyspark, key-memory db,airflow, nifi,terminal, ci/cd, cloud вычисления - очень стараюсь в возможное время сделать максимально эффективным. Я бы сказал что если человек идет по ветке de то с этого курса надо начинать, если по пути из аналитика данных/ds то в порядке который я написал сейчас - это расширяет сознание - теперь ты видишь не только данные как итог - а весь поток данных как безумно удивительный мир - можешь понимать проблемы до их появления в инфраструктуре и находить оптимальные решения для бизнеса
  12. все же 11 курс дает хороший фундамент, но секцию по pyspark писал не я, поэтому мне она не до конца нравится - не педантично отточена, но это продукт курс который должен зарабатывать - будем улучшать на рефакторинге. Но что мне больше нравиться именно в части обработки больших данных на hadoop - https://www.coursera.org/learn/big-data-processing/home/week/1 - этот курс очень люблю, так как это самый лучший тренажер где разворачивается прям на hadoop кластере машинки и можно pyspark джобы хорошо поучить - даст хороший фундамент по вычислениям, расчетам, моделям