Tuesday, July 1, 2014

Обзор онлайн-курсов по Data Science

Не так давно был представлен список онлайн-курсов, стартующих в ближайшее время. Здесь я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов. Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации "Data Science Specialization", поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:

  • The Data Scientist’s Toolbox - базовый курс в специализации и посвящен обзору различных инструментов специалиста по анализу данных. Количество материалов невелико и курс может быть пройден за 3-4 часа.
  • R Programming - базовый курс в специализации и посвящен основам работы с язык программирования R.
  • Getting and Cleaning Data - также является базовым курсом в специализации и посвящен очень важной теме подготовки и обработки сырых входных данных к дальнейшему анализу.
  • Exploratory Data Analysis - курс посвящен исследовательскому анализу данных и визуализации данных с помощью языка R и таких популярных пакетов для визуализации как lattice и ggplot2.
  • Reproducible Research - курс рассказывает о такой важной теме в анализе данных как Reproducible Research. Рассматриваются пакет knitlr для языка R, а также язык разметки R Markdown.
  • Statistical Inference - формально курс посвящен теме статистического вывода, но по сути является курсом по основам статистики и теории вероятностей. Подано все в очень скомканной и сумбурной форме. Один из самых неоднозначных курсов в данной специализации. Надеюсь, что в будущих версиях курс будет серьезно переработан.
  • Regression Models - курс посвящен теме регрессионного анализа. К курсу также есть вопросы по теме проработанности материала и надежда, что создатели курса обратят внимание на комментарии студентов и серьезно переработают курс в будущем.
  • Practical Machine Learning - курс посвящен основам машинного обучения.
  • Developing Data Products - курс посвящен разработке современных продуктов в теме анализа данных. Рассматриваются такие популярные фреймворки как Shiny и Slidify.
  • Mathematical Biostatistics Boot Camp 1 - первая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.
  • Mathematical Biostatistics Boot Camp 2 - вторая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.

Далее рассмотрим курсы, которые помогут улучшить общие навыки, необходимые для специалиста по анализу данных:

  • Intro to Hadoop and MapReduce (Udacity) - курс посвящен основам работы с Hadoop и большими наборами данных.
  • Data Wrangling with MongoDB (Udacity) - речь в данном курсе пойдет о работе с данными в такой популярной сейчас NoSQL базе данных как MongoDB.
  • Programming Foundations with Python (Udacity) - курс посвящен основам языка программирования Python, который стремительно набирает популярность среди специалистов по анализу данных.
  • Introduction to Databases (Coursera - Stanford University) - курс рассказывает о работе с реляционными источниками данных, а также о работе с другими популярными форматами хранения данных (XML, JSON)

Теперь перейдем к курсам, которые посвящены теории вероятностей и статистике. Безусловно знание данных дисциплин будет полезно каждому, кто претендует на звание специалиста по анализу данных. В некоторых случаях разделение курсов на категории достаточно условно, так как многие курсы охватывают различные аспекты, связанные с анализом данных. Далее представлен список курсов в данной категории:

  • Probabilty and Statistics (Khan Academy) - отличный набор базовых вещей по статистике и теории вероятностей от Khan Academy.
  • Case-Based Introduction to Biostatistics (Coursera - Johns Hopkins University) - курс прдеставляет в доступной форме основы статистики и теории вероятностей с примерами из биостатистики.
  • Probabilistic Graphical Models (Coursera - Stanford University) - небольшой курс по теории вероятностей.
  • Statistics: Making Sense of Data (Coursera - University of Toronto) - еще один курс по основам статистики.
  • Data Analysis and Statistical Inference (Coursera - Duke University) - отличный курс по анализу данных, в котором доступно рассказывается об основах теории вероятностей и статистики.
  • Statistics One (Coursera - Princeton University) - неплохой курс по основам статистики. Материал подается на доступном уровне и не требует от слушателя специальных знаний для усвоения материала.
  • Statistics in Medicine (Stanford Online) - основы статистики на основе примеров из медицины.
  • Statistics for Medical Professionals (CME) (Stanford Online) - основы статистики на основе примеров из медицины.
  • Stat_2.1x - Introduction to Statistics: Descriptive Statistics (edX - BerkleyX) - первая часть из серии курсов по статистике и теории вероятностей. Первая часть посвящена описательной статистике.
  • Stat_2.2x - Introduction to Statistics: Probability (edX - BerkleyX) - вторая часть из серии курсов по статистике и теории вероятностей. Вторая часть посвящена основам теории вероятностей.
  • Stat_2.3x - Introduction to Statistics: Inference (edX - BerkleyX) - третья часть из серии курсов по статистике и теории вероятностей. Третья часть посвящена теме статистического вывода.
  • 6.041x Introduction to Probability - The Science of Uncertainty (edX - MITx) - курс по теории вероятностей от MIT.
  • Explore Statistics with R (edX - KIx) - новый курс по работе со статистическим языком программирования R. Первая сессия данного курса начинается 9 сентября 2014 года.
  • Intro to Statistics (Udacity) - еще один курс по основам статистики.
  • Statistics (Udacity) - достаточно простой курс по теории вероятностей и статистике.

Далее следует список курсов, которые посвящены различным аспектам темы анализа данных, таким как машинное обучение, обработка естественного языка, нейронным сетям, рекомендательным системам, анализу социальных сетей, искусственному интеллекту и другим:

  • Data Analysis (Coursera - Johns Hopkins University) - курс по анализу данных с использованием языка R длительностью 8 недель.
  • Introduction to Data Science (Coursera - University of Washington) - курс длится 8 недель. Один из наиболее популярных онлайн-курсов по основам Data Science.
  • Machine Learning (Coursera - University of Washington) - отличный курс, который длится 10 недель по машинному обучению от University of Washington.
  • Machine Learning (Coursera - Stanford University) - один из наиболее известных курсов по Machine Learning, ведет его профессор Стэнфордского Университета Andrew Ng. Курс длится 10 недель. Курс достаточно простой и понятный, не требует каких-то специальных знаний для его успешного прохождения, при этом охватывает достаточно много направлений Machine Learning.
  • Natural Language Processing (Coursera - Stanford University) - один из самых популярных онлайн-курсов по обработке естественного языка от Стэнфордского Университета.
  • Introduction to Recommender Systems (Coursera - University of Minnesota) - введение в рекомендательные системы. Нельзя сказать, что курс тщательно проработан, но курсов по данной не так много, так что он может быть интересен тем, кто занимается тематикой рекомендательных систем.
  • Neural Networks for Machine Learning (Coursera - University of Toronto) - курс по применению нейронных сетей в машинном обучении.
  • Natural Language Processing (Coursera - Columbia University) - еще один курс, посвященный теме обработки естественного языка.
  • Social Network Analysis (Coursera - University of Michigan) - курс посвящен популярной теме анализа данных социальных сетей.
  • Statistical Learning (Stanford Online) - курс, посвященный основам обучения с учителем (Supervised learning) в машинном обучении.
  • SABR101x Sabremetrics: Introduction to Baseball Analytics (edX - BUx-Boston University) - в курсе объясняются многие аспекты Data Science и Big Data на основе анализа спортивной статистики (в данном случае бейсбола).
  • PH525x Data Analysis for Genomics (edX - HarvardX) - достаточно простой курс по теме анализа данных.
  • 15.071x The Analytics Edge (edX - MITx) - курс с отличным материалом по теме анализа данных и машинному обучению.
  • Learning From Data (edX - CaltechX) - один из лучших курсов по машинному обучению. Доступно раскрываются многие темы машинного обучения.
  • CS188.1x Artificial Intelligence (edX - BerkleyX) - наверное один из самых интересных онлайн-курсов по теме искусственного интеллекта. В курсе используется язык программирования Python.
  • Intro to Data Science (Udacity) - введение в Data Science от Udacity.
  • Machine Learning 1—Supervised Learning (Udacity) - первая часть из серии курсов по машинному обучению от Udacity. Первая часть посвящена теме обучения с учителем (Supervised learning).
  • Machine Learning 2—Unsupervised Learning (Udacity) - вторая часть из серии курсов по машинному обучению от Udacity. Вторая часть посвящена теме обучения без учителя (Unsupervised learning).
  • Machine Learning 3—Reinforcement Learning (Udacity) - третья часть из серии курсов по машинному обучению от Udacity. Третья часть посвящена популярной методике машинного обучения Reinforcement Learning.
  • Exploratory Data Analysis (Udacity) - курс по визуализации данных с использованием языка R.
  • Artificial Intelligence for Robotics (Udacity) - введение в тему программирования искусственного интеллекта на примере беспилотного автомобиля.
  • Intro to Artificial Intelligence (Udacity) - курс по основам искусственного интеллекта.
  • CS109 Data Science (Harvard) - видеолекции курса по основам Data Science от Harvard Extension School

No comments:

Post a Comment