Monday, August 25, 2014

Дайджест наиболее интересных материалов по анализу данных №12 (18 - 25 августа 2014)

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных материалов для новичков. Присутствует пара интересных видеоматериалов. Есть материалы по теме Data Engineering. Как обычно некоторые количество статей посвящено примерам кода, связанного с анализом данных и машинным обучением. И уже традиционно несколько статей посвящено теме участия в соревнованиях по машинному обучению.

Материалы по анализу данных и машинному обучению

  • EN Литература Книга по Deep Learning от MIT
    Книга от MIT по очень популярному сейчас направлению машинного обучения Deep Learning. Книга пока не является законченной, но многие главы уже доступны читателям.
  • EN Литература R Обработка данных с помощью R
    Небольшая книга, которая может быть полезна всем кто работает с данным, используя язык программирования R, посвященная обработке и очистке данных в фазе препроцессинга, что как известно занимает достаточно много времени и отнимает много усилий у специалистов по анализу данных.
  • EN Для новичков Видеолекции Python Трудный путь изучения машинного обучения - история о пони
    Nathan Taggart (Product Manager в New Relic) в данном видео рассказывает свою историю освоения машинного обучения и о том каких ошибок следует избегать в этой непростой задаче. Видео рассчитано на новичков в теме анализа данных и машинного обучения.
  • EN Для новичков R Что такое R
    Небольшой емкий обзор языка программирования R с описанием преимуществ и недостатков.
  • EN Что компаниям нужно знать о Big Data
    Статья, рассуждающая о том, что многим компаниям возможно стоит поменять подход к работе со своими данными и больше ориентироваться на современнные тенденции Data Science.
  • EN Руководство по анализу неструктурированных текстовых данных
    Первая часть из серии статей от популярного портала Analytics Vidhya, посвященная интересной теме анализа текста. В данной статье описываются базовые проблемы и вопросы, в будущих статьях будут описаны детали реализации решения данных вопросов.
  • EN Анализ данных с Mario Garzia из Microsoft
    Специалист по анализу данных Mario Garzia из Microsoft в своей статье в блоге Microsoft Technet Machine Learning Blog приводит свои интересные рассуждения о текущем состоянии дел в области Data Science.
  • EN Соревнования по машинному обучению 5 преимуществ участия в соревнованиях по машинному обучению
    Очередная интересная статья от автора блога MachineLearningMastery. На этот раз речь пойдет о плюсах участия в соревнованиях по машинному обучению на Kaggle.
  • RU R Визуализация временных рядов с помощью библиотеки googleVis
    Не так давно на вышла новость о релизе googleVis версии 0.5.5. В данном коротком посте приводится очень простой пример кода для визуализации временных рядов с помощью библиотеки googleVis для языка программирования R.
  • EN Data engineering Microsoft Azure DocumentDB
    Небольшая статья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB.
  • RU habr Применение машинного обучения для трейдинга (часть 1)
    Введение в тему использования машинного обучения для трейдинга. Данная серия статей уже была представлена в обзорах по анализу данных и машинному обучению. В данном случае это перевод первой части на русский язык.
  • EN Data engineering Улучшение производительности запросов в Apache Hive при помощи партиционирования
    Небольшая статья с блога Cloudera о том, как можно улучшить производительность запросов в Apache Hive при помощи использования партиционирования.
  • RU Онлайн-курс Анонсирован новый онлайн-курс на Coursera от Stanford University - Mining Massive Datasets
    29 сентября 2014 года на Coursera стартует очень любопытный онлайн-курс от Stanford University - Mining Massive Datasets.
  • EN Python Быстрый HDF5 с Pandas
    Пример работы с форматом хранения информации HDF5 из фреймворка по анализу данных Pandas для языка программирования Python.
  • EN Интересные ресурсы по Deep Learning
    Список ресурсов по популярной технике машинного обучения Deep Learning, составленный известным порталом KDnuggets.
  • EN Для новичков Data engineering Это не NoSQL против RDBMS, это ACID+Foreign Keys против Eventual Consistency
    Немного любопытных рассуждений о NoSQL и RDBMS хранилищах данных.
  • EN Соревнования по машинному обучению Пример решения задачи на Kaggle
    Пример возможного решения популярного на Kaggle соревнования по машинному обучению "Predict Bike Sharing Demand" с использованием техники Gradient Boosted Trees. В примере используется инструмент машинного обучения GraphLab Create.
  • EN Для новичков Визуализация работы логистической регрессии
    В машинном обучении часто применяется логистическая регрессия. В данном коротком посте представлена визуализация работы логистической регрессии в виде анимированного изображения.
  • EN Машинное обучение и компьютерное зрение (часть 2)Вторая часть серии статей от Microsoft Technet Machine Learning Blog, посвященная использованию машинного обучения при решении вопросов распознавания образов и применения технологий компьютерного зрения. Статья небольшая и написана простым языком, без погружения в детали данной достаточно сложной темы.
  • EN Для новичков Data engineering Экосистема Hadoop
    Неболшая полезная статья, которая дает краткое описание основных элементов экосистемы Hadoop.
  • EN Для новичков Что такое Big Data?
    Интересная небольшая статья, в которой автор рассуждает о том, что же такое Big Data и делается попытка дать наиболее простое описание данного термина.
  • EN R Использование expression в R
    Интересная статья про использование функции expression() в языке программирования R.
  • RU Для новичков Блок-схема машинного обучения с учителем (Supervised learning)
    Многие знакомы с таким способом машинного обучения, как обучение с учителем (Supervised learning). В данном коротком посте в виде блок-схемы представлена хорошая визуализация последовательности типовых действий при обучении с учителем.
  • EN 21 отличный график
    Нескольких отличных примеров визуализации данных с помощью различных видов графиков и диаграмм от портала DataScienceCentral.
  • EN Соревнования по машинному обучению Как удачно выступать в соревнованиях на Kaggle
    Еще одна полезная статья о том, как успешно выступать в соревнованиях по машинному обучению на Kaggle.
  • EN Онлайн-курс Анонс Capstone project в специализации по анализу данных от Coursera
    Небольшая статья, анонсирующая Capstone project, который относится к финальной фазе Data Science Specialization от Johns Hopkins University. К проекту можно подключиться, если успешно окончены все 9 курсов специализации.
  • EN Data engineering Видеолекции Sybil: система масштабирования машинного обучения в Google
    В данном докладе Tushar Chandra рассказывает о судьбе Sybil в Google. Sybil - важный исследовательский проект в Google, который реализует различные алгоритмы машинного обучения, позволяя их масштабировать. Данная разработка широко используется в Google.
  • EN Четыре основных языка для анализа данных
    Результаты голосования, проведенного популярным порталом KDnuggets, о самых попупулярных языках, которые используются для анализа данных.
  • EN Для новичков Математика для машинного обучения
    Статья посвящена вопросу необходимых математических навыков необходимых для освоения базовых знаний по машинному обучению. Автор указывает, что статья является черновой версией и что в ней со временем будет появляться дополнительная информация.
  • EN R Куда устанавливаются библиотеки в RStudio
    Небольшая статья, посвященная любопытному вопросу о том, куда RStudio устанавливает библиотеки.
  • EN 44 статьи по анализу данных
    Интересная подборка статей и ресурсов от лучших специалистов по анализу данных, собранная порталом DataScienceCentral

Предыдущий выпуск: Дайджест наиболее интересных материалов по анализу данных №11 (11 - 18 августа 2014)

No comments:

Post a Comment