Monday, September 22, 2014

Дайджест наиболее интересных материалов по анализу данных №16 (15 - 21 сентября 2014)

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Общее

  • EN KDD 2104: Google KV и Topic Modeling
    Авторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска и о другой интересной теме тематического моделирования (Topic Modeling).
  • EN 10 лучших презентаций с SlideShare по Data Science и Big Data
    Статья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров.
  • EN Запуск Data Mining Hub
    Пост о запуске достаточно интересного портала под названием Data Mining Hub с достаточно подробным описанием системы.
  • EN Библиотека cuDNN для Deep Learning
    Анонс библиотеки от NVIDIA для работы с Deep Learning алгоритмами, которая использует GPU для вычислений, данный подход позволяет увеличить эффективность работы алгоритмов машинного обучения.
  • EN Статистика против эвристики
    Интересные размышления автора статьи о о том, когда резонно применять эфристические подходы.
  • RU R В Лондоне прошла конференция "Эффективные применения языка R"
    Автор блога "R: Анализ и визуализация данных" рассказывает о конференции "Effective Applications of the R Language (EARL)", посвященной применению языка программирования R.
  • EN Введение в Predictive Analytics (часть 2)
    Вторая часть новой серии статей от портала insideBIGDATA по теме Predictive Analytics. В данном случае речь пойдет об областях применение Predictive Analytics в корпоративной сфере бизнеса.
  • EN Введение в Predictive Analytics (часть 3)
    Третья часть новой серии статей от портала insideBIGDATA по теме Predictive Analytics. В третьей части описываются основные подходы, которые используются при обучении с учителем (Supervised learning), такие как регрессия, классификация и кластеризация.
  • EN Популярные вопросы на собеседовании на должность аналитика
    Небольшая статья, которая содержит несколько популярных вопросов, которые задают на собеседовании на должность аналитика.
  • EN Vincent Granville о Big Data
    Vincent Granville - автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data.
  • EN Как добиться успеха в Big Data
    Небольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data.
  • EN Как стать Data Scientist
    Несколько советов о том, как стать Data Scientist и быть успешным в области анализа данных.
  • EN R Поддержка R в Azure ML
    Небольшая статья с блога Microsoft Technet Machine Learning о возможности использования R в облачном решении Azure ML.
  • EN 5 ключевых идей для понимания Big Data
    Интересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно.
  • RU habr Применение машинного обучения для трейдинга (часть 2)
    Продолжение темы использования машинного обучения для трейдинга.
  • EN 10 экспертов в машинном обучении
    Список из 10 известных людей в области анализа данных и машинного обучения.
  • EN Data Mining против(?) Data Science
    Еще немного интересных размышлений по поводу терминологии.
  • RU habr Введение в машинное обучение и быстрый старт с Azure ML
    Интересная статья, описывающая возиожности нового облачного продукта для машинного обучения от Microsoft под названием Azure ML.

Соревнования по машинному обучению

Онлайн-курсы и обучающие материалы

Литература

Теория и алгоритмы машинного обучения, примеры кода

Видеоматериалы

  • EN Видеолекции Andrew Ng о Deep Learning
    Andrew Ng из Stanford University выступил на конференции "2014 Robotics: Science and Systems Conference" с интересным докладом о Deep Learning.
  • RU Видеолекции Moscow Data Science. September 2014 Meetup
    5 сентября посетил достаточно интересный meetup под названием Moscow Data Science - «September 2014 Meetup», организованный компанией Mail.ru. По ссылке можно будет посмотреть видео с данной встречи, я для удобства разметил время начала и длительность выступления каждого участника.

Data engineering

  • EN Кто и как использует Hadoop
    Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития.
  • RU Ближайшие встречи по Data Science в Москве
    В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве.
  • EN 10 способов работы с Hadoop через SQL-запросы
    10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого.
  • RU habr Приглашаем на HadoopKitchen
    Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие.
  • EN Видеолекции Введение в HBase
    Статья, содержащая видео и поясняющий материал по теме HBase - хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит.
  • EN Анонс Apache Spark 1.1
    Анонс новой версии Apache Spark 1.1 и описание основных нововведений.
  • EN Потоковая обработка данных в Apache Spark 1.1
    Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности.
  • EN R Python Статистические вычисления в Apache Spark 1.1
    Описание расширенных возможностей статистических вычислений в Apache Spark 1.1.

Обзоры

Предыдущий выпуск: Дайджест наиболее интересных материалов по анализу данных №15 (8 - 14 сентября 2014)

No comments:

Post a Comment