Monday, September 1, 2014

Дайджест наиболее интересных материалов по анализу данных №13 (25 августа - 1 сентября 2014)

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много разноплановой информации. Есть много статей, посвященных теме Data Engineering. Есть материалы для новичков и несколько видеолекций. Как обычно упоминаются соревнования по машинному обучению на Kaggle. Интересная статья про стартапы в области Data Science. Любопытная статья про улучшение игрового AI при помощи использования машинного обучения.

Материалы по анализу данных и машинному обучению

  • EN Для новичков Предсказательное моделирование, обучение с учителем и классификация паттернов
    Неплохая статья по машинному обучению, которая будет интересна в том числе и новичкам, которая затрагивает такие темы как обучение с учителем, визуализация при машинном обучении, обработка входных данных, feature enginering, сэмплирование и другие.
  • EN Теория Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014
    Материалы с выступления Ruslan Salakhutdinov из University of Toronto на конференции KDD 2014, которая прошла в Нью-Йорке.
  • RU habr Для новичков Data engineering Поговорим за Hadoop
    Введение в экосистему Hadoop на русском языке. В конце есть неплохой набор ссылок на полезные материалы по данной тематике.
  • EN Как стать Data Scientist
    Любопытная статья от портала DataScienceCentral для тех, кто интересуется темой Data Science. Статья кратко описывает понятие Data Scientist, выделяет 4 направления в данной профессии и рассуждает об инструментах, которые необходимы специалисту по анализу данных.
  • RU R Использование функции pbapply()
    Интересный пример использования функции pbapply() из библиотеки pbapply для языка программирования R.
  • RU habr Data engineering Azure DocumentDB
    Cтатья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB. DomentDB пока находится в стадии preview. В конце данной статьи есть неплохой набор ссылок по теме.
  • EN Data Science стартапы от Y Combinator
    В области Data Science на данный существует достаточно много возможностей для развития бизнеса. В данной статье приводится список Data Science стартапов 2014 года от известного инкубатора стартапов Y Combinator.
  • RU Соревнования по машинному обучению Новое соревнование на Kaggle: Epilepsy Seizure Prediction Challenge
    Не так давно на Kaggle стартовало новое соревнование по машинному обучению American Epilepsy Society Seizure Prediction Challenge. Соревнование продлится до 17 ноября 2014 года.
  • EN 33 необычных проблемы, которые можно решить с помощью Data Science
    Автор популярного портала DataScienceCentral в своем коротком посте опубликовал список 33 проблем из различных областей жизнедеятельности, которые по мнению Vincent Granville могут быть решены с помощью Data Science.
  • EN Еженедельный дайджест от DataScienceCentral
    Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.
  • EN Литература Список интересной литературы
    Список интересных книг, которые может быть интересно прочитать тем, кто интересует темой анализа данных.
  • RU Новый набор данных от Microsoft Research
    Буквально вчера на сайте Microsoft Research был опубликован интересный набор данных под названием Microsoft Research Dense Visual Annotation Corpus.
  • EN Как машинное обучение помогло улучшить игровой AI
    Достаточно любопытная статья, написанная хорошим живым языком, о том как применение техник машинного обучения помогло автору статьи значительно упростить и улучшить эффективность AI для игрового бота.
  • EN Data engineering Сближение машинного обучения и Big Data
    В статье приведены интересные наблюдения достаточно известного специалиста по анализу данных Mikko Braun по теме необходимости сближения сообществ машинного обучения и Big Data, и о том, что сейчас они на самом деле достаточно далеки друг от друга, что приводит к определенным проблемам и неудобствам.
  • RU Для новичков Диаграммы связей для машинного обучения и Data Mining
    В данном коротком посте приведены две очень интересных и полезных диаграммы связей (mind map) по темам машинного обучения и Data Mining
  • EN Анализ неструктурованных данных
    Продолжение серии статей по анализу текста и о работе с неструктурированными данными. В данном случае от постановки вопросов автор переходит к практическим аспектам и рассуждает на тему обработки и очистки неструктурированных текстовых данных, в качестве подготовки к дальнейшим шагам анализа этих данных.
  • EN Для новичков Так вы хотите быть Data Scientist
    Интересная короткая статья, описывающая основные аспекты профессии под названием Data Scientist.
  • EN Использование Big Data на рынке ценных бумаг
    Автор статьи предлагает 3 практических совета по использованию Big Data для инвестиций на рынках ценных бумаг, которые может использовать каждый.
  • EN Для новичков Видеолекции 100 популярных видео по машинному обучению
    Отличный большой список из ста видео, посвященных машинному обучению, с портала VideoLectures.Net.
  • EN Для новичков Онлайн-курс Онлайн-курс "Анализ данных и статистический вывод"
    В понедельник первого сентября на Coursera стартует второй раз очень хорошо зарекомендовавший себя онлайн-курс по теме анализа данных и статистики "Анализ данных и статистический вывод" от Duke University.
  • EN Дайджест лучших ресурсов от DataScienceCentral (1 сентября)
    Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.
  • EN Data engineering Python Применение байесовских методов машинного обучения с помощью Apache Spark
    Небольшая любопытная статья от авторов блога Cloudera, в которой приводится пример возможности использования байесовских методов машинного обучения с помощи популярного продукта семейства Hadoop под названием Apache Spark и библиотеки PyMC для языка программирования Python.
  • EN Факты и мифы о Big Data
    Небольшая интересная статья от популярного портала insideBIGDATA, в которой автор рассуждает о вопросах популярной сейчас темы Big Data и делится своими мыслями насчет распостраненных заблуждений в данной области.
  • EN Data engineering 12 советов по MongoDB
    Небольшая статья, которая содержит 12 полезных советов для тех, кто хочет использовать популярную NoSQL базу данных MongoDB в боевых условиях.
  • EN Видеолекции R John Chambers: интерфейсы, эффективность и большие данные
    John Chambers в данном видео с конференции "useR! 2014 conference" рассуждает о прошлом, настоящем и будущем языка программирования R в процессе дискуссии под названием "Interfaces, Efficiency and Big Data".
  • EN Для новичков Data engineering Использование Hadoop для больших объемов данных
    Достаточно большая статья об экосистеме Hadoop и вопросах её реального использования при работе с большими объемами данных.
  • EN Data engineering Операции записи в MongoDB
    Статья, которая неплохо описывает тонкости вопрос записи и обновления в MongoDB, приводя несколько режимов работы с MongoDB при обновлении данных: Unacknowledged, Acknowledged, Journalled и др.
  • EN R Нелинейная классификация в R с помощью деревьев принятия решений
    7 видов нелинейной классификации с помощью деревьев принятия решений с примерами кода на языка программирования R от автора популярного блога по анализу данных MachineLearningMastery.
  • EN Data engineering Impala: планы на будущее
    Небольшая статья с блога Cloudera о планах компании на будущее популярного продукта для Hadoop под названием Cloudera Impala, который позволяет работать с данным в Hadoop с помощью SQL-запросов.
  • EN Data engineering Slamdata: SQL-запросы в MongoDB
    Анонс достаточно интересного продукта SlamData, который позволит исполнять SQL-запросы к данным, находящимся в MongoDB. На текущий момент продукт находится в фазе бета-тестирования, релиз запланирован на начала октября текущего года.

Предыдущий выпуск: Дайджест наиболее интересных материалов по анализу данных №12 (18 - 25 августа 2014)

No comments:

Post a Comment