Monday, August 18, 2014

Дайджест наиболее интересных материалов по анализу данных №11 (11 - 18 августа 2014)

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных видеоматериалов. Некоторые количество материалов посвящено теме Data Engineering. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Как обычно много материалов посвящено алгоритмам машинного обучения.

Материалы по анализу данных и машинному обучению

  • EN Визуализация с помощью фреймворка D3
    Небольшая статья про визуализацию данных с помощью популярного JS-фреймворка D3.
  • EN Python Свой собственный поиск по изображениям
    Автор рассказывает свою собственную разработку на Python, которая позволяет упростить работу с изображениями на локальном компьютере.
  • EN Data engineering Видеолекции Alex Smola рассказывает про масштабируемое машинное обучение
    Это еще одна лекция из серии лекций, которые были представлены на летней школе машинного обучения Machine Learning Summer School (MLSS ’14) в Питтсбурге. В данной видеолекции известный специалист в области компьютерных наук и в том числе в области машинного обучения Alex Smola (исследователь в Google, профессор университета Карнеги-Меллона) затрагивает очень интересную и важную тему масштабирования в машинном обучении.
  • EN Будущее потребления контента глазами Yahoo
    Интересная о статья о планах компании Yahoo на будущее в области искусственного интеллекта и машинного обучения.
  • EN R 21 инструмент навигации в R
    Полезный набор из 21 инструмента навигации для языка программирования R, который будет полезен каждому.
  • EN Развитие технологий искусственного интеллекта в Facebook завистит от этого человека
    Интересная статья о Yann LeCunn - одном из самых известных специалистов в области анализа данных и машинного обучения, который является одним из основоположников Deep Learning и сейчас занимается развитием технологий машинного обучения в компании Facebook.
  • EN Список ведущих исследователей в области анализа данных
    Любопытный список ведущих исследователей и ученых в области анализа данных и Data Science от популярного портала KDnuggets, основанный на обработке результатов данных с Microsoft Academic Search.
  • RU R Выбор подмножества записей из большого файла
    При работе с большим файлом в языке программирования R чаще гораздо удобнее работать с небольшим случайным подмножеством записей из всего набора данных. В данной короткой статье представлен пример кода для извлечения подмножества записей из файла.
  • EN Python Apache Spark совместно с IPython
    Небольшая статья с блога компании Cloudera об интеграции Apache Spark и IPython.
  • EN Python Библиотека машинного обучения PyStruct
    Библиотека для машинного обучения, а именно Structured Learning с использованием языка программирования Python. Библиотека создана с ориентировкой на схожесть дизайна с популярной библиотекой машинного обучения scikit-learn.
  • EN Быстрое обучение с Vowpal Wabbit
    Небольшая статья от Microsoft Technet Machine Learning Blog о системе машинного обучения с открытым исходным кодом Vowpal Rabbit, которую развивает Microsoft Research и которая имеет возможность интеграции с облачной платформой машинного обучения Microsoft Azure ML.
  • EN Видеолекции Лучшие видео первой половины года по теме анализа данныхВ данной cтатье можно найти список лучших видеоматериалов первого полугодия 2014, которые были на портале IBM Big Data & Analytics Hub.
  • EN Библиотека машинного обучения QuickML
    Интересная библиотека для машинного обучения с использованием языка программирования Java.
  • EN SAS в облаке
    В данной статье достаточно кратко рассказывается о работе SAS в облаке AWS от компании Amazon, а также об интеграции платформы SAS с некоторыми AWS-сервисами.
  • EN 38 статей по анализу данных, которые должен прочитать каждый
    Отличный список из 38 статей по анализу данных, которые будут интересны тому, кто интересуется данной темой.
  • EN R Как сделать наклонные подписи на осях графика
    Как сделать наклонные подписи на осях графика - вопрос, который часто возникает при использовании стандартных средств визуализации в языке программирования R. В данной статье есть небольшой пример кода, который позволяет делать подписи к осях под различными углами наклона.
  • EN Для новичков Как улучшить свои навыки в машинном обучении
    Хорошая небольшая статья, написанная простым языком, о том как улучшить свои навыки машинного обучения.
  • EN Сравнение программного обеспечения для анализа данных
    Сравнительная таблица программных продуктов (R, MATLAB, SAS, STATA и SPSS) на предмет встроенной поддержки различных инструментов статистического анализа в них.
  • EN Data engineering 18 основных инструментов семейства Hadoop
    Количество новых инструментов вокруг Hadoop стремительно растет и следить за всеми новинками в данном направлении достаточно сложно. В данный статье можно найти список из 18 основных с кратким описанием каждого.
  • EN R Библиотека semPlot для языка R
    Небольшой пример использования библиотеки semPlot, которая предназначена для визуализации данных Structural equation modeling (SEM), что позволяет исследовать различные сложные взаимосвязи между переменными.
  • EN R Дилемма заключённого: пример на языке R
    Интересный пример реализации фундаментальной проблемы из теории игр "Дилемма заключенного" с использованием языка программирования R.
  • EN Для новичков Python Немного базовой статистики
    Немного примеров простых операций из статистики с примерами на языке программирования Python.
  • RU Python Трансформация данных из SAS в SQLite
    Полезный пример кода на языке программирования Python для трансформации данных из формата SAS в формат SQLite.
  • EN R GrapherR: GUI-система визуализации для R
    GrapherR - библиотека для языка программирования R, которая позволяет визуализировать различные данные, но что очень важно - данная библиотека имеет свой GUI.
  • EN Теория Сверточные нейронные сети
    Публикация посвящена теме сверточных нейронных сетей, с достаточно глубоким погружением в материал и теорию по данной интересной и популярной теме.
  • EN Для новичков Так вы хотели попробовать Deep Learning?
    Статья посвящена популярной теме Deep Learning, а скорее является набором полезных и интересных ресурсов по данной тематике, которые позволят лучше разобраться в теме Deep Learning.
  • EN Краткое описание OpenML
    Небольшая статья про набирающий популярность портал по машинному обучению OpenML, на котором в том числе можно поучаствовать в соревнованиях по машинному обучению.
  • EN Для новичков Python Исследовательский анализ данных с помощью Python и Pandas
    Очень любопытная статья про исследовательский анализ данных с использованием Python и Pandas, с примерами кода на основе популярного датасета "Титаник" с Kaggle.
  • EN Data engineering Видеолекции Построение инфраструктуры для машинного обучения
    В данном интересном видео с очень легким стилем изложения Джош Виллис (Senior Director of Data Science в Cloudera) расскажет над чем работает в Cloudera в данный момент и про использование машинного обучения на живой среде с большим количеством данных или Industrial Machine Learning, что зачастую бывает гораздо сложнее чем академическое машинное обучение.
  • EN Data engineering Новое в CDH 5.1: Кэширование чтения в HDFS
    Данная статья расскажет о новой функциональности в CDH 5.1: кэширование чтения в HDFS, которая потенциально позоволит значительно увеличить скорость чтения в системах, которые используют HDFS.
  • EN R Нелинейная классификация в R
    Восемь видов нелинейной классификации с примерами на языке программирования R.

Предыдущий выпуск: Дайджест наиболее интересных материалов по анализу данных №10 (4 - 11 августа 2014)

No comments:

Post a Comment