
Представляю очередной выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных. Как всегда есть материалы по алгоритмам машинного обучения. Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering.
Материалы по анализу данных и машинному обучению
- Deep Learning и обработка естественного языка [EN]
Отличная статья о применении набора алгоритмов Deep Learning при обработке естественного языка. - Про размер выборки [EN]
Небольшая статья, посвященная размеру выборки, с применением аргументации, основанной на элементарной статистики. - О масштабировании признаков и нормализации в машинном обучении [EN]
Полезная статья о масштабировании признаков (Feature Scaling) и нормализации (Normalization) при машинном обучении с использованием scikit-learn. - Векторы в R [EN]
Небольшая статья о работе с векторами в языке программирования R. - Приключения вокруг feature learning [EN]
Занимательный рассказ от Andrej Karpathy о применение машинного обучения в распознавании образов. - Подготовка данных с помощью Python Scikit-Learn [EN]
Продолжение дискуссии о работе с scikit-learn - популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о подготовке данных, а именно о процессе Rescaling Data. - Процесс Feature Selection при помощи Python Scikit-Learn [EN]
Еще одна статья о работе с scikit-learn - популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о процессе Feature Selection при машинном обучении. - Лекции летней школы машинного обучения Университета Карнеги — Меллон (видео) [EN]
Отличная подборка всех видеолекций с летней школы машинного обучения Университета Карнеги — Меллон. - Использование машинного обучения для повышения эффективности работы дата-центров в Google [EN]
Небольшая любопытная статья, о том как в Google использовали машинное обучение для повышения эффективности работы своих дата-центров. - Рейтинг языка R [EN]
Свежий рейтинг языков программирования от IEEE, в том числе можно увидеть, что R находится на 9 месте среди всех языков. - Загрузка данных при помощи Scikit-Learn [EN]
Небольшая, но полезная статья про загрузку данных при помощью популярной Python-библиотеки для машинного обучения scikit-learn. - Зависимости популярных библиотек R [EN]
Небольшая статья про то от каких библиотек зависят популярные пакеты языка R (ggplot2, data.table, plyr, knitr, shiny, xts, lattice) и сколько же в итоге будет установлено библиотек, в случае установки всех популярных библиотек из данного списка. - Обработка временных рядов с помощью Apache Crunch [EN]
Статья с блога компании Cloudera про работу с временными рядами (time series) с помощью Apache Crunch с примерами кода на Java. - Предсказание победителя ЧМ по футболу 2014 с помощью R [EN]
Попытка предсказать победителя ЧМ по футболу 2014 с использованием языка R на основе полуфинальных пар. Сейчас уже можно увидеть сбылся ли прогноз. - 3 вещи, которые помогут улучшить ваш код на R [EN]
Несколько полезных практических советов по улучшению кода на R. - Data Scientist и Data Engineer [EN]
Короткая статья, сравнивающая две роли в анализе данных: Data Scientist и Data Engineer. - Быстрая функция для 2x2 таблиц на языке R [EN]
Небольшой пример создания собственной ускоренной функции для создания 2x2 таблиц на языке R, вместо стандартной функции table. - HDFS и MapReduce простым языком [EN]
Описание таких базовых составляющих Hadoop таких, как Hadoop Distributed File System (HDFS) и MapReduce достаточно простым языком. - Интервью на позицию специалиста по анализу данных [EN]
Небольшая статья про то чего можно ожидать от интервью на позицию специалиста по анализу данных. - Data Origami: скринкасты по тематике Data Science [EN]
Небольшой обзор сайта Data Origami, на котором можно найти много скринкастов различного уровня сложности по теме анализа данных и машинного обучения. Правда сайт имеет платную помесячную подписку.
Предыдущий выпуск: Дайджест наиболее интересных материалов по анализу данных №5 (30 июня - 7 июля 2014)
No comments:
Post a Comment