
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
Моделирование пандемий с помощью языка Wolfram Language (системы Mathematica 10) на примере лихорадки Эбола
Интересное из мира R (10-16 ноября 2014)
DataTalks 25.10.14: первая встреча
IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами
Почему Twitter является легкой целью для социальной аналитики
Google и Stanford строят нейронную сеть, способную описывать фотографии
9 навыков необходимых для того, чтобы стать Data Scientist
Еще немного материалов с Highload++ 2014
Последняя партия слайдов с различных выступлений с конференции разработчиков высоконагруженных систем HighLoad++ 2014. Не все из них связаны с машинным обучением и анализом данных, но многие могут быть интересны.Apache Mahout против Weka
Небольшое сравнение двух популярных продуктов.
Теория и алгоритмы машинного обучения, примеры кода
Введение в обучение без учителя (Unsupervised learning) с помощью scikit-learn
Эффективная очистка текста с использованием Python
Введение в Deep Learning на Python
Обзор библиотек для анализа данных с использованием Python
Факторный анализа против метода главных компонент
Пример кода: dplyr - динамическая группировка по полю
Пример кода: объединение нескольких data.frame в R
Одномерная линейная регрессия
Неплохая статья про одномерную линейную регрессию.Использование разведочного анализа данных для лучшего понимания проблемы и улучшения результата
Очередная интересная статья от автора блога MachineLearningMastery. В данном случае речь пойдет об использовании разведочного анализа данных (Exploratory Data Analysis).Ask a Data Scientist: Обучение без учителя
Очередная статья с популярного портала insideBIGDATA из цикла «Ask a Data Scientist», в данном выпуске речь пойдет об обучении без учителя (Unsupervised learning).Визуализация форкастинга
Неплохая статья, посвященная возможности различных визуализаций форкастинга с использованием языка программирования R.Основы анализа данных с использованием R
Хороший набор слайдов с доклада, посвященного основам анализа данных с использованием языка программирования R.
Онлайн-курсы, обучающие материалы и литература
Книга "Statistical Inference for Everyone"
Ссылка на бесплатную версию книги "Statistical Inference for Everyone" и ссылки на дополнительные материалы, которые могут быть полезны при работе с книгой.
Видеоматериалы
Введение в Revolution R Open и Deploy R Open
Видеолекции с летней школы программирования (Machine Learning Summer School 2014, Reykjavik)
Введение в метод опорных векторов
Хорошая лекция по основам метода опорных векторов (Support vector machines) с одного из курсов MIT.Введение в обучение с подкреплением
Неплохой вводный материал по теме подкрепления с обучением (Reinforcement learning).
Data engineering
Использование полнотекстового индексирования и поиска в PostgreSQL
Как и для чего Яндекс отключает собственные дата-центры
Apache Hadoop - не только MapReduce
Небольшая статья с блога Analytics Vidhya про возможности, которые есть в Apache Hadoop помимо MapReduce.Apache Hive на Apache Spark
Статья с блога компании Cloudera - демонстрация работы Apache Hive на Apache Spark, который все очевиднее становится наследник MapReduce при работе с Apache Hadoop.Big Data 101: Разделение
Продолжение дискуссии об основах распределенных вычислений и хранения данных, в данном случае речь пойдет о разделении (Partitioning).
Обзоры
Еженедельный дайджест от DataScienceCentral (24 ноября)
Лучшие материалы за неделю от KDnuggets.com (9 - 15 ноября)
Новости Data Mining от MyDataMine.com (19 ноября)
Дайджест лучших ресурсов от DataScienceCentral (17 ноября)
Наиболее интересные материалы от Freakonometrics №186
Наиболее интересные материалы от Freakonometrics №185
Наиболее интересные материалы от Freakonometrics №184
Лучшие ресурсы за неделю от Data Elixir (№11)
Лучшие материалы: NoSQL Zone (7 - 14 ноября)
Еженедельный сборник лучших материалов от R1Soft (21 ноября)
Наиболее интересные материалы по High Scalability (21 ноября)
Предыдущий выпуск: Дайджест наиболее интересных материалов по анализу данных №24 (10 - 16 ноября 2014)
Все дайджесты: Data science digests
No comments:
Post a Comment