Saturday, January 24, 2015

Введение в Random Forest от Dr. Nando de Freitas

В данном посте представлена лекция по популярному алгоритму машинного обучения Random Forest от Dr. Nando de Freitas (Adjunct Professor at UBC Computer Science, Full-time Professor at Oxford).

Random forest — алгоритм машинного обучения, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев. Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана, и метод случайных подпространств, предложенный Tin Kam Ho. Алгоритм применяется для задач классификации, регрессии и кластеризации.

Достоинства:

  • Высокое качество получаемых моделей, сравнимое с SVM и бустингом, и лучшее, чем у нейронных сетей.
  • Способность эффективно обрабатывать данные с большим числом признаков и классов.
  • Нечувствительность к масштабированию (и вообще к любым монотонным преобразованиям) значений признаков.
  • Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки. Существуют методы построения деревьев по данным с пропущенными значениями признаков.
  • Существует методы оценивания значимости отдельных признаков в модели.
  • Внутренняя оценка способности модели к обобщению (тест out-of-bag).
  • Высокая параллелизуемость и масштабируемость.

Недостатки:

  • Алгоритм склонен к переобучению на некоторых задачах, особенно на зашумленных задачах.
  • Большой размер получающихся моделей. Требуется O(NK) памяти для хранения модели, где K — число деревьев.

Nando de Freitas - Random forests

Источники:

1 comment:

  1. В известном исследовании http://jmlr.org/papers/v15/delgado14a.html утверждается, что RF в будущем заменят человеку все остальные классификаторы :) Правда, на задаче классификации текстов они у меня так и не смогли заработать с достаточной точностью (по сравнению с k-NN).

    ReplyDelete