Wednesday, September 10, 2014

Bike Sharing Demand на Kaggle: пример кода

Хочу привести небольшой простой пример кода с соревнования по машинному обучению с Kaggle под названием Bike Sharing Demand, в котором участникам предлагается предсказать почасовую количественную потребность в велосипедах в пунктах проката в Washington, D.C.

В данном примере я использовал язык программирования R и библиотеку машинного обучения Caret. Я добавил несколько дополнительных параметров, которые в основном были получены из поля "datetime". Затем я разделил предсказательную модель на две части: рабочие дни и выходные дни, а также предсказывал отдельно потребности "casual" и "registered", затем суммируя их в результирующем сете в столбце "count". Для кросс-валидации я использовал подход k-fold cross-validation. В качестве алгоритма обучения я использовал Random Forest из библиотеки randomForest, которую библиотека Caret оборачивает своим универсальным интерфейсом. В качестве следующего шага я бы хотел добавить данные о праздниках в США и Washington D.C.

Результат работы данного кода получил результат 0.47815 по метрике Root Mean Squared Logarithmic Error (RMSLE) (165 место на момент загрузки).

Пример кода Bike Sharing Demand

No comments:

Post a Comment