Tuesday, January 13, 2015

Соревнование по машинному обучению "National Data Science Bowl"

Не так давно на Kaggle началось новое соревнование по машинному обучению National Data Science Bowl.

Планктон (греч. πλανκτον — блуждающие) — разнородные, в основном мелкие организмы, свободно дрейфующие в толще воды и неспособные — в отличие от нектона — сопротивляться течению. Такими организмами могут быть бактерии, диатомовые и некоторые другие водоросли (фитопланктон), простейшие, некоторые кишечнополостные, моллюски, ракообразные, яйца и личинки рыб, личинки различных беспозвоночных животных (зоопланктон). Планктон непосредственно или через промежуточные звенья пищевой цепи является пищей для большинства остальных водных животных.

Зоопланктон является наиболее многочисленной группой гидробионтов, имеющих огромное экологическое и хозяйственное значение. Он потребляет формирующееся в водоемах и приносящееся извне органическое вещество, ответственен за самоочищение водоемов и водотоков, составляет основу питания большинства видов рыб, наконец, планктон служит прекрасным индикатором для оценки качества воды.

Исследования зоопланктонных организмов помогают определить загрязненность водоемов и определить экологические особенности определенной области. Любая водная экосистема, находясь в равновесии с факторами внешней среды, имеет сложную систему подвижных биологических связей, которые нарушаются под воздействием антропогенных факторов. Прежде всего, влияние антропогенных факторов, и в частности, загрязнения отражается на видовом составе водных сообществ и соотношении численности слагающих их видов.

Традиционные методы мониторинга за популяцией планктона времязатратны и достаточно сложно поддаются масштабированию для проведения крупных исследований в этой области. Необходимы усовершенствованные подходы. Одним из таких подходов является использование подводных камер. Данные камеры на выходе дают микроскопические изображения с высоким разрешением и анализ данных изображений позволяет оценивать популяции и распределения видов.

Ручной анализ данных изображений является крайне трудо- и времязатратной задачей. Использование инструментов машинного обучения является хорошей альтернативной данному подходу. Данное соревнование предлагает построить свой классификатор изображений для анализа планктона.

Хорошее описание о предоставляемых тренировочном и тестовом наборах данных, а также описание предоставляемых данных можно найти на данной странице. Также там можно найти полезную секцию ответов на наиболее часто задаваемые вопросы.

Очень порадовало то, что в данном соревновании есть секция Tutorial, в которой можно найти базовый вариант решения проблемы с использованием алгоритма машинного обучения Random Forest, языка программирования Python и библиотеки scikit-learn. Данное решение подается с разбивкой на несколько шагов и подробным описанием всех действий.

Результаты будут оценивать на основе метрики Multi-class Logarithmic Loss. Конкурс продлится до 16 марта 2015 года.

Призовой фонд:

  • 1 место - $100 000
  • 2 место - $45 000
  • 3 место - $15 000

Другие материалы, посвященные соревнованиям по машинному обучению:

Источники:

No comments:

Post a Comment