Sunday, November 2, 2014

HighLoad++ 2014: Обработка данных в RTB: быстро, дешево и на 98% точно (Павел Калайдин, RuTarget)

(Доклады с HighLoad++ 2014)

Закончилась очередная конференция разработчиков высоконагруженных систем HighLoad++ 2014 и уже появляются некоторые материалы от выступавших на конференции докладчиков. В данном случае это слайды с доклада Павла Калайдина из RuTarget: Обработка данных в RTB: быстро, дешево и на 98% точно.

Из описания доклада с сайта HighLoad++ 2014:

Павел Калайдин (RuTarget) - с отличием окончил факультет технической кибернетики Санкт-Петербургского Государственного Политехнического Университета. Как инженер вырос в петербургском центре Motorolа, где участвовал в разработке продуктов от автомобильной телематики до IPTV-приставок для японского рынка. В RuTarget занимается разработкой алгоритмов real-time bidding и поиском закономерностей поведения людей в Интернете. Научные интересы: computational advertising, вероятностные структуры данных и потоковые алгоритмы.

Real-time bidding требует real-time аналитики. RuTarget обрабатывает миллиард запросов на показ баннеров в день. Как определить, например, сколько в этих запросах уникальных пользователей? Доступно расскажем о рандомизированных алгоритмах потоковой обработки данных, вероятностных структурах данных и объясним, как быстро и с вычислительной точки зрения дешево получить нужный результат.

Основные тезисы

  1. Какие данные у нас есть, и почему их много?
  2. Trade-off: точность vs. нагрузка на инфраструктуру.
  3. Вероятностные структуры данных для data mining - что это такое?
  4. HyperLogLog - метод подсчета числа уникальных элементов в потоке данных.
  5. Large scale, временное окно.
  6. Примеры из реальной жизни.
  7. Count-Min, Summary-Sketch и т.д.

No comments:

Post a Comment