Sunday, August 17, 2014

Выбор подмножества записей из большого файла

При работе с большим файлом в языке программирования R, чаще гораздо удобнее работать с небольшим случайным подмножеством записей из всего набора данных. В данной статье описан достаточно простой способ, который позволяет выполнить данную операцию. Предполагается, что мы не хотим загружать весь файл в память, а также то что мы не знаем точное количество записей в файле, но имеем примерную оценку данного количества (в статье автор предлагает альтернативный подход для случая, когда нет предположения о количестве записей в файле). Далее представлен пример кода для извлечения подмножества записей из файла.

Исходя из того, что нет точных данных об общем количестве записей в файле, предполагается, что подход выбора значения с шагом k будет достаточно случайным для выбора подходящего сэмпла.

No comments:

Post a Comment