Скажем, я хочу сделать стратифицированный образец из фреймворка данных в Pandas, чтобы получить 5%
строк для каждого значения данного столбца. Как я могу это сделать?
Например, в приведенной ниже таблице данных я хотел бы попробовать 5%
строк, связанных с каждым значением столбца Z
. Есть ли способ отобразить группы из загружаемой в память фрейма данных?
> df
X Y Z
1 123 a
2 89 b
1 234 a
4 893 a
6 234 b
2 893 b
3 200 c
5 583 c
2 583 c
6 100 c
В общем, что, если я этот фреймворк данных на диске в огромном файле (например, 8 ГБ файла csv). Есть ли способ сделать эту выборку, не загружая весь блок данных в памяти?