Узким местом моего кода в настоящее время является преобразование из списка Python в массив C с использованием ctypes, как описано в этом вопросе.
Небольшой эксперимент показывает, что он действительно очень медленный, по сравнению с другими инструкциями Python:
import timeit
setup="from array import array; import ctypes; t = [i for i in range(1000000)];"
print(timeit.timeit(stmt='(ctypes.c_uint32 * len(t))(*t)',setup=setup,number=10))
print(timeit.timeit(stmt='array("I",t)',setup=setup,number=10))
print(timeit.timeit(stmt='set(t)',setup=setup,number=10))
дает:
1.790962941000089
0.0911122129996329
0.3200237319997541
Я получил эти результаты с CPython 3.4.2. Я получаю аналогичные времена с CPython 2.7.9 и Pypy 2.4.0.
Я попробовал запустить вышеуказанный код с помощью perf
, комментируя инструкции timeit
для запуска только по одному. Я получаю следующие результаты:
ctypes
Performance counter stats for 'python3 perf.py':
1807,891637 task-clock (msec) # 1,000 CPUs utilized
8 context-switches # 0,004 K/sec
0 cpu-migrations # 0,000 K/sec
59 523 page-faults # 0,033 M/sec
5 755 704 178 cycles # 3,184 GHz
13 552 506 138 instructions # 2,35 insn per cycle
3 217 289 822 branches # 1779,581 M/sec
748 614 branch-misses # 0,02% of all branches
1,808349671 seconds time elapsed
массив
Performance counter stats for 'python3 perf.py':
144,678718 task-clock (msec) # 0,998 CPUs utilized
0 context-switches # 0,000 K/sec
0 cpu-migrations # 0,000 K/sec
12 913 page-faults # 0,089 M/sec
458 284 661 cycles # 3,168 GHz
1 253 747 066 instructions # 2,74 insn per cycle
325 528 639 branches # 2250,011 M/sec
708 280 branch-misses # 0,22% of all branches
0,144966969 seconds time elapsed
набор
Performance counter stats for 'python3 perf.py':
369,786395 task-clock (msec) # 0,999 CPUs utilized
0 context-switches # 0,000 K/sec
0 cpu-migrations # 0,000 K/sec
108 584 page-faults # 0,294 M/sec
1 175 946 161 cycles # 3,180 GHz
2 086 554 968 instructions # 1,77 insn per cycle
422 531 402 branches # 1142,636 M/sec
768 338 branch-misses # 0,18% of all branches
0,370103043 seconds time elapsed
Код с ctypes
имеет меньше ошибок страницы, чем код с set
и такое же количество пропусков ветвей, чем два других. Единственное, что я вижу, это то, что есть больше инструкций и ветвей (но я до сих пор не знаю почему) и больше контекстных переключателей (но это, безусловно, следствие более длительного времени, а не причины).
Поэтому у меня есть два вопроса:
- Почему ctypes так медленно?
- Есть ли способ улучшить производительность, либо с помощью ctype, либо с другой библиотекой?