Почему ctypes так медленно конвертирует список Python в массив C?

Узким местом моего кода в настоящее время является преобразование из списка Python в массив C с использованием ctypes, как описано в этом вопросе.

Небольшой эксперимент показывает, что он действительно очень медленный, по сравнению с другими инструкциями Python:

import timeit
setup="from array import array; import ctypes; t = [i for i in range(1000000)];"
print(timeit.timeit(stmt='(ctypes.c_uint32 * len(t))(*t)',setup=setup,number=10))
print(timeit.timeit(stmt='array("I",t)',setup=setup,number=10))
print(timeit.timeit(stmt='set(t)',setup=setup,number=10))

дает:

1.790962941000089
0.0911122129996329
0.3200237319997541

Я получил эти результаты с CPython 3.4.2. Я получаю аналогичные времена с CPython 2.7.9 и Pypy 2.4.0.

Я попробовал запустить вышеуказанный код с помощью perf, комментируя инструкции timeit для запуска только по одному. Я получаю следующие результаты:

ctypes

 Performance counter stats for 'python3 perf.py':

       1807,891637      task-clock (msec)         #    1,000 CPUs utilized          
                 8      context-switches          #    0,004 K/sec                  
                 0      cpu-migrations            #    0,000 K/sec                  
            59 523      page-faults               #    0,033 M/sec                  
     5 755 704 178      cycles                    #    3,184 GHz                    
    13 552 506 138      instructions              #    2,35  insn per cycle         
     3 217 289 822      branches                  # 1779,581 M/sec                  
           748 614      branch-misses             #    0,02% of all branches        

       1,808349671 seconds time elapsed

массив

 Performance counter stats for 'python3 perf.py':

        144,678718      task-clock (msec)         #    0,998 CPUs utilized          
                 0      context-switches          #    0,000 K/sec                  
                 0      cpu-migrations            #    0,000 K/sec                  
            12 913      page-faults               #    0,089 M/sec                  
       458 284 661      cycles                    #    3,168 GHz                    
     1 253 747 066      instructions              #    2,74  insn per cycle         
       325 528 639      branches                  # 2250,011 M/sec                  
           708 280      branch-misses             #    0,22% of all branches        

       0,144966969 seconds time elapsed

набор

 Performance counter stats for 'python3 perf.py':

        369,786395      task-clock (msec)         #    0,999 CPUs utilized          
                 0      context-switches          #    0,000 K/sec                  
                 0      cpu-migrations            #    0,000 K/sec                  
           108 584      page-faults               #    0,294 M/sec                  
     1 175 946 161      cycles                    #    3,180 GHz                    
     2 086 554 968      instructions              #    1,77  insn per cycle         
       422 531 402      branches                  # 1142,636 M/sec                  
           768 338      branch-misses             #    0,18% of all branches        

       0,370103043 seconds time elapsed

Код с ctypes имеет меньше ошибок страницы, чем код с set и такое же количество пропусков ветвей, чем два других. Единственное, что я вижу, это то, что есть больше инструкций и ветвей (но я до сих пор не знаю почему) и больше контекстных переключателей (но это, безусловно, следствие более длительного времени, а не причины).

Поэтому у меня есть два вопроса:

  • Почему ctypes так медленно?
  • Есть ли способ улучшить производительность, либо с помощью ctype, либо с другой библиотекой?

Ответ 1

Решение состоит в том, чтобы использовать модуль array и передать адрес или использовать метод from_buffer...

import timeit
setup="from array import array; import ctypes; t = [i for i in range(1000000)];"
print(timeit.timeit(stmt="v = array('I',t);assert v.itemsize == 4; addr, count = v.buffer_info();p = ctypes.cast(addr,ctypes.POINTER(ctypes.c_uint32))",setup=setup,number=10))
print(timeit.timeit(stmt="v = array('I',t);a = (ctypes.c_uint32 * len(v)).from_buffer(v)",setup=setup,number=10))
print(timeit.timeit(stmt='(ctypes.c_uint32 * len(t))(*t)',setup=setup,number=10))
print(timeit.timeit(stmt='set(t)',setup=setup,number=10))

При использовании Python 3 это происходит во много раз быстрее:

$ python3 convert.py
0.08303386811167002
0.08139665238559246
1.5630637975409627
0.3013848252594471

Ответ 2

Хотя это не окончательный ответ, проблема заключается в вызове конструктора с *t. Выполняя следующее, значительно уменьшите накладные расходы:

array =  (ctypes.c_uint32 * len(t))()
array[:] = t

Тест:

import timeit
setup="from array import array; import ctypes; t = [i for i in range(1000000)];"
print(timeit.timeit(stmt='(ctypes.c_uint32 * len(t))(*t)',setup=setup,number=10))
print(timeit.timeit(stmt='a = (ctypes.c_uint32 * len(t))(); a[:] = t',setup=setup,number=10))
print(timeit.timeit(stmt='array("I",t)',setup=setup,number=10))
print(timeit.timeit(stmt='set(t)',setup=setup,number=10))

Вывод:

1.7090932869978133
0.3084979929990368
0.08278547400186653
0.2775516299989249