Является ли "соединение" медленнее в 3.x?

Я просто возился, когда наткнулся на эту причуду. И я хотел убедиться, что я не сумасшедший.

Следующий код (работает в 2.x и 3.x):

from timeit import timeit
print ('gen: %s' % timeit('"-".join(str(n) for n in range(1000))', number=10000))
print ('list: %s' % timeit('"-".join([str(n) for n in range(1000)])', number=10000))

Выполнение 3 прогона на каждой версии, на той же машине.

Примечание: я сгруппировал тайминги в той же строке, чтобы сэкономить место здесь.

На моем Python 2.7.5:

gen: 2.37875941643, 2.44095773486, 2.41718937347
list: 2.1132466183, 2.12248106441, 2.11737128131

На моем Python 3.3.2:

gen: 3.8801268438439718, 3.9939604983350185, 4.166233972077624
list: 2.976764740845537, 3.0062614747229555, 3.0734980312273894

Интересно, почему это... Может ли это иметь какое-то отношение к тому, как реализованы строки?


EDIT: Я сделал это снова, не используя range(), так как это также немного изменилось с 2.x до 3.x Вместо этого я использую новый код ниже:

from timeit import timeit
print ('gen: %s' % timeit('"-".join(str(n) for n in (1, 2, 3))', number=1000000))
print ('list: %s' % timeit('"-".join([str(n) for n in (1, 2, 3)])', number=1000000))

Сроки для Python 2.7.5:

gen: 2.13911803683, 2.16418448199, 2.13403650485
list: 0.797961223325,  0.767758578433, 0.803272800119

Сроки для Python 3.3.2:

gen: 2.8188347625218486, 2.882846655874985, 3.0317612259663718
list: 1.3590610502957934, 1.4878876089869366, 1.4978070529462615

EDIT2: Кажется, что было еще несколько вещей, отбрасывающих расчет, поэтому я попытался свести его к минимуму.

Новый код:

from timeit import timeit
print ('gen: %s' % timeit('"".join(n for n in ("1", "2", "3"))', number=1000000))
print ('list: %s' % timeit('"".join([n for n in ("1", "2", "3")])', number=1000000))

Timing Python 2.7.5:

gen: 1.47699698704, 1.46120314534, 1.48290697384
list: 0.323474182882, 0.301259632897, 0.323756694047

Timing Python 3.3.2:

gen: 1.633002954259608, 1.6049987598860562, 1.6109927662465935
list: 0.5621341113519589, 0.5789849850819431, 0.5619928557696119

Разница очевидна, она быстрее в 2.x и медленнее в 3.x И мне любопытно, почему...

Ответ 1

Я еще не работал над python3.3. Все, что я изложил ниже, основано на наблюдении.

Я использовал дизассемблер python для следующего кода в python 3.3 и python 2.7.3.

s = """
''.join([n for n in ('1', '2', '3')])
"""

Я обнаружил, что есть изменения в повышающих кодах.

Python 2.7.3

Python 2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)] on win
32
Type "help", "copyright", "credits" or "license" for more information.
>>> import dis
>>> from timeit import timeit
>>> s = """
... ''.join([n for n in ('1', '2', '3')])
... """
>>> timeit(s, number=100000)
0.08443676085287867
>>>
>>>
>>> c = compile(s, '<string>', 'exec')
>>> dis.dis(c)
  2           0 LOAD_CONST               0 ('')
              3 LOAD_ATTR                0 (join)
              6 BUILD_LIST               0
              9 LOAD_CONST               5 (('1', '2', '3'))
             12 GET_ITER
        >>   13 FOR_ITER                12 (to 28)
             16 STORE_NAME               1 (n)
             19 LOAD_NAME                1 (n)
             22 LIST_APPEND              2
             25 JUMP_ABSOLUTE           13
        >>   28 CALL_FUNCTION            1
             31 POP_TOP
             32 LOAD_CONST               4 (None)
             35 RETURN_VALUE
>>>

python 3.3

Python 3.3.0 (v3.3.0:bd8afb90ebf2, Sep 29 2012, 10:55:48) [MSC v.1600 32 bit (In
tel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import dis
>>> from timeit import timeit
>>> s = """
... ''.join([n for n in ('1', '2', '3')])
... """
>>> timeit(s, number=100000)
0.13603410021487614
>>>
>>>
>>> c = compile(s, '<string>', 'exec')
>>> dis.dis(c)
  2           0 LOAD_CONST               0 ('')
              3 LOAD_ATTR                0 (join)
              6 LOAD_CONST               1 (<code object <listcomp> at 0x01F70BB
0, file "<string>", line 2>)
              9 LOAD_CONST               2 ('<listcomp>')
             12 MAKE_FUNCTION            0
             15 LOAD_CONST               7 (('1', '2', '3'))
             18 GET_ITER
             19 CALL_FUNCTION            1 (1 positional, 0 keyword pair)
             22 CALL_FUNCTION            1 (1 positional, 0 keyword pair)
             25 POP_TOP
             26 LOAD_CONST               6 (None)
             29 RETURN_VALUE
>>>

Из повышающих кодов я понял, что это было понимание списка, которое изменилось, поэтому я проверил для понимания списка в обеих версиях

Python 2.7.3

Python 2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)] on win
32
Type "help", "copyright", "credits" or "license" for more information.
>>>
>>>
>>>
>>> import dis
>>> from timeit import timeit
>>> s = """
... [i for i in ('1', '2', '3')]
... """
>>> timeit(s, number=100000)
0.059500395456104374
>>> c = compile(s, '<string>', 'exec')
>>> dis.dis(c)
  2           0 BUILD_LIST               0
              3 LOAD_CONST               4 (('1', '2', '3'))
              6 GET_ITER
        >>    7 FOR_ITER                12 (to 22)
             10 STORE_NAME               0 (i)
             13 LOAD_NAME                0 (i)
             16 LIST_APPEND              2
             19 JUMP_ABSOLUTE            7
        >>   22 POP_TOP
             23 LOAD_CONST               3 (None)
             26 RETURN_VALUE
>>>

python 3.3

Python 3.3.0 (v3.3.0:bd8afb90ebf2, Sep 29 2012, 10:55:48) [MSC v.1600 32 bit (In
tel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>>
>>>
>>>
>>> import dis
>>> from timeit import timeit
>>> s = """
... [i for i in ('1', '2', '3')]
... """
>>> timeit(s, number=100000)
0.09876976988887567
>>> c = compile(s, '<string>', 'exec')
>>> dis.dis(c)
  2           0 LOAD_CONST               0 (<code object <listcomp> at 0x01FF0BB
0, file "<string>", line 2>)
              3 LOAD_CONST               1 ('<listcomp>')
              6 MAKE_FUNCTION            0
              9 LOAD_CONST               6 (('1', '2', '3'))
             12 GET_ITER
             13 CALL_FUNCTION            1 (1 positional, 0 keyword pair)
             16 POP_TOP
             17 LOAD_CONST               5 (None)
             20 RETURN_VALUE
>>>

Я не работал с python3 или проверял изменения. Похоже, что реализация понимания списка была изменена. В python3.3 есть MAKE_FUNCTION и CALL_FUNCTION. (Теперь в python2.7 вызов функции стоит дорого. Я не уверен, что вызов функции python3.3 все же стоит дорого или нет. Если это случай, то это может добавить некоторое время.)

Ответ 2

Вы не сравниваете яблоки с яблоками.

В Python 2 str - это то, что называется bytes в Python 3 (почти).

В Python 3, str - это то, что называется unicode в Python 2.