Python - понимание списка в этом случае эффективно?

Это входной "грязный" список в python

input_list = ['  \n  ','  data1\n ','   data2\n','  \n','data3\n'.....]

каждый элемент списка содержит либо пустые пространства с новыми строками строк, либо данные с символами новой строки

Очистите его, используя приведенный ниже код.

cleaned_up_list = [data.strip() for data in input_list if data.strip()]

дает

  cleaned_up_list =   ['data1','data2','data3','data4'..]

Является ли python внутренне вызывать strip() дважды во время понимания вышеприведенного списка? или мне пришлось бы использовать итерацию цикла for и strip() только один раз, если бы я заботился об эффективности?

for data in input_list
  clean_data = data.strip()
     if(clean_data):
         cleaned_up_list.append(clean_data)

Ответ 1

Использование вашей полосы списка comp вызывается дважды, используйте gen exp, если вы хотите только один раз вызвать полосу и сохранить понимание:

input_list[:] = [x for x in (s.strip() for s in input_list) if x]

Input:

input_list = ['  \n  ','  data1\n ','   data2\n','  \n','data3\n']

Вывод:

 ['data1', 'data2', 'data3']

input_list[:] изменит исходный список, который может быть или не быть тем, что вы хотите, если вы действительно хотите создать новый список, просто используйте cleaned_up_list = ....

Я всегда использовал itertools.imap в python 2 и map в python 3 вместо генератора, чтобы быть наиболее эффективным для больших входов:

from itertools import imap
input_list[:] = [x for x in imap(str.strip, input_list) if x]

Некоторые тайминги с разными подходами:

In [17]: input_list = [choice(input_list) for _ in range(1000000)]   

In [19]: timeit filter(None, imap(str.strip, input_list))
10 loops, best of 3: 115 ms per loop

In [20]: timeit list(ifilter(None,imap(str.strip,input_list)))
10 loops, best of 3: 110 ms per loop

In [21]: timeit [x for x in imap(str.strip,input_list) if x]
10 loops, best of 3: 125 ms per loop

In [22]: timeit [x for x in (s.strip() for s in input_list) if x]  
10 loops, best of 3: 145 ms per loop

In [23]: timeit [data.strip() for data in input_list if data.strip()]
10 loops, best of 3: 160 ms per loop

In [24]: %%timeit                                                
   ....:     cleaned_up_list = []
   ....:     for data in input_list:
   ....:          clean_data = data.strip()
   ....:          if clean_data:
   ....:              cleaned_up_list.append(clean_data)
   ....: 

10 loops, best of 3: 150 ms per loop

In [25]: 

In [25]: %%timeit                                                    
   ....:     cleaned_up_list = []
   ....:     append = cleaned_up_list.append
   ....:     for data in input_list:
   ....:          clean_data = data.strip()
   ....:          if clean_data:
   ....:              append(clean_data)
   ....: 

10 loops, best of 3: 123 ms per loop

Самый быстрый подход на самом деле itertools.ifilter в сочетании с itertools.imap, за которым следует filter с imap.

Удаление необходимости повторной оценки ссылки функции list.append Каждая итерация более эффективна, если вы застряли в цикле и хотите наиболее эффективный подход, тогда это жизнеспособная альтернатива.