Что вы понимаете под низким временем доступа к данным?
Я действительно запутался в определении термина "LATENCY".
Кто-нибудь может уточнить термин "Задержка".
Что вы понимаете под низким временем доступа к данным?
Я действительно запутался в определении термина "LATENCY".
Кто-нибудь может уточнить термин "Задержка".
Классический пример:
Вагон, полный резервных лент, имеет высокую задержку и высокую пропускную способность. Там много информации в этих резервных лентах, но для получения универсала требуется много времени.
Сети с малой задержкой важны для потоковых служб. Для потоковой передачи голоса требуется очень низкая пропускная способность (4 кбит/с для качества AFAIR для телефона), но для быстрого получения пакетов требуется быстрый доступ. Голосовой вызов в сети с высокой задержкой приводит к задержке времени между динамиками, даже если имеется достаточная пропускная способность.
Другие приложения, в которых важна латентность:
LATENCY - количество время, чтобы получить ответ [us]BANDWIDTH - объем потока данных за единицу времени [GB /s] `LATENCYЗадержка времени может быть запутана, если не принимать во внимание этот весь жизненный цикл транзакции: участвующие линейные сегменты {усиление | ремитирование | переключение | MUX/MAP-ing | маршрутизация | EnDec-обработка (не говоря о криптографии) | статистическое (де) сжатие}, длительность потока данных и обрамление/защитные надстройки с линейным кодом /(opt. procotol, если есть, инкапсуляция и повторная кадрирование) дополнительные избыточные накладные расходы, , которые постоянно увеличиваются latency, но также увеличивайте данные <<26 > .
Как пример, возьмите любой маркетинг с графическим процессором. Огромные числа, которые представлены в разделе GigaBytes DDR5 и GHz. его молчаливо передаются жирным шрифтом, о чем они не говорят, что, несмотря на все эти дваллионы вещей, каждый из ваших SIMT многожильных, да, всех ядер, должен заплатить жестокий latency - > +400-800 [GPU-clk] просто для получения первого байта с GPU-over-hyped-GigaHertz-Fast-DDRx- ECC-защищенный банк памяти.
Да, ваш Super-Engine GFLOPs/TFLOPs должен ждать!... из-за (скрытого) LATENCY
И вы ждете со всем полным параллельным цирком... из-за LATENCY
(... и любой маркетинговый звонок или свисток не могут помочь, поверьте или нет (забудьте о кеше promises тоже, они не знают, какого черта там будет в далекой/поздней/отдаленной ячейке памяти, так что не может дать вам одну битовую копию такой латентности - "далекую" загадку из их мелких локальных карманов))
LATENCY (и налоги) нельзя избежатьВысокопрофессиональный HPC -designs только помогает платить меньше, а все еще не может избежать LATENCY (как налоги) штраф за рамки некоторых принципов разумного переустройства.
CUDA Device:0_ has <_compute capability_> == 2.0.
CUDA Device:0_ has [ Tesla M2050] .name
CUDA Device:0_ has [ 14] .multiProcessorCount [ Number of multiprocessors on device ]
CUDA Device:0_ has [ 2817982464] .totalGlobalMem [ __global__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 65536] .totalConstMem [ __constant__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 1147000] .clockRate [ GPU_CLK frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 32] .warpSize [ GPU WARP size in threads ]
CUDA Device:0_ has [ 1546000] .memoryClockRate [ GPU_DDR Peak memory clock frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 384] .memoryBusWidth [ GPU_DDR Global memory bus width in bits [b] ]
CUDA Device:0_ has [ 1024] .maxThreadsPerBlock [ MAX Threads per Block ]
CUDA Device:0_ has [ 32768] .regsPerBlock [ MAX number of 32-bit Registers available per Block ]
CUDA Device:0_ has [ 1536] .maxThreadsPerMultiProcessor [ MAX resident Threads per multiprocessor ]
CUDA Device:0_ has [ 786432] .l2CacheSize
CUDA Device:0_ has [ 49152] .sharedMemPerBlock [ __shared__ memory available per Block in Bytes [B] ]
CUDA Device:0_ has [ 2] .asyncEngineCount [ a number of asynchronous engines ]
A POTS телефонная служба была основана на синхронном синхронном исправлении LATENCY (конец 70-х годов слилось глобальные, в противном случае синхронизируемые сети Plesiochronous Digital Hierarchy между японскими стандартами -стандарт, Continental- PDH - E3, а US- PDH - T3, которые, в конечном счете, избегали многих головных болей с помощью джиттера/проскальзывания/перехвата услуг международной несущей/синхронной синхронизации и выбывания)
SDH/SONET-STM1 / 4 / 16, перенесены на схемы SyncMUX 155/622/2488 [Mb/s] BANDWIDTH.
Прохладной идеей на SDH была глобально закрепленная структура исправления выстроенного по времени кадрирования, которая была как детерминированной, так и стабильной.
Это позволило просто скопировать карту памяти (кросс-коммутирующий коммутатор) компоненты-контейнеры-контейнеры нижнего порядка из входящих STMx на исходящие служебные данные STMx/PDHy на перекрестных соединениях SDH (помните, что это было так глубоко, как в конце 70-х годов, так что производительность процессора и DRAM были за десятилетия до обработки GHz и подошвы ns). Такое отображение полезной нагрузки в коробке внутри коробки и внутри коробки обеспечивало как низкоуровневые накладные расходы на аппаратном обеспечении, так и предоставляло также некоторые средства для повторного выравнивания во временной области (были некоторые бит-промежутки между полем, в-коробках, чтобы обеспечить некоторую эластичность, хорошо под стандартным заданным максимальным перекосом во времени)
Хотя может быть трудно объяснить красоту этой концепции в нескольких словах, AT & T и другие крупные глобальные операторы пользовались большой синхронизацией SDH и красотой глобальной синхронной сети SDH и локальной стороны Add- Отображения Drop-MUX.
Сказав это,
дизайн с задержкой
заботится:
- ACCESS-LATENCY :, сколько времени занимает прибыть для первого бита : [s]
- TRANSPORT-BANDWIDTH : сколько бит может передать / доставитькаждый следующий отрезок времени : [b/s]
- VOLUME OF DATA :, сколько битов данных имеется в общей сложности для транспорта : [b]
- TRANSPORT DURATION : сколько единиц времени требуется
- ___________________ : для перемещения / доставить весь VOLUME OF DATA тому, кто спросил : [s]
Очень приятная иллюстрация основной независимости THROUGHPUT (BANDWIDTH
[GB/s]) на LATENCY[ns]находится в Рис .4 в прекрасном документе ArXiv на Улучшении задержки от Ericsson, тестировании того, как много RISC -процессорная архитектура Epiphany-64 от Adapteva может помочь в управлении LATENCY при обработке сигналов.
Понимание Рис .4, расширенное по размеру ядра, может также показать возможные сценарии
- как увеличить BANDWIDTH[GB/s], используя более-ядерные ядра, задействованные в ускоренной /TDMux -ed[Stage-C]-переработке (чередующиеся во времени), а также
- что LATENCY[ns]не может быть короче суммы основныхSEQ-процессов-продолжительности== [Stage-A]+[Stage-B]+[Stage-C], независимо от количества доступных (одного/много) -кодов, которые архитектура позволяет использовать.
благодаря Андреасу Олофссону и парням из Эрикссон. ХРАНИТЕ ПРОГУЛКИ, МУЖЧИНЫ МУЖЧИН!