Почему моя многопоточность не эффективна?

Я разработал класс, который заполняет массив целыми числами, используя различное количество потоков, чтобы видеть мощность многопоточности. Но по моему результату, нет...

Идея. Идея была слишком заполнена массивом из 100000000 целых чисел со значением "1". Начиная с 1 потока (один поток заполняет весь массив) и увеличивает его до 100 потоков (каждый поток заполняет вспомогательный массив размером 100000000/nbThreads)

Пример. При использовании 10 потоков я создаю 10 потоков, каждый из которых заполняет массив из 10000000 целых чисел.

Вот мой код:

public class ThreadedArrayFilling extends Thread{
    private int start;
    private int partitionSize;
    public static int[] data;
    public static final int SIZE = 100000000;
    public static final int NB_THREADS_MAX = 100;


    public static void main(String[] args){
        data = new int[SIZE];
        long startTime, endTime;
        int partition, startIndex, j;
        ThreadedArrayLookup[] threads;

        for(int i = 1; i <= NB_THREADS_MAX; i++){       
            startTime = System.currentTimeMillis();
            partition = SIZE / i;
            startIndex = 0;
                threads = new ThreadedArrayLookup[i];
            for(j = 0; j < i; j++){         
                threads[j] = new ThreadedArrayLookup(startIndex, partition);
                startIndex += partition;
            }
            for(j = 0; j < i; j++){
                try {
                    threads[j].join();
                } catch (InterruptedException e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }
            endTime = System.currentTimeMillis();       
            System.out.println(i + " THREADS: " + (endTime - startTime) + "ms");
        }
    }

    public ThreadedArrayFilling(int start, int size){
        this.start = start;
        this.partitionSize = size;
        this.start();
    }

    public void run(){
        for(int i = 0; i < this.partitionSize; i++){
            data[this.start + i] = 1;
        }
    }

    public static String display(int[] d){
        String s = "[";

        for(int i = 0; i < d.length; i++){
            s += d[i] + ", ";
        }

        s += "]";
        return s;
    }

}

И вот мои результаты:

1 THREADS: 196ms
2 THREADS: 208ms
3 THREADS: 222ms
4 THREADS: 213ms
5 THREADS: 198ms
6 THREADS: 198ms
7 THREADS: 198ms
8 THREADS: 198ms
9 THREADS: 198ms
10 THREADS: 206ms
11 THREADS: 201ms
12 THREADS: 197ms
13 THREADS: 198ms
14 THREADS: 204ms
15 THREADS: 199ms
16 THREADS: 203ms
17 THREADS: 234ms
18 THREADS: 225ms
19 THREADS: 235ms
20 THREADS: 235ms
21 THREADS: 234ms
22 THREADS: 221ms
23 THREADS: 211ms
24 THREADS: 203ms
25 THREADS: 206ms
26 THREADS: 200ms
27 THREADS: 202ms
28 THREADS: 204ms
29 THREADS: 202ms
30 THREADS: 200ms
31 THREADS: 206ms
32 THREADS: 200ms
33 THREADS: 205ms
34 THREADS: 203ms
35 THREADS: 200ms
36 THREADS: 206ms
37 THREADS: 200ms
38 THREADS: 204ms
39 THREADS: 205ms
40 THREADS: 201ms
41 THREADS: 206ms
42 THREADS: 200ms
43 THREADS: 204ms
44 THREADS: 204ms
45 THREADS: 206ms
46 THREADS: 203ms
47 THREADS: 204ms
48 THREADS: 204ms
49 THREADS: 201ms
50 THREADS: 205ms
51 THREADS: 204ms
52 THREADS: 207ms
53 THREADS: 202ms
54 THREADS: 207ms
55 THREADS: 207ms
56 THREADS: 203ms
57 THREADS: 203ms
58 THREADS: 201ms
59 THREADS: 206ms
60 THREADS: 206ms
61 THREADS: 204ms
62 THREADS: 201ms
63 THREADS: 206ms
64 THREADS: 202ms
65 THREADS: 206ms
66 THREADS: 205ms
67 THREADS: 207ms
68 THREADS: 210ms
69 THREADS: 207ms
70 THREADS: 203ms
71 THREADS: 207ms
72 THREADS: 205ms
73 THREADS: 203ms
74 THREADS: 211ms
75 THREADS: 202ms
76 THREADS: 207ms
77 THREADS: 204ms
78 THREADS: 212ms
79 THREADS: 203ms
80 THREADS: 210ms
81 THREADS: 206ms
82 THREADS: 205ms
83 THREADS: 203ms
84 THREADS: 203ms
85 THREADS: 209ms
86 THREADS: 204ms
87 THREADS: 206ms
88 THREADS: 208ms
89 THREADS: 263ms
90 THREADS: 216ms
91 THREADS: 230ms
92 THREADS: 216ms
93 THREADS: 230ms
94 THREADS: 234ms
95 THREADS: 234ms
96 THREADS: 217ms
97 THREADS: 229ms
98 THREADS: 228ms
99 THREADS: 215ms
100 THREADS: 232ms

Что я пропустил?

EDIT: Дополнительная информация:

В моей машине работает двухъядерный процессор.

ожидания

  • Я ожидал увидеть огромное увеличение производительности между 1 и 2 потоками (чтобы использовать двухъядерный процессор)
  • Я также ожидал замедление после этого для большого количества потоков.

Но это не подтверждает моих ожиданий. Являются ли мои ожидания ложными или это проблема с моим алгоритмом?

Ответ 1

С двумя ядрами лучшая производительность, которую вы могли бы ожидать, - это 2 потока, занимающих половину времени как один поток. Любые дополнительные потоки только создают бесполезные накладные расходы после этого - предполагая, что вы полностью привязаны к процессору, но на самом деле нет.

Вопрос в том, почему вы не видите улучшения при переходе от 1 до 2 потоков. Вероятно, причина в том, что ваша программа не связана с ЦП, а связана с памятью. Ваше узкое место - это основной доступ к памяти, а 2 потока просто по очереди записывают в основную память. Фактические ядра процессора практически ничего не делают. Вы увидите ожидаемую разницу, если вместо того, чтобы делать небольшую фактическую работу на большой площади памяти, вы делаете много интенсивной работы с процессором на небольшом объеме памяти. Потому что тогда каждое ядро ​​ЦП может работать полностью внутри своего кеша.

Ответ 2

Многопоточность суперэффективна, когда ваше программное обеспечение связано с процессором: есть много приложений, которые являются однопоточными, и вы можете видеть их больно, используя современные процессоры, maxxing только одно основное использование (это очень четко проявляется в CPU-мониторах).

Однако нет смысла запускать гораздо больше потоков, чем количество доступных (виртуальных) процессоров.

Правильно многопоточные приложения, которые делают, например, хруст числа, создают несколько рабочих потоков, связанных с количеством (виртуальных) ЦП, доступных JVM.

Ответ 3

Задача, которую вы выполняете внутри потока, настолько мала, что время, затрачиваемое на это, слишком велико из-за накладных расходов на вашу установку.

Сделайте некоторые тяжелые вычисления (например, запустите аппроксимацию PI для размещения в массиве), вы увидите преимущество нескольких потоков, но только приблизительное количество ядер, которые имеет ваша машина.

Или делать то, что ждет чего-то внешнего (чтение из базы данных, поцарапание данных с веб-сайта), это может быть более эффективным, если другие потоки делают что-то полезное, пока другие ждут.

Ответ 4

Возможно, что два потока - каждый со своим собственным процессором или ядром - работают в унисон, чтобы выполнить задачу медленнее, чем если бы один поток выполнял всю работу. Оба ядра хотят, чтобы их кеши L1 + L2 записывали данные в память, что хорошо. Однако они вскоре насыщают общий кэш L3 таким образом, что он останавливает дополнительные записи, пока не удастся записать обновленную строку кэша в ОЗУ, тем самым освободив ее для приема новых записей.

Другими словами, цель ваших потоков - не выполнять какую-либо обработку, чтобы говорить, а заполнять системную RAM. Системная оперативная память медленная, и, как вы можете видеть, сравнивая результат с одним потоком с тем, что для двух потоков, емкость записи в RAM полностью используется одним потоком и поэтому не может быть быстрее с двумя потоками.

Ваши потоки настолько малы, что, по всей вероятности, они будут находиться в кеше L1 и, следовательно, не потребуют извлечений из системной памяти, что затруднит вашу работу по записи RAM. Ваша способность писать в ОЗУ одинакова, есть ли у вас 1 или 100 потоков, пытающихся это сделать. Чем больше потоков у вас есть, тем больше будет накладных расходов на администрирование потоков. Это незначительно для нескольких потоков, но увеличивается для каждого дополнительного потока и в конечном итоге станет заметным.