Как интерпретировать адреса в ядре

У меня есть ядро ​​oops в драйвере устройства linux, который я написал. Я хочу определить, какая строка отвечает за oops. У меня есть следующий вывод, но я не знаю, как его интерпретировать.

Означает ли это, что мой код разбился по команде на write_func + 0x63? Как я могу связать значение в EIP с моей собственной функцией? Что означают значения после обратного слэша?

[10991.880354] BUG: unable to handle kernel NULL pointer dereference at   (null)
[10991.880359] IP: [<c06969d4>] iret_exc+0x7d0/0xa59
[10991.880365] *pdpt = 000000002258a001 *pde = 0000000000000000
[10991.880368] Oops: 0002 [#1] PREEMPT SMP
[10991.880371] last sysfs file: /sys/devices/platform/coretemp.3/temp1_input
[10991.880374] Modules linked in: nfs lockd fscache nfs_acl auth_rpcgss sunrpc   hdrdmod(F) coretemp(F) af_packet fuse edd cpufreq_conservative cpufreq_userspace cpufreq_powersave acpi_cpufreq mperf microcode dm_mod ppdev sg og3 ghes i2c_i801 igb hed pcspkr iTCO_wdt dca iTCO_vendor_support parport_pc floppy parport ext4 jbd2 crc16 i915 drm_kms_helper drm i2c_algo_bit video button fan processor thermal thermal_sys [last unloaded: preloadtrace]
[10991.880400]
[10991.880402] Pid: 4487, comm: python Tainted: GF           2.6.37.1-1.2-desktop #1 To be filled by O.E.M. To be filled by O.E.M./To be filled by O.E.M.
[10991.880408] EIP: 0060:[<c06969d4>] EFLAGS: 00210246 CPU: 0
[10991.880411] EIP is at iret_exc+0x7d0/0xa59
[10991.880413] EAX: 00000000 EBX: 00000000 ECX: 0000018c EDX: b7837000
[10991.880415] ESI: b7837000 EDI: 00000000 EBP: b7837000 ESP: e2a81ee0
[10991.880417]  DS: 007b ES: 007b FS: 00d8 GS: 0033 SS: 0068
[10991.880420] Process python (pid: 4487, ti=e2a80000 task=df940530 task.ti=e2a80000)
[10991.880422] Stack:
[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1 e4618290 0000018c
[10991.880438] Call Trace:
[10991.882006] Inexact backtrace:
[10991.882006]
[10991.882012]  [<e4616353>] ? write_func+0x63/0x160 [mymod]
[10991.882017]  [<c03718c1>] ? proc_file_write+0x71/0xa0
[10991.882020]  [<c0371850>] ? proc_file_write+0x0/0xa0
[10991.882023]  [<c036c971>] ? proc_reg_write+0x61/0x90
[10991.882026]  [<c036c910>] ? proc_reg_write+0x0/0x90
[10991.882031]  [<c0323060>] ? vfs_write+0xa0/0x160
[10991.882034]  [<c03243c6>] ? fget_light+0x96/0xb0
[10991.882037]  [<c0323331>] ? sys_write+0x41/0x70
[10991.882040]  [<c0202f0c>] ? sysenter_do_call+0x12/0x22
[10991.882044]  [<c069007b>] ? _lock_kernel+0xab/0x180
[10991.882046] Code: f3 aa 58 59 e9 5a f9 d7 ff 8d 0c 88 e9 12 fa d7 ff 01 d9 e9 7b fa d7 ff 8d 0c 8b e9 73 fa d7 ff 01 d9 eb 03 8d 0c 8b 51 50 31 c0 <f3> aa 58 59 e9 cf fa d7 ff 01 d9 e9 38 fb d7 ff 8d 0c 8b e9 30
[10991.882069] EIP: [<c06969d4>] iret_exc+0x7d0/0xa59 SS:ESP 0068:e2a81ee0
[10991.882072] CR2: 0000000000000000 
[10991.889660] ---[ end trace 26fe339b54b2ea3e ]---

Ответ 1

Вся необходимая информация находится прямо здесь:

[10991.880354] BUG: unable to handle kernel NULL pointer dereference at   (null)

Это причина.

[10991.880359] IP: [<c06969d4>] iret_exc+0x7d0/0xa59

Указатель указателя во время ошибки. Мы вернемся к этому на мгновение.

[10991.880365] *pdpt = 000000002258a001 *pde = 0000000000000000

Это физические записи таблицы страниц. таблицу дескриптора и запись дескриптора страницы. Естественно, последний имеет значение NULL, так как это NULL-указатель. Вышеуказанные значения редко бывают полезны (только в случаях, когда требуется физическое сопоставление памяти)

[10991.880368] Oops: 0002 [#1] PREEMPT SMP

Это код oops. PREEMPT SMP показывает, что ядро ​​является вытесняемым и скомпилировано для SMP, а не UP. Это важно для случаев, когда ошибка связана с некоторыми состояниями гонки и т.д.

[10991.880371] last sysfs file: /sys/devices/platform/coretemp.3/temp1_input

Это не обязательно виновник, но часто есть. sys файлы экспортируются различными модулями ядра, и часто операция ввода-вывода в файле sys приводит к ошибочному выполнению кода модуля.

[10991.880374] Modules linked in: ... [last unloaded: preloadtrace]

Ядро не обязательно знает, какой модуль виноват, поэтому он дает вам все. Кроме того, вполне возможно, что недавно выгруженный модуль не очистил и оставил некоторый остаток (например, какой-то таймер или обратный вызов) в ядре - это классический случай для упс или паники. Таким образом, ядро ​​также сообщает о последнем выгруженном файле.

[10991.880402] Pid: 4487, comm: python Tainted: GF           2.6.37.1-1.2-desktop #1 To be filled by O.E.M. To be filled by O.E.M./To be filled by O.E.M.

Если поток сбоев является потоком пользовательского режима, вы получаете PID и командную строку. Флаги "Tainted" - это ядерный способ сказать, что это не ошибка ядра (источник ядра открыт и "чистый". "Taint" происходит от богохульных не-GPL-модулей и других.

[10991.880408] EIP: 0060:[<c06969d4>] EFLAGS: 00210246 CPU: 0
[10991.880411] EIP is at iret_exc+0x7d0/0xa59

Это дает указатель инструкции о сбоях, как непосредственно, так и в форме символа + смещение. Часть после косой черты - это размер функции.

[10991.880413] EAX: 00000000 EBX: 00000000 ECX: 0000018c EDX: b7837000
[10991.880415] ESI: b7837000 EDI: 00000000 EBP: b7837000 ESP: e2a81ee0
[10991.880417]  DS: 007b ES: 007b FS: 00d8 GS: 0033 SS: 0068

Здесь показаны регистры. Ваш NULL, скорее всего, EAX.

[10991.880420] Process python (pid: 4487, ti=e2a80000 task=df940530 task.ti=e2a80000)
[10991.880422] Stack:
[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1 e4618290 0000018c

Отображается область рядом с указателем стека. Ядро не имеет представления о том, что означают эти значения, но они имеют тот же результат, что и вы, из gdb, отображающего $rsp. Так что вам решать, какие они есть. (Например, c03718c1 - это обратный адрес ядра, вероятно, поэтому вы можете перейти к /proc/kallsyms, чтобы понять это, или полагаться на то, что он находится в следе, как есть, далее). Это говорит вам, что все данные до него представляют собой фрейм стека

Теперь, поскольку у вас есть трассировка вызова стека, вы можете поместить фрагменты вместе:

[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 --> back to write_func

[            ]  ..................................................... 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1  --> back to proc_file_write

[10991.882046] Code: f3 aa 58 59 e9 5a f9 d7 ff 8d 0c 88 e9 12 fa d7 ff 01 d9 e9 7b fa d7 ff 8d 0c 8b e9 73 fa d7 ff 01 d9 eb 03 8d 0c 8b 51 50 31 c0 <f3> aa 58 59 e9 cf fa d7 ff 01 d9 e9 38 fb d7 ff 8d 0c 8b e9 30

Опять же, ядро ​​не может разобрать для вас (он уныет и может очень паниковать, дайте ему перерыв!). Но вы можете использовать gdb, чтобы разобрать эти значения.

Итак, теперь вы все знаете. Вы действительно можете разобрать свой собственный модуль и выяснить, где именно в write_func указатель NULL разыменован. (Вероятно, вы передаете его как аргумент некоторой функции).