Comportamiento anómalo del kernel linux (2.6.32-5-amd64) [Solucionado]
Buenas,
Llevo ya unos 10-15 días en los que vengo observando un comportamiento extraño del núcleo. Los primeros síntomas consistían en quedarse congelado en el arranque, arrojando lo siguiente:
ERROR: Forcing to 32Mb GART size (because of an ASIC bug?)
BUG: Unable to handle kernel
[drm] radeon: cp idle (0x10000C03)
[drm] Loading R300 Microcode
platform radeon-cp.0: firmware:requesting radeon/R300-cp.bin
NULL pointer deference at 0000000000000000000000000000020La cuestión es que admitía el reinicio con Alt+ImprPant+B y además el sistema arrancaba aleatoriamente, esto es, a veces arrancaba con normalidad y otras se quedaba mostrando el mensajito.
Echando un ojo por aquí y aquí decidí probar la solución que proponían ssorgatem y antonioab.
El mensaje anterior desapareció, pero continúan los arranques aleatorios, ahora con diferentes versiones:
- a veces parece que arranca y al momento de levantar las X la pantalla se queda en negro
- otras veces se atasca al arrancar el kernel y deja el siguiente mensaje:
[4.974747] BUG: unable to handle kernel NULL pointer deferenceNo tengo ni idea de los posibles motivos, aunque me hago a la idea de que el primer error tenía algo que ver con la gráfica (uso ATI y los drivers libres radeon) y desde luego entiendo que al menos uno de los siguientes algo tendrá que ver, cuando el sistema no es capaz de levantar las X.
No dudéis en pedir cualquier log o dato que pueda ser relevante.
Gracias y ¡un saludo!
- Inicie sesión o regístrese para enviar comentarios
- 915 lecturas


[4.974747] BUG: unable to handle kernel NULL pointer deREference
(No sé porqué no me deja editarlo...)
Hola Debish porq no pruebas compilando un kernel más nuevo yo desde la version 2.6.33 hasta la 2.6.36 no tuve problemas al compilar. y anda muy bien. sino otra cosa que puedes hacer es eliminar el archivo /boot/config-xxxx y despues instala con aptitude un kernel más nuevo.
espero que te halla ayudado
saludos
Hola Debish porq no pruebas compilando un kernel más nuevo yo desde la version 2.6.33 hasta la 2.6.36 no tuve problemas al compilar. y anda muy bien. sino otra cosa que puedes hacer es eliminar el archivo /boot/config-xxxx y despues instala con aptitude un kernel más nuevo.
espero que te halla ayudado
saludos
Pues porque es muy incómodo actualizar el núcleo a posteriori y porque en realidad no quiero cambiar de núcleo, sino entender porqué puñetas le dan estos repentes. En cualquier caso, he de decir que ayer (o antes de ayer, no me acuerdo) entraron actualizaciones para el kernel y no me ha vuelto a hacer nada raro. Esperaré unos días y si todo sigue bien marcaré el hilo como solucionado.
¡Un saludo!
Hola Debish porq no pruebas compilando un kernel más nuevo yo desde la version 2.6.33 hasta la 2.6.36 no tuve problemas al compilar. y anda muy bien. sino otra cosa que puedes hacer es eliminar el archivo /boot/config-xxxx y despues instala con aptitude un kernel más nuevo.
espero que te halla ayudado
saludos
Pues porque es muy incómodo actualizar el núcleo a posteriori y porque en realidad no quiero cambiar de núcleo, sino entender porqué puñetas le dan estos repentes. En cualquier caso, he de decir que ayer (o antes de ayer, no me acuerdo) entraron actualizaciones para el kernel y no me ha vuelto a hacer nada raro. Esperaré unos días y si todo sigue bien marcaré el hilo como solucionado.
¡Un saludo!
Pues va a ser que ni solucionado ni porras. Esta misma mañana me ha vuelto a ocurrir ¿de verdad soy el único al que le pasa?
¿Estas seguro que es el kernel y no tu hardware? Por lo general cuando se dan errores aleatorios es problema de hardware, verifica las temperaturas desde el setup del BIOS y/o desde sensors si lo tienes bien instalado/configurado.
Prueba con un livecd o instala un kernel paralelo al que tienes para ver.
saludos
¿Estas seguro que es el kernel y no tu hardware? Por lo general cuando se dan errores aleatorios es problema de hardware
No tiene porqué. No sería la primera vez que veo un comportamiento errático y aleatorio de este tipo (aunque no exactamente como el que describe Debish) que no es debido a hardware sino a algún bug o fallo en tal o pascual cosa implementada.
Debish, deberías intentar rastrear para sacar toda la información posible y pensar en reportar un bug. Supongo que ya has quitado la opción quiet del arranque para ver toda la información posible. Echarle un ojo a los logs de las X (sobre todo cuando hace el amago de arrancar y al final acabas con la pantalla en negro) y asegurarte de que el problema que planteas es un todo o son dos problemas distintos (yo que se, igual lo de que se queda congelado es otra cosa, aunque todo apunte a radeon) arrancando las con un driver más genérico (vesa), sin kms durante el arranque, etc.
PD. De todas formas, yo probaría con un kernel posterior (el 2.6.33 [que se supone que es del que viene toda la parte del drm del 2.6.32 que hay en Debian] y otro >=2.6.34) para ver si los problemas continuan o si es una cosa del 2.6.32.
¿Estas seguro que es el kernel y no tu hardware? Por lo general cuando se dan errores aleatorios es problema de hardware, verifica las temperaturas desde el setup del BIOS y/o desde sensors si lo tienes bien instalado/configurado.
Prueba con un livecd o instala un kernel paralelo al que tienes para ver.
saludos
No al 100%, pero al 99%. Knoppix bootea sin problemas, he comprobado temperaturas y frecuencias tanto desde lm-sensors como desde la BIOS y todo es perfectamente normal.
Debish, deberías intentar rastrear para sacar toda la información posible y pensar en reportar un bug. Supongo que ya has quitado la opción quiet del arranque para ver toda la información posible. Echarle un ojo a los logs de las X (sobre todo cuando hace el amago de arrancar y al final acabas con la pantalla en negro) y asegurarte de que el problema que planteas es un todo o son dos problemas distintos (yo que se, igual lo de que se queda congelado es otra cosa, aunque todo apunte a radeon) arrancando las con un driver más genérico (vesa), sin kms durante el arranque, etc.
Nunca arranco con la opción quiet y ya miré los logs de las X's sin encontrar nada que me diera una pista al menos. De todas formas, necesito más tiempo para poder determinar si es un sólo problema o varios y para hacer lo que me sugieres de arrancar con vesa, desactivando kms y alguna otra cosa que se me ocurra.
De todas formas, yo probaría con un kernel posterior (el 2.6.33 [que se supone que es del que viene toda la parte del drm del 2.6.32 que hay en Debian] y otro >=2.6.34) para ver si los problemas continuan o si es una cosa del 2.6.32.
Voilà. Creo que ese va a ser mi siguiente paso. No daré con el problema concreto, pero al menos puedo asegurarme de que es cosa del kernel y en todo caso, solucionarlo de forma rápida.
Muchas gracias a los dos!
Como comenté arriba, al final compilé el kernel 2.6.36 (ya de paso aproveché para probar localmodconfig jeje) y tras algún problemilla inicial, conseguí hacerlo funcionar. Lo estuve evaluando durante algún tiempo y sin problema, no me volvió a dar ninguno de los errores mencionados al inicio del hilo. Pensaba dejarlo todo así cuando leí la noticia de algo que ya conocía pero en lo que no me había parado a pensar: la supresión de los blobs binarios no libres del kernel. En una de las últimas actualizaciones que hice, me dí cuenta de que al actualizar el kernel (el 2.6.32-5, el de Squeeze) me recomendaba la instalación del paquete linux-firmware-free y en ese momento se me ocurrió que posiblemente los problemas que estaba teniendo, que tenían toda la pinta de estar en relación con la gráfica, quizá se debieran a que no tenía instalado el firmware no libre (linux-firmware-nonfree). Pues dicho y hecho, fue instalar el susodicho firmware y ni un sólo problema al arranque (además de haberse incrementado las FPS con glxgear unas 3 veces).
Así que nada, dos meses después de iniciado el hilo, creo que lo puedo marcar como solucionado
¡Gracias a todos por vuestra ayuda!
Ni un sólo problema de arranque pero el error seguía apareciendo en el dmesg. Acabo de compilar e instalar el 2.6.39 y ahora sí parece que se ha solucionado el bug, la salida para
dmesg | grep drmes correcta.
Aquí lo dejo, por si alguien seguía padeciendo el mismo problema.
Saludos.