- О проблемах, связанных с перегревом вычислительного оборудования
- Почему важно обеспечивать благоприятный температурный режим вычислительного оборудования?
- Зависает риг с ошибкой GpuMiner cu_k1 failed 6
- 19alex87
- CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated. #239
- Comments
- AndreaLanfranchi commented Aug 15, 2017
О проблемах, связанных с перегревом вычислительного оборудования
Как правило, при майнинге вычислительные возможности оборудования задействуются на полную мощность — устройства работают на пределе своих возможностей.
В связи с этим, при слишком большом разгоне, перегреве и воздействии других неблагоприятных факторов, возникают ошибки, приводящие к сбоям.
Большинство ошибок при майнинге вызваны следующими причинами:
- сбой в работе драйверов (Driver Error). Например, ошибка, характерная для видеокарт Nvidia, связанная с инициализацией nvcuda.dll. Проблемы с драйверами обычно успешно лечатся установкой/переустановкой драйверов. При этом необходимо обращать внимание на соответствие версий CUDA в майнере и устанавливаемых драйверах;
- сильный перегрев видеокарты (Thermal Issue). Для обеспечения стабильного майнинга не стоит превышать температуру на видео(процессоре) выше 60 градусов по Цельсию. При этом температура чипов памяти и зоны VRM (фазы питания) будет выше на 10-20 градусов, что уже приближает их к режиму работы в критическом режиме. Перегретая и слишком разогнанная память приводит к появлению ошибок типа:
- ошибки шины (Bus Error) — возникают на аппаратном уровне, если процесс пытается получить доступ к недоступному адресному пространству памяти (например, …ERROR: Race reported between Write access at 0x00000068…);
- ошибки приложения (майнера), например: …Code: 1 Reason: Unknown error…;
- проблемы с блоком питания, который выдает некачественное напряжение (излишние пульсации, провалы/просадки, перебои, всплески, искажения формы, сильные гармоники/импульсные помехи, шумы и т.д.);
- сбойная память. При перегреве чипов памяти могут появиться необратимые изменения, которые приводят к появлению большого количества ошибок, вплоть до полного зависания компьютера;
- поврежденный BIOS видеокарты или материнской платы;
- проблемы с микрокодом (видео)чипа(-ов)/процессора;
- другие ошибки.
Почему важно обеспечивать благоприятный температурный режим вычислительного оборудования?
С увеличением температуры за окном кратно увеличивается количество проблем, связанных с эксплуатацией вычислительного (майнингового) оборудования. Неблагоприятный температурный режим приводит к увеличению количества ошибок при майнинге, что касается и видеокарт производства компании Nvidia, использующих технологию CUDA, и продукцию производства AMD, работающей на OpenCL.
Деградация памяти, усугубленная высокой температурой, приводит к невозможности выполнять вычисления для майнинга (compute mode) не только с разгоном, но даже в штатном режиме. Для бесперебойной эксплуатации и продления работоспособного состояния вычислительного оборудования важно обеспечить ему хороший теплоотвод и сохранить благоприятные для полупроводниковых элементов температурные условия.
При повышенных температурах эксплуатации вычислительного оборудования возрастает риск возникновения пожара, ускоряется деградация важных электронных элементов, среди которых наибольшее значение имеют микросхемы памяти. Тематика неблагоприятного влияния излишней температуры на видеопамять рассматривалась в статье «О деградации памяти видеокарт при майнинге».
Для обеспечения оптимальных условий работы обычно достаточно обеспечить отвод теплого воздуха от оборудования путем продувки помещения с интенсивностью не менее 300 куб. метров/час на каждый киловатт потребляемой мощности.
Кроме того, нужно:
- максимально задействовать возможности майнеров и программ разгона по ограничению потребляемой мощности (уменьшить вольтаж и разгон на ядре/памяти);
- обеспечить остановку/запуск видеокарт при достижению заданного температурного порога.
Потеря нескольких центов из-за уменьшения разгона/снижения вольтажа будет с лихвой компенсирована безотказностью, стабильностью и безопасностью работы оборудования.
Источник
Зависает риг с ошибкой GpuMiner cu_k1 failed 6
19alex87
Бывалый
История такова!
Улетал из страны и выключил фермы, прилетел включил, заработали все кроме одной!
Она может проработать и 5 минут, а может и 5 часов. И так дано:
Win7, 2 блока залман ЛХ 700 и 7 видеокарт gtx
работают на gminer в его логах ничего нет, в логах системы — сбой по питанию
при зависании, на экране горит застывший рабочий стол, все вентиляторы крутятся, риг не пингуется
Поставил еверест чтобы посмотреть при зависании напряжение на 3/5/12 и температуру ЦП и карт — все в норме
на блоках стоят вольтметры, напряжение на обоих отличное 12,2В и 12,0В
Подумал, может че майнер, включил клей12.0, но он тоже завис, но вот в его логах есть вот такое:
22:42:35:234 7e4 GPU 4, GpuMiner cu_k1 failed 6, the launch timed out and was terminated
22:42:35:296 fbc GPU 0, GpuMiner cu_k1 failed 6, the launch timed out and was terminated
22:42:35:296 c6c GPU 1, GpuMiner cu_k1 failed 6, the launch timed out and was terminated
22:42:35:296 5fc GPU 3, GpuMiner cu_k1 failed 6, the launch timed out and was terminated
22:42:35:296 5fc GPU 3, GpuMiner kx failed 1
22:42:35:296 530 GPU 2, GpuMiner cu_k1 failed 6, the launch timed out and was terminated
22:42:35:296 7e4 GPU 4, GpuMiner kx failed 1
22:42:35:296 7e4 Set global fail flag, failed GPU4
22:42:35:312 c6c GPU 1, GpuMiner kx failed 1
22:42:35:312 c6c Set global fail flag, failed GPU1
22:42:35:312 c6c GPU 1 failed
22:42:35:296 5fc Set global fail flag, failed GPU3
22:42:35:312 5fc GPU 3 failed
22:42:35:312 fbc GPU 0, GpuMiner kx failed 1
22:42:35:312 fbc Set global fail flag, failed GPU0
22:42:35:312 fbc GPU 0 failed
22:42:35:483 64c NVML: cannot get current temperature, error 999 (an internal driver error occurred)
22:42:35:483 64c NVML: cannot get fan speed, error 999 (an internal driver error occurred)
22:42:35:561 64c NVML: cannot get current temperature, error 999 (an internal driver error occurred)
22:42:35:561 64c NVML: cannot get fan speed, error 999 (an internal driver error occurred)
начал гуглить
наткнулся на статью где чувак описывает именно мою ситуацию: чистый риг, но виснет, у него оказалось что потекла прокладка и не заметно стекала в рейзер, на это естественно налипла грязь, он вытащих почистил, собрал, включил — проблема ушла
У МЕНЯ НЕТ!
опытным путем нашел косячную карту, вытащил, подтеков нет, но на рейзере есть чутка грязи, все почистил, продул, собрал — зависание остались
поменял рейзер — зависание остались
пока ищу мамку для отдельных тестов карты, может были у кого такие проблемы?
на фото рейзер того чувака, не мой, у меня более чистый
ДОП: расчетная нагрузка на БП 530 Вт
Источник
CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated. #239
Comments
AndreaLanfranchi commented Aug 15, 2017
Hi all,
first of all thank you for this excellent miner.
I am experiencing this issue : most likely due to overclocking problems it happens from time to time to register these events (I’m on several rigs with 6x NVIDIA Gtx 1050 Ti)
CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated.
пїЅ[101mпїЅ[1;30m вњ пїЅ[35m08:23:31пїЅ[0mпїЅ[30m|пїЅ[34mCUDA4 пїЅ[0m Error CUDA mining: the launch timed out and was terminated
CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated.
пїЅ[101mпїЅ[1;30m вњ пїЅ[35m08:23:31пїЅ[0mпїЅ[30m|пїЅ[34mCUDA5 пїЅ[0m Error CUDA mining: the launch timed out and was terminated
CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated.
пїЅ[101mпїЅ[1;30m вњ пїЅ[35m08:23:31пїЅ[0mпїЅ[30m|пїЅ[34mCUDA2 пїЅ[0m Error CUDA mining: the launch timed out and was terminated
CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated.
пїЅ[101mпїЅ[1;30m вњ пїЅ[35m08:23:31пїЅ[0mпїЅ[30m|пїЅ[34mCUDA1 пїЅ[0m Error CUDA mining: the launch timed out and was terminated
CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated.
пїЅ[101mпїЅ[1;30m вњ пїЅ[35m08:23:31пїЅ[0mпїЅ[30m|пїЅ[34mCUDA3 пїЅ[0m Error CUDA mining: the launch timed out and was terminated
CUDA error in func ‘search’ at line 361 : the launch timed out and was terminated.
пїЅ[101mпїЅ[1;30m вњ пїЅ[35m08:23:31пїЅ[0mпїЅ[30m|пїЅ[34mCUDA0 пїЅ[0m Error CUDA mining: the launch timed out and was terminated
All 6 cards get affected by the same error and from there on the program reports hashing at 0MH/s until it gets a new job (I’m on stratum @ nanopool) which is the moment when the process gets zombied and the rig becomes unresponsive
�[32m m �[35m08:23:32�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:33�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:34�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:35�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:36�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:37�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:38�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:39�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:40�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:41�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:42�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:43�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:44�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:45�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:46�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:47�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:48�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:49�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:50�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:51�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:52�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:53�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:54�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:55�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:56�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:57�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:58�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:23:59�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:00�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:01�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:02�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:03�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:04�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:05�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:06�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:07�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:08�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:09�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:10�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:11�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:12�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:13�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:14�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:15�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:16�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:17�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:18�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:19�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:20�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:21�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:22�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:23�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:24�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:25�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:26�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:27�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:28�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:29�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
�[32m m �[35m08:24:30�[0m�[30m|�[34methminer�[0m Mining on �[96m#b0affd83…�[0m : 0.00MH/s [A206+2:R19+0:F0]
пїЅ[94m в„№ пїЅ[35m08:24:31пїЅ[0mпїЅ[30m|пїЅ[34mstratum пїЅ[0m Received new job #b0affd83пїЅ[0m
пїЅ[94m в„№ пїЅ[35m08:24:31пїЅ[0mпїЅ[30m|пїЅ[34mstratum пїЅ[0m Received new job #25f2f0e9пїЅ[0m
For the sake of precision I’m on Ubuntu 16.04.2 LTS with NVIDIA drivers version 381.22 and CUDA 8
To be precise it’s this package https://github.com/Cyclenerd/ethereum_nvidia_miner
Any idea about how to get around this ?
(I’ve tried to reduce overclocking values but it keeps happening).
The text was updated successfully, but these errors were encountered:
Источник