Нейросети и всё что с ними связано

Oville · Отправлено: 10.05.25 14:21:21

печалька.

klerk · Отправлено: 22.05.25 02:45:38

Последнее слово - это всё название выбранной модели, в нём 4b - это количество параметров (4 млрд), а it-qat как раз приписка про квантование. Ну там на странице всё есть.

Дальше можно например написать ollama list, чтобы система показала все загруженные модели, можно останавливать модели командой ollama stop и удалять через ollama rm. Однако, если модель у вас запущена, можно её не останавливать и закрыть ollama через значок в трее, потом опять запустить программу с ярлыка и модель снова будет на месте. Каждый раз модель запускать не надо. Но для нормального пользования нужна ещё одна вещь - интерфейс (по умолчанию его там нет).

Обычно вместе с Ollama предлагается использовать плагин Chrome Page Assist (я его использую с Яндекс Браузером, проблем с совместимостью нет).
https://chromewebstore.google.com/detail/page-assist-веб-интерфейс/jfgfiigpkhlkbnfnbobbkinehhfdhndo?pli=1

Он автоматически умеет подхватывать соединение с локальным портом (по умолчанию 11434) и можно начинать апщацца с ботом, как это вы делаете обычно во всяких там ChatGPT и Гроках у Илона Маска.

Скрытый текст:

В настройках расширений можно включить, чтобы Page Assist всегда показывал свой значок справа от адресной строки браузера, либо настроить его появление по сочетанию клавиш (я включил значок, чтобы как ламер клацать мышью, т.к. в самом начале мы условились не включать мозг). Дальше прямо на странице плагина будет справа сверху кнопка с шестерёнкой - естественно, это настройки ~~(а не то что вы подумали)~~. Нас в первую очередь интересует Язык - "Russian", дальше в разделах "Текст в речь" и "Речь в текст" тоже надо везде русский поставить, чтобы можно было задавать вопросы голосом, нажимая на значок микрофона. Не то чтоб прямо сильно круто, но работает приемлемо. К сожалению в Windows можно выбрать только ущербно-угашенные системные голоса Microsoft Speech Kit, если уж вам надо чтобы сообщения зачитывались тоже голосом. Получается примерно как в Magic Gooddy, только местами даже и хуже - ну что поделать, таковы они бесплатные пакеты. Голосовых возможностей в самих чат-ботах нет, это обеспечивается браузером, потому качество соответствующее и нельзя например загрузить запись тут же для транскрибации. То есть, пока большинства обещанных мультимодальных возможностей всё-таки нет, но видимо позже появятся.

К моему удивлению, даже такая минимальная модель довольно адекватно отвечает на вопросы по написанию скриптов в Windows и Linux, по Javascript и PHP. Правда, если не уточнить, в каком виде нужно решение, будет сначала предлагать сделать на Python (питонщики должны быть рады, но я до сих пор таким не стал). За Doom, правда, шарит плохо, много ошибается (хотя например если спросить, как исправить разрешение экрана в Doom 3, в общих чертах нигде не ошибается, но пишет неправильные названия файлов и параметров конфига).
Но самое удивительное, что она хорошо распознаёт фото, ну не хуже других по-моему. Символика была распознана не сильно корректно (там на гербе города другое), но тут и не любой человек сообразит, да ещё при таком качестве фото, так что это получилось даже очень-очень годно.

А так иногда задумывается и нагружает ноут (становится заметно по звуку вентиляторов), иногда отвечает быстро и нагрузки почти не заметно. Нагружает только в момент генерации ответа, фоновой загрузки нет. Публичные чат-боты, запущенные на мощных серверах, конечно выигрывают по скорости, но я бы не сказал, что у локальной модели есть какие-то критические задержки, в целом всё работает и почти не тормозит.

Правда, малое количество параметров даёт о себе знать в вопросах, которые не являются широко известными - например, в отношении какой-либо личности. Тут нейросеть начинает просто врать, и хоть ты что делай, давай источник или пиши подробнейший запрос с конкретными пунктами, которые тебе нужны в ответе - ничего не помогает и в выдаче оказывается дичь. Про контекст и запоминание диалогов пока ничего не знаю, ну последние сообщения явно запоминает, потому что говоришь ему исправить что-то в выдаче, и он пытается это делать. В пределах чата, видимо, или это где-то настраивается - тут лучше бы меня кто-то поправил, кто знает это точно.

А ещё в окошке ввода сообщения можно включить поиск в интернете (а в настройках даже выбрать поисковую систему), и вот уже вместо зацензуренной Алисы у нас есть свой бот, который может искать ответы на любые вопросы. Ни в коем случае ни к чему не призываю, но к примеру Алиса считает преступлением даже составление натальной карты или гадание по руке - а это уже ни в какие ворота (Гигачат кстати так не считает, хоть его ответы и малоинформативны).

Кроме общих языковых моделей в каталоге представляют интерес ещё кодерские по типу qwen2.5-coder - такое должно быть более приемлемо для специалистов, потому что при маленьком весе модели она заточена только под помощь в разработке и кучи лишней информации там не будет, т.е. при низких требованиях должно быть куда выше качество ответов из-за узкой специализации. Может кому надо.

P.S.: забыл ещё написать, что для задействования GPU Nvidia нужно установить CUDA: https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local
Инсталлятор CUDA предложит поставить ещё Visual Studio, но можно этого не делать, если вам специально не надо - всё и так будет работать.
На компе с видеокартой когда бот отвечает на запрос, в диспетчере задач видна нагрузка на GPU, хотя и на CPU она всё ещё тоже немаленькая.
Для AMD, начиная с Radeon RX 6600 (более старые или младшие - не поддерживаются), надо установить HIP SDK (ROCm) - https://www.amd.com/en/developer/resources/rocm-hub/hip-sdk.html

И да, я в порядке бреда поставил эту модель на ноут с процессором Intel N100 (со встройкой, но правда там 16 Гб оперативки DDR5) - хоть думает долго, но работает!
Модель gemma3:12b-it-qat тоже попробовал, естественно на мощном компе. Она того не стоит - работает медленнее и памяти жрёт больше, а точность ответов всё равно оставляет желать лучшего.

Вот тут, кстати, есть сравнение системных требований разных моделей (вы ОШАЛЕЕТЕ, читатели В ШОКЕ): https://apxml.com/posts/gpu-requirements-deepseek-r1

А ещё тут буквально вчера была новость, что вышла самая лёгкая модель Gemma 3n, которая должна работать на чём попало без особых требований к оборудованию - при этом умеет даже работать с аудио и генерировать картинки. Какие-то чудеса и не верится, но посмотрим, пока не тестировал.

Ну и как водится, продолжение следует!

Oville · Отправлено: 23.05.25 10:30:40

За первое видео не скажу, в массовке сложно чего-то найти, мне просто влом высматривать возможные косяки... вроде бы нормально)))
На втором машинка, грязь и фон потрясающе выглядят.

А вот на третьем у меня сильные подозрения, что предплечье левой руки у мужика телескопическое либо резиновое.
Когда он придвигает уточку к себе, видно, что длина предплечья сокращается, а локоть и плечо остаются на своих местах. Такое возможно было бы если бы он придвинул уточку, повернув предплечье. Но тогда уточка приблизилась бы к камере, чего явно не наблюдается, а скорей, она даже отодвигается от камеры в сторону руки, которая её схватила...
Либо если придвигать уточку прямо на себя, как видно в видео, то мужик должен был двинуть плечом назад, а по факту имеем удивительное свойство сокращать длину предплечья)))

BL@CK DE@TH · Отправлено: 23.05.25 11:33:43

По мне, так это даже хорошо, что есть косяки и люди, которые их замечают. Нейросети очень быстро развиваются и если ещё недавно мы смеялись над шестью пальцами и косыми, кривыми глазами, то теперь надо очень внимательно присматриваться, чтобы заметить какие-то изъяны. Ещё лет пять-десять, а то и меньше, и будет вообще невозможно отличить реальное фото или видео от сгенерированного нейросетью.

Добавлено спустя 2 часа 41 минуту 24 секунды:

Всё ближе к киберпанку:

В Китае впервые протестировали нейроимплант для управления компьютером силой мысли

klerk · Отправлено: 24.05.25 08:25:21

Но как я убедился, в публично доступных моделях эта проблема преувеличена, хотя сам ChatGPT я в этот раз не тестировал. Ну и как я обычно делаю, в этот раз тоже будет исследование, к которому нельзя относиться серьёзно. Это всратая дичь из генеративных картинок и дегенеративных подписей к ним. Не совсем бессмысленная, да, но и не то чтобы имеющая ценность.

Начал я с простых текстовых вопросов, и на удивление все чат-боты справились (Deepseek, Qwen, Perplexity, Алиса (или в графическом варианте - Шедеврум) и даже Гигачат)
Тема: "анекдот не про котов"

Скрытый текст:

Но что ещё более удивительно, с картинками-то тоже не всё так печально! Тема: "комната с плакатом слона, но без кошки". Deepseek не умеет делать картинки, поэтому тут он выбывает.

Скрытый текст:

Ну и ещё усложним задачу - теперь у нас будет "собачья игрушка без собаки"!

Скрытый текст:

Ну и как же я мог не проверить классический запрос: "комната, где нет абсолютно никаких слонов"? Это настолько уже жиза и база, шо если не вайбануть на эту тему, то будет просто кринге.

Скрытый текст:

Таким образом, делая вывод для нашего шнобелевского трактата, оказывается что в деле точной генерации изображений Perplexity впереди планеты всей. Qwen сойдёт, хоть и не всегда, Шедеврум вообще не понимает отрицаний, а вот Гигачат неожиданно показал своё превосходство над Яндексом в этом вопросе, и на этот раз даже по уровню адекватности догнал китайца.
Локальную Джемму от Google я тут не тестировал, ну я знаю что на вопрос про анекдот без котов она отвечает примерно как DeepSeek, но короче, а картинки герерить не умеет.

А вы что думаете про такие "исследования", интересно ли и надо ли иногда разбавлять тему этим?

Скрытый текст:

А ещё попалась новость, что ИИ не понимает во времени и датах, что в общем-то давно известно, но кто знает, может быть что-то на эту тему ляжет в основу следующего поста.

А поэтому продолжение - что?.. Продолжение - то! До новых сообщений, дорогие юные друзья!

Mishka · Отправлено: 25.05.25 23:29:38

Дык ты же сам писал: