Welcome to U.A.C. [O.S.A.]
login / register 
Status: Guest
Архивы форума | iddqd.ru
Wolf 3D
ПравилаПравила ПоискПоиск
18+
Нейросети и всё что с ними связано Пред.  1, 2, 3, 4  След.
   Список разделов - Болталка - Нейросети и всё что с ними связаноОтветить
АвторСообщение
Oville
= Sergeant =
Next rank: - Master Sergeant - after 10 points
390

Doom Rate: 0.53

Posts quality: +445
Ссылка на пост №41 Отправлено: 10.05.25 14:21:21
Герр Смертоносец

"... геотермальные ресурсы на территории России в пересчёте на тонны условного топлива или любую другую единицу измерения энергии примерно в 10 раз выше запасов органического топлива.
Теоретически только за счёт геотермальной энергии можно было бы полностью удовлетворить энергетические потребности страны. Практически же на данный момент на большей части её территории это неосуществимо по технико-экономическим соображениям...
...С некоторой глубины (своей для каждой точки на карте) действие Солнца и атмосферы ослабевает настолько, что на первое место выходят эндогенные (внутренние) факторы и происходит разогрев земных недр изнутри, так что температура с глубиной начинает расти." https://elementy.ru/nauchno-populyarnaya_biblioteka/432185/Teplo_Zemli
Герр Смертоносец пишет:
коммунизм всё ещё не получается
печалька.
klerk
- 2nd Lieutenant -
Next rank: = 2nd Lieutenant = after 132 points
1308

Doom Rate: 1.18

Posts quality: +970
Ссылка на пост №42 Отправлено: 10.05.25 20:02:58
Итак, я обещал продолжение, собственно продолжаю. На этот раз будет обзор моделей, которые я попробовал, и моя как всегда субъективная оценка интересующих меня возможностей.

Пока что самым продвинутым в плане работы с разными входящими/исходящими файлами является оригинальный ChatGPT от OpenAI. Принимать документы и разбирать их содержимое он умеет, как умеет редактировать их и возвращать результат (но часто делает это неправильно, у меня не получилось). Поддерживает голосовой ввод, создаёт картинки, размещает на них тексты. Насчёт видео не знаю, публичная бесплатная модель вроде такого не может. Код генерирует, объясняет, поддерживает режим исследования (т.н. "размышления"). Имеет режим "умного поисковика". В то же время его легко запутать, начиная возражать и утверждать, что у него что-то неправильно. Это так и не починили, и не знаю, починят ли. В случае спора с пользователем часто выдаёт какую-то дичь, его можно убедить в правильности неправильного ответа, также в этом случае могут быть глюки в плане несвязного ответа или ухода от темы. При этом цензура хоть и есть, но не очень заметна. Российские IP блокируются сервисом, требуется обход. Есть вход через акк Google.
https://chatgpt.com/

Китайский DeepSeek в общедоступном бесплатном виде не умеет генерировать картинки и отдавать файлы. Однако он умеет принимать файлы в разных форматах (текстовые и табличные), разбирать их, делать статистику и итоги. Код генерирует довольно качественно, всё объясняет. Если запрос не очень ясный, предлагает пользователю минимум 2 варианта на выбор, пытаясь угадать что имелось в виду, расписывает нюансы и в общем всегда довольно подробно отвечает. На первый взгляд цензуры даже меньше, чем в ChatGPT (странно, но похоже её там меньше чем в любом другом боте, по крайней мере в публичной международной версии). Имеет режим поисковика и глубокого анализа (размышления). Субъективно его труднее сбить с правильного ответа, т.к. в ответ на возражения он часто сам начинает возражать и приводить контр-аргументы. При этом хоть как я упомянул, он не умеет отдавать файлы, но сам хорошо знает о своих ограничениях и предлагает альтернативу - выдать результат в текстовой форме, а при достижении лимита - сам разбивает его на фрагменты, чтобы можно было скопировать их по очереди в Notepad++ и пересохранить, я так его просил переделать XLS в другой вид и отдать в CSV, он переделал и нигде не ошибся! Если он прервал выдачу, можно попросить его продолжить или сообщить, что выдача не произошла или данные неполные - он повторит и проверит, чтобы всё выдалось как надо, если не перегружен (а если перегружен - надо нажать значок "обновить" под последним сообщением, чтобы повторить запрос). Из картинок пытается достать оттуда текст, при этом целиком анализировать изображение и описывать, что там находится, не умеет. Видео анализировать не умеет. Шарит за различия портов и маппинг/моддинг в Doom, кстати. Умеет шутить. Не блокируется в России (вход через акк Google), имеет официальное приложение в RuStore.
https://chat.deepseek.com/

Следующий новый китайский бот - Qwen. По ощущениям очень похож на DeepSeek, и возможно даже сделан из него. Цензура в международной версии также почти отсутствует. Так же хорошо генерирует код, при этом лучше подсвечивает фрагменты и форматирует текст при выдаче, но в отличие от DeepSeek не использует смайлы. Умеет анализировать изображения и что на них находится, в том числе текст. Может их генерировать, однако если попросить добавить надпись на картинку по-русски, почему-то делает всё-таки по-английски. Но при этом умеет делать хоть низкокачественные и короткие, но видеофрагменты, и довольно быстро! Вытаскивает запрос из аудиофайла или может также их анализировать и отвечать на вопросы про них. Однако отдавать результаты в виде файла всё так же не умеет. Что касается аналогичного вопроса про переделывание таблицы - работает быстро и не перегружен, но ошибается (не берёт в кавычки значения с запятыми в CSV), сначала предложил мне опять же неправильный скрипт на python, который якобы должен решить мой вопрос (он должен работать, но не будет делать того что мне надо). Но за маппинг и моддинг, по крайней мере за нубские вопросы, тоже шарит :oops:
В общем, хоть до ChatGPT не дотягивает (а в некоторых вопросах и до своего китайского собрата), но является чем-то средним по возможностям между DeepSeek и ChatGPT благодаря широким возможностям по анализу медиа. Не блокируется в России (вход через акк Google), имеет официальное приложение в RuStore.
https://chat.qwen.ai

Perplexity - флагман по режиму ИИ-поиска в интернете и глубокому анализу вопроса / режиму исследования. Читает десятки источников, которые сам подбирает, ищет там ответы на конкретно поставленные вопросы и пишет отчёт, делает всё быстро - за минуты. Обычные ответы тоже пишет с помощью нейро-поиска и показывает источники. Умеет анализировать документы, картинки и сопоставлять их с запросом и более ранними вопросами в том же чате. Старается максимально точно следовать вопросам. Генерирует картинки с корректными надписями (но с сильными ограничениями - вроде только 3 шт в сутки). На вопрос об исправлении Excel-файла так же как и Qwen предлагает исправить его Python-скриптом. За вопросы по Doom шарит. Не блокируется в России, вход через акк Google. Приложения в Rustore нет, но есть в магазине Windows. Есть бот в Whatsapp по телефону +1 (833) 436-3285, но пока работает он сильно хуже чем в браузере.
https://www.perplexity.ai

Алиса - только недавно научилась принимать документы на анализ и на русском языке делает это лучше чем китайцы. Фото тоже теперь умеет анализировать. Отдавать результат работы в виде файлов пока не умеет. Отвечает быстро, но имеет сильные ограничения на размер ответа, причём даже не знает о них и не умеет их обходить (и вообще плохо осведомлена о своих возможностях), а просто прекращает работать при попытках заставить вывести много инфы. То есть прикол с переделыванием Excel-файла в CSV там не прокатит вообще. Фотки создавать умеет через Шедеврум, но видео пока не умеет. Надписи на фото размещать не умеет, в деталях ошибается как в тексте, так и на картинках. Умеет искать в интернете, но часто даёт только 1 источник, то есть результат убогий и лучше просто зайти в Яндекс. При этом фрагменты кода генерирует сносно, но даёт меньше подробностей в описании, чем китайцы. За Doom шарит плохо так, что даже хреново понимает вопросы, соответственно и ответ даёт неправильный (вместо ответа про размещение монстров в оригинале даёт команду консоли Doom 3 на спавнинг монстра). Само собой, в России не блокируется и встроена в страницу поиска ya.ru, а также в приложения Яндекса. Сильная цензура (самый зацензуренный бот), часто триггерит и не отвечает не безобидный вопрос, думая что там что-то противозаконное. Иногда перегружена и потому совсем не отвечает. Интересно, что Алиса Про на данный момент не сильно полезнее обычной.
https://alice.yandex.ru

Gigachat - я пробовал только через бота во ВКонтакте, и представленная там модель, вероятно, плоховата и не последней версии. Картинки создаёт ужасно, обычно совпадения с запросом и точность где-то на дне, надписи на картинки добавлять не умеет. В юмор умеет плохо, но цензуры меньше чем в Алисе и я не заметил, чтобы он был когда-то перегружен. Но ответы даёт максимально короткие. Файлы толком анализировать не умеет (кроме простого текста и картинок) и плохо понимает вопросы в этом плане, предлагая чаще всего сделать всё самостоятельно, но что изображено на картинках понимает (при этом хуже Алисы). Про Doom вопросы понимает, но как правильно сделать не знает и врёт (это лучше чем у Алисы, но всё равно толку с этого нет). Фрагменты кода с объяснениями генерирует в основном корректно, примерно на уровне Алисы. Но полезен наименее остальных, даже при низком уровне цензуры.
https://giga.chat/ (я юзал версию в ВК, но попробовал пару запросов и на сайте - честно, не вижу разницы)

Продолжение следует...

Рейтинг сообщения: +3, отметил(и): Герр Смертоносец, Oville, camper
1 11
Oville
= Sergeant =
Next rank: - Master Sergeant - after 10 points
390

Doom Rate: 0.53

Posts quality: +445
Ссылка на пост №43 Отправлено: 11.05.25 11:07:13
Бабушка говорит за нейросети:



Для справки: Татьяна Черниговская - бабушка не простая, а академик Российской академии образования, и ещё много регалий у неё, кто интересуется сами могут найти.

Вобще, как мне кажется, говорит интересные вещи)))

Рейтинг сообщения: +1, отметил(и): Taw Tu'lki
MyNameIs
= 1st Lieutenant =
Next rank: - Captain - after 22 points
2068

Doom Rate: 2.03

Posts quality: +911
Ссылка на пост №44 Отправлено: 14.05.25 17:03:14
на интересный видос наткнулся

1 1 1
klerk
- 2nd Lieutenant -
Next rank: = 2nd Lieutenant = after 132 points
1308

Doom Rate: 1.18

Posts quality: +970
Ссылка на пост №45 Отправлено: 22.05.25 02:45:38
Создание зачётного сообщения/новости (+20)
Пока я таскался по работе со слабым ноутом, так и не получалось попробовать локальные модели, потому что пробовать их на одном из самых бюджетных процов современности нет смысла никакого. Разумнее сразу запускать на RTX 4060. Конечно, для запуска больших моделей профессионального уровня на 8 Гб и ноутбучном проце не разбежишься, но тут не разбежишься и так - потому что для запуска модели Deepseek R1 с 671 млрд параметров в интернете предлагают сервер c 2-мя процами AMD Epyc и 768 Гб оперативки, стоит такое примерно $7-8k, это для запуска прямо на CPU. Ну или купить несколько видеокарт NVidia PRO (RTX Quatro), которые простой смертный никогда не видел, т.к. в магазинах их никто не держит, да и стоят они по $2-2,5 тыс за штуку и дороже, в зависимости от модели. Но я думаю, никто в здравом уме и не замахнётся на локальный запуск на ноутбуке такой модели. Для обычных домашних видеокарт с 8 Гб памяти рекомендуют нейросети с 7 млрд параметров и ниже. Казалось бы, где 671 и где 7 - наверно последняя и двух слов связать не сможет, да ещё и по-русски, но не всё так страшно. Вернее, не только лишь всё.

Мы люди простые, нам давай чё попроще, поэтому чтобы вообще не парить себе мозг и даже не включать его, есть штука под названием Ollama - это фреймворк для локального запуска моделей, которые прямо там же собраны и подготовлены для работы с ним. Поэтому всё что надо - скачать инсталлятор (у меня ноутбук на винде, так что правильного священного баша тут не будет): https://ollama.com/

Дальше нажимаем там Models и смотрим, что есть. Deepseek и Qwen я отверг (потому что я не зерг), потому что я и так ими бесплатно пользуюсь на сайтах добрых китайских друзей, а вот Gemma 3 меня заинтересовала в том плане, что она умеет принимать на вход картинки, как Qwen, но является крайне легковесной и ориентирована на локальную работу на одной бытовой видеокарте. Так что в плане сравнения у меня как минимум добавилась локальная Gemma, которая является уменьшенной версией Gemini от Google. Вообще в каталоге Ollama достаточно много моделей, пробовать их все нет времени, да и не нужно. Но вполне можно оставить на всякий случай, штука вполне рабочая.

В новейшей версии Ollama 0.7.0 появился движок мультимодальности, то есть локальные модели смогут понимать ввод картинок и голоса, генерацию изображений и даже видео (как обещают). Пока что я вижу, что эта поддержка ещё не реализована в полной мере, по крайней мере мне не удалось найти в их каталоге модели, которые умеют общаться голосом и генерировать изображения. Есть только те, которые умеют распознавать картинки и отвечать на вопросы по ним - и к сожалению это только Gemma 3 и Llama 4. Все остальные только текстовые. И вообще все отвечают только текстом, две вышеуказанные только принимают картинки на вход. А каталог довольно большой: https://ollama.com/search

Gemma 3 мне показалась наиболее интересной, т.к. у неё заявлены фантастические возможности при очень скромных требованиях, то есть она должна работать адекватнее чем многие другие сетки из списка.
https://ollama.com/library/gemma3

После установки Ollama через обычный инсталлятор, который ничего не спрашивает, программа запускается сама, но можно и запустить из меню Пуск. В первый раз она сама откроет командную строку. Сразу же можно дать команду на запуск модели, но конечно же её пока нет и надо дождаться чтобы она скачалась.
Я побоялся сразу брать что-то мощное и выбрал модель с квантованием (вместо 32-битных float для записи весов используется BF16, специально разработанный Google для ML, он 16-битный, но там ещё есть свои нюансы), т.к. обещают что она будет ещё более лёгкой по ресурсам (ноутбук всё-таки). Итого, команда для запуска получается такой:
ollama run gemma3:4b-it-qat

Последнее слово - это всё название выбранной модели, в нём 4b - это количество параметров (4 млрд), а it-qat как раз приписка про квантование. Ну там на странице всё есть.

Дальше можно например написать ollama list, чтобы система показала все загруженные модели, можно останавливать модели командой ollama stop и удалять через ollama rm. Однако, если модель у вас запущена, можно её не останавливать и закрыть ollama через значок в трее, потом опять запустить программу с ярлыка и модель снова будет на месте. Каждый раз модель запускать не надо. Но для нормального пользования нужна ещё одна вещь - интерфейс (по умолчанию его там нет).

Обычно вместе с Ollama предлагается использовать плагин Chrome Page Assist (я его использую с Яндекс Браузером, проблем с совместимостью нет).
https://chromewebstore.google.com/detail/page-assist-веб-интерфейс/jfgfiigpkhlkbnfnbobbkinehhfdhndo?pli=1

Он автоматически умеет подхватывать соединение с локальным портом (по умолчанию 11434) и можно начинать апщацца с ботом, как это вы делаете обычно во всяких там ChatGPT и Гроках у Илона Маска.
Скрытый текст:

Жаль, Кодзима пока свой ИИ не запустил, но так ведь то пока, а вот как возьмёт да как запустит, как запустит - вот тут ведь все и ошалеют


В настройках расширений можно включить, чтобы Page Assist всегда показывал свой значок справа от адресной строки браузера, либо настроить его появление по сочетанию клавиш (я включил значок, чтобы как ламер клацать мышью, т.к. в самом начале мы условились не включать мозг). Дальше прямо на странице плагина будет справа сверху кнопка с шестерёнкой - естественно, это настройки (а не то что вы подумали). Нас в первую очередь интересует Язык - "Russian", дальше в разделах "Текст в речь" и "Речь в текст" тоже надо везде русский поставить, чтобы можно было задавать вопросы голосом, нажимая на значок микрофона. Не то чтоб прямо сильно круто, но работает приемлемо. К сожалению в Windows можно выбрать только ущербно-угашенные системные голоса Microsoft Speech Kit, если уж вам надо чтобы сообщения зачитывались тоже голосом. Получается примерно как в Magic Gooddy, только местами даже и хуже - ну что поделать, таковы они бесплатные пакеты. Голосовых возможностей в самих чат-ботах нет, это обеспечивается браузером, потому качество соответствующее и нельзя например загрузить запись тут же для транскрибации. То есть, пока большинства обещанных мультимодальных возможностей всё-таки нет, но видимо позже появятся.

К моему удивлению, даже такая минимальная модель довольно адекватно отвечает на вопросы по написанию скриптов в Windows и Linux, по Javascript и PHP. Правда, если не уточнить, в каком виде нужно решение, будет сначала предлагать сделать на Python (питонщики должны быть рады, но я до сих пор таким не стал). За Doom, правда, шарит плохо, много ошибается (хотя например если спросить, как исправить разрешение экрана в Doom 3, в общих чертах нигде не ошибается, но пишет неправильные названия файлов и параметров конфига).
Но самое удивительное, что она хорошо распознаёт фото, ну не хуже других по-моему. Символика была распознана не сильно корректно (там на гербе города другое), но тут и не любой человек сообразит, да ещё при таком качестве фото, так что это получилось даже очень-очень годно.



А так иногда задумывается и нагружает ноут (становится заметно по звуку вентиляторов), иногда отвечает быстро и нагрузки почти не заметно. Нагружает только в момент генерации ответа, фоновой загрузки нет. Публичные чат-боты, запущенные на мощных серверах, конечно выигрывают по скорости, но я бы не сказал, что у локальной модели есть какие-то критические задержки, в целом всё работает и почти не тормозит.

Правда, малое количество параметров даёт о себе знать в вопросах, которые не являются широко известными - например, в отношении какой-либо личности. Тут нейросеть начинает просто врать, и хоть ты что делай, давай источник или пиши подробнейший запрос с конкретными пунктами, которые тебе нужны в ответе - ничего не помогает и в выдаче оказывается дичь. Про контекст и запоминание диалогов пока ничего не знаю, ну последние сообщения явно запоминает, потому что говоришь ему исправить что-то в выдаче, и он пытается это делать. В пределах чата, видимо, или это где-то настраивается - тут лучше бы меня кто-то поправил, кто знает это точно.

А ещё в окошке ввода сообщения можно включить поиск в интернете (а в настройках даже выбрать поисковую систему), и вот уже вместо зацензуренной Алисы у нас есть свой бот, который может искать ответы на любые вопросы. Ни в коем случае ни к чему не призываю, но к примеру Алиса считает преступлением даже составление натальной карты или гадание по руке - а это уже ни в какие ворота (Гигачат кстати так не считает, хоть его ответы и малоинформативны).

Кроме общих языковых моделей в каталоге представляют интерес ещё кодерские по типу qwen2.5-coder - такое должно быть более приемлемо для специалистов, потому что при маленьком весе модели она заточена только под помощь в разработке и кучи лишней информации там не будет, т.е. при низких требованиях должно быть куда выше качество ответов из-за узкой специализации. Может кому надо.

P.S.: забыл ещё написать, что для задействования GPU Nvidia нужно установить CUDA: https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local
Инсталлятор CUDA предложит поставить ещё Visual Studio, но можно этого не делать, если вам специально не надо - всё и так будет работать.
На компе с видеокартой когда бот отвечает на запрос, в диспетчере задач видна нагрузка на GPU, хотя и на CPU она всё ещё тоже немаленькая.
Для AMD, начиная с Radeon RX 6600 (более старые или младшие - не поддерживаются), надо установить HIP SDK (ROCm) - https://www.amd.com/en/developer/resources/rocm-hub/hip-sdk.html

И да, я в порядке бреда поставил эту модель на ноут с процессором Intel N100 (со встройкой, но правда там 16 Гб оперативки DDR5) - хоть думает долго, но работает!
Модель gemma3:12b-it-qat тоже попробовал, естественно на мощном компе. Она того не стоит - работает медленнее и памяти жрёт больше, а точность ответов всё равно оставляет желать лучшего.

Вот тут, кстати, есть сравнение системных требований разных моделей (вы ОШАЛЕЕТЕ, читатели В ШОКЕ): https://apxml.com/posts/gpu-requirements-deepseek-r1

А ещё тут буквально вчера была новость, что вышла самая лёгкая модель Gemma 3n, которая должна работать на чём попало без особых требований к оборудованию - при этом умеет даже работать с аудио и генерировать картинки. Какие-то чудеса и не верится, но посмотрим, пока не тестировал.

Ну и как водится, продолжение следует!

Рейтинг сообщения: +3, отметил(и): BL@CK DE@TH, Oville, camper
1 11
JSO x
- 2nd Lieutenant -
Next rank: = 2nd Lieutenant = after 74 points
1366

Doom Rate: 2.29

Posts quality: +746
Ссылка на пост №46 Отправлено: 22.05.25 12:53:11
Вероятно, самый крупный и полностью бесплатный сайт-агрегатор нейросетей: https://lmarena.ai. Лично мне больше нравится дизайн в новой бета-версии этого же проекта.

Вверху, в обоих вариантах дизайна, есть пункт "Direct Chat" — через него можно выбрать конкретную нейросеть:
Скрытый текст:







Из минусов — вся метаиформация (примерная тема диалога, тон, риск, язык и другие общие данные), которую туда пишут, может быть — и будет — использована для анализа в научных статьях, рекламы, маркетинга и так далее.

Рейтинг сообщения: +2, отметил(и): BL@CK DE@TH, klerk
2 8 1
BL@CK DE@TH
Lieutenant Colonel
Next rank: - Colonel - after 244 pointsМодератор форума
3796

Doom Rate: 1.37

Posts quality: +2118
Ссылка на пост №47 Отправлено: 23.05.25 09:42:00
Google I/O 2025: ИИ, который видит, говорит и думает вместо вас





1 2 1
Oville
= Sergeant =
Next rank: - Master Sergeant - after 10 points
390

Doom Rate: 0.53

Posts quality: +445
Ссылка на пост №48 Отправлено: 23.05.25 10:30:40
BL@CK DE@TH пишет:
Google I/O 2025: ИИ, который видит, говорит и думает вместо вас

За первое видео не скажу, в массовке сложно чего-то найти, мне просто влом высматривать возможные косяки... вроде бы нормально)))
На втором машинка, грязь и фон потрясающе выглядят.

А вот на третьем у меня сильные подозрения, что предплечье левой руки у мужика телескопическое либо резиновое.
Когда он придвигает уточку к себе, видно, что длина предплечья сокращается, а локоть и плечо остаются на своих местах. Такое возможно было бы если бы он придвинул уточку, повернув предплечье. Но тогда уточка приблизилась бы к камере, чего явно не наблюдается, а скорей, она даже отодвигается от камеры в сторону руки, которая её схватила...
Либо если придвигать уточку прямо на себя, как видно в видео, то мужик должен был двинуть плечом назад, а по факту имеем удивительное свойство сокращать длину предплечья)))

Рейтинг сообщения: +1, отметил(и): klerk
Taw Tu'lki
= Captain =
Next rank: - Major - after 179 points
2461

Doom Rate: 1.36

Posts quality: +1133
Ссылка на пост №49 Отправлено: 23.05.25 11:25:39
Попробовал сделать музыку в Suno. На основе сэмплов из одной игры. Кривовато, правда, получилось (концовка резко обрывается):
Desert Mirage
Desert Mirage 2
Wings of Eternity
Wings of Eternity 2
Crimson Divide
Crimson Divide 2
Desert Mirage 3
Desert Mirage 4
Electric Nights
Electric Nights 2
Raging Shadows
Raging Shadows 2
15
BL@CK DE@TH
Lieutenant Colonel
Next rank: - Colonel - after 244 pointsМодератор форума
3796

Doom Rate: 1.37

Posts quality: +2118
Ссылка на пост №50 Отправлено: 23.05.25 11:33:43
Oville пишет:
А вот на третьем у меня сильные подозрения, что предплечье левой руки у мужика телескопическое либо резиновое.

По мне, так это даже хорошо, что есть косяки и люди, которые их замечают. Нейросети очень быстро развиваются и если ещё недавно мы смеялись над шестью пальцами и косыми, кривыми глазами, то теперь надо очень внимательно присматриваться, чтобы заметить какие-то изъяны. Ещё лет пять-десять, а то и меньше, и будет вообще невозможно отличить реальное фото или видео от сгенерированного нейросетью.

Добавлено спустя 2 часа 41 минуту 24 секунды:

Всё ближе к киберпанку:

В Китае впервые протестировали нейроимплант для управления компьютером силой мысли

Рейтинг сообщения: +1, отметил(и): klerk
1 2 1
Taw Tu'lki
= Captain =
Next rank: - Major - after 179 points
2461

Doom Rate: 1.36

Posts quality: +1133
Ссылка на пост №51 Отправлено: 23.05.25 16:07:15
My valentine
My valentine 2
15
klerk
- 2nd Lieutenant -
Next rank: = 2nd Lieutenant = after 132 points
1308

Doom Rate: 1.18

Posts quality: +970
Ссылка на пост №52 Отправлено: 24.05.25 08:25:21
Не хотел сначала писать ничего, пока не набрал материала на следующую часть, но попалась одна новость, и я просто теперь кидану всякий мусор. Но надеюсь, будет интересно :)

Тут вот пишут о проблеме с распознаванием отрицания в запросах нейросетей
https://hi-tech.mail.ru/news/127159-novaya-problema-ii-vizualnye-yazykovye-modeli-ne-ponimayut-slova-net/

Если коротко: при обучении моделей тема отрицания во многих случаях игнорировалась и данные размечались, разумеется, именно по их наличию, а не отсутствию. И большинство изначальных моделей вообще не понимали, что это такое, пропуская все эти "не", "нет" или "без". К примеру, известен случай с ChatGPT, которого пользователь измучил в попытках сгенерировать комнату без слона, и слон таки везде был. Варианты этой картинки достаточно популярны, т.к. "энтузиасты" вроде меня бросились повторять: https://pikabu.ru/story/chatgpt_poprosili_narisovat_komnatu_bez_slonov_rezultat_ubil_12440663

Конечно, в критических системах вроде медицинской диагностики такие вещи недопустимы, и там модели надо срочно обновлять. Но надо признать, что часто в готовые продукты попадают уже устаревшие модели, где ещё полно "детских болезней" этой технологии, в то время как на том же Hugging Face уже лежат обновлённые версии. От этой задержки никуда не деться, пока ИИ не научится клепать новые изделия моментально - только для такого ИИ эта проблема уже не будет актуальна.


Я скажу тебе: всё не так уж плохо. (А. Маршал - Ливень)


Но как я убедился, в публично доступных моделях эта проблема преувеличена, хотя сам ChatGPT я в этот раз не тестировал. Ну и как я обычно делаю, в этот раз тоже будет исследование, к которому нельзя относиться серьёзно. Это всратая дичь из генеративных картинок и дегенеративных подписей к ним. Не совсем бессмысленная, да, но и не то чтобы имеющая ценность.

Начал я с простых текстовых вопросов, и на удивление все чат-боты справились (Deepseek, Qwen, Perplexity, Алиса (или в графическом варианте - Шедеврум) и даже Гигачат)
Тема: "анекдот не про котов"
Скрытый текст:

Deepseek


Qwen (у него хуже всего с юмором)


Perplexity


Алиса


Гигачат



Но что ещё более удивительно, с картинками-то тоже не всё так печально! Тема: "комната с плакатом слона, но без кошки". Deepseek не умеет делать картинки, поэтому тут он выбывает.

Скрытый текст:


Qwen (справился)


Perplexity (справился)


Шедеврум (50/50)



Гигачат (к удивлению, справился!)



Ну и ещё усложним задачу - теперь у нас будет "собачья игрушка без собаки"!
Скрытый текст:


Qwen (настоящей собаки нет, но запрос не понимает, считает что мне нужна игрушечная собака)



Perplexity (результат странный, но формально вроде бы запросу соответствует, причём поскольку я спрашиваю в том же чате, не создавая новый, по умолчанию этот бот меняет первоначальную картинку под новый запрос)


Шедеврум (тут всё печально, отрицаний он явно не понимает)


Гигачат (увы, но это фиаско, тут гигачад оказался обычным доге)



Ну и как же я мог не проверить классический запрос: "комната, где нет абсолютно никаких слонов"? Это настолько уже жиза и база, шо если не вайбануть на эту тему, то будет просто кринге.
Скрытый текст:


Qwen (ошалел от моего запроса и начал сходить с ума, правда кое-что выдал, ну и слоны всё-таки пробрались в комнату: один из них для этого уменьшился, другому удалось просунуть голову)



Perplexity (сделал как в прошлый раз - поменял картинку, на этот раз убрав вообще всё с постера)


Шедеврум (ну тут да, такое...)



Гигачат (моё увожение!)



Таким образом, делая вывод для нашего шнобелевского трактата, оказывается что в деле точной генерации изображений Perplexity впереди планеты всей. Qwen сойдёт, хоть и не всегда, Шедеврум вообще не понимает отрицаний, а вот Гигачат неожиданно показал своё превосходство над Яндексом в этом вопросе, и на этот раз даже по уровню адекватности догнал китайца.
Локальную Джемму от Google я тут не тестировал, ну я знаю что на вопрос про анекдот без котов она отвечает примерно как DeepSeek, но короче, а картинки герерить не умеет.

А вы что думаете про такие "исследования", интересно ли и надо ли иногда разбавлять тему этим?
Скрытый текст:









А ещё попалась новость, что ИИ не понимает во времени и датах, что в общем-то давно известно, но кто знает, может быть что-то на эту тему ляжет в основу следующего поста.

А поэтому продолжение - что?.. Продолжение - то! До новых сообщений, дорогие юные друзья!

Рейтинг сообщения: +1, отметил(и): Mishka
1 11
Taw Tu'lki
= Captain =
Next rank: - Major - after 179 points
2461

Doom Rate: 1.36

Posts quality: +1133
Ссылка на пост №53 Отправлено: 24.05.25 19:47:02
Ещё парочка.
Africano
Africano 2
In the music
In the music 2
Alexandria
Alexandria 2
Мне кажется, инструментал у нейросетики получается лучше, чем песни.

Добавлено спустя 16 часов 53 минуты 26 секунд:

Уже с каждым разом все лучше и лучше. Но пока ещё далеко до идеала. Ибо для этого, нужно, во-первых, иметь какие-никакие навыки в составлении слов, а во-вторых, приобрести Premium (заплатив за это косарь или два)
Jungle
Jungle 2
My guitar
My guitar 2
Jazz
Jazz 2
Rap
Rap 2
15
Shadowman
UAC General
Next rank: Unavailable after 0 points
8736

Doom Rate: 2.06

Posts quality: +2262
Ссылка на пост №54 Отправлено: 25.05.25 14:01:34
klerk
Такое ощущение, что нейросеть не рисовала комнату, а брала откуда-то готовые фото реальных комнат и немного их модифицировала.
А вот что насчет сочетания объектов? Мне кажется, у нейросетей с этим плохо. Попробовать задавать им вопросы по рисованию, например 2 разных персонажей, которые должны как-то взаимодействовать между собой. Или например, персонаж и предмет интерьера, которые должны находиться в определенных соотношениях.
Я уж не говорю про сложные композиции, где задействовано множество объектов и у каждого своя функция.
Что получится?

Рейтинг сообщения: +1, отметил(и): Mishka
1 7 2
klerk
- 2nd Lieutenant -
Next rank: = 2nd Lieutenant = after 132 points
1308

Doom Rate: 1.18

Posts quality: +970
Ссылка на пост №55 Отправлено: 25.05.25 16:02:58
Shadowman, насколько я знаю, большинство моделей диффузные. То есть, они картинки делают из белого или цветного шума, постепенно подмешивая туда элементы, и так за довольно большое количество итераций изображение "проявляется". Есть конечно и фейлы, где картинки почти в точности копируют известные работы или фотографии. Есть конечно и нейро-редакторы, где можно одно стереть и другое дорисовать, но это уже не генератор в исходном смысле.

Я тебе 2 примера сейчас скину. Вот ты про персонажей упомянул, так и запишем: "ёж соник обнимает дюка нюкема, стиль кино 90-х". Если генератор не понимал запрос и выдавал какую-то дичь, я делал приписку: "кинематографичный стиль, реализм".

У Perplexity какие-то проблемы и он на данный момент не выдаёт картинки, а показывает ошибку при попытке генерации, поэтому его не будет. Гигачат делает какую-то мультяшную дурь, которая плохо совпадает с запросом (потому что не знает, как выглядят персонажи, которых я хочу там видеть), так что я не привожу его тут. Но вместо него будет Kling.
Скрытый текст:


Шедеврум


Qwen


Kling.AI



Дальше ты пишешь про сцену. В сложных промптах я не силён, обычно если меня не устраивает картинка - я её перегенерирую. Со сложными промптами бывает проблема в том, что при длинных текстах картинка часто "шумит", то есть содержит много деформированных элементов или визуального мусора, из-за этого становится некорректной и плохо выглядящей, а иногда и вовсе жутким дерьмом. Вроде Kling этим не грешит, а вот Шедеврум и Qwen очень даже, а у Гигачата и так с качеством дела не очень. Скорее всего, если взять платную подписку где-нибудь на Миджорни, там этой проблемы не будет, ну или почти не будет, только ради теста я делать этого не буду. То, что платная модель очевидно лучше бесплатной, это не предмет исследования и смысла "доказывать" это не вижу.

Вот решил создать такое: "донки конг дерётся с марио, сверху падает цветочный горшок, на фоне кирпичные стены с кондиционерами, двор с баскетбольной сеткой, мусорные баки, закат, картинка в стиле пиксельной графики как на Sega Mega Drive". Kling AI не смог нарисовать Марио ни разу даже после 8 попыток и даже после того как я сгенерил для него специальный развёрнутый промпт с помощью Deepseek, так что он выбыл.
Скрытый текст:


Шедеврум


Гигачат


Qwen



Сильно много генераций не делал, в пределах десятка, чтобы выбрать наилучший вариант. Плохих в этом случае становится больше, как и неточных. Конечно, до идеала там далеко у всех, но они пытаются, и если использовать несколько разных генераторов, можно что-то да и выбрать.

Но меня волнует не это, а то что ни один не умеет делать нормальные клипарты и спрайты. С текстурами там дело обстоит лучше, т.к. бесшовные текстуры в принципе может сделать любой, и выглядят они довольно-таки нормально, хоть и получаются тоже не с первого раза. Но это, видимо, было б сильно круто.

И я не знаю, как сделать выводы для тебя по этой теме, в чём-то тебя убедить или наоборот. Единственное могу сказать, в этом деле есть большая доля непредсказуемости. Одного и того же героя разные нейросети могут либо делать совсем непохожим / искажённым, либо плохо встраивать в сцену и комбинировать с другими элементами, ну или наоборот хорошо. Кому-то это подходит, кому-то нет. Я потому стараюсь по этой теме не делать ставку на объективизм вообще и сравнивать только в плане мнения и взгляда. По мне так тут нельзя сказать что-то объективно, и каждому надо смотреть лично, подходит это ему или нет.

Рейтинг сообщения: +1, отметил(и): Mishka
1 11
Mishka
= Sergeant Major =
Next rank: UAC Sergeant Major after 44 points
636

Doom Rate: 2.94

Posts quality: +195
Ссылка на пост №56 Отправлено: 25.05.25 23:29:38
klerk пишет:
Но меня волнует не это, а то что ни один не умеет делать нормальные клипарты и спрайты.

Дык ты же сам писал:
klerk пишет:
большинство моделей диффузные. То есть, они картинки делают из белого или цветного шума, постепенно подмешивая туда элементы, и так за довольно большое количество итераций изображение "проявляется".

Что весьма интересно, но с клипартами и спрайтами ожидаемо будут трудности (хотя я пока ещё не очень сильно в курсе того, что такое диффузные модели, так что могу ошибаться).
1 5
Shadowman
UAC General
Next rank: Unavailable after 0 points
8736

Doom Rate: 2.06

Posts quality: +2262
Ссылка на пост №57 Отправлено: 26.05.25 01:09:56
Taw Tulki
А как ты делал музыку? Скармливал нейросети готовый трек и просил его модифицировать по каким-то параметрам?
Интересно, можно ли таким образом наделать оригинальных достаточно качественных мелодий для дум-вадов?
Мне бы вот что-нибудь в духе некромантского подземелья не помешало...
1 7 2
Taw Tu'lki
= Captain =
Next rank: - Major - after 179 points
2461

Doom Rate: 1.36

Posts quality: +1133
Ссылка на пост №58 Отправлено: 26.05.25 04:06:32
Shadowman
Я использовал сэмплы из игры Иностранные языки для детей от MAUS Software и Института Искусственного Интеллекта. В детстве был у меня этот диск, благо на Rutracker'е он есть, и я его 10 лет тому назад скачал, поиграл чисто ради ностальжи, после чего выложил в Old-Dos. Эти сэмплы к слову не разрабы создавали, по большей части они были взяты из разного софта.
Они вышли неплохо. Но у них есть недостаток - резкое окончание. Это можно исправить при помощи фейда или кропа. Но проблема в том, что эти инструменты на сайте доступны для тех, кто оформил подписку. Тем, кто юзает бесплатно, это недоступно. Можно, конечно, сделать вручную, но выложить на сайт не получится.

Рейтинг сообщения: +1, отметил(и): klerk
15
klerk
- 2nd Lieutenant -
Next rank: = 2nd Lieutenant = after 132 points
1308

Doom Rate: 1.18

Posts quality: +970
Ссылка на пост №59 Отправлено: 26.05.25 08:38:45
Mishka, так а я не наблюдаю в этом противоречия. То, что диффузная модель на входе принимает шум - это не значит, что шум там должен оставаться на выходе. Но если ты имеешь в виду, что у клипартов и спрайтов должен быть вообще-то прозрачный фон (о котором генераторы картинок не в курсе), так это не то чтобы проблема. Ещё до того, как альфа-каналы стали стандартом де-факто, использовался фоновый цвет по типу хромакея, откуда программно вырезались спрайты. Под качеством здесь я понимаю не наличие шума, т.к. современные диффузные модели могут выдавать и качественные фотореалистичные изображения, а соответствие картинки запросу. Со спрайтами ситуация печальная от слова совсем - может быть, кто-то с нормальными мозгами уже нашёл метод для нормальной их генерации, но я - нет. Что касается клипартов (если что, так называются кусочки элементов оформления на прозрачном или монотонном фоне), там получше, ну по крайней мере у Шедеврума, хотя бы результат похож на клипарты. Проблема с ними тоже в плохом соответствии запросам и с масштабами, когда ты видишь кусок того, что должно было быть целым клипартом, остальные части которого остаются за пределами картинки. Но там попадаются и годные, которые можно вырезать, просто заманаешься перегенерировать, пока они попадутся. Спрайты, из-за того что они должны быть в форме набора в разных позах и с разных сторон, так создать невозможно.

Вот например годная статья про диффузные модели, если интересует: https://habr.com/ru/articles/713076/

Рейтинг сообщения: +1, отметил(и): Mishka
1 11
Taw Tu'lki
= Captain =
Next rank: - Major - after 179 points
2461

Doom Rate: 1.36

Posts quality: +1133
Ссылка на пост №60 Отправлено: 27.05.25 08:32:52
Из всех сгенерированных мною на Suno AI композиций удачной оказалась именно Jungle. Вот вроде бы это работа нейросети. Но черт возьми, этот трек навевает мне мысли о детстве, чувствуется дух начала 90-ых, хотя родился лишь в конце - ну я просто в детстве слушал много разной музыки из аудиокассет, которые имеются. И вот то, что сделала нейросеть, вышла такой замечательной...
В какой-то момент я решил пофантазировать и представить себе, что это своего рода оцифровка из какой-нибудь аудиокассеты. Следовательно, мне пришлось немного пошаманить. Пожалуй, недостатком является резкий обрыв, так как я юзал базовую версию Суно. Поэтому я использовал фейд (хотя можно было просто сымитировать обрыв плёнки аудиокассеты). Ну а дальше я применил футаж аудиокассеты, поигрался с настройками эквалайзера, поменял качество звука и вуаля. Получился трек, якобы оцифрованный с аудиокассеты.
Indochina Jungle
Escape from Indochina Jungle

А вот оригинал сэмпла, с помощью которого трек и был сгенерирован.
15
Страница 3 из 4Перейти наверх Пред.  1, 2, 3, 4  След.
   Список разделов - Болталка - Нейросети и всё что с ними связано