Предлагаю снова поиграть в игру, угадай промт и монстра. Хотя последнее думаю не сильно надо, плюс далеко не всё удалось с первого раза, в плане того, что приходилось конкретно указывать на элементы, так как с первого захода даже смена промта иногда не срабатывала. Благо сетка позволяла корректировку. Использовался qwen в качестве теста.
Лимит к сожалению не дал до конца догенерить, но промты потом подгружу, может быть.
В том твоём посте видно, что нейросеть не уловила эмоцию Гарпии и нарисовала стандартную диснеевскую белоснежку. Хотя, возможно, ты не составил описание эмоции, поэтому так получилось...
Есть такое. Я попросил это сделать Chatgpt, где просто указал "гарпия обнимает ребёнка в стиле Миядзаки". С другой стороны, у Миядзаки вряд-ли существуют аниме с эротическим подтекстом, ведь он делал для детей. Да и судя по всему терпеть не мог анимешников. Надо будет и остальные нейросети попробовать, правда, я уже в прошлом году одну такую юзал - выдавала кривые арты.
Чтобы не прерывать сессию я оставил комп с браузером на всю ночь. И вот что получилось только что по следущему запросу. Спасение Клерка от Black Death`a)))
"Клерк играет в игру Doom, сидя лицом к зрителю, находится в своей комнате. За спиной шкаф с книгами, на полу коврик, на коврике спит, свернувшись клубком, коричневая кошка с серыми пятнами. На столе справа от монитора зелёная старинная лампа. На дальнем плане окно с зелёными шторами. Клерк сидит в игровом кресле, за его спиной стоит зеркало, в котором отражается то, что видно на мониторе компьютера"
Postimg.cc опять тупит, с впн и без server error... Поэтому яндекс диск https://disk.yandex.ru/i/Dxigw2K1dQjgEw - как видно, нейросеть не поняла, что нужно развернуть компьютер и стол спиной к зрителю.
Я уточнил это, но картинка осталась без изменений: "Клерк играет в игру Doom, сидя лицом к зрителю, находится в своей комнате. За спиной шкаф с книгами, на полу коврик, на коврике спит, свернувшись клубком, коричневая кошка с серыми пятнами. На столе справа от монитора зелёная старинная лампа. На дальнем плане окно с зелёными шторами. Клерк сидит в игровом кресле, за его спиной стоит зеркало, в котором отражается то, что видно на мониторе компьютера. Компьютерный стол и монитор задней стороной к зрителю" https://disk.yandex.ru/i/HwBZij6W_DyNpw
+Ku6EPyXOBEPTKA+ Имп, Барон Ада, Арчвайл, Манкубус, Ревенант.
Точный промт мы не угадаем, важен порядок слов, от его перестановки результат может изменится существенно. Лучше расскажи сам.
Почему арчвайл как будто женского пола?
Вот это прям зачётная картинка. Так и просится сделать уровень по ней.
Да, как ни странно, на стихи нейросеть выдает вполне корректный результат, и даже весьма неплохой.
Oville А почему осталась надпись про греческий зал и мышь? Если ты давал новый запрос, по идее старый не должен влиять.
Я попробовал по твоему запросу сгенерировать без надписей:
"Не делать надписей. Клерк играет в игру Doom, сидя лицом к зрителю, находится в своей комнате. За спиной шкаф с книгами, на полу коврик, на коврике спит, свернувшись клубком, коричневая кошка с серыми пятнами. На столе справа от монитора зелёная старинная лампа. На дальнем плане окно с зелёными шторами. Клерк сидит в игровом кресле, за его спиной стоит зеркало, в котором отражается то, что видно на мониторе компьютера. Компьютерный стол и монитор задней стороной к зрителю."
Нейросеть не понимает, где перед, где зад, и где зритель. Еще и зеркало в запросе вносит путаницу. Тут надо искать обходные пути, но по опыту - чем больше пытаешься детализировать описание, тем выше шанс, что сетка все перепутает.
Скрытый текст:
Добавлено спустя 20 минут 25 секунд:
Продолжая анализ реакции нейросети (конкретно - тот же квен), то можно заметить следующее:
1. Нейросеть понимает грамматику корректно, даже если слова в языке не существуют. Пример - картинка на известную фразу.
Промт: Не делать надписей. Глокая куздра штеко будланула бокра и куздрячит бокренка.
Скрытый текст:
Однако, одно существительное в запросе сетка все же упустила - на картинке либо Бокр, либо бокренок, но не тот и другой одновременно.
2. Омонимы сетка понимает плохо. Теряет больше половины из запроса.
Промт: Над песчаной косой косоухий косой пал под острой косой косой бабы с косой.
Скрытый текст:
Тут нет косы как инструмента (вместо нее - палка?), нет зайца, нет и других признаков, указанных в запросе.
3. По стихам в целом сетка умеет генерировать, иногда проявляет изобретательность. Еще пример из русской классики:
Промт: Не делать надписей. Родила царица в ночь не то сына, не то дочь, не мышонка, не лягушку, а неведому зверюшку.
Скрытый текст:
Ну и на тему Doom. Тоже попробовал немного поиграть с сетью.
Промт: Не делать надписей. В пиксельно-реалистичном стиле Doom. Два барона Ада из Doom сторожат портальные врата с Фобоса на Деймос.
Картинку нарисовала в целом по запросу правильно, а вот баронов не смогла опознать - не знает, как они выглядят в Doom.
Скрытый текст:
Промт: Не делать надписей. В пиксельно-реалистичном стиле Doom. Арчвайл из Doom 2 насылает пламя из рук на морпеха-думера.
И опять арчвайл не похож на свой прототип. Нужно какое-то описание задавать, по названию монстра нейросеть не ориентируется.
Shadowman, ты слишком сильно глумишься. Самая высокая точность следования запросам у Perplexity (но там же и самый жёсткий лимит). По неизвестным, редким и непонятным запросам Perplexity попытался бы найти референс и сделать похоже на реальную иллюстрацию. До лимита в Qwen я не добирался и не знаю, сколько там дают, возможно его и нет. Но точность там довольно низкая, поэтому даже по обычным запросам часто бывают неудовлетворительные результаты. А про твои уж и говорить нечего - если более лёгкие варианты не понимает, это уж точно не поймёт, но что-то показать попытается.
Почти, второй пинки, но сетка упорно отказывается "приземлять". Скорее всего надо полностью переписать промт. Хотя тут может быть как с тремя глазами в другой сетке. Изначально модель учится на определённом референсе и затем упорно считает ошибкой количество глаз или позу отличную от какой-либо. При этом продолжает делать шесть пальцев. В подтверждение этому скажу, что сцену приходится прописывать тоже, потому что поза, внешний вид окружения без дополнительного описания один и тот же.
Видимо это королева арчвайлов . А вообще с ним тоже куча проблем была, сеть упорно пытается нарисовать голый скелет или пришельца, несмотря на то, что специально не конкретизируется вид (если например написать клыки кабана, то обязательно нарисует пятак, почему-то). Опять же беда с промтом (даже кажись знаю, что прописать). Наиболее что-то близкое из кучи попыток было вот это:
Я вот думаю, что надо всё же давать референс картинку (загружать через "редактор изображения" и просить перерисовать), а не голым промтом описывать.
Имп какой-то няшный получился, но, как мне кажется, наиболее близкий к каноничному. Разве что хвост убрать попросить надо.
что надо всё же давать референс картинку (загружать через "редактор изображения" и просить перерисовать)
Это другое, исправление картинки по образцу, тут в разы проще. А вот с нуля создать по описанию - интереснее.
Так какие промты задавал? Может в пиксель-реалистичном стиле будет ближе к думу?
Самая высокая точность следования запросам у Perplexity
Попробовал эту сетку (бесплатная версия).
Точность ниже оказалась. Квен хотя бы огонь правильно направил (из руки арчвайла на морпеха). Здесь морпех мочит арчвайла, который еще дальше от своего дум-прототипа, чем в предыдущем запросе.
Скрытый текст:
Вот бароны ада получились ближе к оригиналу - красные и рогатые, хорошо, что не скелеты.
Скрытый текст:
Добавлено спустя 8 минут 41 секунду:
P.S. Попробовал задать ему сложный запрос, который скармливал квену. Perplexity разразился большой тирадой и послал к профессиональным художникам - MidJourney, DALL·E, Stable Diffusion, с последующей ручной доработкой.
То ли это такой троллинг тонкий, то ли он действительно не умеет.
(но картинки по думу почему-то сгенерировал сам).
P.P.S. Такое впечатление, что он выдает всего 2 картинки. Сначала нарисовал без разговоров, теперь на попытки повторить то же самое - начинает болтовню нести.
P.P.P.S. У квена ограничение - 50 изображений в сутки. Если просто побаловаться - то более, чем достаточно. Если нужно много и долго подгонять результат к желаемому, то маловато все же.
Апскейлинг текстурок с генерацией от топаз. По мне так совсем не плохо справляется. С 64х64 до 1024х1024.
Жаль конечно в один клик далеко не всегда получается. Ручная работа остается (в зависимости от сложности сцены)
Тем не менее...
Это как раз истечение лимита. Да, там очень мало, 2-3 картинки в сутки. На них трудно понять что-либо, я сидел там ещё с апреля и генерил разные картинки, на выборке побольше из разных запросов точность в общем выходит выше.
Не знаю, мне он сегодня ответил, что вы исчерпали лимиты этого месяца и обновляйтесь до проф. версии или ждите.
Хотя вчера всего 2 картинки нарисовал, после чего писал тексты в ответ на запросы.
В общем, буржуйская сетка, ничего бесплатно делать не дает, ну ее в топку.
Ничего. Она ж не мыслит, а тупо ищет по хитрым алгоритмам.
С Perplexity я схитрил - он же на почту завязан, так что мешает с разных зайти?
Вот только цензура там жесче, чем у квена, потому обидно, когда твои 2 попытки обламываются. Да и несмотря на некоторые более реалистичные детали, в других деталях результат получался хуже, чем у квена. Так что по совокупным характеристикам для меня пока квен лучше выглядит.
манкубус похож на настоящего, только пулемет вместо огнемета скорее.
Да, надо было конкретно уточнить, что он стреляет огненными шарами. Самое забавное, что нейросеть сама генерирует голоса и звуки, хотя я ей этого не задаю.
Нашел способ обходить ограничения perplexity, но там жуткая цензура, надо долго стараться, чтобы получить желаемое...
Но тут внезапно квен разродился генерацией видео по картинке (до этого было только по тексту и качество было отвратительное). По картинке видео вполне качественное - на уровне исходной картинки хотя логика не всегда работает правильно.
Вот решил создать видео по своей картинке "Старинного собора", которую тут постил выше.
К сожалению, доступа на ютуб-аккаунт у меня нет, попытки зайти - натыкаются на бесконечный круг проверок через почту, телефон и т.п. хрень. Так что увы, на ютуб ничего залить не могу.
Остается кидать по временным ссылкам для скачивания:
https://dropmefiles.com/Vhxz2
Впрочем, квен дает возможность делиться прямой ссылкой. И это хорошо, ютуб не нужен:
И ещё текст, который нейросеть сочинила за 10 секунд примерно:
*Тишина в Хрустальных Пустошах нарушается лишь тихим позваниванием кристаллических трав под ветром. Воздух мерцает от переливающихся бликов — солнечный свет, преломляясь в тысячах острых граней, будто сам пытается предупредить о надвигающейся опасности.*
Из-за излома ледяного холма появляется **зверобой** — высокий, в потрёпанной броне из чешуи древнего змей-людоеда. Его левая рука — механическая, с растопыренными пальцами-лезвиями, правая сжимает **«Сердцерез»** — арбалет с барабаном из костей чудовищ-хранителей. На поясе — фляга с эссенцией тумана, в глазах — усталость и огонь, выжженный годами охоты.
А затем — *он*.
Земля под ногами зверобоя трескается в узорах мороза. Воздух застывает.
Из-за завесы сверкающей пыли плавно выступает **Хрустальный Единорог**.
Его тело — не плоть, а живой кристалл: прозрачный, с жилками синего и алого света, пульсирующими в такт невидимому сердцу. Его грива — струи застывшего света, копыта оставляют после себя лёгкие трещины в пространстве. Рог — не украшение, а *оружие*: выточенный из чистого хаоса, он искривляет реальность вокруг себя, словно игла в глазу у мира.
> — *«Ты не первый… и не последний»,* — шепчет Единорог, но звук не из уст — он рождается в голове зверобоя, как эхо забытого храма.
Зверобой медленно поднимает «Сердцерез».
— Ты — не миф. Ты — ошибка. Кристалл, решивший, что он — бог.
**Сражение начинается.**
Первый выстрел — **стрела-тень**, смазанная соком ночных грибов. Она проходит *сквозь* единорога… но не бесследно: кристалл на миг мутнеет, по телу пробегает трещина — быстро затягивающаяся, но *настоящая*.
Единорог фыркает — и в ответ выпускает **луч чистого холода**, превращающий землю в зеркальную глыбу. Зверобой откатывается… но его механическая рука покрывается инеем, пальцы-лезвия застывают в звенящем клинке.
Тогда он бросает флягу с эссенцией тумана — она разбивается у копыт единорога. Туман *не рассеивается*. Он *впитывается* в кристалл — и внутри единорога начинает клубиться тень. Впервые — *колебание*.
— Вы… не охотитесь на зверей, — голос зверобоя хриплый. — Вы — *их последняя молитва*. Каждое существо, убитое мной… оставляет в вас искру.
Единорог застывает. Его рог вспыхивает не яростью — а *печалью*.
> — *«Ты понимаешь слишком поздно. Я — не хищник. Я — кладбище. Я — память тех, кого ты стёр с лица мира. И сегодня… ты присоединишься к ним.»*
И тогда зверобой делает невозможное:
Он *бросает* «Сердцерез».
Вытаскивает из-за спины **зеркальный щит**, выкованный из обломка павшей Луны-Стражницы — и бросается *вперёд*, не в атаку, а в *объятие*.
Единорог выпускает луч — но щит *не отражает*. Он *преломляет*. Луч возвращается… в самого единорога.
Кристаллическое тело вспыхивает изнутри.
Трещины — не раны, а *высвобождение*. Из каждой вырывается **тень зверя**: волк без глаз, птица с крыльями из копий, медведь с сердцем из огня… все — те, кого зверобой убил.
Они не нападают.
Они *смотрят*.
Единорог падает на колени. Его рог гаснет.
— Прости, — говорит зверобой, став на одно колено перед падшим. — Я думал, что охота делает меня сильнее. А она лишь делала тебя — тяжелее.
Хрустальный Единорог медленно рассыпается… не в пыль, а в **тысячи светящихся семян**, уносящихся ветром.
Где они упадут — вырастут **цветы из хрусталя и плоти**, питающиеся лунным светом и памятью.
Зверобой поднимает с земли упавший рог — он тёплый, пульсирует, как сердце.
И впервые за двадцать лет — **он идёт не на охоту.**
Он идёт — *сеять*.
Мне особенно понравилось: и бросается *вперёд*, не в атаку, а в *объятие*.
Добавлено спустя 29 минут 15 секунд:
Zveraboy Я всего лишь скопировал твою фразу в qwen, один раз для картинки и один раз для текста, что выдало - то выдало. Тут в работе этой нейросети qwen есть нюансы, в которые я вникать не хочу, в них Shadowman шарит, если нужно детали уточнить и сделать более крутую картинку - проси его, он тебе ещё и видео сделает)))
Oville, Qwen пока умеет только английский текст корректно вставлять, и то не всегда. Ну и цифры. Русский пока там с большими проблемами, хоть местами и прочесть как-то можно.