Предлагаю снова поиграть в игру, угадай промт и монстра. Хотя последнее думаю не сильно надо, плюс далеко не всё удалось с первого раза, в плане того, что приходилось конкретно указывать на элементы, так как с первого захода даже смена промта иногда не срабатывала. Благо сетка позволяла корректировку. Использовался qwen в качестве теста.
Лимит к сожалению не дал до конца догенерить, но промты потом подгружу, может быть.
В том твоём посте видно, что нейросеть не уловила эмоцию Гарпии и нарисовала стандартную диснеевскую белоснежку. Хотя, возможно, ты не составил описание эмоции, поэтому так получилось...
Есть такое. Я попросил это сделать Chatgpt, где просто указал "гарпия обнимает ребёнка в стиле Миядзаки". С другой стороны, у Миядзаки вряд-ли существуют аниме с эротическим подтекстом, ведь он делал для детей. Да и судя по всему терпеть не мог анимешников. Надо будет и остальные нейросети попробовать, правда, я уже в прошлом году одну такую юзал - выдавала кривые арты.
Чтобы не прерывать сессию я оставил комп с браузером на всю ночь. И вот что получилось только что по следущему запросу. Спасение Клерка от Black Death`a)))
"Клерк играет в игру Doom, сидя лицом к зрителю, находится в своей комнате. За спиной шкаф с книгами, на полу коврик, на коврике спит, свернувшись клубком, коричневая кошка с серыми пятнами. На столе справа от монитора зелёная старинная лампа. На дальнем плане окно с зелёными шторами. Клерк сидит в игровом кресле, за его спиной стоит зеркало, в котором отражается то, что видно на мониторе компьютера"
Postimg.cc опять тупит, с впн и без server error... Поэтому яндекс диск https://disk.yandex.ru/i/Dxigw2K1dQjgEw - как видно, нейросеть не поняла, что нужно развернуть компьютер и стол спиной к зрителю.
Я уточнил это, но картинка осталась без изменений: "Клерк играет в игру Doom, сидя лицом к зрителю, находится в своей комнате. За спиной шкаф с книгами, на полу коврик, на коврике спит, свернувшись клубком, коричневая кошка с серыми пятнами. На столе справа от монитора зелёная старинная лампа. На дальнем плане окно с зелёными шторами. Клерк сидит в игровом кресле, за его спиной стоит зеркало, в котором отражается то, что видно на мониторе компьютера. Компьютерный стол и монитор задней стороной к зрителю" https://disk.yandex.ru/i/HwBZij6W_DyNpw
+Ku6EPyXOBEPTKA+ Имп, Барон Ада, Арчвайл, Манкубус, Ревенант.
Точный промт мы не угадаем, важен порядок слов, от его перестановки результат может изменится существенно. Лучше расскажи сам.
Почему арчвайл как будто женского пола?
Вот это прям зачётная картинка. Так и просится сделать уровень по ней.
Да, как ни странно, на стихи нейросеть выдает вполне корректный результат, и даже весьма неплохой.
Oville А почему осталась надпись про греческий зал и мышь? Если ты давал новый запрос, по идее старый не должен влиять.
Я попробовал по твоему запросу сгенерировать без надписей:
"Не делать надписей. Клерк играет в игру Doom, сидя лицом к зрителю, находится в своей комнате. За спиной шкаф с книгами, на полу коврик, на коврике спит, свернувшись клубком, коричневая кошка с серыми пятнами. На столе справа от монитора зелёная старинная лампа. На дальнем плане окно с зелёными шторами. Клерк сидит в игровом кресле, за его спиной стоит зеркало, в котором отражается то, что видно на мониторе компьютера. Компьютерный стол и монитор задней стороной к зрителю."
Нейросеть не понимает, где перед, где зад, и где зритель. Еще и зеркало в запросе вносит путаницу. Тут надо искать обходные пути, но по опыту - чем больше пытаешься детализировать описание, тем выше шанс, что сетка все перепутает.
Скрытый текст:
Добавлено спустя 20 минут 25 секунд:
Продолжая анализ реакции нейросети (конкретно - тот же квен), то можно заметить следующее:
1. Нейросеть понимает грамматику корректно, даже если слова в языке не существуют. Пример - картинка на известную фразу.
Промт: Не делать надписей. Глокая куздра штеко будланула бокра и куздрячит бокренка.
Скрытый текст:
Однако, одно существительное в запросе сетка все же упустила - на картинке либо Бокр, либо бокренок, но не тот и другой одновременно.
2. Омонимы сетка понимает плохо. Теряет больше половины из запроса.
Промт: Над песчаной косой косоухий косой пал под острой косой косой бабы с косой.
Скрытый текст:
Тут нет косы как инструмента (вместо нее - палка?), нет зайца, нет и других признаков, указанных в запросе.
3. По стихам в целом сетка умеет генерировать, иногда проявляет изобретательность. Еще пример из русской классики:
Промт: Не делать надписей. Родила царица в ночь не то сына, не то дочь, не мышонка, не лягушку, а неведому зверюшку.
Скрытый текст:
Ну и на тему Doom. Тоже попробовал немного поиграть с сетью.
Промт: Не делать надписей. В пиксельно-реалистичном стиле Doom. Два барона Ада из Doom сторожат портальные врата с Фобоса на Деймос.
Картинку нарисовала в целом по запросу правильно, а вот баронов не смогла опознать - не знает, как они выглядят в Doom.
Скрытый текст:
Промт: Не делать надписей. В пиксельно-реалистичном стиле Doom. Арчвайл из Doom 2 насылает пламя из рук на морпеха-думера.
И опять арчвайл не похож на свой прототип. Нужно какое-то описание задавать, по названию монстра нейросеть не ориентируется.
Shadowman, ты слишком сильно глумишься. Самая высокая точность следования запросам у Perplexity (но там же и самый жёсткий лимит). По неизвестным, редким и непонятным запросам Perplexity попытался бы найти референс и сделать похоже на реальную иллюстрацию. До лимита в Qwen я не добирался и не знаю, сколько там дают, возможно его и нет. Но точность там довольно низкая, поэтому даже по обычным запросам часто бывают неудовлетворительные результаты. А про твои уж и говорить нечего - если более лёгкие варианты не понимает, это уж точно не поймёт, но что-то показать попытается.
Почти, второй пинки, но сетка упорно отказывается "приземлять". Скорее всего надо полностью переписать промт. Хотя тут может быть как с тремя глазами в другой сетке. Изначально модель учится на определённом референсе и затем упорно считает ошибкой количество глаз или позу отличную от какой-либо. При этом продолжает делать шесть пальцев. В подтверждение этому скажу, что сцену приходится прописывать тоже, потому что поза, внешний вид окружения без дополнительного описания один и тот же.
Видимо это королева арчвайлов . А вообще с ним тоже куча проблем была, сеть упорно пытается нарисовать голый скелет или пришельца, несмотря на то, что специально не конкретизируется вид (если например написать клыки кабана, то обязательно нарисует пятак, почему-то). Опять же беда с промтом (даже кажись знаю, что прописать). Наиболее что-то близкое из кучи попыток было вот это:
Я вот думаю, что надо всё же давать референс картинку (загружать через "редактор изображения" и просить перерисовать), а не голым промтом описывать.
Имп какой-то няшный получился, но, как мне кажется, наиболее близкий к каноничному. Разве что хвост убрать попросить надо.
что надо всё же давать референс картинку (загружать через "редактор изображения" и просить перерисовать)
Это другое, исправление картинки по образцу, тут в разы проще. А вот с нуля создать по описанию - интереснее.
Так какие промты задавал? Может в пиксель-реалистичном стиле будет ближе к думу?
Самая высокая точность следования запросам у Perplexity
Попробовал эту сетку (бесплатная версия).
Точность ниже оказалась. Квен хотя бы огонь правильно направил (из руки арчвайла на морпеха). Здесь морпех мочит арчвайла, который еще дальше от своего дум-прототипа, чем в предыдущем запросе.
Скрытый текст:
Вот бароны ада получились ближе к оригиналу - красные и рогатые, хорошо, что не скелеты.
Скрытый текст:
Добавлено спустя 8 минут 41 секунду:
P.S. Попробовал задать ему сложный запрос, который скармливал квену. Perplexity разразился большой тирадой и послал к профессиональным художникам - MidJourney, DALL·E, Stable Diffusion, с последующей ручной доработкой.
То ли это такой троллинг тонкий, то ли он действительно не умеет.
(но картинки по думу почему-то сгенерировал сам).
P.P.S. Такое впечатление, что он выдает всего 2 картинки. Сначала нарисовал без разговоров, теперь на попытки повторить то же самое - начинает болтовню нести.
P.P.P.S. У квена ограничение - 50 изображений в сутки. Если просто побаловаться - то более, чем достаточно. Если нужно много и долго подгонять результат к желаемому, то маловато все же.
Апскейлинг текстурок с генерацией от топаз. По мне так совсем не плохо справляется. С 64х64 до 1024х1024.
Жаль конечно в один клик далеко не всегда получается. Ручная работа остается (в зависимости от сложности сцены)
Тем не менее...
Это как раз истечение лимита. Да, там очень мало, 2-3 картинки в сутки. На них трудно понять что-либо, я сидел там ещё с апреля и генерил разные картинки, на выборке побольше из разных запросов точность в общем выходит выше.
Не знаю, мне он сегодня ответил, что вы исчерпали лимиты этого месяца и обновляйтесь до проф. версии или ждите.
Хотя вчера всего 2 картинки нарисовал, после чего писал тексты в ответ на запросы.
В общем, буржуйская сетка, ничего бесплатно делать не дает, ну ее в топку.
Ничего. Она ж не мыслит, а тупо ищет по хитрым алгоритмам.
С Perplexity я схитрил - он же на почту завязан, так что мешает с разных зайти?
Вот только цензура там жесче, чем у квена, потому обидно, когда твои 2 попытки обламываются. Да и несмотря на некоторые более реалистичные детали, в других деталях результат получался хуже, чем у квена. Так что по совокупным характеристикам для меня пока квен лучше выглядит.
манкубус похож на настоящего, только пулемет вместо огнемета скорее.
Да, надо было конкретно уточнить, что он стреляет огненными шарами. Самое забавное, что нейросеть сама генерирует голоса и звуки, хотя я ей этого не задаю.