Продолжил эксперимент с ротацией спрайтов через квен. Помимо ротации пришлось дорабатывать вручную спрайты в отдельных случаях. Например, позиции 2 (8) (POSSA2A8 - пример) нейросеть создает в принципе грамотно. С позицией 3 (7) уже хуже. Но хуже всего обстоит дело с позицией 4 (6) - ее приходится получать обратной ротацией от спины (позиция 5). Спину нейросеть рисует в целом норм, хотя с узорами на одежде приходится возиться вручную.
На этот раз создал полноценного монстра и протестировал. Результаты можно видеть на скринах ниже. Белые точки все же остаются, их еще придется подчищать.
На самом первом скрине - оригинальные спрайты (позиция 1). На остальных - поворотные позиции, где помогла нейросеть.
На все это дело ушел вечер (где-то 2,5 часа на сами спрайты + время на декорэйтинг и отладку). Вручную я бы с этим не справился и за неделю бы... Так что прогресс есть. Конечно, боковые позиции местами не совсем идентичны - для сложных рисунков, боюсь, нейросеть может не справиться. Но если не особо вглядываться - то в целом норм. В игре в основном видны позиции 1 (оригинальная), отчасти 2 и 8. И только при инфайтинге можно разглядеть все остальное.
Теперь скриншоты:
В Ollama последней версии 0.12.10 исправлена регрессивная ошибка (я сообщал о ней здесь), которая приводила к зависанию службы, если драйвер Nvidia CUDA или AMD HIP отсутствует или старой версии. При этом на компах, где нет видеокарт AMD или NVidia или стоят старые карточки, официально не поддерживаемые ИИ-приложениями, она ничего не говорила и просто висла, отказываясь загружать модель в память. Теперь проблема решена, лёгкие модели (по типу Gemma 3 или Qwen-coder-1.5b) на этой версии снова можно запускать безо всяких GPU прямо на проце.
Весной этого года как-то сгенерировал при помощи ChatGPT картинку "Гарпия и её ребёнок", которую я сам нарисовал.
Вот, если что, оригинал:
Скрытый текст:
А вот как нейросеть преобразовала в аниме-стиль:
Скрытый текст:
Скрытый текст:
Видно, что результат получился совсем не таким как задумывалось изначально. Из персонажей слева только Рексар сгенерировался удачным. Остальные вообще непохожи на себя (кроме Рексара в оригинале были Тралл, Кэрн и Рохан, если кто играл в третий Варкрафт, знает, кто это такие)
Если Вы выложили в этой теме результат так сказать "нейросетевого творчества" и я не поставил Вашему посту лайк - то знайте, я хотел поставить дизлайк, но из уважения к Вам не сделал этого
Oville, лучше всего у нейросетей, несмотря на весь прогресс, получаются проклятые картины. В теме про Юмор это ещё несколько лет назад обсудили. Да, вероятность пригодной генерации выросла, но кардинального прогресса в этом плане пока нет. Некоторые промты способны на чудеса в этом плане. Например в том же Шедевруме вроде ничего так, а добавишь какую-нибудь деталь или даже допишешь случайно цифру в конец строки - вот тебе уже по 6 пальцев, вместо ног корневища, ужасные скорченные рожи и так далее. Я просто не буду тут выкладывать такое, т.к. это даже не юмор, и к теме в общем не относится. Да и зачем, я эти примеры даже не сохраняю. Но Яндекс оставил возможность выбрать модель версии 1, где вообще-то каждая генерация была такой, и ещё намного хуже. Психический дом ужасов. Сейчас конечно можно политкорректно заявить, что это не фейлы, нет, просто современное искусство. Когда подобное делает человек, так теперь обычно и говорят. Может быть, если бы не было засилья такого "искусства", с нейросетями бы тоже шли лучше дела, тут уже кто его знает. Я человек простой: вижу инсталляцию - делаю перформанс!
лучше всего у нейросетей, несмотря на весь прогресс, получаются проклятые картины.
В этом контексте не ясно, что значит утверждение "лучше всего"? Чаще всего получаются - понятно, но лучше? относительно чего лучше?
К слову, Qwen вполне неплохо справляется с реалистичными изображениями, и артефакты в виде 6 пальцев или тем более лишних конечностей - крайне редки.
Хотя некоторую закономерность заметил: чем меньше объектов прописано в промте - тем лучше каждый объект нарисован. Потому лучше всего картины с одним объектом (например, человек на каком-то фоне). Два человека - вероятность ухудшения качества выше. Три и больше - качество падает заметно. Причем, некоторые детали, описанные в промте, начинают исчезать, либо приклеиваться не туда, где они должны быть. Так что пока до высокодетализированных картин со множеством сложных объектов - весьма далеко.
Приснился сон, что я проснулся у себя в комнате, где-то в три часа ночи, в квартире везде горел свет, но никого не было дома. Я спустился вниз, вышел на улицу, всё было как обычно, но не было ни единой души, даже машин, которые обычно стоят около подъезда, дул холодный ветер. Я повернулся и начал обходить дом вокруг, прошёл около пустой кафешки, потом поднял глаза наверх, а там на пол неба растянулась луна с дьявольским лицом, которая яростно улыбалась и смотрела на меня. Этот сон я настолько хорошо запомнил, что до сих пор есть желание воплотить его в какой-нибудь игре или картине.
Решил сделать нечто подобное с помощью нейросети и результат мне более-менее понравился:
В плане того, что эффект "зловещей долины" раньше достигался специальными приёмами, которые ещё надо было придумать и реализовать. А у нейросетей это выходит само собой и довольно часто.
Если Вы выложили в этой теме результат так сказать "нейросетевого творчества" и я не поставил Вашему посту лайк - то знайте, я хотел поставить дизлайк, но из уважения к Вам не сделал этого
Я и не жалуюсь. Я ведь могу сам нарисовать. Просто пока желания нет. А нейросетями я только балуюсь.
Была идея при помощи нейросетей улучшать готовый сет спрайтов, расположенных на одной картинке. Но, к сожалению, нейросеть тупит. Например, указываешь ей дорисовать щит каждому персонажу на картинке. Сетка рисует щиты выборочно и не всегда в том месте, где он должен быть по идее, хотя в ряде случаев пропорции соблюдает, повороты и наклоны в том числе.
Но все же пока таким способом улучшать спрайты не получается.
А развороты на основе базового спрайта - то еще мучение. Пожалуй, пример, который я выше демонстрировал, - пока единственный удачный. Ну там и сам спрайт довольно простой.
Я тоже нейросеть попробовал. Вот ввёл промпт BL@CK DE@TH и потом изменил на BLaCK DEaTH и прибавлял к нему слова. И вот что получилось: первая картинка внизу справа. На шестой и седьмой картинке я подумал, что нейросеть сломалась и набрал промпт пейзажа с лодкой, птичками и рекой. Оказалось, нет, не сломалась, просто странно среагировала на слово "character"
Сейчас конечно можно политкорректно заявить, что это не фейлы, нет, просто современное искусство. Когда подобное делает человек, так теперь обычно и говорят.
Ну, подобные вещи делают дети или абстракционисты, у которых картины в стиле каля-маля стоят миллионы долларов. Если человек рисует реальный образ реального человека, то врят-ли у него будет неверное число пальцев, если только это портрет человека с ампутированными пальцами или генетическая мутация, когда 6 пальцев... Для нейросетей 2 копыта на одной ноге и три задних ноги у коня это норма походу.
Я и не жалуюсь. Я ведь могу сам нарисовать. Просто пока желания нет. А нейросетями я только балуюсь.
В том твоём посте видно, что нейросеть не уловила эмоцию Гарпии и нарисовала стандартную диснеевскую белоснежку. Хотя, возможно, ты не составил описание эмоции, поэтому так получилось...
Oville Странно, что он сначала продолжал рисовать цветы, а потом все же переключился на адские образы.
Раз уж у нас тут началось выкладывание картинок, то тоже немного подброшу.
Вот попытка дорисовать щит - нейросеть выбрала произвольные фигуры, хотя щит в целом сделала неплохой:
Скрытый текст:
2. Вот какую картинку мне выдал qwen по стихотворному промту:
Скрытый текст:
Собор старинный был построен, как храмы строиться должны. Он прочен был, но неспокоен, хоть и во вкусе старины. Под ним глубокие подвалы, захороненья и отвалы сквозь катакомбы и гробы вели туда, где все - рабы, где реки адские струятся, где стаи демонов роятся, где мир приносит аду дань, где слышны хохот, рев и брань.
3. А это картинка как раз к вчерашней дате
Скрытый текст:
Промт: Сквозь грозы сияло нам солнце свободы, и Ленин великий нам путь озарил.
Начиная с некоторого момента квен стал упорно писать надписи на картинках, так что приходится его одергивать, специально вставляя в промт слова "Не делать надписей!"
4. Ну и напоследок - еще прикольная картинка на алкогольно-мистическую тематику:
Скрытый текст:
Промт: Не делать надписей. Кошка видит астральных существ и бесов, пока хозяин пьет водку.
Странно, что он сначала продолжал рисовать цветы, а потом все же переключился на адские образы.
Он сначала создавал адские образы, а потом выдал цветы, после того как я добавил слово "charcter". Первая картинка самая нижняя справа.
Добавлено спустя 14 минут 9 секунд:
Попробовал qwen
Первая картинка по запросу: "В таврическом зале в таврическом зале: мышь белая!"
Вроде нормально, и зал таврический и мышь белая)))
Но следующая картинка странная: набрал: "Клерк играет в Doom" и выдало вот это:
Зал остался от прежней картинки, Таврический... с Клерком вроде нормально, только кресло у него странное: игровое и таврическое одновременно)))
Добавлено спустя 18 минут 40 секунд:
Немного конкретизировал запрос: "Клерк играет в игру Doom, сидя лицом к зрителю, находится в своей комнате. За спиной шкаф с книгами, на полу коврик, на коврике спит, свернувшись клубком, коричневая кошка с серыми пятнами. На столе справа от монитора зелёная старинная лампа. На дальнем плане окно с зелёными шторами"
Клерк оказался в комнате, но окно и кресло явно с таврическим намёком...
Добавил ещё деталь, последним предложением к предыдущему запросу: ...Клерк сидит в игровом кресле, за его спиной стоит Black Death
Результат на самом деле поржает: можно конечно, приколоться над тем, что Black Death за каким-то фигом залез на книжный шкаф, но: Клерк уже не играет в Doom, а смотрит с таким выражением лица, что всё становится понятно))) Как будто хочет сказать что-то)))
Oville У квена есть одна особенность - если давать запросы последовательно, один под другим, то он будет игнорировать нижние запросы, упорно подтягивая картинку под верхний запрос.
Поэтому если ты меняешь тему - то делай новый запрос в новом окне.
Можно на одну и ту же тему делать множество попыток - жмешь кнопку перегенерировать снизу от картинки.
Вот что мне выдал квен по промту: Не делать надписей. Клерк играет в Doom.
Скрытый текст:
Это - без захода в аккаунт.
И внимание! Теперь я в окошко ниже под первой картинкой вбиваю новый запрос: Не делать надписей. В таврическом зале в таврическом зале: мышь белая!
И получаю - того же клерка, играющего в дум!
Скрытый текст:
Чтобы этого глюка не возникало, надо перезайти в квен снова, чтобы было чистое окно без предыдущих генераций (в аккаунте - начать новую серию)
Теперь по запросу: Не делать надписей. В таврическом зале в таврическом зале: мышь белая!
Получаем картинку:
Скрытый текст:
Вот так оно работает правильно.
Добавлено спустя 11 минут 21 секунду:
Добавлю еще несколько веселых картинок от квена:
1. "Запорожские казаки пишут письмо турецкому султану."
Скрытый текст:
Текст письма нейросеть сама сочинила
2. "В борьбе бобра с ослом побеждает козло."
Скрытый текст:
3. "Ходжа Насреддин рассказывает эмиру Бухары о том, что звезда Сад-ад-Забих встала напротив звезды Аш-Шаратан, и поэтому эмиру этой ночью нельзя входить в гарем к женщине."
Скрытый текст:
Нейросеть сама выбрала мультяшный стиль на этот раз.
4. Ну и еще одна антиалкогольная картинка. "Не делать надписей. Употребление алкоголя приводит человека в Нижний астрал, где на него наседают бесы."