Starfield

gl237man · 31 августа, 2023

@Haoose Можно сделать в данном случае довольно простой механизьм проверки:
1 Регуляркой выбираем все теги.
2 Заменяем теги на предсказуемые токены для перевода.
3 Переводим.
4 Заменяем предсказуемые токены обратно на теги
5 Проверяем наличие (и порядок для игр в которых это важно) всех тегов. в случае несоответствия помечаем или кладем в файл #TODO Ручками проверить.

В таком случае мы будем уверены что игра и квесты не сломаются.

Изменено 31 августа, 2023 пользователем gl237man

0wn3df1x · 31 августа, 2023

18 минут назад, Haoose сказал:

@RUIZ007 Ну вот. DeepL не перевел текст в теге, но и не сломал его. Yandex перевел служебное слово, что поломает игру в этом месте. А SeamlessM4T вовсе выкинул тег.
Вывод — все равно после нейронок текст надо будет еще очень долго править… Даже если Sergio предусмотрел эти моменты — все равно где-нибудь что-то вылезет, т.к. объем текста монструозный )

Шрифты есть. И позже должны появиться получше. Так что голову ими можешь не забивать )

Нейросети не готовы переводить тексты крупных игр, сохраняя высокое качество.

При переводе длинных сложных предложений вероятность ошибки растёт из-за когнитивной нагрузки. Нейросеть может начать фантазировать и вставлять в текст свои домыслы вместо дословного перевода. А после 10-20% от общего объёма текста качество перевода начинает резко падать из-за кумулятивного эффекта ошибок.

Ограниченные вычислительные возможности тоже влияют. При переводе предложения нейросеть работает с небольшим фрагментом, опираясь на несколько последних токенов для контекста. Но это далеко не то же самое, что видеть весь текст целиком. Важные детали, упомянутые на начальных страницах, могут быть утеряны к моменту перевода окончания. Кроме того, структура документа и взаимосвязь разных его частей тоже трудно улавливается автоматически. А ведь именно глобальное понимание всего текста нужно переводчику для качественной работы.

Еще есть сложности с билингвальным режимом. Нейросеть в какой-то степени смешивает грамматические правила двух языков. В результате при генерации предложений на одном языке в его структуре могут проскальзывать элементы другого языка. Так на русском языке у нейросети могут появляться конструкции, более свойственные, например, английскому синтаксису. Если в монолингвальном режиме генерируемые текст звучат естественно для носителя этого языка и могут не выглядеть машинно, то в билингвальном режиме начинает казаться, что тебе пишет какой-то британский шпион.

Vollmond-inex · 31 августа, 2023

10 минут назад, 0wn3df1x сказал:

Нейросети не готовы переводить тексты крупных игр, сохраняя высокое качество.

При переводе длинных сложных предложений вероятность ошибки растёт из-за когнитивной нагрузки. Нейросеть может начать фантазировать и вставлять в текст свои домыслы вместо дословного перевода. А после 10-20% от общего объёма текста качество перевода начинает резко падать из-за кумулятивного эффекта ошибок.

Ограниченные вычислительные возможности тоже влияют. При переводе предложения нейросеть работает с небольшим фрагментом, опираясь на несколько последних токенов для контекста. Но это далеко не то же самое, что видеть весь текст целиком. Важные детали, упомянутые на начальных страницах, могут быть утеряны к моменту перевода окончания. Кроме того, структура документа и взаимосвязь разных его частей тоже трудно улавливается автоматически. А ведь именно глобальное понимание всего текста нужно переводчику для качественной работы.

Еще есть сложности с билингвальным режимом. Нейросеть в какой-то степени смешивает грамматические правила двух языков. В результате при генерации предложений на одном языке в его структуре могут проскальзывать элементы другого языка. Так на русском языке у нейросети могут появляться конструкции, более свойственные, например, английскому синтаксису. Если в монолингвальном режиме генерируемые текст звучат естественно для носителя этого языка и могут не выглядеть машинно, то в билингвальном режиме начинает казаться, что тебе пишет какой-то британский шпион.

Я перевел довольно много научной литературы deepL. Это весьма объемные книги, часто написанные довольно сложным языком. Для этого я не использовал ничего, кроме премиума нейросетки, которой просто скармливал книгу. В итоге падения качества перевода не замечал. Может быть в художественной литературе все сложнее. Но почему бы тогда не переводить по частям?

TanatosX · 31 августа, 2023

Мне интересно другое. Каков уровень английского языка в игре? Простой или сложный? Думаю играть на английском, но не понятно потяну ли с моим неопределенным уровнем B1-2 )

Neotom · 31 августа, 2023

32 минуты назад, TanatosX сказал:

Мне интересно другое. Каков уровень английского языка в игре? Простой или сложный? Думаю играть на английском, но не понятно потяну ли с моим неопределенным уровнем B1-2 )

Запустишь завтра и узнаешь

Azazellz · 31 августа, 2023

34 минуты назад, 0wn3df1x сказал:

Нейросети не готовы переводить тексты крупных игр, сохраняя высокое качество.

При переводе длинных сложных предложений вероятность ошибки растёт из-за когнитивной нагрузки. Нейросеть может начать фантазировать и вставлять в текст свои домыслы вместо дословного перевода. А после 10-20% от общего объёма текста качество перевода начинает резко падать из-за кумулятивного эффекта ошибок.

Ограниченные вычислительные возможности тоже влияют. При переводе предложения нейросеть работает с небольшим фрагментом, опираясь на несколько последних токенов для контекста. Но это далеко не то же самое, что видеть весь текст целиком. Важные детали, упомянутые на начальных страницах, могут быть утеряны к моменту перевода окончания. Кроме того, структура документа и взаимосвязь разных его частей тоже трудно улавливается автоматически. А ведь именно глобальное понимание всего текста нужно переводчику для качественной работы.

Вопрос API и разных надстроек. Можно периодически чистить контекст, и инжектить в отсылаемый текст дополнительную информацию о предмете перевода, стилистике и различные установки для самой нейронки. Не обязательно держать в памяти всю информацию, можно же отсылать ее по мере надобности.

Т.е. при переводе текста, содержащего имя персонажа/организации/место действия, можно автоматически добавлять контекст. Ну, например, в тексте реплика от “Дяди Билли”. Дополнительным слоем нейронке отсылается, что этот Билли - мужчина лет 50, говорит на хиллбилли-сленге, агрессивный и постоянно пьяный, и дается указание использовать эти данные при переводе, сохраняя стилистику и манеру речи персонажа. Если нейронка достаточно умна — она это сможет учесть, и писать соответственно.

Тут проблема в техническом плане, как чистый текст из игры под такой формат развести, и этот условный “лорбук” написать. Учитывая объемы и формат текста — работка не из легких.

GPT, кстати, довольно стремно работает с русским языком. Из известных мне “больших” сеток Claude в русском просто не имеет конкурентов. Точность перевода может несколько пострадать, но под соответствующей накачкой системным промптом можно получать очень “живой” русский текст. Доступ к API только добыть — проблема, особенно из РУ-региона.

RUIZ007 · 31 августа, 2023

@0wn3df1x всё не совсем так по моему опыту. Во-первых, нейронка контекст улавливает максимум в пределах абзаца, а скорее - только в пределах предложения. Качество перевода незначительно отличается на огромных кусках текста от кусков поменьше. Основа там же - алгоритм сравнения прямого значения и статистического применения оборотов. Грамматические правила изредка смешивает Яндекс в минимальной степени - но зато он максимально точен. DeepL же знает конструкции русского.

Он не переведёт "Джон своими глазами посмотрел на свою руку и вытянул свою руку перед собой", нейронка знает, что обилие притяжательных характерно для английского, но не для русского. Так же знает множество устойчивых выражений, часть сленга и т д. DeepL вообще очень изящен в переводе на русский.

Главный элемент, от которого зависит качество перевода - это стиль. Чем правильнее, выхолощеннее стиль - тем лучше будет перевод. И даже с огромными сложными предложениями она справляется легко. Но если там авторский стиль, необычное строение предложений, много односложных фраз и сленга - вот тогда качество стремительно падает. Сильно "авторские" произведения очень сложно переводить нейронкой.

А ошибается она часто на сверхкоротких конструкциях - не хватает контекста для верного толкования значений.

И кстати, DeepL очень плохо переводит отдельные предложения, всё же там есть контекст на уровне абзаца, видимо.

Я через него и яндекс прилично художки прогнал, большой опыт).

И замечу, что правильный и несложный английский текст они переводят просто великолепно, почти как человек.

Изменено 31 августа, 2023 пользователем RUIZ007

0wn3df1x · 31 августа, 2023

1 час назад, Vollmond-inex сказал:

Я перевел довольно много научной литературы deepL.

Сочувствую. Я бы там даже инструкцию от пылесоса переводить не стал.

25 минут назад, Azazellz сказал:

GPT, кстати, довольно стремно работает с русским языком. Из известных мне “больших” сеток Claude в русском просто не имеет конкурентов. Точность перевода может несколько пострадать, но под соответствующей накачкой системным промптом можно получать очень “живой” русский текст. Доступ к API только добыть — проблема, особенно из РУ-региона.

И на постоянке ловить As an AI language model, I am unable to engage with content that may violate my usage guidelines. To learn more, visit… от каждого чиха. Но клод (хоть обычный, хоть продвинутый) не особо лучше chatGPT по качеству. Более того, клод (как более “творческий”) страдает от излишка фантазии и желания всё переиначивать. Я как-то ради эксперимента загонял зоологические тексты на английском. Дай, думаю, гляну, как он их переведёт в энциклопедическом стиле. Так этот клод буквально на ходу превращал одни виды насекомых в другие, дело доходило до выдумывания новых таксонов.

Короче, я всегда считал и продолжаю считать, что все эти машинные штуки — зло.
Нет ничего хуже Cat-инструментов.
И нет ничего совершенней человека.

Изменено 31 августа, 2023 пользователем 0wn3df1x

Vollmond-inex · 31 августа, 2023

9 минут назад, 0wn3df1x сказал:

Сочувствую. Я бы там даже инструкцию от пылесоса переводить не стал.

28 минут назад, Azazellz сказал:

Вы наверное программист, да? Я обычно от программистов слышу какой-то гиперскептицизм в отношении нейросетей в принципе.

Изменено 31 августа, 2023 пользователем Vollmond-inex

0wn3df1x · 31 августа, 2023

5 минут назад, Vollmond-inex сказал:

Вы наверное программист, да? Я обычно от программистов слышу какой-то гиперскепетицизм в отношении нейросетей в принципе.

В том числе. Я каждый раз, когда кто-то заводит разговор о том, что “нейросети уже лучше людей” и “нейросети уже готовы нас заменить” вспоминаю:

То, что нейросети творят с кодом — это вообще отдельная смехопанорама. Мне особенно нравятся, когда они начинают выдумывать воображаемые модули Питона и пытаться натянуть на них другие модули.

Помню, как GPT4 выдумал Api SteamDB и присобачил к ней Api Steam:

Изменено 31 августа, 2023 пользователем 0wn3df1x

EloDia · 31 августа, 2023

@Vollmond-inex Причём тут программист, обычная профессиональная деформация. Если я правильно уловил, человек больше 5 лет занимается локализацией всякого.

@0wn3df1x А насчёт перевода нейронками, согласен не будет так хорошо как ручной перевод со всеми синтаксическими и лексическими оборотами. Но если мало мальски понимаешь английский , хотя бы на базовом уровне то по сути нормально

Azazellz · 31 августа, 2023

29 минут назад, 0wn3df1x сказал:

И на постоянке ловить As an AI language model, I am unable to engage with content that may violate my usage guidelines. To learn more, visit… от каждого чиха.

Это вопрос правильного джейлбрейка. И GPT, и Claude вполне могут работать с практически любыми “взрослыми” темами под нужной накачкой. Если прям совсем в жесть не упарываться, конечно. Claude очень прикольно умеет на русском материться, например =)

29 минут назад, 0wn3df1x сказал:

Более того, клод (как более “творческий”) страдает от излишка фантазии и желания всё переиначивать. Я как-то ради эксперимента загонял зоологические тексты на английском. Дай, думаю, гляну, как он их переведёт в энциклопедическом стиле. Так этот клод буквально на ходу превращал одни виды насекомых в другие, дело доходило до выдумывания новых таксонов.

Тут, скорее, вопрос нехватки исходных данных и знания предмета виноват, чем излишнее “творческое” начало нейронки. Я давно заметил, что если данных о предмете не хватает, то любая нейронка стремится дыру заполнить своими фантазиями.

Гугл бы ему подключить, или википедию хотя бы. Чтоб оттуда можно было данные тянуть. Стало бы значительно лучше.

16 минут назад, 0wn3df1x сказал:

В том числе. Я каждый раз, когда кто-то заводит разговор о том, что “нейросети уже лучше людей” и “нейросети уже готовы нас заменить” вспоминаю:

Со счетом у них проблемы, это да. И с математикой. Неудивительно, вообщем-то, учитывая как они работают.

Изменено 31 августа, 2023 пользователем Azazellz

Vollmond-inex · 31 августа, 2023

@0wn3df1x Ну вообще особенность чатгпт именно в том, что он плохо умеет считать, потому что он не для этого сделан.

Чатгпт это прежде всего способ прямого общения с компьютером. Вот если переводить старфилд обычным переводчиком, то надо написать миллион программ, одна будет вытаскивать текст, вторая будет автоматически делить его и скармливать нейросети, другая подменять рабочие теги. А в случае с чатгпт гипотетически (если бы не ограничения) можно было сделать так:

“Вот тебе файл локализации. Это текстовая локализация для научно-фантастической игры про космос и космические путешествия, в ней так же рассматриваются и религиозные темы. Переведи его на русский с учетом этого контекста. Теги не переводи, но их содержимое переведи. Постарайся по возможности переводить так, чтобы длинна строк была идентична оригиналу, если это не ухудшает качество перевода. И заодно напиши пожалуйста скрипт который будет включать и выключать перевод по команде.”

И всё. Любой человек мог бы сам сделать перевод старфилда, требования к знаниям it — знать хотя бы примерно что такое chatgpt.

фолко · 31 августа, 2023

13 минут назад, Azazellz сказал:

Это вопрос правильного джейлбрейка. И GPT, и Claude вполне могут работать с практически любыми “взрослыми” темами под нужной накачкой. Если прям совсем в жесть не упарываться, конечно. Claude очень прикольно умеет на русском материться, например =)

Если не касаться переводов, рекомендую использовать незацензуренные локальные модели, им джейлбрейк не нужен и выдавать они могут почти любую жесть, рекомендую 70B версии Airoboros и StableBeluga.

RUIZ007 · 31 августа, 2023

@0wn3df1x вы теплое с мягким смешиваете. Есть модели такие, как ChatGPT, а есть DeepL - там вроде как тоже в основе трансформер, но она заточена конкретно под перевод. Ни разу на многих сотнях страниц не видел никакой отсебятины у него, он не "галлюционирует". А ChatGPT придумывает на ходу что угодно, это фантазер 80го левела).

Но в целом мысль понятна - надо собирать 20 лямов, а лучше 30, иначе перевода нам не видать. Ну и времени 7 лет, да.

Starfield

Рекомендованные сообщения

gl237man 15

Поделиться сообщением

Ссылка на сообщение

0wn3df1x 3 195

Поделиться сообщением

Ссылка на сообщение

Vollmond-inex 15

Поделиться сообщением

Ссылка на сообщение

TanatosX 78

Поделиться сообщением

Ссылка на сообщение

Neotom 25

Поделиться сообщением

Ссылка на сообщение

Azazellz 0

Поделиться сообщением

Ссылка на сообщение

RUIZ007 60

Поделиться сообщением

Ссылка на сообщение

0wn3df1x 3 195

Поделиться сообщением

Ссылка на сообщение

Vollmond-inex 15

Поделиться сообщением

Ссылка на сообщение

0wn3df1x 3 195

Поделиться сообщением

Ссылка на сообщение

EloDia 12

Поделиться сообщением

Ссылка на сообщение

Azazellz 0

Поделиться сообщением

Ссылка на сообщение

Vollmond-inex 15

Поделиться сообщением

Ссылка на сообщение

фолко 13

Поделиться сообщением

Ссылка на сообщение

RUIZ007 60

Поделиться сообщением

Ссылка на сообщение

Создайте аккаунт или войдите в него для комментирования

Создать аккаунт

Войти

Похожие публикации

Сейчас популярно

Продвигаемые темы

Последние сообщения

Изменения статусов

Лучшие авторы

ZoneOfGames.ru

Активность

Русификаторы

Новости

Статьи

Форум