Традиционные системы перевода неспособны сохранить естественность разговорной речи, — эксперт

Благодаря развитию интернета и технологиям, которые не стоят на месте, во время активного онлайн-общения вопрос качественного машинного перевода становится все более актуальным. Особенно остро это касается славянских языков, где традиционные системы перевода часто дают неудовлетворительные результаты.
Самые популярные сегодня системы перевода — Google Translate, DeepL и Microsoft Translator — хорошо справляются с формальными текстами, но часто «спотыкаются» на разговорной речи.
«Главная проблема традиционных систем перевода — это неспособность сохранить естественность разговорной речи и культурный контекст», — говорит Senior Data Scientist Елена Сокол, которая представила инновационное решение, кардинально меняющее ситуацию в области машинного перевода.
В частности, Сокол в своей статье «Перевод славянских языков в разговорном стиле с помощью больших языковых моделей» для журнала об информтехнологиях и компьютерной инженерии пишет, что новая система демонстрирует точность 95% при переводе разговорных текстов, тогда как, например, Google Translate достигает лишь 85%, а DeepL — 88%. При этом, у Microsoft Translator и Amazon Translate результаты ниже 85%
«Например, английское выражение „it's a piece of cake“ часто переводится буквально как „это кусок торта“, теряя истинный смысл — „это очень просто“. Наша система решает эту задачу благодаря использованию больших языковых моделей и специально разработанным методам prompt engineering», — объясняет Сокол, которая имеет 7-летний опыт в сфере машинного обучения и обработки естественного языка (NLP).
Инновационный подход
По словам разработчицы, этот метод базируется на использовании больших языковых моделей (ChatGPT, Claude и Llama) для перевода неформальных разговоров на славянские языки, поскольку они, в отличие от традиционных переводчиков, лучше понимают естественный поток разговора и контекст.
«Тестирование проводится на базе данных OpenSubtitles, который содержит тексты семи славянских языков и их правильный английский перевод. Качество перевода оценивается по пяти метрикам (Text Correlation, Comet, TER, CHRF и TER metrics), а для оптимизации результатов используются специальные стратегии формирования запросов (prompt engineering)», — объясняет разработчица.
Сейчас система уже тестируется в реальных условиях, демонстрируя высокую эффективность.
В частности, скорость обработки сообщений составляет 4 секунды, что идеально для перевода в режиме реального времени. Точность сохранения эмоционального тона достигает 94%, перевод сленга — 91%, а понимание контекста — 89%. Идея этого метода была успешно применена в финтех-компании Paysera, где после настройки под особенности финансового общения помогла на 40% быстрее обрабатывать обращения клиентов и втрое уменьшить ошибки из-за разницы в культуре и профессиональной лексике.
«Система является практическим решением для бизнеса, которое помогает улучшить коммуникацию в многоязычных средах», — говорит Сокол.
Внедрение такой системы предоставляет бизнесу существенные конкурентные преимущества.
«Во-первых, это значительное сокращение расходов, ведь позволит сэкономить на профессиональных переводчиках до 70%. Во-вторых, это ускорение бизнес-процессов, что сокращает время обработки обращений клиентов в среднем на 40%. В-третьих, это возможность расширить рынок, ведь дает возможность эффективной коммуникации с клиентами из разных славянских стран без языкового барьера», — комментирует разработчица.
По ее словам, с помощью этой системы повысится качество обслуживания клиентов, потому что будет точное понимание контекста (89%), корректный перевод сленга (91%) и эмоциональной окраски сообщений (94%).
«Система уже готова к интеграции в бизнес-процессы и требует минимальных настроек для работы с различными отраслями», — добавила разработчица.
161Читайте нас в Facebook