Объем рынка больших языковых моделей в России оценили в 35 млрд руб.
Источник: РБК.
Объем российского рынка продуктов на основе больших языковых моделей в этом году составит 35 млрд руб. В ближайшие годы из-за санкций и нехватки специалистов он будет расти более низкими темпами, чем мировой.
Объем российского рынка LLM-продуктов для бизнеса (Large Language Model, «большая языковая модель») по итогам 2024 года составит 35 млрд руб., подсчитали в Центре искусственного интеллекта МТС (MTS AI). До 2028 года этот показатель будет расти в среднем на 25% в год, прогнозируют аналитики центра.
Решения на основе LLM предполагают использование нейронных сетей с множеством параметров; модели обучаются на больших объемах текстовых данных для понимания и генерации естественного языка и работают, анализируя контекст и паттерны в тексте, что позволяет им предсказывать следующее слово или фразу на основе предыдущих. Продукты на основе LLM используются в различных областях, включая создание чат-ботов, автоматический перевод, генерацию контента, анализ текста и поддержку программирования, что делает их полезными для бизнеса, образования и технологий.
Сегмент рынка LLM-продуктов в России, на котором MTS AI может претендовать на долю, в компании оценили в 21% от общего объема (7,35 млрд руб. в этом году). Основной объем рынка, по оценке компании, — 33 млрд руб. — придется на продукты on-premise (хранение и обработка всех данных происходят на внутренней инфраструктуре заказчика), а оставшиеся 2 млрд руб. — на облачные решения. Средняя стоимость LLM-проекта без «железа» на текущий момент составляет около 15 млн руб., сообщили также в MTS AI.
Представитель VK назвал оценку MTS AI «адекватной». Сейчас работающие в этом сегменте бизнес-структуры вкладываются преимущественно в покупку и аренду мощностей графических процессоров (GPU) для обучения и дообучения моделей, отметил представитель VK. «Рынок находится только на первоначальном этапе развития технологии, вслед за которым ожидается экспоненциальный рост. Поэтому рост на 25% — это достаточно сдержанный прогноз», — отметил он.
При этом объем рынка LLM-продуктов в мире в 2024 году составит $6,4 млрд (665,5 млрд руб. по текущему курсу), следует из исследований MarketsandMarkets, BIS Research и Polaris Market Research. В ближайшие годы темпы роста мирового рынка будут варьироваться в диапазоне 30–35%.
Почему отстает российский сегмент
Аналитики MTS AI среди основных факторов, сдерживающих рост российского рынка LLM-продуктов, называют санкционные ограничения и дефицит квалифицированных специалистов в области искусственного интеллекта и машинного обучения. В то же время нехватка кадров будет способствовать более быстрой автоматизации и роботизации компаний, оговариваются в MTS AI.
Представитель VK среди барьеров на пути развития рынка назвал также недостаток компетенций в сегменте Enteprise (крупные клиенты). Кроме того, компании видят риски возможной недостоверности результатов LLM. «Отсутствие наработанной практики применения технологии в бизнесе тоже является барьером роста. Для того чтобы бизнес активно внедрял LLM в свои процессы и инструменты, требуется больше успешных примеров по реализованным проектам с результатами в цифрах и с конкретными сценариями, которые бизнес может спроецировать на свои задачи. Появление рыночных бенчмарков, например в экономии времени или уровне продуктивности специалистов, положительно отразится на популяризации технологии в бизнесе», — полагают в VK.
В MTS AI среди проблем развития рынка также называют нехватку данных, ведь эффективность обучения нейросети напрямую зависит от объема доступной ей информации. Чем сложнее модель, тем больше данных требуется для ее качественного обучения. «Представьте, что мы уже использовали все данные из интернета для обучения модели. Что делать дальше, чтобы создать еще более умную модель? Сегодня многие тексты в интернете тоже создаются нейросетями, но обучение на таких данных делает модель похожей на предыдущую», — объяснил представитель MTS AI. По его словам, разработчики ищут новые подходы, например обучают нейросети на основе видео, аудио или изображений, но эффективность этих методов пока остается под вопросом. «Чтобы модели были умнее, требуются данные, созданные людьми, а не нейросетями. Вопрос в том, где найти такие данные», — указал он.
Другой важной проблемой, как считают в MTS AI, является стоимость и доступность вычислительных мощностей. Из-за того что ряд международных производителей электроники ушли с российского рынка, необходимое оборудование завозится в страну по схеме параллельного импорта, то есть без разрешения правообладателя, через другие страны. Такое оборудование обходится российским заказчикам примерно на 30% дороже, чем покупателям в других странах. Кроме того, возникают сложности с закупкой новейшего оборудования — посредники сами могут попасть под санкции за его поставку в Россию.
В MTS AI подчеркнули, что сейчас на рынке нет каких-то универсальных LLM-решений. При этом из-за того что компании в России используют разные инструменты, довольно сложно интегрировать продукты на основе языковых моделей в уже существующие системы. «Важно, чтобы модели хорошо работали с внутренними программами и базами данных, но на практике это требует времени и специальных технических решений», — указал представитель компании.
Представитель «Яндекса» уже после выхода публикации отметил, что сопоставлять темпы реального развития страны в отрасли с темпами роста объема потраченных на индустрию денег не совсем справедливо, так как в России и Китае научились внедрять более дешевые модели дообучения, чем, например, в США. «Сейчас развитие LLM переходит в стадию прикладных решений, где максимально важна эффективность на объемы вложений. На первый план выходят более глубокое обучение и внедрение как в собственные сервисы и устройства, так и для внешних заказчиков. Обеспечить конкурентные результаты позволяют технологии, снижающие расходы: от новых методов сжатия больших языковых моделей до ускорения их обучения и снижения потребления ресурсов», — пояснил он.
Зачем компании покупают LLM
В MTS AI выделяют два основных тренда в спросе на LLM-решения. Первый — их развертывание на собственных серверах заказчика (on-premise). В условиях растущих опасений по поводу утечек данных компании все чаще выбирают решения, которые можно реализовать на их инфраструктуре. Это позволяет полностью контролировать данные и защищать как информацию, так и результаты обучения моделей, утверждают аналитики. Второй тренд — концепция «LLM-ателье», предполагающая, что разработчики предоставляют полный цикл услуг от создания идеи до внедрения решения и дальнейшей технической поддержки.
Среди основных областей применения языковых моделей в MTS AI выделяют следующие шесть:
- помощь в создании контента и генерации компьютерного кода;
- «умный» поиск информации в обширных базах данных;
- чат-боты и голосовые роботы для взаимодействия с клиентами;
- сервисы речевой аналитики, например технологии выявления признаков мошенничества в разговорах;
- анализ данных и создание отчетов;
- HR-ассистенты (сортировка резюме, первичный отбор и предварительные интервью с кандидатами).
«Большие модели сейчас подошли к важному с точки зрения восприятия перелому в развитии: если раньше они „умнели“ (росли в качестве) сразу по всем направлениям за счет своего размера и увеличения обучающей выборки, то сейчас этот рост сильно замедлился: кончились данные для обучения (текстов в интернете больше нет, новые не появляются с нужной скоростью). С этим связаны новости о том, что GPT-5 не дает того прироста, который был в GPT-4 по сравнению с 3.5», — говорит гендиректор MTS AI Андрей Калинин. По его мнению, с технологической точки зрения прогресс продолжится, но он станет менее заметным, более практичным и сфокусированным.
Представитель VK считает, что основным драйвером для развития LLM-решений в бизнесе является подключение дополнительных источников данных для генерации ответов. Это могут быть как данные внешних игроков, так и собственные данные заказчиков. «Такой подход позволит значительно усилить системы поддержки принятия решений на основе языковых моделей, например, в решениях аналитики и маркетинга на основе данных о целевой аудитории, в корпоративных базах знаний с функцией ИИ-поиска по внутренним документам, в промышленных enterprise-решениях с использованием производственных данных и др.», — рассуждает он.