LLM для Анализа Множеств:
Готовность LLM к написанию production-ready Qlik Set Analysis

Бенчмарк 13 моделей на 31 задаче Qlik Set Analysis. Выявлен критический разрыв между лояльной (77%) и строгой (34%) точностью.

warning

инсайт

В 77% случаев LLM генерируют выражения, возвращающие верный числовой результат (лояльная оценка), но лишь 34% используют строгую, эталонную логику. Высокая точность достигается за счёт логически альтернативных, но случайно корректных выражений, которые не гарантируют надёжности.

Accuracy Comparison Matrix

Comparative performance index for N-13 model set

LOYAL

STRICT

лояльная оценка (верный синтаксис)

77%

Модели генерируют синтаксически корректный код, который принимается движком Qlik и возаращает верный результат.

строгая оценка (верна логика)

34%

Только 34% решений всех моделей озвращают математически верный результат бизнес-задачи.

Critical Logic Gap Detected

МОДЕЛЕЙ ПРОТЕСТИРОВАНО: 13

GPT-4 Claude-3 Llama-3 +10 more

БЮДЖЕТ

$17.35 / $20.00

ДОМЕН

Advanced Set Analysis в сферах: Sales, HR, Sports

ЗАДАЧ ДЛЯ ПРОВЕРКИ

Методология

Методология исследования

Мы использовали внутреннюю обучающую платформу qata.datanomix.pro - задачи по Анализу Множеств в Qlik реальные, и содержат эталонные ответы и встроенную автопроверку.

Затем внедрили двухфакторный аудит, объединяющий вычислительную мощность Qlik Engine и экспертизу сертифицированных архитекторов на платформе OpenRouter, с единым API доступом к 300+ моделям. Наш бюджет - $20.

PHASE_01

fact_check

Loyal Judge | claude opus

ОБЪЕКТ ПРОВЕРКИ:

Result Consistency Check

Автоматическая сверка итогового значения. Если результат вычисления совпадает с выходным значением в Qlik Engine, ответ считается формально верным.

Моделей: 13

Промпт: Стандартный

PHASE_02

gavel

Strict Judge | Claude sonnet

ОБЪЕКТ ПРОВЕРКИ:

Logic & Formula Integrity

Глубокий аудит логики выражения. Даже если число совпало случайно, эксперт проверяет использование модификаторов, операторов и соответствие эталонным "верным" выражением.

Моделей: 5

Промпт: 3 варианта (минимальный, стандартный, обогащенный)

Выбор моделей — 13 кандидатов

Категория	Модели	Обоснование
Топ-премиум	Claude Opus 4.7, GPT-5, Gemini 2.5 Pro	Флагманы, проверить оправданность цены
Средние	Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash, Mistral Large, Grok 3	Sweet spot для production
Бюджетные	Claude Haiku 4.5, Llama 3.3 70B, Qwen 2.5 72B	Экономия при сохранении качества
Спец. для кода	DeepSeek Coder V3, Qwen 2.5 Coder 32B	Может ли спец. на коде дать преимущество

Не брали: устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (для roleplay/медицины), мелкие модели (8B параметров).

Технические открытия

Ловушка reasoning-моделей

При первом прогоне GPT-5 показал 0/31 правильных, Gemini 2.5 Pro — 2/31. Расследование показало: эти reasoning-модели тратят токены на скрытое размышление (thinking), которое не возвращается пользователю, но расходует тот же лимит токенов.

// Default Settings Failure
max_tokens=500

reasoning_effort=low

При дефолтном значении модели тратили весь бюджет на размышления и возвращали либо пустой ответ, либо обрезанное выражение.

Optimized Fix

max_tokens: 4000
reasoning_effort: low

77% Post-fix Accuracy

После установки кастомных значений, количество правильных ответов у топ-2 моделей возросло:

GPT-5 DELTA

0/31 → 24/31

trending_up

GEMINI DELTA

2/31 → 24/31

trending_up

Модели генерируют альтернативные выражения

warning

Значительная часть правильных ответов получена через выражения, отличающиеся от эталона.

114 случаев "правильный ответ из выражения с другой логикой" из 868 ответов

При этом это не считается неправильной логикой. Часть из этих 114 случаев — легитимные альтернативные решения, которые на этих данных дают тот же результат и могут считаться допустимыми в production.

terminal

детали о паттернах в выражениях

PATTERN A 'ID' вместе 'Name'

Эталонное выражение:

count(distinct {<Sex={"M"}>} Name) / count(distinct Name)

Ответ модели (успешный):

Count({<Sex={'M'}>} DISTINCT ID) / Count(DISTINCT ID)

На данных где у одного атлета несколько ID (один на каждое событие) — даст другой результат. В текущем тесте совпало случайно.

* Для контекста, посмотрите задачку #2 в таск-сете Sports.Set Analysis Initiate на qata.datanomix.pro

PATTERN B 'Games' вместо 'Year'+'Season'

Эталонное выражение:

{<Year = {'1996'}, Season = {'Summer'}>}

Ответ модели (успешный):

{<Games = {'1996 Summer'}>}

Модели используют 'Games' как конкатенацию Year+Season. Логика не обобщается на другие датасеты без этого технического поля.

* Для контекста, посмотрите задачку #1 в таск-сете Sports.Set Analysis Initiate на qata.datanomix.pro

Эффект промптов — counter-intuitive

В Фазе 2 тестировали 3 уровня промпта: минимальный (только вопрос), стандартный (схема + роль), обогащенный (плюс примеры + best practices + chain-of-thought).

Обогащённый промпт ухудшил результаты у 3 из 5 моделей (Sonnet, Gemini Pro, DeepSeek V3).

Только премиум reasoning-модели (Opus, GPT-5) выиграли от обогащения. Итог: средние модели «слепо копируют» структуру из примеров few-shot, теряют гибкость на нестандартных задачах.

Sonnet 3.5

Negative Delta

Gemini Pro

Negative Delta

DeepSeek V3

Negative Delta

Гипотеза «дешёвая модель + умный промпт = дорогая» НЕ подтвердилась

DeepSeek V3 with enriched prompt shown lower result than with standard one (45% → 36% in V1, 15% in V2).

Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями. Качество базовой архитектуры остается доминирующим фактором в сложных BI-задачах.

DEEPSEEK V3 REGRESSION

45% → 36%

trending_down

Enriched Prompt Impact

Финальные результаты

Phase 1 — рейтинг 13 моделей

По двум версиям судьи:

Модель	V1 (лояльный)	V2 (строгий)	Coincidental cases
Gemini 2.5 Pro	24/31 (77%)	13/31 (42%)	6
GPT-5	24/31 (77%)	9/31 (29%)	9
Claude Opus 4.7	21/31 (68%)	9/31 (29%)	4
Claude Sonnet 4.6	19/31 (61%)	9/31 (29%)	5
Grok 3	17/31 (55%)	8/31 (26%)	6
Claude Haiku 4.5	14/31 (45%)	6/31 (19%)	6
DeepSeek V3	13/31 (42%)	6/31 (19%)	3
Mistral Large	11/31 (35%)	7/31 (23%)	3
Gemini 2.5 Flash	8/31 (26%)	2/31 (6%)	5
GPT-5 mini	6/31 (19%)	4/31 (13%)	2
Qwen 2.5 72B	6/31 (19%)	3/31 (10%)	5
Llama 3.3 70B	3/31 (10%)	2/31 (6%)	2
Qwen 2.5 Coder 32B	4/31 (13%)	1/31 (3%)	2
DeepSeek Coder V3	0/31 (0%)	—	API broken

Phase 2 — топ-5 финалистов с тремя промптами

Точность по V2 (строгий судья) — правильных из 93 (31 задача × 3 промпта):

Модель	Итого V2	Итого V1
GPT-5	32/93 (34%)	51/93 (55%)
Gemini 2.5 Pro	30/93 (32%)	43/93 (46%)
Claude Opus 4.7	24/93 (26%)	45/93 (48%)
Claude Sonnet 4.6	20/93 (22%)	43/93 (46%)
DeepSeek V3	14/93 (15%)	27/93 (29%)

Главное: GPT-5 — единственный явный лидер при строгой оценке.

Phase 2: эффект промптов на accuracy

Минимальный

Стандартный

Обогащённый

80 70 60 50 40 30 20 10 0

Accuracy по V1, %

GPT-5

Claude Opus 4.7

Claude Sonnet 4.6

Заключение

Исследование подтверждает, что LLM могут генерировать корректный Qlik Set Analysis, но с серьезной оговоркой по строгости оценки. Результаты демонстрируют значительный разрыв между формальным сходством и логической эквивалентностью.

Лояльная оценка

65-77%

Точность у топ-моделей при сравнении только итогового числового результата.

Строгая оценка

22-34%

Точность при проверке эквивалентности логики эталонному выражению.

precision_manufacturing

Реалистичный Production

~30-50%

Ожидаемый диапазон точности в реальных рабочих сценариях.

warning

Главная рекомендация

Использовать только в режиме «ассистент для человека». Не рекомендуется для режима автоматической генерации без валидации. Предлагайте пользователю выражение для проверки и уточнения, но не для мгновенного применения.

MODEL_NODE / 01

PREMIUM / LOGIC LEADER

Лучшая для строгой генерации: GPT-5

STRICT ACCURACY

34%

Лидер по строгой оценке (эквивалентность логики эталону). Рекомендуется для критических задач, где важна математическая точность.

MODEL_NODE / 02

STABLE / SWEET SPOT

Оптимальный ассистент: Claude Sonnet 4.6

REALISTIC ACCURACY

~30-50%

COST / 1K REQ

~$2

Баланс точности и стоимости. Рекомендован как базовый ассистент с экономией до 14 раз по сравнению с Opus.

LLM для Анализа Множеств: Готовность LLM к написанию production-ready Qlik Set Analysis

Accuracy Comparison Matrix

Методология исследования

Loyal Judge | claude opus

Strict Judge | Claude sonnet

Выбор моделей — 13 кандидатов

Технические открытия

Ловушка reasoning-моделей

Модели генерируют альтернативные выражения

детали о паттернах в выражениях

Эффект промптов — counter-intuitive

Гипотеза «дешёвая модель + умный промпт = дорогая» НЕ подтвердилась

Финальные результаты

Phase 1 — рейтинг 13 моделей

Phase 2 — топ-5 финалистов с тремя промптами

Phase 2: эффект промптов на accuracy

Главная рекомендация

Лучшая для строгой генерации: GPT-5

Оптимальный ассистент: Claude Sonnet 4.6

LLM для Анализа Множеств:
Готовность LLM к написанию production-ready Qlik Set Analysis