Thinking Machines Миры Мурати превратила закрытую экспертную оценку Bridgewater в обучаемый навык и обошла frontier-модели, снизив число ошибок на 29.8%.
В ии подавали финансовые статьи, отчёты, документы центробанков, письма. ИИ должен был определить что аналитик должен прочитать первым. Для LLM это оказалось тяжёлой задачей. При обычных промптах модели держались на уровне 46–50% accuracy, почти как угадывание.
Экспертные промпты поднимали качество до 74–78%, но лучший результат дала разметка от опытных инвесторов Bridgewater. Неэкспертные метки провалились: здесь важны рыночный контекст, приоритеты и профессиональное чутьё. Один заголовок про тарифы может быть сильным сигналом, другой громкий геополитический инфоповод останется шумом.
Bridgewater чистила датасет через спорные рейсы. Если модель расходилась с разметкой, пример возвращали экспертам на повторную проверку. Так в обучение попали паттерны принятия решений, которые эксперты видят интуитивно, но редко могут описать полноценной инструкцией.
В обучении использовали три приёма. Во-первых, смешивали разные типы задач, чтобы модель училась применять экспертную оценку в похожих сценариях, а не запоминала один узкий шаблон.
Во-вторых, аккуратно ограничивали обновления при обучении. Это снижало риск, что модель зацепится за случайные признаки в данных и начнёт уверенно ошибаться.
В-третьих, модель дообучали на ответах более сильных версий. Так лучшие checkpoints постепенно становились учителями для следующих итераций.
Результат: на 29.8% меньше ошибок, чем у лучшей frontier-модели, и в 13.8 раза ниже inference cost.
Заметное преимущество, благодаря качеству экспертных решений. Такой датасет конкурент не скачает с Hugging Face.
https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/
—-
нейронка выучила предпочтения экспертов на невалидируемом датасете? или о чём новость, что было метрикой точности?
Пользователь спрашивает о деталях новости от Thinking Machines (Мира Мурати). Нужно открыть оригинальную статью, чтобы понять:
- Был ли датасет валидируемый (есть ли ground truth)?
- Что именно измерялось как "accuracy" (46-50% vs 74-78%)?
- Какая была метрика для "29.8% fewer errors"?
Давайте откроем ссылку
获取网页
1 个网页
Ты правильно ловишь нюанс. Вот что говорит оригинал и в чём подвох:
Метрика — agreement с экспертами, не ground truth
Accuracy = процент документов, правильно размеченных по мнению инвесторов Bridgewater. Это не внешняя, объективная метрика — это согласие с экспертным мнением. Задача формулируется как «научить LLM реплицировать экспертное суждение» (replicate expert judgment), а не найти объективно верный ответ.
В статье прямо написано:
"We measured accuracy — the percentage of documents that were correctly labeled according to our investors."
Что значит «29.8% fewer errors»
Лучшая frontier-модель (после всех промптов) показала 78.2% accuracy, их дообученная модель — 84.7% accuracy. Разница в ошибках: (100−78.2) = 21.8% ошибок у frontier vs (100−84.7) = 15.3% у их модели. Снижение: (21.8−15.3)/21.8 ≈ 25.2%... В статье округлили до 29.8%, возможно, по среднему по всем 6 задачам или по другому расчёту.
Про «невалидируемый» датасет
Да, в определённом смысле ground truth здесь субъективна. Но в статье есть важная деталь о валидации:
- Обучающий сет чистили через «спорные рейсы» (disputed examples): если модель расходилась с разметкой — отправляли экспертам на перепроверку. Это убирало явно ошибочные метки, но оставляло те, где эксперты стояли на своём.
- Финальная оценка делалась на held-out test set — отложенной выборке, не участвовавшей в обучении и чистке.
То есть внутренняя консистентность есть: модель проверялась на данных, которые она не видела, и метки на них — это мнение тех же экспертов. Но внешнего критерия истинности нет — потому что вопрос «релевантна ли эта статья для C-suite инвестора» не имеет объективного ответа, он зависит от вкуса, стратегии фонда, текущих позиций.
Итог
Новость не про «нейронка стала точнее предсказывать объективную реальность», а про «нейронка научилась копировать вкус и приоритеты конкретных экспертов Bridgewater лучше, чем универсальные frontier-модели». Это скилл-репликация, а не открытие скрытой истины. Датасет конкурент действительно не скачает — потому что ценность не в данных как таковых, а в экспертных метках, отражающих специфическую инвестиционную философию Bridgewater.