amarao

Декабрь 2025, первый раз AI-контент был интересным и увлекательным.

https://www.reddit.com/r/singularity/comments/1pllrzt/gemini_25_pro_mistook_vendingbench_arena_for_a/

Утверждение о том, что AI повышает производительность, мягко говоря, не совсем точно. Включение AI-ревьюера снижает производительность и увеличивает время выполнения задачи.

Вместо этого оно существенно повышает качество. Наверное, это тихая революция в software engineering, потому что количество найденных идиотизмов и ошибок зашкаливает. Через несколько лет, когда ai-reviewed код начнёт составлять ощутимый процент от общей кодовой базы мы начнём видеть синергентический эффект этого. Что-то поменяется (если к тому времени AI не перепишет всё к чертям, во что я не верю).

Оно повышает не лучшее качество, оно повышает худшее качество. Миллион глупостей остающихся в коде, документации, ранбуках и т.д. внезапно оказываются хотя бы частично исправлены.

Что исправляет больше ошибок? Система типизации или AI? AI ловит ошибки совершенно недоступные для системы типов и линтеров, включая логические ошибки и ложные посылки.

(Да, я знаю, что они галлюцинируют, это не важно, важно, что процент найденных ошибок по сравнению с шумом достаточно велик, чтобы на этот сигнал можно и нужно было обращать внимание).

Родилось на Реддите: человек, супервизящий AI - это senior yell operator. Кто-то, кто командует и требует сделать по-другому.

Так вот, это весьма и весьма утомительное занятие. Я бы сказал, сравнимое с code review (которое всегда сложнее, чем написание кода, если делать review правильно). В отличие от code review, где качество самого ревью никто не может проверить (кроме как покачать головой глядя на апрувнутое), после плохой yell-сессии результат - потеря контекста, избыточные изменения, накопление слопа в коде и т.д., то есть фидбэк луп для поддержания высокого уровня усилий есть. Что делает его ещё более утомительным.

Вчера я рисовал на вайтборде специально для chatgpt. Я задал ему хитрый вопрос про перенос коммитов с одного бранча на другой (более ранний), и для хорошо заданного вопроса мне пришлось нарисовать пример tree. Я получил ответ на свой вопрос (rebase -i --onto), но для истории: вчера я первый раз рисовал для робота.

Q: I have Popen object `p` in python. I want to send it signal. Show me for signal.SIGINT.

GPT4: https://chat.openai.com/share/11ff35c1-c87a-44d7-adbf-beb1fc8bf73c

(2 строчки с ответом)

Gemini: https://g.co/gemini/share/8428f9b64d9f

(57 строчек, в которых нет ни одной с объектом с именем `p`).

Зачем мне эта простыня? Простой вопрос с простым ответом (я на самом деле в коде у себя случайно удалил '_' из send_signal и был слегка удивлён трейсом, и подумал я что-то сломал в рефакторинге).

Если что, gpt4 фейлится с нежным перестуком галлюцинаций. Уже три попытки и с custom GPT, и с general, и с answer machine.

По загруженному файлу с метриками well-known приложения (т.е. по которому есть информация в training set) написать набор алертов прометеуса на такие, которые свидетельствуют о внутренних проблемах приложения или проблемах в другими серверами, с которыми взаимодействует приложение.

Да, я понимаю, что это я уже планку задираю высоко-высоко. Но если не задирать, останутся только рецепты коктейлей, да?

В тот момент, когда AI, наконец-таки сможет писать целые программы по ТЗ, мы просто вынуждены будем перейти от погромов к сжиганию ведьм, чтобы сбалансировать офигенность человества в сторону нейтральности.

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Entries tagged with ai

Navigation

AI content threshold

AI как средство прироста производительности

Senior Yell Operator

do it for robots!

Причина, почему GPT4 is unbeatable

Новый тест для AI

AI как символ прогресса

Profile

February 2026

Syndicate

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags