Гёдель и эмбеддинг
Dec. 12th, 2024 10:06 amЯ человек, ужасно неквалифицированный в этих вопросах. Но это совершенно мне не мешает думать (и писать про это), скорее, даже помогает.
В начале 20ого века Гёдель перевернул математику (или, скорее, даже зачал компьютеры), придумав схему кодирования всего. Схема называется "ординалы Гёделя" и она описывает процесс уникального кодирования любого высказывания в форме произведения степеней простых чисел, где каждое число в формуле что-то кодирует. Надеюсь, не переврал.
Детали этого кодирования важны только в смысле "работает", а суть состоит в том, что у нас каждому высказыванию можно сопоставить число. Уникальное число. Уникальность связи высказывания и числа дало могучий аппарат для математики и заложила основы устройства памяти компьютеров. Очередь из байтов может быть интерпретирована как сумма степеней числа 256.
Гёделевы ординалы дали нам идеи счётности и уникальности высказываний.
Начало 21 века. Эмбеддинг. Каждое высказывание кодируется набором чисел (как у Гёделя), но теперь у нас появилось понятие "дистанции" между высказываниями. Близкие по дистанции высказывания синонимичны или почти синонимичны, далёкие по дистанции высказывания - различны. Появилась возможность группировки высказываний и нахождения структур между высказываниями (легендарное сходство многих процессов в физике по формульности, теперь имеет математическое выражение).
Гёдель: каждое высказывание - это число.
Эмбеддинг: похожие высказывания близки (в математическом смысле "близости").
Вот так вот 100 лет развития науки в два шага.
В начале 20ого века Гёдель перевернул математику (или, скорее, даже зачал компьютеры), придумав схему кодирования всего. Схема называется "ординалы Гёделя" и она описывает процесс уникального кодирования любого высказывания в форме произведения степеней простых чисел, где каждое число в формуле что-то кодирует. Надеюсь, не переврал.
Детали этого кодирования важны только в смысле "работает", а суть состоит в том, что у нас каждому высказыванию можно сопоставить число. Уникальное число. Уникальность связи высказывания и числа дало могучий аппарат для математики и заложила основы устройства памяти компьютеров. Очередь из байтов может быть интерпретирована как сумма степеней числа 256.
Гёделевы ординалы дали нам идеи счётности и уникальности высказываний.
Начало 21 века. Эмбеддинг. Каждое высказывание кодируется набором чисел (как у Гёделя), но теперь у нас появилось понятие "дистанции" между высказываниями. Близкие по дистанции высказывания синонимичны или почти синонимичны, далёкие по дистанции высказывания - различны. Появилась возможность группировки высказываний и нахождения структур между высказываниями (легендарное сходство многих процессов в физике по формульности, теперь имеет математическое выражение).
Гёдель: каждое высказывание - это число.
Эмбеддинг: похожие высказывания близки (в математическом смысле "близости").
Вот так вот 100 лет развития науки в два шага.
no subject
Date: 2024-12-12 01:04 pm (UTC)Непонятно, однако, как обеспечить эту метрику, чтобы она соответствовала нашим представлениям. Ну, т.е. есть алгоритмы. Типа сначала назначим случайные векторы, и, имея определённую формулу для метрики, будем эти векторы сдвигать, градиентным спуском, чтобы расстояние соответствовало. (А потом ещё подкрутим - есть на это алгоритмы.)
no subject
Date: 2024-12-12 04:05 pm (UTC)Если совсем грубо, то мы брутфорсим неизвестную manifold для понятий (или слов, связанных с понятиями), пытаясь найти вектора в гигантскомерном пространстве так, чтобы похожие или связанные (по мнению кожанных мешков) понятия были с близко расположенными венкторами.
Даже не так. У нас есть какая-то математическая структура, которую мы не знаем. Мы берём много сэмплов из неё, связанных друг с другом чёрти чем. Назначаем сэмплам числа в векторном пространстве, с размерностью похожей на число разных элементов в сэмплах. Дальше мы описываем эти элементы сэмплов (токены) как векторы так, чтобы они были "рядом" если они "рядом" в сэмплах, брутфорся числа.
Я уверен, что я много чего пропустил тут. Но сама идея: сначала перенумеровали токены и научились записывать высказывания как числа, а потом научились описывать токены как векторы, добавив к ним понятие "близости" или "связности".
no subject
Date: 2024-12-12 11:11 pm (UTC)