Гёдель и эмбеддинг
Dec. 12th, 2024 10:06 amЯ человек, ужасно неквалифицированный в этих вопросах. Но это совершенно мне не мешает думать (и писать про это), скорее, даже помогает.
В начале 20ого века Гёдель перевернул математику (или, скорее, даже зачал компьютеры), придумав схему кодирования всего. Схема называется "ординалы Гёделя" и она описывает процесс уникального кодирования любого высказывания в форме произведения степеней простых чисел, где каждое число в формуле что-то кодирует. Надеюсь, не переврал.
Детали этого кодирования важны только в смысле "работает", а суть состоит в том, что у нас каждому высказыванию можно сопоставить число. Уникальное число. Уникальность связи высказывания и числа дало могучий аппарат для математики и заложила основы устройства памяти компьютеров. Очередь из байтов может быть интерпретирована как сумма степеней числа 256.
Гёделевы ординалы дали нам идеи счётности и уникальности высказываний.
Начало 21 века. Эмбеддинг. Каждое высказывание кодируется набором чисел (как у Гёделя), но теперь у нас появилось понятие "дистанции" между высказываниями. Близкие по дистанции высказывания синонимичны или почти синонимичны, далёкие по дистанции высказывания - различны. Появилась возможность группировки высказываний и нахождения структур между высказываниями (легендарное сходство многих процессов в физике по формульности, теперь имеет математическое выражение).
Гёдель: каждое высказывание - это число.
Эмбеддинг: похожие высказывания близки (в математическом смысле "близости").
Вот так вот 100 лет развития науки в два шага.
В начале 20ого века Гёдель перевернул математику (или, скорее, даже зачал компьютеры), придумав схему кодирования всего. Схема называется "ординалы Гёделя" и она описывает процесс уникального кодирования любого высказывания в форме произведения степеней простых чисел, где каждое число в формуле что-то кодирует. Надеюсь, не переврал.
Детали этого кодирования важны только в смысле "работает", а суть состоит в том, что у нас каждому высказыванию можно сопоставить число. Уникальное число. Уникальность связи высказывания и числа дало могучий аппарат для математики и заложила основы устройства памяти компьютеров. Очередь из байтов может быть интерпретирована как сумма степеней числа 256.
Гёделевы ординалы дали нам идеи счётности и уникальности высказываний.
Начало 21 века. Эмбеддинг. Каждое высказывание кодируется набором чисел (как у Гёделя), но теперь у нас появилось понятие "дистанции" между высказываниями. Близкие по дистанции высказывания синонимичны или почти синонимичны, далёкие по дистанции высказывания - различны. Появилась возможность группировки высказываний и нахождения структур между высказываниями (легендарное сходство многих процессов в физике по формульности, теперь имеет математическое выражение).
Гёдель: каждое высказывание - это число.
Эмбеддинг: похожие высказывания близки (в математическом смысле "близости").
Вот так вот 100 лет развития науки в два шага.
no subject
Date: 2024-12-12 04:05 pm (UTC)Если совсем грубо, то мы брутфорсим неизвестную manifold для понятий (или слов, связанных с понятиями), пытаясь найти вектора в гигантскомерном пространстве так, чтобы похожие или связанные (по мнению кожанных мешков) понятия были с близко расположенными венкторами.
Даже не так. У нас есть какая-то математическая структура, которую мы не знаем. Мы берём много сэмплов из неё, связанных друг с другом чёрти чем. Назначаем сэмплам числа в векторном пространстве, с размерностью похожей на число разных элементов в сэмплах. Дальше мы описываем эти элементы сэмплов (токены) как векторы так, чтобы они были "рядом" если они "рядом" в сэмплах, брутфорся числа.
Я уверен, что я много чего пропустил тут. Но сама идея: сначала перенумеровали токены и научились записывать высказывания как числа, а потом научились описывать токены как векторы, добавив к ним понятие "близости" или "связности".
no subject
Date: 2024-12-12 11:11 pm (UTC)