ile_eli

Все вокруг учатся, а я что? Дай, думаю, тоже учиться пойду. Тут Мики Эльад ужасно интересный курс дает. Про sparse representations. Я с этим Мики 9 лет назад познакомился. На конференции. В Японии. Ближе никак не получилось. Он ужасно умный.
Пришел, значит, я учиться, а там - введение в тему. Линейная алгебра. Одна теорема, другая. И ведь доказывает. Такое удовольствие. Даже если толку от этих sparse representations мне никакого не будет (думаю, что будет) - свой кайф получу. Комната полна народу, среди слушателей трех профессоров насчитал. Это первый курс в Израиле на эту тему (тема-то новая, 7 лет всего), а Мики в этом хорошо понимает.
А идея очень интуитивная и простая. Вся информация вокруг нас содержит, вообще говоря, очень мало информации. Благодаря этому картинки и звук можно так эффективно сжимать. Рассмотрим, скажем, JPEG. Как он устроен? Верутся маленькие квадратики картинки, преобразуются DCT (почти Фурье), почти все коэффициенты почти нули, а те которые не нули записываем. Вообще-то это просто переход к новой системе координат, но можно посмотреть на это с другой стороны. Есть словарь (двумерные косинусы). Мы составляем наш кусок картинки, пользуясь этим словарем. Словарь замечателен тем, что для записи большинства кусков картинки ему нужно очень мало слов. У Wavelet transform та же самая идея (базис более интересный).
А следующий шаг такой: кто сказал, что словарь должен быть для всех один? Для фотографий человека один, для ланшафтов другой, для рентгеновских снимков - третий. Для музыки и для сейсмических данных тоже разные словари подходят. А можно и для каждой картинки свой особый словарь сделать.
Дальше: И кто сказал, что словарь должен быть минимальным? Пусть будет куча способов записать ту же картинку - мы будем выбирать способ, содержащий минимальное количество слов (ненулевых коэффициентов).
Дальше: То что эта штука может сжимать картинки гораздо лучше чем всякие JPEG-и - это ясно. При чем, и обычные картинки, и радарные, и MRI всякий (чего JPEG не умеет). Интересно другое. Настоящая информация имеет в таком словаре очень низкую размерность. А шум - высокую. Т.е., спроктировав имеющуюся картинку/сигнал на поверхность низкой размерности, заданную словарем, получим убирание шума. И еще куча всего.