Ограничения vision-language моделей: когда компьютеры теряют зрение
4 июня 2025 г.Вступление
В последние годы мы стали свидетелями значительных успехов в области vision-language моделей (VLM). Однако,最近 исследование показало, что эти модели теряют зрение, когда пространственная информация заблокирована.
Как заметил японский поэт Мацуо Басё, "Одинокий путник встречает лишь тень". Это хокку может быть интерпретировано как метафора для нашего ограничения в компьютерном зрении.
Основные тенденции
В последние годы мы наблюдаем значительный прогресс в области VLM. Однако, недавнее исследование показало, что они теряют зрение, когда пространственная информация заблокирована.
Это ограничение может быть связано с тем, что модели зависят от пространственных признаков и не могут извлекать смысл из временных сигналов.
Детальный анализ
Авторы исследования создали SpookyBench, бенчмарк, где информация кодируется только в временных последовательностях шумоподобных кадров.
Оказалось, что люди могут распознавать фигуры, тексте и паттерны в этих последовательностях с точностью более 98%. В то время как state-of-the-art VLMы достигают 0% точности.
Практические примеры и кейсы
Один из комментаторов, RobbinDeBank, отметил, что такие бенчмарки, где компьютеры теряют зрение, являются яркими примерами разницы между человеческим интуитивным пониманием и текущими методами машинного обучения.
Другой комментатор, evanthebouncy, предположил, что люди могут использовать опубликованный генератор данных, чтобы сгенерировать 1Т токенов данных и дообучить модель, и затем заявить о победе.
Экспертные мнения
Я люблю эти бенчмарки, где компьютеры теряют зрение, а люди достигают точности 90%+. Они являются яркими примерами разницы между человеческим интуитивным пониманием и текущими методами машинного обучения. - RobbinDeBank
# Импортируем необходимые библиотеки
import numpy as np
def generate_noisy_frames(frame_size: int, noise_level: float) -> np.ndarray:
"""Генерирует массив шумоподобных кадров
Args:
frame_size: Размер кадра
noise_level: Уровень шума
Returns:
np.ndarray: Массив шумоподобных кадров
"""
# Генерируем массива случайных чисел
noisy_frames = np.random.rand(frame_size, frame_size)
# Добавляем шум к кадрам
noisy_frames += noise_level * np.random.rand(frame_size, frame_size
# Создаем массив шумоподобных кадров
noisy_frames = generate_noisy_frames(256, 0.5)
# Выводим результаты
print(noisy_frames)
В этом примере мы генерируем массив шумоподобных кадров, используя функцию generate_noisy_frames. Затем мы выводим результаты.
Возможные решения и рекомендации
Одно из возможных решений - это разработка новых архитектур или парадигм обучения, которые могут отделить пространственные зависимости от временного процессинга.
Другое возможное решение - это использование методов, которые могут симулировать человеческое зрение, таких как motion blur.
Заключение
В заключении, мы видим, что VLM теряют зрение, когда пространственная информация заблокирована. Это ограничение может быть связано с тем, что модели зависят от пространственных признаков и не могут извлекать смысл из временных сигналов.
Это исследование подчеркивает важность разработки новых архитектур или парадигм обучения, которые могут отделить пространственные зависимости от временного процессинга.
Оригинал