Прошло всего два месяца с момента запуска Gemini, большой языковой модели (LLM), которая, как надеется Google, вознесет ее на вершину индустрии ИИ. Однако, несмотря на прошедший короткий срок, технологический гигант представил своего преемника, чтобы раз и навсегда покончить с OpenAI и GPT-4.
Необработанный потенциал Gemini 1.5
В целом, новая версия Gemini от Google может обрабатывать гораздо большие объемы данных. Обновленная модель ИИ теперь может делать действительно впечатляющие вещи с видео или длинными текстами.
В видеоролике с его презентацией мы увидели пример, который отлично иллюстрирует, что эра чатботов, которые просто отвечают, прошла. Команда Google загрузила 44-минутный немой фильм с Бастером Китоном в главной роли и попросила ИИ определить, какая информация содержится на листке бумаги, который в какой-то момент фильма достается из кармана персонажа. Менее чем за минуту Gemini 1.5 нашел сцену и правильно определил текст, написанный на бумаге. Исследователи также попросили модель найти сцену из фильма по рисунку, с чем она успешно справилась.
Оставив ChatGPT позади
Чтобы оценить потенциал модели искусственного интеллекта, необходимо принять во внимание концепцию контекстного окна и маркеров. Последний термин, несколько сложный для определения, представляет собой единицу измерения основных компонентов, необходимых для обработки информации. Как поясняет Google, «это могут быть целые части или подразделы слов, изображений, видео, аудио или кода». Чем больше контекстное окно модели, тем больше информации вы сможете воспринять и обработать в данном сообщении, что сделает его результат более последовательным, релевантным и полезным».
Gemini 1.5 Pro имеет огромное контекстное окно, что означает, что вы можете обрабатывать гораздо большие запросы и видеть гораздо больше информации одновременно. Это окно составляет 1 миллион токенов — довольно значительная цифра по сравнению со 128 000 в GPT-4 от OpenAI и 32 000 в текущей версии Gemini Pro. Действительно, это самое большое контекстное окно, когда-либо встречавшееся в большой языковой модели.
Конечно, во всем есть свои хитрости. Пока что Gemini 1.5 Pro — и его миллион токенов — будет доступен только корпоративным пользователям и разработчикам, через Google Vertex AI и AI Studio. Со временем на смену Gemini 1.0 и стандартной версии Gemini Pro, которая доступна всем желающим на сайте gemini.google.com и в приложениях компании, придет 1.5 Pro с контекстным окном на 128 000 токенов, превышающим нынешние 32 000 токенов.
Чтобы достичь миллиона жетонов, придется заплатить больше. Google также тестирует этические ограничения и безопасность модели, особенно в том, что касается нового более крупного контекстного окна. Когда это произойдет и Gemini 1.5 с 128 000 токенов станет моделью, которую можно будет попробовать бесплатно на сайте проекта, это будет означать, что бесплатная версия генеративного ИИ-помощника будет сопоставима с текущей платной версией ChatGPT Plus, в которой используется модель GPT-4 (или вы можете попробовать ее бесплатно с помощью Bing).