Как оценить свои умственные способности
Как оценивать интеллект? Подход Google
В ноябре 2019 года вышла программная статья от Google «Об оценке интеллекта» Франсуа Шолле (создатель Keras).
64 страницы посвящены тому, как появилось современное понимание ИИ, почему машинное обучение от него так далеко, и почему мы все еще не можем адекватно измерить «интеллект».

Чтобы отбор был честным, задание для всех одно: залезьте на дерево
Наша команда занимается NLP и общей методологией ИИ-тестов, учитывая последние тренды в универсальных трансформерах типа BERT, которые оцениваются тестами на логику и здравый смысл. Так, NLP забирает в себя все новые задачи, связанные с воспроизведением все более сложных действий и по сути отражающих механизмы мышления. Оказалось, что и другие области ML отхватили свой кусок пирога в этом направлении. Например, CV — «Animal AI Challenge».
Понятно, что сейчас “лучше” при возможности делать ML-модели более интерпретируемыми, не использовать 10 маленьких классификаторов, а тренировать одну модель, и так далее, но насколько это все-таки далеко от реального “интеллекта”?
Программная статья дает подробный и разгромный разбор исследований в сфере технической оценки современного ИИ.
В конце статьи автор предлагает свой собственный тест и датасет к нему: Abstraction and Reasoning Corpus (ARC), привязанный к абстрактному мышлению.
Но обо всем подробнее.
Конспект “On the Measure of Intelligence“
Чтобы сознательно создавать более интеллектуальные и более похожие на человека искусственные системы, нам требуется ясное определение интеллекта и умение оценивать его. Это нужно, чтобы корректно сравнивать две системы, или систему с человеком. За последнее столетие предпринималось много попыток определить и измерить интеллект как в области психологии, так и в области ИИ.
Современное ML-сообщество по-прежнему любит сравнивать умения, которые демонстрируют ИИ и люди – при игре в настольные и компьютерные игры, при решении задач. Но для оценки интеллекта мало измерить только умение решать поставленную задачу. Почему? Потому что это умение во многом формируется не интеллектом, а прежними знаниями и опытом. А их можно «купить». Скармливая системе неограниченный объём обучающих данных или предварительной информации, экспериментаторы могут не только вывести машину на произвольный уровень навыков, но и скрыть то, насколько способна к интеллектуальному обобщению сама система.
В статье предлагается 1) новое официальное определение интеллекта на основе эффективности приобретения навыков; 2) новый тест на способность формирования абстракций и логических выводов (Abstraction and Reasoning Corpus, ARC). ARC можно использовать для измерения человеческой формы сильного подвижного интеллекта, это позволяет численно сравнивать относительно сильный интеллект систем ИИ и человека.
Необходимо практически полезное определение интеллекта и его метрик
Цель развития ИИ – в создании машин с интеллектом, который сопоставим с интеллектом людей. (Так цель была сформулирована с момента зарождения искусственного интеллекта в начале 50-х годов ХХ века, и с тех пор эта формулировка сохраняется).
Но пока мы можем создавать системы, которые хорошо справляются с конкретными задачами. Эти системы несовершенны: они хрупки, требуют всё больше и больше данных, неспособны разобраться в примерах, слегка отклоняющихся от обучающей выборки, а также не могут перенастраиваться на решение новых задач без помощи людей.
Причина этого в том, что мы до сих пор не можем однозначно ответить на вопрос о том, что такое интеллект. Существующие тесты, например, тест Тьюринга [11] и премия Лёбнера [10], не могут служить драйверами прогресса, поскольку полностью исключают возможность объективно определить и измерить интеллект, а опираются на субъективную оценку.
Наша цель – указать на неявные предубеждения в отрасли, а также предложить имеющее практическую ценность формальное определение и критерии оценки сильного интеллекта, подобного интеллекту человека.
Определение интеллекта: два противоречивых подхода
Суммарное базовое определение ИИ звучит так: «Интеллект измеряет способность агента достигать целей в широком диапазоне сред». Ничего не объясняет?
Весь конфликт в современной науке сводится к тому, что считать отправной точкой естественного интеллекта:
Оценка ИИ: от оценки умений к оценке широких способностей
Тесты на заданных наборах данных стали главным драйвером прогресса в области ИИ, поскольку они воспроизводимы (тестовый набор фиксирован), справедливы (тестовый набор одинаков для всех), масштабируемы (многократное повторение теста не ведет к высоким расходам). Многие популярные тесты — DARPA Grand Challenge [3], Netflix Prize — внесли вклад в развитие новых алгоритмов ML-моделей.
При положительных результатах, даже добытых кратчайшим путем (с оверфиттингом и костылями), ожидаемый уровень качества постоянно поднимается. МакКордак назвала это «эффектом ИИ»: «Каждый раз, когда кто-то придумывал новый способ заставить компьютер делать нечто новое (играть в шашки) – обязательно появлялись критики, которые говорили: “Это не мышление”» [7]. Когда мы знаем, как именно машина делает что-то «умное», мы перестаем считать это умным.
«Эффект ИИ» появляется потому, что путаются процесс использования интеллекта (например, процесс обучения нейросети игре в шахматы) и артефакт, создаваемый таким процессом (получившаяся модель). Причина путаницы проста – в человеке эти две вещи неразделимы.
Для отхода от оценки лишь артефактов, а само способности к обучению и приобретению новых навыков вводят понятие “диапазона обобщения”, при котором система принимает градуальные значения.
В настоящее время мы выходимся на новом этапе, в котором стремимся создавать гибкие системы — возрастает интерес к использованию широкого набора тестовых заданий для оценки систем, развивающих гибкость:
Новая концепция
Как сравнивать искусственный интеллект с человеческим, если уровень различных познавательных способностей у разных людей неодинаков?
Результаты тестов на интеллект у людей с разными способностями могут совпадать – это общеизвестный факт когнитивной психологии. Он показывает, что познание – это многомерный объект, структурированный иерархически по образу пирамиды с широкими и узкими навыками, наверху которой находится фактор общего интеллекта. Но действительно ли «сильный интеллект» – это вершина когнитивной пирамиды?
Теорема «бесплатных обедов не бывает» [14, 15] говорит нам о том, что любые два алгоритма оптимизации (включая человеческий интеллект) эквивалентны, когда их производительность усредняется для каждой возможной задачи. То есть для того, чтобы добиться производительности выше случайной, алгоритмы должны быть заточены под свою целевую задачу. Однако в данном контексте под «любой возможной задачей» подразумевается равномерное распределение по предметной области. Распределение задач, которые были бы актуальны именно для нашей Вселенной, не соответствовало бы такому определению. Таким образом, мы можем задать следующий вопрос: является ли фактор интеллекта человека универсальным?
В действительности люди пока собрали слишком мало информации о когнитивных способностях окружающих их агентов — других людей (в разных культурах “умность” оценивается по-разному) и животных, например, осьминогов или китов.
Судя по всему, человеческий интеллект далеко не универсален: он непригоден для большого ряда задач, под которые не адаптированы наши врожденные априорные знания.
Например, люди могут очень эффективно решать некоторые небольшие задачи полиномиальной сложности, если те мыслительно пересекаются с эволюционно знакомыми задачами вроде навигации. Так, задача коммивояжера с небольшим количеством точек может быть решена человеком почти оптимально за почти линейное оптимальное время [6], с использованием стратегии восприятия. Однако, если вместо «нахождения кратчайшего пути» попросить его найти самый длинный путь [5], то человек справится сильно хуже, чем один из простейших эвристических алгоритмов: алгоритм «дальнего соседа».
Авторы утверждают, что человеческое познание развивается по той же схеме, что и физические способности человека: и то, и другое развивалось в процессе эволюции для решения конкретных задач в конкретных средах (эти задачи известны как «четыре F» — четыре основных инстинкта: fighting, fleeing, feeding and fornicating: бей, беги, кормись и размножайся).
Основной посыл этой работы заключается в том, что «сильный интеллект» – это свойство системы, которое нельзя определить бинарно: «либо оно есть, либо нет». Нет, это диапазон, зависящий от:
Чего ожидать от идеального теста ИИ?
Предлагаемый тест: массив данных ARC
ARC можно рассматривать как эталонный тест сильного искусственного интеллекта, как эталонный тест программного синтеза или как психометрический тест интеллекта. Он нацелен как на людей, так и на системы искусственного интеллекта, предназначенные для имитации сильного подвижного интеллекта, сходного с интеллектом человека. По формату он чем-то напоминает прогрессивные матрицы Равена [4], классический тест на IQ, восходящий к 1930-м годам.
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Каждая задача состоит из небольшого количества демонстрационных и тестовых примеров. Демонстрационных в среднем 3,3 на задачу, тестовых – от одного до трех, чаще всего один. Каждый пример, в свою очередь, состоит из input grid и output grid.
Такая «сетка» – это матрица из определенных символов (каждый из которых, как правило, выделяется определенным цветом):
Всего уникальных символов (или цветов) — 10. «Сетка» может быть любой высоты или ширины – от 1×1 до 30×30 включительно (средняя высота — 9, средняя ширина — 10).
При решении оценочной задачи участник тестирования получает доступ к обучающим примерам (как к «входной», так и к «выходной сетке»), а также к начальным условиям для выполнения тестового задания – «входной сетке» соответствующих тестовых (оценочных) примеров. Далее участник тестирования должен построить собственную «выходную сетку» для «входной сетки» каждого тестового примера.
Построение «выходной сетки» осуществляется исключительно с нуля, то есть участник тестирования должен сам решить, какова должна быть высота и ширина этой «сетки», какие символы следует в нее поместить и куда. Считается, что задача решена успешно, если участник тестирования может дать точный и правильный ответ по всем входящим в нее тестовым примерам (двухчастный показатель успеха).
Наличие закрытого оценочного набора позволяет нам строго следить за чистотой оценки в условиях открытого конкурса. Примеры заданий ARC:
Задача, неявная цель которой заключается в том, чтобы закончить симметричную схему. Характер этой задачи определяется тремя входными/выходными примерами. Участник тестирования должен составить выходную сетку, соответствующую входной (см. внизу справа).
Задача по устранению «шумов».
Красный объект «перемещается» по направлению к голубому, пока не входит с ним в «контакт».
Задача, неявная цель которой заключается в том, чтобы продолжить (экстраполировать) диагональную линию, которая «отскакивает» при контакте с красным препятствием.
Задача, где необходимо выполнить разом целый ряд действий: «продолжить линию», «обойти препятствия» и «эффективно достичь конечной цели» (в реальной задаче приводится больше демонстрационных пар).
ARC не предоставляется как идеальный и законченный тест, тем не менее, он обладает важными свойствами:
Как вы думаете — может, основная идея будет более успешна, если удастся отвлечь внимание сообщества сильнго ИИ от попыток превзойти людей в конкретных задачах?
Умственные способности. Структура, уровни и диагностика умственных способностей
В статье даны рекомендации как определить свой уровень умственных способностей, описана структура умственных способностей.
Говоря об умственных способностях, стоит остановиться на определении интеллекта. В психологии существует три разных взгляда на определение интеллекта:
Объединить эти взаимодополняющие формулировки попробовал Векслер, определив интеллект как способность, объединяющую рациональное мышление, целесообразное поведение и эффективное взаимодействие с миром. На сегодняшний день по вопросу определения интеллекта в психологии нет единого мнения.
Таких определений существует несколько. Так, интеллектом называют наиболее сложные умственные способности личности. Есть и такое определение: интеллект – это относительно устойчивая структура умственных способностей личности, в которую входят все полученные ею знания, весь опыт, а также способность к дальнейшему их накоплению и использованию в процессе мыслительной деятельности. Объём знаний и круг интересов – факторы, определяющие интеллектуальные качества человека. В более широком понимании интеллектом называют умственные способности человека, весь набор присущих ему познавательных процессов в совокупности. В узком понимании интеллект – это мышление, ум.
Следует различать умственные способности и интеллект. Умственные способности человека составляют набор знаний и умений, которыми он владеет, сюда же входит набор умственных действий, которые человек на протяжении жизни сформировал, получая знания. А интеллект – это всё то, что благоприятствует успешному усвоению знаний, умений и навыков. Это суммирующий итог всех познавательных процессов.
В психодиагностике, измеряя интеллект, измеряют структуру познавательных свойств человека. Эта структура возникает на основе наследственных задатков и формируется в процессе взаимодействия с ними.
Структура умственных способностей
Структуру совокупности умственных способностей человека пробовали представить многие учёные, в результате появились структурные модели интеллекта Спирмена, Терстоуна, Гилфорда, Кетелла и др.
Структура умственных способностей человека разными исследователями рассматривалась по-разному. Так, структура Т. Гарднера основывалась на потенциале личности и складывалась из целого ряда способностей:
Структура М. М. Холодной описывает четыре основных типа умственных способностей:
Структура умственных способностей человека в обыденном понимании не так строга. Группируясь, интеллектуальные способности проявляются в разных сферах жизни человека: учебной и профессиональной, научной и творческой. Мы находим проявление умственных способностей человека в его социальном статусе (в стиле жизни и социальной роли, в образовании и избранной профессии, в уровне владения речью).
Умственные способности отражаются и в морально-нравственном начале, присущем человеку, демонстрируя его идеалы, его видение добра и зла, ответственности и совести, тактичности и справедливости.
Умственные способности человека складываются из множества взаимосвязанных составляющих, которые проявляются в разных сферах человеческой жизни.
Уровень умственных способностей
Группа тестов для определения уровня умственных способностей носит название «тесты интеллекта».
Цель тестирования умственных способностей – определение готовности к обучению в школе, выявление причин неуспеваемости, выявление одарённых детей, обеспечение индивидуального подхода к обучению, определение сложностей и отклонений в развитии.
Тесты на интеллект измеряют уровень умственного развития, но не показывают того, каков врождённый интеллект, природные возможности и того, какова была степень обученности испытуемого, несомненно отражающаяся на результате тестирования.
Однако результаты тестов предоставляют ценные сведения, отражающие уровень развития тех или иных способностей, а это может быть с успехом использовано при решении воспитательных задач и способствовать повышению эффективности обучения.
Уровни умственных способностей разных учеников неодинаковы, и существует классификация, позволяющая разделять учащихся на определённые категории. Основывается такое разделение на определении коэффициента интеллекта (IQ), поскольку принято считать, что именно он способен наиболее полно показать уровень умственных способностей. Коэффициент представляет собой соотношениям умственного возраста к фактическому, и если ученик, согласно результатов теста, демонстрирует умственный возраст выше, чем у средних учеников-сверстников, считается, что его коэффициент интеллекта высок. Если умственный возраст низок для соответствующего хронологического возраста, то и IQ низок. Формула такова: умственный возраст делим на хронологический возраст и умножаем на 100. Учащихся по уровню IQ делят на четыре категории:
1.Высокие умственные способности:
— от 110 баллов до 119 – способные ученики
— от 120 до 139 – незаурядные
от 90 до 109 баллов.
3. Ниже среднего (70 – 89 баллов):
80-89 – сюда входят дети с задержкой в умственном развитии
70-79 – дети с пограничными нарушениями интеллекта.
4. Низкий уровень (ниже 70 баллов):
50 – 69 – дети, поддающиеся обучению
25 – 49 – дети, поддающееся привитию элементарных навыков
ниже 25 – дети, нуждающиеся в постоянной опеке.
Высокие умственные способности – желанная цель, но сверхвысокие значения IQ могут означать личностные проблемы испытуемого, его недостаточность в области эмоциональных способностей, коммуникации, ориентации на ценности.
Диагностика умственных способностей
Исходя из когнитивного подхода к анализу способностей и психики человека, В. Н. Дружинин выделил три типа общих умственных способностей:
Мотивы их различны: в первом случае – познавательный, во втором – достижения (адаптивное поведение), в третьем – творческий, мотив самореализации.
С. Л. Рубинштейн, основатель деятельностного подхода к развитию умственных способностей в психологии, считал, что центром общих умственных способностей человека является качество протекающих процессов анализа и обобщения, и особенно обобщение отношений. Дело в том, что любая деятельность сопряжена с выполнением операций, а операции реализуют отношения и основываются на них. Обобщение этих отношений, по мнению Рубинштейна, является основой формирования способности и главным компонентом общих умственных способностей ребёнка.
На обобщение опирается и перенесение имеющихся знаний в новые условия (а это умение считается надёжным показателем умственного развития). По мнению английского психолога Ч. Э. Спирмена, наилучшим образом определить общие умственные способности помогают «q» тесты, требующие навыка выделения и обобщения абстрактных связей, например тесты на аналогию. За рубежом широко используются тесты Томсона (тесты числового ряда), тесты Ровена (в их основе лежит обобщение отношений). Задачи Пиаже также требуют выделения и обобщения отношений.
В нашей стране, изучая умственное развитие ребёнка, используют задания, требующие переноса знаний в новые условия, а значит – и выделения общности отношений, скрытой за внешним различием.
По мнению части психологов, тесты, измеряющие интеллектуальные способности, на сегодняшний день не могут считаться идеальным средством измерения общих умственных способностей или группы способностей. Они считают, что оценить, диагностировать умственные способности можно, опираясь на длительное наблюдение за действиями человека в разных ситуациях, путём анализа путей, которыми он двигается к успеху в разных видах деятельности. Большинство психологов считает, что тесты на интеллект диагностируют только то, насколько сформированы некоторые интеллектуальные навыки, зависящие от природных возможностей и степени обученности человека. Они не измеряют интеллект, но могут выявить особенности мышления человека и, кроме того, определить объём и содержание его знаний в некоторых областях.
На сегодняшний день западные интеллектуальные тесты в основном используются с целью прогнозирования будущих достижений в школьном обучении, для распределения учащихся по разным типам школ. Например, для того, чтобы попасть в школу для одарённых детей, ребёнок должен получить IQ минимум 135 (согласно теста Стэнфорд – Бине). Однако и в этом случае прогноз не всегда верен, ведь тест не учитывает фактор влияния семьи, личность ученика, географические наблюдения, анализ методов обучения и другие моменты. Чтобы правильно интерпретировать результаты, нужно знать, например, какова степень тренированности испытуемого в прохождении теста; каково его эмоциональное состояние; не влияет ли оценивание личность экспериментатора и другие факторы.
Для диагностики умственных способностей различают вербальные и невербальные тесты.
Интересна диагностика умственных способностей с помощью шкалы Д. Векслера. Это исследование очень популярно в англоязычных странах: данная диагностика умственных способностей охватывает диапазон от 3 до 74 лет и позволяет заметить изменения умственных характеристик человека на протяжении жизни. Кроме того, данная методика позволяет диагностировать некоторые расстройства психики, такие как эмоциональные нарушения, болезнь Альцгеймера. Кроме того, наличие в шкалах Д. Векслера и вербальных, и невербальных субтестов дает возможность диагностировать умственные способности с разных сторон: и понятийное, и наглядное мышление, и особенности зрительного восприятия, и память, и внимание, и сенсомоторную координацию.
Человек на протяжении жизни способен совершенствовать когнитивные функции мозга, благодаря такому его свойству как пластичность. Тренировать мозг онлайн с помощью специальных игр, тренажеров и упражнений, Вы можете ежедневно занимаясь на нашем сайте.
Искренне желаем Вам успехов в саморазвитии!
Подборка IQ тестов
Под интеллектом многие ученые понимают умственный способности человека. В настоящее время существует большое количество методик для измерения IQ. Но стоит понимать, что каждая методика направлена на измерение определенного вида интеллекта.
Какие же существуют виды IQ?
Именно поэтому на сегодняшний день разработано множество опросников для измерения всех видов IQ. И мы предлагаем вам более подробно ознакомиться с каждым из них.
Тест интеллекта Г. Айзенка
Этот тест очень популярен и пользуется успехом в психологии, так как у опросника существует 8 различных вариантов. Первые 5 тестов направлены на измерение общей оценки IQ. Следующие три выявляют вербальные, визуально-пространственные и математические особенности вашего интеллекта.
В этом тесте вы найдете словесные, арифметические и графические задания. Методики рассчитаны для людей от 18 до 56 лет и измеряют мыслительные процессы человека, а не уровень его знаний. В результате тестирования будет произведена количественная оценка от 0 до 160 б. К высоким показателям относятся 110-120 б. больше набирают только единицы, средний показатель 80-100 б, если у человека результат меньше 80, то необходимо приложить активные усилия для развития интеллектуальных способностей.
Культурно-независимый тест интеллекта Р. Кеттелла
Данный тест свободен от культурных влияний, так как оценивает врожденный компонент интеллекта, которые не зависит от воспитания, обучения. Методика была разработана в 1949 году. Р. Кеттелл создал три варианта теста:
Чаще всего психологи в своей работе используют шкалу GFT 2. Этот тест состоит из двух частей по 4 субтеста в каждом (количество заданий в субтестах колеблется от 8 до 14). В качестве результата вы получите интервальный показатель. Его вы сможете сравнить с возрастными показателями, которые получились в процессе эксперимента в 90-х годах.
Тест структуры интеллекта Р. Амтхауэра
Стандартный тест Р. Амтхауэра состоит из 9 субтестов, каждый субтест включает в себя 20 задач, за исключением 4 в нем 14 задач. Тест диагностирует индуктивное мышление, способность к абстрагированию, логику, умение обобщать, математическое мышление, пространственное воображение. В результате вы узнаете насколько хорошо у вас развиты различные сферы интеллекта.
Тест прогрессивные матрицы Дж. Равена
Данный тест определяет уровень логического мышления с помощью абстрактного материала. Тест можно использовать как в индивидуальной, так и в групповой форме. Есть детский (8-14 лет) и взрослый (14-65 лет) вариант теста.
В тест входит 60 таблиц, которые разделены на 5 серий и в каждой по 12 заданий. Сложность заданий постепенно возрастает, а на выполнение каждого дается всего 20 минут. В конце прохождения теста вы узнаете уровень своего интеллекта. Методика используется в исследовательских целях, в образовательных учреждениях, на работе и клинических заведениях.
Тест интеллекта Д. Векслера
Дэвид Векслер разработал данный тест в 1939 году, после он был несколько раз переделан, но своей сути не потерял. На сегодняшний день существует 3 варианта теста Д. Векслера:
В тесте учитывается скорость и точность выполнения заданий, уровень выполнения задач оценивается в связи с возрастом. В конце тестирования вы получите 3 результата: уровень вербального, невербального и общего интеллекта.

