Нейросемантические исследования

Мультимедийное приложение «Анатомия угроз»

Научно-образовательный центр когнитивных программ и технологий (НОЦ КПиТ) РГГУ

Нейросемантические исследования

Основатели нейролингвистики, А.Р. Лурия и Д. Хэбб, утверждали, что сокращение «ЦНС» (CNS) надо расшифровывать как «Концептуальная Нервная Система». В нашем проекте мы впервые изучили мозговые механизмы восприятия и понимания осмысленных текстов на русском языке, показав, насколько верным было это смелое предположение классиков.

Пример визуализации нейросемантических данных для кластера слов, ассоциированных с понятием УГРОЗА, показан на Рис. 1. Часть активированных соответствующими нарративами вокселей мозга на этом рисунке закрыта поверхностью новой коры (неокортекса). Они находятся в более глубоких отделах, включающих обе миндалины (палеокортекс) и гиппокампальную формацию слева и справа (архикортекс).

Рис. 1. Визуализации активности коры в ответ на слова, связанные с понятием УГРОЗА

У каждого испытуемого наблюдается индивидуальная структура множества признаков, а значит, и семантическая репрезентация слов в форме активности отдельных вокселей головного мозга. Это видно в специфике репрезентации понятия УГРОЗА. Покажем эти различия на примере данных двух испытуемых. У первого из них (испытуемый А) в кластер, наиболее близкий к словам-угрозам, входят, в частности, следующие слова из исходного стимульного материала: ОБВИНЕНИЕ, ДОВЕРИЕ, УВАЖЕНИЕ, УСИЛИЕ, ПОБЕДА, ОСВОБОДИТЬ, ОБЯЗАННОСТЬ. Экспертная оценка данного кластера показала, что содержащиеся в нем слова имеют семантику не столько самой угрозы, сколько успешного преодоления угрозы. Следует отметить также, что у данного испытуемого в анализ не попали такие слова, как УГРОЗА, УГРОЖАТЬ, ВОЙНА, присутствовавшие в стимульных текстах. Это может говорить о том, что у испытуемого данные слова не вызвали достаточно интенсивного отклика в зарегистрированной мозговой активности. В то же время у испытуемого В наиболее близким к словам-угрозам стал кластер, содержащий слова: АГРЕССИВНЫЙ, ДОМИНИРОВАНИЕ, КОНФРОНТАЦИЯ, НАШЕСТВИЕ, ПРОТИВНИК, УВЕРЕННОСТЬ, УГРОЖАТЬ. Экспертная оценка данного кластера подтверждает наличие в нем семантики угрозы.

Различия в характере восприятия и индивидуальных стратегий преодоления угрозы подтверждаются и данными собственно нейросемантического анализа. В обоих случаях, наряду с другими областями, наблюдается выраженная активация префронтальных областей (лобная кора). Однако если у исп. А она состоит, прежде всего, в билатеральной активации эволюционно наиболее новых фронтополярных зон коры головного мозга (рис. 2), то у исп. В активация локализована в правой орбитофронтальной области, которая скорее связана с чисто эмоциональной оценкой ситуации (рис. 3).

Рис. 2. Активность лобной коры в ответ на слова, связанные со словом УГРОЗА, исп. А

Рис. 3. Активность лобной коры в ответ на слова, связанные со словом УГРОЗА, исп. В

Всего за время выполнения проекта РНФ № 17-78-30029 с помощью метода функциональной магниторезонансной томографии (фМРТ) были исследованы реакции мозга на акустическое предъявление осмысленных текстов, в общей сложности, у 47 здоровых испытуемых, все из которых были носителями русского языка. В качестве стимульного материала работе использовались тексты трех типов: 5 фрагментов описаний природы из произведений русских писателей, 5 описаний принципов функционирования технических устройств и 5 коротких нарративов, которые от лица автора рассказывали рассказов о потенциально угрожающих общественно-социальных ситуациях в новейшей истории России и их разрешении. Суммарно было использовано 2241 различных словоформ. Тексты были записаны профессиональным диктором и предъявлялись на слух в сбалансированном порядке однократно испытуемым, находившимся в томографе Simens Verio 3 Тесла. Предъявление согласовывалось во времени с помощью программы ELAN с процессом повоксельной регистрацией BOLD (blood-oxygenation level-dependent)-активности мозга. В экспериментах применялся сверхбыстрой параллельный протокол регистрации со временем повторения 1100 мс (см. подробнее Velichkovsky B.M., Zabotkina V.I., Nosovets Z.A., Kotov A.A., Zaidelman L.Ya., Kartashov S.I., Korosteleva A.N., Malakhov D.G., Orlov V.A., Zinina A.A., Goldberg E., Ushakov V.L. (2020). Towards semantic brain mapping methodology based on a multidimensional markup of continuous Russian-language texts. STM. 12(2), 14-25).

В последнем из этих исследований приняло участие 25 испытуемых, из числа которых на основании данных самоотчетов, результатов поведенческих тестов и анализа объективных данных регистрации активности мозга было выделено 7 наиболее заинтересованных тематикой нарративов человек в возрасте от 21 до 26 лет, студентов филологического факультета РГГУ (все правши, среди них 5 женщин). На основании редукции 997-мерного пространства семантики слов-стимулов в 4-мерное, образованное главными компонентами факторного анализа матрицы пересчета значения слов в активность 10000 вокселей мозга, и последующей иерархической кластеризации была выделена устойчивая система 12 кластеров повоксельной активности мозга, которые одновременно соответствовали различным аспектам ситуаций, описанных в использованных нами нарративах (Zaidelman L. Y., Nosovets Z.A., Kotov A.A., Ushakov V.L., Zabotkina V.I., Velichkovsky B.M.. Russian-language neurosemantics: Clusterizing of words meaning and sense from the oral narratives. 2020 in press).

Эти нейросемантические кластеры образовывали относительно замкнутую систему, описывающую разные аспекты пространственно-временных и событийных характеристик нарративов, а также ментальные состояния и процессы действующих в нарративах лиц (акторов). Отражение ментальной сферы было достаточно дифференцированным − в форме скорее пассивного переживания угрозы и лишений, целенаправленного планирования действия, либо рефлексивного размышления. Характерно также, что понятными данные обработки в целом становились лишь при использовании связанных общим сценарием нарративов: когда испытуемым предъявлялись разрозненные фрагменты описаний природы или работы технических устройств установить устойчивую и объяснимую структуру кластеров было невозможно. Полученные нами 12 кластеров приведены в Таблице 1, где приводятся также их условные номера и название, предложенное панелью из 5 экспертов.

Таблица 1. Кластеры слов со сходной нейрофизиологической активацией

Номер и название кластера	Кластер
01-перестройка	заново, номер, обновить, построить, фрагмент
02-город	город, далекий, дорога, знакомый, культурно-исторический, нынешний, область, оставаться, петлять, проезжать, проходить, раньше, связать, север, сегодня, стоить, стоять, центр, школа
03-угроза	агрессивный, внушать, вызывать, вынужденный, оппонент, противник, сила, сильный, тяжело, угрожать, угроза, явный
04-событие	год, день, картина, метро, название, посетить, появиться, праздник, сделать, событие, составить, состояться, тонна, эпизод
05-коллектив	вовлекать, говорить, дружить, интересоваться, обращать, ответственный, понимать, руководитель, сотрудник, чувствовать
06-война	благодарность, войско, выиграть, выступить, глава, граничить, заявление, известие, обвинение, окончиться, по-русски, победа, последовать, привести, припомнить, разгромный, случиться, спасти, уехать, уничтожить, штурм
07-лишение	жертва, зуб, лишение, многократный, свыше
08-опыт	возрастной, жизнестойкость, жизнь, заболевание, знание, изучение, интеллект, клинический, материал, мир, мозг, научный, нейропсихолог, одновременно, осознанный, пища, постоянно, работа, реакция, ребенок, сознание, чувство, эмоция
09-цель	быстро, возможность, вокруг, восприятие, далеко, должен, казаться, меняться, многогранный, мочь, необходимый, нужный, очерчивать, понимание, поэтому, принципиально, процесс, сложный, среда, твердый, технология, форма, цель
10-пространство	атмосфера, каждый, луч, набор, объем, правило, симметричный
11-порядок	беспокоить, военный, вспоминать, декан, новость, обязанность, политик, президент, социолог, старший, участвовать, член
12-попытка	велик, вступить, добраться, оказаться, пойти, попытаться, попытка, смочь, согласный, сориентироваться, трехцветный

Навигатор по кластерам

01-перестройка

заново, номер, обновить, построить, фрагмент

Нейрофизиологические особенности кластеров подробно проанализированы в работе Nosovets Z.A., Velichkovsky B.M., Zaidelman L.Y., Orlov V.A., Kartashov S.I., Kotov A,A, Ushakov V.L., Zabotkina V. I.. Lateralization in neurosemantics: Are some lexical clusters more equal than others? Procedia Computer Science. (2020 in press), а также в ряде готовящихся к печати публикаций. На Рис. 4 показано распределение вокселей, связанных с каждым из выделенных в эксперименте 12 эталонных нейросемантических кластеров, по поверхности видимой части мозга.

Рис. 4. Распределение активных вокселей, связанных с 12 эталонными кластерами, по поверхности видимой части мозга (внизу расшифрована связь цвета с номером кластера)

Поскольку кластеры являются базовыми сетями головного мозга при обработке слов, то каждое слово языка может быть оценено по набору расстояний до этих сегментов нейросемантической обработки текста. Эта процедура может быть проведена для любых слов русского языка, а не только для тех слов, которые непосредственно предъявлялись в эксперименте. Отдельное слово при этом будет характеризоваться набором расстояний до каждого из 12 кластеров. Для каждого из них была построена усреднённая семантическая репрезентация — центр кластера. Для всех слов кластера были взяты их векторные представления в используемой нами модели word2vec, после чего для этих представлений был вычислен вектор, фиксирующий усреднённое значение всех слов кластера. Данный вектор задаёт абстрактную координату в пространстве word2vec и не совпадает с вектором конкретного слова. Для каждого кластера были проверены слова, лежащие близко к его центру в пространстве word2vec: эти слова, в целом, соответствуют семантике и названиям кластеров, предложенным экспертами.

Далее было оценено более широкое множество слов языка по их близости к центрам выделенных кластеров. Нейрофизиологические следствия данной классификации состоят в том, что если слова кластеров характеризуются паттерном активации мозга, выделенным для данного кластера, то другие слова языка могут быть охарактеризованы на основании дистанций к центрам данных кластеров, то есть по их соотношению с паттернами активации в каждом из кластеров. Для такой процедуры могут использоваться различные подгруппы слов языка. Мы преимущественно оценивали слова из списка 997 высокочастотных слов, исходно использованных при векторной разметке слов нарративов.

Медианная близость между 997 словами и центрами кластеров составила 0,31. Для каждого слова кластеры с близостью меньше медианной были исключены из анализа. Максимальная близость составила 0,75 — это близость между глаголом ПОНИМАТЬ и кластером 05-коллектив. Значения близости между словами и центрами кластеров в интервале от 0,75 до 0,31 были разделены на 4 квартиля (QI, QII, QIII, QIV) так, что для каждого слова в каждом квартиле находятся кластеры, центры которых удалены от данного слова на соответствующие расстояния, т.е. для каждого квартиля на 0,75-0,64, 0,64-0,53, 0,53-0,42, 0,42-0,31, соответственно.

В таблице 2 приводятся данные о наборах кластеров, характеризующих список из 1000 относительно частотных слов современного русского языка с наименьшим расстоянием до ближайшего кластера. Для каждого слова перечислены кластеры, обладающие к данному слову близостью не менее медианной (0,31). Номера кластеров указаны курсивом. Слова, которые не предъявлялись в составе нарративов и определены впервые, подчеркнуты. Нам удалось охарактеризовать 984 слова из 997. 13 слов (например, КАРТА, ИМЯ, СЛАВА, БАНК) не имеют кластеров, центры которых расположены ближе, чем на медианное расстояние, и по этой причине не могут быть охарактеризованы на основе использованного в наших экспериментах до настоящего времени ограниченного по объему и тематике числа нарративов. Мы дополнили список из 984 слов до 1000 за счет слов из состава слов-стимулов.

Таблица 2. Отношение репрезентаций 1000 высокочастотных слов современного русского языка к 12 эталонным нейросемантическим кластерам

Загрузить таблицу