Български езикови ресурси, в които е отразена невербалната комуникация

Красимира Алексова

В тази публикация е направен преглед на различни начини за отразяване на невербални средства в съществуващи изследвания по българска социолингвистика и паралингвистика, както и в електронни ресурси, представящи устната комуникация на български език. Приведени са многобройни примери, които илюстрират възможностите на някои конвенции и транскрипционни схеми. В последната част от текста се акцентира върху перспективите – мултимодалните корпуси.

The article presents an overview of different ways to accommodate the non-verbal means in existing studies and sociolinguistics Bulgarian paralingvistika and electronic resources in presenting oral communication in Bulgarian. Brought are numerous examples that illustrate the possibilities of some conventions and transcription schemes. In the last part of the text focuses on prospects - multimodal corpora.

Съдържание

1. За целите и за езикови ресурси, в които се отразява и невербалните средства за общуване
2. Символни означения на невербалните средства в българската паралингвистика
3. Отбелязване на паралингвистичните средства в трудове по българска социолингвистика
4. Невербални езикови средства в бази данни от българска разговорна реч – инициативата BgSpeech в периода 2001 – 2004 г.
5. Невербални езикови средства в корпуси от устна реч на български език
6. За бъдещото развитие – мултимодалните корпуси
Цитирана литература

1. За целите и за езикови ресурси, в които се отразява и невербалните средства за общуване

Основната задача на настоящата публикация1 е да представи начините, по които паралингвистичните средства в устната комуникация на български език се записват в транскрипции, които служат като емпирична база данни за социолингвистични и паралингвистични изследвания, или пък в налични електронни ресурси за българския език, които отразяват конвенции и транскрипционни схеми, използвани от техните автори.

Езиковите ресурси, в които освен вербалната се отразява и невербалната страна на общуването, могат да представляват бази данни (архиви) от транскрибирани текстове или корпуси от устна реч. Основното, което отличава базите данни от корпусите, е това, че съставящите ги файлове (текстов формат на транскрипции на устна реч, аудио- или видеозаписи, по които са направени транскрипциите) не са структурирани, не са анотирани, не са обработени така, че данните в тях да могат да се анализират чрез компютърни технологии. От своя страна корпусите, анотираните според даден стандарт, дават възможност за обработка със специализирани компютърни програми, а това улеснява търсенето по определени елементи, които са анотирани – участници в общуването, застъпване на реплики, прекъсване на събеседника, съкратени форми, елизии, ненормативни явления в устната реч, особености на ударението и интонацията и т.н.).

В зависимост от това каква е целта на екипа, създал корпуса: да изследва фонетичните особености, паузовото деление, интонационния контур или др. прозодични средства; да наблюдава отличителните характеристики на разговорната реч; да анализира в цялост общуването с неговите вербални и невербални особености; да проучва преди всичко невербалните средства за комуникация, се разграничават няколко типа корпуси: фонетични корпуси, корпуси с разговорната реч, мултимодални корпуси, корпуси, служещи за създаване и тестване на езикови технологии (синтез на реч, гласово разпознаване и др.), жестомимични корпуси (вж. обзора у Schmidt et al. 2010).

Невербалните средства за общуване се отбелязват в транскрипции, принадлежащи на жестомимични корпуси, корпуси от разговорна реч, както и в мултимодалните корпуси. За разлика от положението в корпусите от разговорна реч или от базите с данни, в мултимодалните корпуси транскрипциите са синхронизирани с аудио- или видеозаписа, което позволява да се проследяват едновременно най-малко два канала на достъп до информацията – текст и аудиозапис, текст и видеозапис. Базите данни, както показва българският опит, също могат да съдържат транскрипции в текстов формат, в които паралингвистичните средства са отбелязани според система, възприета от автора.

В тази работа акцентираме предимно върху българския опит в отбелязването на невербалните средства, като посочваме и идеи за бъдещо развитие на ресурсите, в които е кодирана и невербалната комуникация.

↑

2. Символни означения на невербалните средства в българската паралингвистика

Първата лингвистично насочена работа, в която основен обект на изследване са невербалните средства в общуването на български език, принадлежи на М. Виденов (Виденов 1982). В тази студия авторът разглежда в теоретичен аспект паралингвистиката, а в емпиричен план анализира паралингвистичната кинесика (жестове и мимики) в пернишката градска говорна ситуация. В транскрипциите М. Виденов използва няколко символни означения: на жестови кинеми със символа „жжжжжжжжжж“, на мимически кинеми – „ммммммммммм“ и на едновременно появяващи се мимически и жестови кинеми – „жмжмжмжмжмж“. Кинемите са класифицирани от гледна точка на семантиката на кинетичната им природа като иконически, индексни и кинеми символи (Виденов 1982: 63). В транскрипциите авторът отбелязва едновременната поява на речево съобщения и на кинема, а в описанието и изясняването на ситуационния комплекс, жестовата субстанционна природа и прагматичната мотивираност на паралингвистичния елемент са изнесени преди транскрипцията.

Снимка 1. Пример за транскрипция с отбелязване на жестови кинеми у Виденов (Виденов 1982: 53).

В четвъртия раздел от студията паралингвистическата кинесика се разглежда от синтактично гледище, като в отделна част са представени трансформи на кинеми, съответстващи на цели изречения или на отделни техни части. Именно в тази част на реда на транскрипцията са разположени символните означения на кинемите, а вербалното съответствие (трасформът) е под тях (вж. Снимка 2). Подобна практика не срещаме в други трудове, които са ни известни.

Снимка 2. Пример за трансформи на паралингвистическа кинесика (Виденов 1982: 75)

Съставената от М. Виденов система за символизация на кинеми се използва с известни вариации както в изследвания по българска паралингвистика, така и по социолингвистика. Ще се спрем първо на някои паралингвистични трудове. Интересът на Марияна Стефанова към българския речев етикет я отвежда и към паралингвистичната етикетната кинетика (Стефанова 1994, Стефанова 1999). Авторката прилага алгоритъма на описание, предложен от М. Виденов (Виденов 1982), както и символна система, близка до неговата: 6 графеми „ж“ – „жжжжжж“ означава жестова кинема, „мммммм“ – мимическа кинема, „тттттт“ – наличие на кинема телодвижение. При едновременна реализация на вербален и паралингвистичен сегмент те се записват един над друг, като отдолу е символът на кинемата.
В докторската си дисертация Андреана Ефтимова използва означението „мммм“ за мимическа кинема, „жжжж“ – за жестова кинема, като те се разполагат на вербалния ред или под него в зависимост последователността или застъпването на реч и кинесика (Ефтимова 2002: 45).

Снимка 3. Пример за представяне на паралингвистичните средства (Ефтимова 2002: 55)

И в дисертационния труд на Петранка Трендафилова са използвани символите, въведени от М. Виденов (Трендафилова 1995), за разлика от монографията „Билингвална интерференция в крайния български северозапад“ на Владислав Маринов, в която е въведен само един знак „...К...“ за паралингвистически и антропосемиотически кинеми, чието значение се дава в кръгли скоби (Маринов 2008).

↑

3. Отбелязване на паралингвистичните средства в трудове по българска социолингвистика

Вторият тип ресурси, в които транскрипциите включват отбелязани паралингвистични средства, представляват бази данни, събирани за нуждите на социолингвистиката. Една част от тях не са в електронен вид (напр. Байчев, Виденов 1988). В транскрипционната система, използвана от М. Виденов и Б. Байчев в социолингвистическото проучване на гр. Велико Търново (Байчев, Виденов 1988), авторите допълват още два знака към системата, приложена в студията за българската паралингвистика на М. Виденов – това са символите за фонационни паралингвистични средства „... Ф...“ и за паралингвистически или антропосемиотически кинеми – „...Д...“. Символните означения на паралингвистичните кинеми са разположени на транскрипционния ред, а веднага след тях в кръгли скоби се наподобява фонацията, описва се кинемата и се обяснява нейната семантика. Същата система е приложена и в нашето изследване „Езикът и семейството“ (Алексова 2000), като е прибавен и символът за едновременна поява на мимика и жест. Базата данни, върху която е направено това социолингвистическо проучване, е достъпна в интернет благодарение на Хетил Ро Хауге от Университета в Осло (http://folk.uio.no/kjetilrh/bulg/Aleksova/). Според това дали кинемата е едновременна с речевия поток или не се застъпва с него, символното ѝ означаване е на отделен ред (под вербалната транскрипция) или е на самия транскрипционен ред.

Л //паднал и се ожулил/ т'а не го вид'ала и го

влачила и бузата му тука (жжжжжж)(показва на снимката

ожулената буза) ц'алата въф рани// разбираш ли/ от

шейната//

СТ //пад\нал зат шей\нътъ и съ ожулил значи и/

Л //и така//стефи нарежи малко саламче за тайа ракийка

върви// айде както си//

СТ //ас сиренце нарезах//

(жжжжжж)(посочва чинията със сиренето)

http://folk.uio.no/kjetilrh/bulg/Aleksova/1.1.html

Подобни символни означения на паралингвистичната кинесика използва в транскрипциите на образци от идиолекти, принадлежащи към смолянската езикова ситуация, Елена Каневска-Николова (Каневска-Николова 1998) – вж. снимка 4. Базата данни не е достъпна в интернет.

Снимка 4. Пример за транскрипции, в които са отразени паралингвистични явления (Каневска-Николова 1998: 79)

В монографията си „Диглосията в град Криводол (социолингвистично изследване)“ Евгения Димитрова с „М“ отбелязва „жестова или мимическа кинема, описана в кръглите скоби“ (Димитрова 2004: 6).

↑

4. Невербални езикови средства в бази данни от българска разговорна реч – инициативата BgSpeech в периода 2001 – 2004 г.

Дотук коментирахме отбелязването на невербалните аспекти на общуването – предимно на кинесиката, в отделни трудове по българска паралингвистика и социолингвистика. От тях достъпни в интернет са единични бази данни, за които стана дума. Нека да разгледаме и електронните бази данни за българска разговорна реч, които са достъпни в интернет благодарение на инициативата BgSpeech (www.bgspeech.net). В рамките на няколко проекта, на семинари и работни срещи (http://www.bgspeech.net/bg/history.html) в периода от 2001 до 2004 г. е генерирана база данни с транскрипции предимно на разговорна реч (ученическа реч, медии, публична реч, политически дискурс, неформална комуникация). Транскрипцията, прилагана в рамките на този период, е близо до системите, типични за коментираните дотук социолингвистични проучвания: „жжж“ на мястото на жестова кинема, „ммм“ – на мимическа кинема, „жмжмжм“ – за съчетание между жестова и мимическа кинема, като и в трите случаи семантиката им се обяснява в кръгли скоби след символа. Следният пример от базата данни с транскрипции на разговорна реч е достъпен на http://www.bgspeech.net/bg/resources/archive/0020.txt

Т: (мммммм) (кинема за изразяване на разбиране) // М: // ас го глед\ах пред\и мн\ого дни...

С: // е // и он\а се побол\и и е у б\олница //

↑

5. Невербални езикови средства в корпуси от устна реч на български език

↑

5.1. Българско-шведският проект “Multimedia and Multimodal Spoken Language Corpora Analysis – Stage 1“

Необходимостта от създаване на структурирани корпуси от устна реч, които могат да бъдат обработвани с компютърни програми, насочи през 1999 г. група преподаватели от Факултета по славянски филологии към проучване на съществуващи корпуси от устна реч и електронни ресурси за тяхната обработка. Българско-шведският проект “Multimedia and Multimodal Spoken Language Corpora Analysis – Stage 1“ с участници и от Гьотеборгския университет и СУ “Св. Кл. Охридски”, финансиран от “Отворено общество – България” (1999 – 2000), позволи Биляна Мартиновски и Лейф Грьонквист да представят програмите TRACTOR (средство за кодиране за създаване на анотирани транскрипции – http://www.ling.gu.se/~sl/tractor.html) и TRASA (за статистическата обработка на транскрибирания текст) на Гьотеборгския университет и да обучат преподаватели от Софийския университет за работа с тях. Участниците в проекта създадоха стандарт за транскрипция и за модифицирана ортография на българска разговорна реч (вж. Петрова, Алексова 2003), опирайки се на съществуващата в този период шведската ортография и стандарт за транскрипция (вж. Nivre 1999, 1999a). Според системата за ортография транскрипциите се оформят като партитура. Те могат да съдържат коментарен ред, въведен със символа @. След него в ъглови скоби се включва самият коментар. Създадена бе система от стандартни коментари, представящи няколко аспекта на устната реч (вж. повече у Петрова, Алексова 2003). На коментарния ред се записват жестовете, мимиките и др. явления от невербалната комуникация. Следващият пример представлява транскрипция на телевизионно интервю, реализирана от д-р Росица Кючукова (Петрова, Алексова 2003):

$P: желайа ви прийатен ден / а а{с:з} виждам / уважаеми зрители // че навън небето / определено започва да се проясньава / / което означава че / започва този процес / който набльудавахме до този момент // но вече в{ъф:0} < обратната посока > / < нека сега да2 чуем+ >

@ <gesture: прави лек илюстративен жест с дясна ръка >

@ <event: вдига телефонната слушалка за връзка с нов зрител >

За съжаление този проект не получи продължение и малкото създадени транскрипции останаха като архив.
Партитурният модел е оптималният за създаване на мултимедийни и мултимодални корпуси. Той се появява у нас още преди събирането на мултимедийни корпуси – в монографията на Цветан Йотов, посветена на едновременното говорене (Йотов 1991). Към него е насочено и вниманието на паралингвисти (Ефтимова 2005), а първите опити за транскрибиране на българска устна реч с електронни ресурси с партитурен транскрипционен модел са в рамките на посочения българско-шведски проект (вж. Петрова, Алексова 2003).

↑

5.2. Паралингвистиката в корпус от българска устна научна реч

В рамките на два проекта („Студентска академична реч”, финансиран от научния фонд на СУ „Св. Климент Охридски”, договор № 164/2008 г. и „Контрастивно изследване на българска и немска устна научна реч”, договор № Д002 – 43/14.03.2009, Фонд „Научни изследвания”, МОН, в рамките на двустранното научно-техническо сътрудничество между Република България и Федерална република Германия) беше създаден корпус от транскрипции на: студентска устна научна реч – реферати, презентации и устни изпити, и на академична научна реч на преподаватели (лекции и доклади на конференции). Българските научни екипи, участващи и в двата проекта, бяха в непрекъснато сътрудничество с научните екипи, работещи по проекта GeWiss. Българските транскрипции станаха част от корпуса GeWiss (https://gewiss.uni-leipzig.de/index.php?id=home) (вж. повече у Славчева и кол. 2012). За създаването на българския подкорпус е използвана системата EXMARaLDA, конвенцията GAT_2 и система за транскрипция, които са описани от Л. Ласкова, Й. Велкова и Кр. Алексова (Алексова и кол. 2011, вж. също Славчева и кол. 2012).

Инструментът за транскрибиране Partitur-Editor от пакета EXMARaLDA дава възможност паралингвистичните фонемни явления в устната комуникация да се отбелязват на вербалния партитурен ред (категория v) за всеки от говорещите. Стремежът е по графичен начин да се наподоби максимално звуковата стойност. След нея се изписва и значението на паралингвистичното явление. На отделен партитурен ред (категория nv) за всеки от участниците се отразяват жестове, мимики и движения на тялото, значими за комуникацията, като се посочва по възможност и тяхната функция.

Снимка 5. Пример за отбелязването на паралингвистичните средства в българския субкорпус в рамките на корпуса GeWiss (изпитна ситуация)

↑

5.3. Нов етап на инициативата BgSpeech

Новият етап в инициативата BgSpeech е свързана със създаването на електронни ресурси за българска разговорна реч, които включват транскрипция и съответстващия ѝ аудио- или видеозапис. TEI (Text Encoding Initiative) спецификацията е приложена за кодиране на нелингвистична информация за темата на разговора, степента на подготвеност на речта, степента на официалност : неофициалност на общуването, жанровата класификация на записа, продължителността му и др. (вж. Тишева, Джонова 2010). Осъзнатата необходимост да бъдат включени не само транскрипции на разговорна, битова, необработена реч, но и данни за устна реч с различна степен на подготвеност и спонтанност, доведе в рамките на инициативата BgSpeech до решението за опростяване на системата за транскрипция, така че тя да бъде „по-четивна“ и да служи на изследователски цели не само в областта на лингвистиката, но да предоставя информация за широк кръг изследователи, интересуващи се от устното общуване на български език в най-различни сфери и ситуации: академично и бизнес общуване, комуникация в административната сфера, в ефирните медии и т.н. Включването на паралингвистичните средства в транскрипциите се регулира от приетата система на транскрипция, променяна в съответствие с целите на екипа. Според тази система се отбелязват два типа паралингвистични средства: „кинеми (напр. посочване с пръст, кимане с глава, усмивка) и фонетични паралингвистични средства (напр. ъъъ, м, ъхм)“ (Тишева, Джонова 2010). Кинемите се съпровождат с описание, а фонетичните паралингвистични средства се предават чрез приблизително отбелязване на звуковия състав. Кодирането на корпуса от разговорна реч (вж. и Атанасов 2006), вкл. и на паралингвистичните средства, дава възможност за търсене в рамките на наличните ресурси. Следните два примера от Тишева, Джонова 2010 онагледяват кодирането на фонетични паралингвистични средства и на кинесиката.

<vocaldesc="ъхм"/>

<kinesicdesc="показва джиесем"/>

Освен транскрипции на разговорна реч (неофициална, спонтанна, неподготвена), инициативата BgSpeech включва и транскрипции на устна реч, които покриват много по-широк диапазон от ситуации и сфери на устно общуване (вж. Тишева, Джонова 2011). Тук предлагаме един пример, в който проличава отбелязването на кинесиката и на застъпването на репликите (в квадратните скоби) - http://bgspeech.net/bg/resources/spoken/2012001.html

Участник 2: ами говорим много бързо хората веднага ще си кажат този иска много бързо да свърши и тва което ни говори [жестикулира върти си ръцете] може би иска ако става дума за продажби защото ораторското майсторство не е саморечие ораторското майсторство е един широк разговор даже ние с вас [посочва водещата с ръка] сега си говорим и това пак е ораторско майсторство обаче ако бързаме хората започват да си мислят че има нещо гнило и започват да се отнасят с нас с недоверие ако започнем много бавно да говорим то тогава може би публиката ще заспи затова поддържаме едно темпо средно [показва с ръце] [039 което нито бързо 040]

Участник 1: [039 умерено темпо 040]

Третият ресурс в рамките на BgSpeech е мултимедийният корпус, съдържащ транскрипции със синхронизиран аудиозапис.Транскрипциите и синхронизацията са осъществени с помощта на Partitur-Editor от пакета EXMARaLDA. Партитурният модел включва за всеки говорещ вербален ред и невербален ред, както и общ за целия запис коментарен ред. Публикуването в интернет на транскрипциите е възможно в различни формати. Тук представяме максимално сегментирания вариант, за да онагледим отбелязването на вербалните и невербалните средства в разговора. Системата за транскрипция, вкл. начините за сигнализиране на кинесиката, е почти идентична с описаната по-горе (Тишева, Джонова 2011).

Снимка 6. Пример за отбелязването на паралингвистичните средства в Мултимедийния корпус от българска устна реч

Настоящият преглед на начините и средствата за кодиране (в широк смисъл) на невербалните средства за комуникация в бази данни и корпуси от българска устна реч води до извода, че изборът им зависи от предназначението на тези ресурси и изследователските цели на екипа. Нито един от електронните ресурси (бази данни и корпуси с транскрипции на българска реч) няма за основна цел да представи разнообразието от невербални средства за общуване, затова и в транскрипционните системи не е предвидена детайлна спецификация. Прилаганите у нас системи за кодиране дават основна информация за взаимодействието между вербалното и невербалното, а интересуващите се от невербалния аспект могат да получат повече емпирични данни от видеоархива към корпуса от устна реч или от мултимедийния корпус.

Транскрипциите, реализирани в рамките на настоящия проект, също са осъществени с ресурсите на пакета EXMARaLDA, конвенцията и системата за транскрипция, която е адаптирана спрямо програмния пакет и спецификата на явленията в българската устна реч.

↑

6. За бъдещото развитие – мултимодалните корпуси

Бъдещето на работата върху съществуващите ресурси включва и задачата за по-детайлно отразяване на невербалното общуване. Примери за това съществуват в мултимодални корпуси, като интересуващите се могат да намерят повече информация напр. в публикациите на сайта http://www.multimodal-corpora.org/index.html, който съдържа линкове към деветте издания на Workshop on Multimodal Corpora. Най-общо мултимодалните корпуси се отличават с богата анотация на устната комуникация в различните ѝ модалности, конкретизирани в англоезичната литература като вербална изява, невербални средства за комуникация, контекстуални особености и др. В тези корпуси са налични различни равнища на езиков анализ – фонетично, прозодично, синтактично, прагматично и др.; като освен това транскрипциите са синхронизирани с видеофайл. В тази част от работа се опитваме да очертаем бъдещето в създаването на електронни ресурси с българска устна реч. Изпълнявайки тази задача, даваме примери за по-детайлно кодиране на невербалното общуване, като си служим най-вече с MUMIN multimodal coding scheme, тъй като е свързана с работа по проекта Българско-шведският проект “Multimedia and Multimodal Spoken Language Corpora Analysis – Stage 1“. Не си поставяме задачата да съпоставяме съществуващи мултимедийни корпуси, анотационни схеми и инструменти за кодиране, защото това излиза извън целите на тази част от настоящата работа – да посочим едно възможно развитие на електронните ресурси от българска устна реч, в които са кодирани невербални средства за комуникация.

Авторите на MUMIN multimodal coding scheme (Allwood et al. 2005) онагледяват различията между едномодалната и мултимодалната анотационна схема, във връзка с невербалната комуникация, чрез следните две таблици.

Modality	Expression type
Facial displays	Eyebrows
	Eyes
	Gaze
	Mouth
	Head
Gestures	Hand gestures
Gestures	(Body posture)
Speech	Segmental
Speech	(Suprasegmental)

Таблица 1. Анотация при един говорещ (Unimodal annotation level)

	Gesture/facial display speaker 1	Gesture/facial display speaker 2
Speech speaker 1	within-speaker	across-speakers
Speech speaker 2	across-speakers	within-speaker

Таблица 2. Анотация при наличие на повече говорещи (Multimodal correspondences in two-party dialogue)

Това, което отличава мултимодалните корпуси от другите корпуси с данни от устна реч, е стремежът всички канали/модуси на комуникацията да бъдат представени – реч, жестове, движения на тялото, мимики. В тези корпуси се работи с анотационни схеми, съдържащи класификация на невербалните средства. Това различава мултимодалните корпуси от други корпуси с устна реч, в които невербалните средства се описват в свободен текст. Всеки анотиран жест или мимическо изражение е обвързан с вербална или невербална изява, като се отчита жестът или мимиката с речта (или с невербалното поведение) на кой от комуникаторите е свързана (напр. смръщването на вежди в знак на несъгласие като реакция на речта на другия участник в разговора).

В мултимодалните корпуси обект на анотиране са жестове, положение/движение на тялото, мимики и др. движения на лицето или части от него. Isabella Poggi предлага схема на продуктивните органи на човешкото тяло, които играят значима функция в общуването (вж. таблица 3) (Poggi 2005).

Таблица 3. Продуктивни органи на човешкото тяло и кореспондиращите им комуникативни системи (Poggi 2001)

При оформянето на атонационните схеми на жестовете създателите на мултимодални корпуси често се опират в теоретичен аспект на работите на MacNeill (MacNeill 1992, 2005). Приемайки класификацията на MacNeill, създателите на френския Corpus of Interactional Data (Tan et al. 2010) анотират и изследват следните типове жестове: иконични, метафорични, деиктични жестове, жестове емблеми, ударни (свързани с ритъма), адаптори (нямат специално отношение към речта, а към комфорта на съкомуникатора) и жестове при търсене на подходящата дума (т. нар. butterworths).

В MUMIN multimodal coding scheme се използва следвана класификацията на жестовете (вж. таблица 4).

Hand gestures	Handedness	Both hands Single hand	Both-H Single-H
	Trajectory	Up Down Sideways Complex Other
	Semiotic type	Indexical Deictic	Index-Deictic
		Indexical Non-deictic	Index-Non-deictic
		Iconic	Iconic
		Symbolic	Symbolic
	Feedback give (F-Give) basic	Contact/continuation Perception Understanding	CPU
	Feedback give (F-Give) basic	Contact/continuation Perception	CP
	Feedback give (F-Give) acceptance	Accept
	Feedback give (F-Give) acceptance	Non-accept
	Feedback give (F-Give) emotion/attitude	Happy Sad Surprised Disgusted Angry Frightened Certain Uncertain Interested Uninterested Disappointed Satisfied Other
	Feedback elicit (F-Elicit) basic	E-Contact/continuation Perception Understanding	E-CPU
	Feedback elicit (F-Elicit) basic	E-Contact/continuation Perception	E-CP
	Feedback elicit (F-Elicit) acceptance	E-Accept
	Feedback elicit (F-Elicit) acceptance	E-Non-accept
	Feedback elicit (F-Elicit) emotion/attitude	Happy Sad Surprised Disgusted Angry Frightened etc.
	Turn-gain	Turn-take	Turn-T
	Turn-gain	Turn-accept	Turn-A
	Turn-end	Turn-yield	Turn-Y
	Turn-end	Turn-elicit	Turn-E
	Turn-hold	Turn-complete	Turn-C
	Sequencing	Opening sequence	S-Open
		Continue sequence	S-Continue
		Closing sequence	S-Close
	Multimodal relation	Non-dependent	Non-dependent
		Dependent-compatible	Compatible
		Dependent-incompatible	Incompatible

Таблица 4. Схема за анотиране на жестовете в MUMIN (Allwood et al. 2005).

При анотирането на жестовете се отбелязва началото и краят им, което оформя т.нар. жестова фраза. Целта е да се представят комуникативните функции на жестовете и мимиките, затова и кодирането им в MUMIN се изчерпва с две характеристики: Handedness (Both hands: both hands are involved // Single hand: either right or left hand are involved alone) и Trajectory (Up: the stroke of the gesture is upwards; Down: the stroke of the gesture is downwards; Sideways: the stroke of the gesture is sideways; Complex: the gesture is a complex combination of Up, Down and Sideways; Other).

Съществуват много по-детайлни схеми за анотиране на жестовете, напр. в корпусите на McNeill Lab (вж. http://mcneilllab.uchicago.edu/analyzing-gesture/intro_to_annotation.html), в които се кодират пет фази на жеста (preparation, prestroke hold, the stroke itself, poststroke hold, and retraction).

Gesture phases:
A gesture as it is usually defined passes through up to five phases: preparation, prestroke hold, the stroke itself, poststroke hold, and retraction; all are optional except for the stroke. The stroke caries the imagistic content of the gesture and is the phase whose synchrony with speech is maintained by the speaker. The following transcription illustrates many of these features (transcription by S. Duncan; the illustrations show three stages of the gesture):
/ tryi[ng to swing across by a rope #]
prep hold stroke hold retract

Transcription: Iconic; 2 similar hands; A-shape; palms toward body; fingers turned down; starts at right and arcs to other side with slight wrist pivot. Hands =S's hands, character vpt = S; arc = trajectory, observer vpt. S swings on rope

http://mcneilllab.uchicago.edu/analyzing-gesture/intro_to_annotation.html)

Изражения на лицето, породени от движение на мускулите на челото, движения на веждите, очите, устните, на цялата глава също са обект на кодиране в мултимодалните корпуси. Например в MUMIN те се записват от анотаторите само когато имат специфична комуникативна функция (без да се забравя, че и неутралното състояние може да бъде функционално натоварено). Авторите смятат, че израженията на лицето в конкретни случаи могат да имат фонологични функции („for example articulatory gestures“), граматически функции („for example eyebrow raising on pitch accented words“), семантични функции („for example nods and smiles to express feedback“), социални функции („for instance politeness smile“) (Allwood et al. 2005).

Facial display feature

Form of expression/

Movement values

Value

Short tag

General face

Smile

Laughter

Scowl

Other

Smile

Laugh

Scowl

Other

Eyebrows

Frowning

Raising

Other

Frown

Raise

Other

Eyes

Exaggerated Opening

Closing-both

Closing-one

Closing-repeated

Other

X-Open

Close-BE

Close-E

Close-R

Other

Gaze

Towards interlocutor

Down

Sideways

Other

Interlocutor

Down

Side

Other

Mouth

Openness

Open mouth

Closed mouth

Open-M

Close-M

Lips

Corners up

Corners down

Protruded

Retracted

Up-C

Down-C

Protruded

Retracted

Head

Single Nod (Down)

Repeated Nods (Down)

Single Jerk (Backwards Up)

Repeated Jerks (Backwards Up)

Single Slow Backwards Up

Move Forward

Move Backward

Single Tilt (Sideways)

Repeated Tilts (Sideways)

Side-turn

Shake (repeated)

Waggle

Other

Down

Down-R

BackUp

BackUp-R

BackUp-Slow

Forward

Back

Side-Tilt

Side-Tilt-R

Side-Turn

Side-Turn-R

Waggle

Other

Таблица 5. Схема за анотиране на движенията на главата и на лицето в MUMIN (Allwood et al. 2005).

Мултимодалната система за кодиране MUMIN и инструментът на кодиране ANVIL (Annotation of Video and Language Data) (вж. http://www.dfki.de/~kipp/anvil2/doc/anvil36-quickref.pdf) се използват за създаване на мултимодални корпуси на различни езици, напр. шведски, датски, фински, естонски по проекта NOMCO (Nordic Multimodal Communication) (вж. Paggio, Navarretta 2012), а и на френски език в Corpus of Interactional Data, посочен по-горе.

Снимка 7. Инструментът на кодиране ANVIL (http://www.dfki.de/~kipp/anvil2/doc/anvil36-quickref.pdf)

В края на този текст още веднъж подчертаваме, че съществуват множество мултимодални корпуси, различаващи се по детайлността на анотациите на невербалните средства, по използваните анотационни инструменти, които не представяме тук в съпоставителен план, подчинявайки текста на задачата да очертаем едно възможно развитие на българските ресурси.

↑

Цитирана литература

Алексова, К. авт, 2000. Езикът и семейството : Към методиката за проучване на речта в микрообщностите, София: Интервю прес.
Алексова, К., Ласкова, Л. & Велкова, Й. авт-ри, 2011. Корпус от студентска научна реч. Български език, //, с-ци72–88.
Атанасов, А. авт, 2006. Проблеми при създаването на езикови корпуси с транскрибирана българска разговорна реч. Паисиеви четения. Научни трудове, 44, с-ци289–296.
Байчев, Б. & Виденов, М. авт-ри, 1988. Социолингвистическо проучване на град Велико Търново, София: Наука и изкуство.
Виденов, М. авт, 1982. Към българската паралингвистика. Годишник на СУ „Кл. Охридски“, Факултет по славянски филологии, 72(1), с-ци6 – 93.
Димитрова, Е. авт, 2004. Диглосията в град Криводол (социолингвистично изследване), София: Хебър.
Ефтимова, А. авт, 2002. Невербалната комуникация в телевизията, София: СЕМА РШ.
Ефтимова, А. авт, 2005. Опит за партитурно описание на мултимодалната комуникация. В Езиковедски приноси в чест на чл.-кор. проф. Михаил Виденов. Велико Търново: Университетско издателство "Св. св. Кирил и Методий" ; Международно социолингвистическо дружество, с-ци 379–389.
Йотов, Ц. авт, 1991. Лингвистика одновременного говорения, София: Университетско издателство „Св. Климент Охридски“.
Каневска-Николова, Е. авт, 1998. Смолянският градски говор, София: Международно социолингвистическо дружество.
Маринов, В. авт, 2008. Билингвална интерференция в крайния български северозапад, Велико Търново: Астарта.
Петрова, К. & Алексова, К. авт-ри, 2003. Някои приложения на корпусната лингвистика в езиковедските изследвания. В Шести славистични четения "Славистиката в началото на ХХІ век - традиции и очаквания", 26-27.04.2002 г. София: Сема РШ.
Славчева, А. и съавт. авт-ри, 2012. Сравнителният корпус от академична реч GeWiss и българските данни в него. Littera et Lingua, (1 ). Available at: https://naum.slav.uni-sofia.bg/lilijournal/2012/1/slavchevaa [Отворен на 20.10.2014AD].
Стефанова, М. авт, 1994. Паралингвистичната етикетна кинетика в българската книжовно-разговорна реч. В: Проблеми на българската разговорна реч, книга втора, . . .ите. В Проблеми на българската разговорна реч. Велико Търново: Университетско издателство „Свв. Кирил и Методий“, с-ци 142 – 152.
Стефанова, М. авт, 1999. Паралингвистичният етикетен език, Шумен: Антос.
Тишева, Й. & Джонова, М. авт-ри, 2010. Електронни ресурси за българската разговорна реч (инициативата BgSpeech). Littera et Lingua, (2).
Тишева, Й. & Джонова, М. авт-ри, 2011. Корпус с устна българска реч – специфика и структура. Български език, 58, с-ци34 – 53.
Тишева, Й. и съавт. авт-ри, 2013. Граматика и устна реч, София: Фондация „Фокус“.
Трендафилова, П. авт, 1995. Кинеми с паралингвистична функция в българската разговорна реч. Русе: Русенски университет „Ангел Кънчев“.

Allwood, J. и съавт. авт-ри, 2005. The MUMIN multimodal coding scheme, Available at: http://sskkii.gu.se/jens/publications/bfiles/B70.pdf [Отворен на 20.10.2014AD].
McNeill, D. авт, 1992. Hand and Mind, Chicago: University of Chicago Press.
McNeill, D. авт, 2005. Gesture and Thought, Chicago: University of Chicago Press.
Nivre, J. авт, 1999. Modifierad Standard - Ortografi (MSO) Version 6.
Nivre, J. авт, 1999. Transcription Standard. Version 6.2.
Paggio, P. & Navarretta, C. авт-ри, 2012. Classifying the Feedback Function of Head Movements and Face Expressions. В Multimodal Corpora: How Should Multimodal Corpora Deal with the Situation?. Luxembourg: European Language Resources Association, с-ци 34 – 38.
Poggi, I. авт, 2005. Towards the alphabet and the lexicon of gesture, gaze and touch. Konferenzmaterialienzur FG "Embodied communication in humans and machines". Available at: http://www.semioticon.com/virtuals/talks/geyboui41.pdf.
Tan, N. и съавт. авт-ри, 2010. Multi-level Annotations of Nonverbal Behaviors in French Spontaneous Conversations. International Conference for Language Resources and Evaluation (2010), с-ци74–79. Available at: http://hal.archives-ouvertes.fr/docs/00/48/88/32/PDF/Tan_et_al._LREC_2010.pdf [Отворен на 20.10.2014AD].
Schmidt, T., Elenius, K. & Trilsbeek, P. авт-ри, 2010. Multimedia Corpora (Media encoding and annotation). Interoperability and Standards : CLARIN-D5C-3. Ed.: Erhard Hinrichs, Iris Vogel. CLARIN - Common Language Resources and Technology Infrastructure. 2010., с23 S. Available at: http://www.yumpu.com/en/document/view/6590159/multimedia-corpora-media-encoding-and-annotation [Отворен на 20.10.2014AD].

1. В настоящия текст се представят материали, свързани с дейностите по проекта „Изследване на модели и средства в различни речеви ситуации и сфери на общуването в съвременния български език“, финансиран от Фонд „Научни изследвания“, дог. № ДТК 02/ 11 от 16.12.2009 г. Изказваме благодарност на Фонд „Научни изследвания“ за подкрепата в изучаването на съвременната българска устна реч. Съкратен вариант на настоящия текст е публикуван в Тишева и кол. 2013.

Етикети:

паралингвистика