Skip to content Skip to navigation

Електронни ресурси за българската разговорна реч (инициативата BgSpeech)

В статията се представят електронните ресурси за българската разговорна реч, които могат да намерят приложение в обучението по съвременен български език. Акцентът е поставен върху ресурсите, публикувани в рамките на инициативата BgSpeech на сайта за българска разговорна реч, поддържан от Факултета по славянски филологии на СУ „Св. Климент Охридски“ - bgspeech.net.

This article presents a brief overview of the digital resources for colloquial Bulgarian available on the Internet and discusses their implementation into the academic languages courses. Being the most dynamic part of Contemporary Bulgarian, colloquial speech (spoken Bulgarian) requires specific means for adequate description and analysis. The focus is mainly on the description, analysis and editing options with computer tools of data collected by the BgSpeech initiative.

За българския език съществуват вече електронни ресурси, които са представителни за неговата писмена форма. Такива ресурси са Българският национален корпус (БНК), който отразява състоянието на българския език предимно в неговата писмена форма от средата на ХХ в. до наши дни (Коева, Стоянова 2009: 137), както и Синтактичният корпус на българския език (СКБЕ) (Simov, Osenova 2004, Симов, Осенова 2005). В посочените корпуси обаче устната реч е слабо застъпена – под 1 % в Българския национален корпус (Коева, Стоянова 2009: 140), т.е. голяма част от процесите, характерни за съвременното състояние на разговорната реч, не са представени в посочените корпуси. Нашият екип се насочва именно към създаването на корпус от българската разговорна реч, представителен за актуалните тенденции в българската разговорна реч, т.е. да се базира на актуални записи от различните сфери на употреба на разговорната реч.

 

Електронни ресурси за българската разговорна реч

В момента съществуват електронни ресурси за българската разговорна реч, които са достъпни в интернет. Основен недостатък на съществуващите ресурси е, че те не ползват общ формат за записване на разговорната реч, както и че не са подходящи за електронна обработка и автоматично ексцерпиране на данни. Това е основната причина те да не могат да бъдат включени без допълнителна обработка в рамките на съществуващите корпуси на българския език. Същевременно съществуващите електронни ресурси за българската разговорна реч се базират предимно на записи от сферата на битово общуване, т.е. съществуващите транскрипции не са представителни за всички сфери на устната комуникация.

Първите корпуси1 на българската разговорна реч, публикувани в интернет, са резултат от работата на Хетил Ро Хауге от Университета в Осло, Норвегия (BLL). Той публикува няколко корпуса от разговори в семейната среда: 1) корпус, събран от Красимира Алексова от Факултета по славянски филологии, СУ "Св. Климент Охридски", като материал за дисертацията й Езикови процеси в семейството (върху материал от столицата) (Алексова 2000); 2) корпус от разговорна реч, събран от Цветанка Николова в периода 1975-77 г. и използван при съставянето на Честотен речник на българската разговорна реч (Николова 1987); транскрибирани от Иванка Мавродиева дебати в Седмото велико народно събрание от 31 октомври 1990 г.; база данни от чатове, записани през 2001 г. Основната характеристика на описаните електронни ресурси е, че те представляват бази данни от разговорна реч, свързани с много тесен кръг от комуникативни ситуации (най-вече общуване в семейството); нямат маркирана структура - информацията в тях не е разделена по параграфи, изречения и т.н., и нямат единен начин на записване. Данните са представени във вид на текстов файл и не предполагат търсене по анотирани елементи, например части на речта, части на изречението, синтактични конструкции, прагматични маркери, едновременно говорене и т.н. и по тази причина не са подходящи за обработка с електронни програми с цел ексцерпиране на емпиричен материал от разговорната реч. Основната причина за липсата на единност при съставянето на посочените бази данни е, че те са създадени за целите на конкретни лингвистични проучвания.

 

Инициативата BgSpeech

Целта, която си поставяме в рамките на инициативата BgSpeech, е създаването на достъпен анотиран корпус, представителен за актуалното състояние на българската разговорна реч, което е свързано и с постоянното обновяване на корпуса с нови записи и транскрипции. Корпусът трябва да е достъпен и да е във формат, подходящ за електронна обработка и ексцерпиране на данни. Така потребителите на корпуса (изследователи, преподаватели, студенти) ще могат да получат цялостна представа за съвременното състояние на българския език – от една страна, чрез корпусите от писмени текстове, а от друга страна – чрез корпуса от разговорна реч. Изследванията върху актуалните тенденции в устната реч, базирани на събрания в корпуса материал, както и тези, свързани с електронната обработка на текстовете, се публикуват в електронна библиотека, достъпна свободно на страниците на проекта (http://bgspeech.net/bg/publications/razgovorna_rech_bg.html).

Изпълнението на целите, които си постави инициативата BgSpeech, започна с работата по проекта Младежката комуникация 2003 г. (с подкрепата на ЮНЕСКО) и със създаването на интернет сайта за българска разговорна реч bgspeech.net. По проекта бяха събрани аудио- и видеозаписи, представителни за съвременното състояние на речта на младите в ситуация на официално (академично) и неофициално общуване. Беше изработен единен модел за транскрибиране и за представяне на българската разговорна реч в електронен формат. В съответствие с избраната транскрипция бяха публикувани в текстов формат първите транскрибирани записи. В рамките на поредица от проекти на Факултета по славянски филологии с участието най-вече на преподаватели от Катедрата по български език, студенти по българска филология, магистранти по лингвистика и докторанти на Катедрата по български език базата данни за българската разговорна реч беше допълнена с нови данни за динамиката на съвременния български език: нови записи, представителни за комуникацията в официална (презентации, интервюта за работа, журналистически интервюта) и в неофициална ситуация. Беше изследвано жанровото разнообразие на разговорния стил (ученическа реч, интервю и др.). Беше поставено началото на видеоархив за българската разговорна реч с цел проучването на паралингвистичните (невербалните) елементи на комуникацията.

В момента дейността на екипа е свързана с избора на стандарт за анотиране на съществуващата база данни за разговорната реч и трансформирането й в електронен корпус на българската разговорна реч, който да може да се обработва с достъпни електронни програми. Цел на екипа е и обогатяването на корпуса с данни за конкретни лингвистични проучвания в областта на морфологията и синтаксиса.

 

Разговорна реч vs. писмени текстове

Корпусът от разговорна реч се отличава съществено от корпусите от писмени текстове. На първо място, корпусът не се базира на готови текстови архиви. Първият етап от създаването на корпуса от разговорна реч е изработването на критерии за събиране на аудио- и видеоархив, на който да се основава корпусът. Тези критерии включват определяне на жанровите разновидности на разговорната реч и изискването за пропорционалност на записите от всяка от сферите на общуване. Подборът на записи, които ще бъдат транскрибирани в текстов формат и ще бъдат включени в корпуса, е вторият етап от създаването му. Записите трябва да са с добро качество, така че бъдещите потребители да могат да разполагат едновременно с текстовия формат на корпуса и със съответния аудио-/видеозапис. Следващият етап от създаването на корпуса от разговорна реч е свързан с транскрибирането на подбраните записи. Специфична особеност на създаването на корпуси от разговорна реч е, че транскрибирането на устната реч в писмена форма е съпроводено и със синтактична анотация на корпуса. Устната реч се характеризира с липсата на пунктуационно и графично оформяне (за разлика от писмената реч), но изказванията са оформени интонационно, налице са и паузи, които са белег за границите между отделните изказвания. Следователно, за да бъде успешно представянето на разговорната реч във вид на електронен корпус, първият етап от анотирането на корпуса трябва да е свързан със синтактичната анотация. За сравнение в корпусите от писмени текстове първо се анотират частите на речта, след това се прави морфологична анотация, а синтактичната анотация е третият етап от обработката на корпуса.

При транскрибирането на разговорна реч е необходимо да се отбелязват границите между репликите на отделните говорещи, както и границите между изказванията на един и същи говорещ. Важна характеристика на устната комуникация е, че тя е съставена от реплики. Това се отразява и върху цялостната структура на корпуса от разговорна реч и е една от основните причини създадените компютърни средства за работа със стандартни корпуси от писмени текстове да не са приложими при обработката на транскрипции на записи „жива" реч. Един от основните проблеми при транскрибирането на разговорна реч е именно делението на изказванията и липсата на съответствие между границите на писмените изречения и устните изказвания. Когато се разглеждат проявите на устната спонтанна реч, обикновено се отбелязва, че тя протича под формата на диалог. Този факт дори се изтъква като една от спецификите на устните текстове. Диалогът е форма за развитие на темата и в писмените текстове - в художествената литература, както в наративните жанрове, а и в още по-голяма степен в драматургичните произведения. В тези текстове обаче диалогът се развива плавно и постъпателно. В устното общуване говорещите доста рядко си разменят цели изречения; в устната реч преобладават фрази, част от фрази или от изречения. Въпреки това системно нарушаване на граматиката на текста комуникацията се реализира успешно.

За да бъде предадена адекватно в писмена форма устната реч, в рамките на първоначалната обработка на текстовете се отбелязва комуникативният статус на изказването (съобщителни, повелителни, въпросителни и т.н. изказвания). Едно и също изказване може да бъде съобщително или въпросително в зависимост от интонационното си оформяне: „Ще се видим.“ - „Ще се видим?“. Именно с цел избягването на двусмислие при възприемането на транскрипциите е необходимо анотирането на комуникативния статус на изказването.

В нормативно отношение също се наблюдават съществени разлики между писмената и устната реч, които налагат прилагането на различни подходи при синтактичното анотиране на корпуса. Пример за такова различие е правилото за употреба на пълен/кратък член при имената от м.р., което е правописно правило и не се отнася до разговорната реч. При автоматичното анотиране на синтаксиса на разговорната реч трябва да се търсят други средства за разграничаване на подлога от допълнението, тъй като в разговорната реч се употребява най-често само кратък член.

Характерно за разговорната реч е и това, че тя в много по-малка степен в сравнение с писмената реч се подчинява на препоръките на нормативните граматики (такива са препоръките за избягване на удвояването на допълнението, избягване на неопределителния член един, замяна на дето с който, употребата на винителни форми на местоименията кого, някого, никого, когото и др.). В разговорната реч се употребяват и редица изговорни варианти на дадена дума, например: мене – мен, нашите – наште, ще – ше, шъ, ш, сега – са, ся. Същевременно устната реч се отличава с проявата на редица иновации – новите тенденции в езика, които са в процес на укрепване или отпадане. Само утвърдените в разговорната реч иновации се регистрират от кодификатора и стават част от книжовната норма. С други думи създаването на корпус от българска разговорна реч е свързано с предварително теоретично описание на т.нар. маркери на разговорността (Алексова 2000, 2002, 2005; Тишева 2006) като основа за синтактичното анотиране, тъй като много от тези особености на разговорната реч не са описани в нормативните граматики или се определят единствено като грешки, отклонения от нормата.

Важна характеристика на изказванията в устната реч е и тяхната относително по-голяма спонтанност и неподготвеност в сравнение с писмените текстове. Писмените текстове подлежат на редица редакции и корекции - често не само от автора на речта. Тези редакции често се правят и с отстояние във времето, могат да са свързани и с промяна в нормативния правопис. Това се отнася и до т.нар. стилизирана разговорна реч в писмените текстове. В устната реч дори и при подготвено изказване (напр. лекция, изказване, интервю за работа, бизнес презентация) са налице непълни от гледна точка на нормата изказвания, отклонения от правилата за съгласуване, както и автокорекции, съвпадащи по време с момента на създаването на речта. Всичко това е свързано с необходимостта от специално анотиране на тези особености на разговорната реч с цел коректното структуриране на корпуса.

Употребата на спонтанната разговорна реч се влияе и от социолингвистични фактори, като възраст, пол, социално положение, сфера на общуване, като един и същ говорещ може да използва различен регистър в зависимост от типа събеседник и типа общуване (официално/неофициално). Тези характеристики се отбелязват в корпуса от разговорна реч и позволяват на потребителя да прави специализирано търсене на дадена конструкция или дадена дума в зависимост от типа общуване, възрастта на комуникантите, техния произход и т.н.

 

Специфика на електронните ресурси за разговорната реч

С какво се отличават електронните ресурси за разговорната реч? На първо място, тяхна съществена отлика е, че на всеки текстов файл съответства аудио- или видеозапис, т.е. корпусът от разговорна реч се състои от аудиоархив, видеоархив и транскрипции.

Аудио- и видеоархивът, на които се основава корпусът, трябва да са представителни – т.е. освен битовата сфера да обхващат и медийното общуване, общуването в т.нар. официална сфера – в училище, в университета, при кандидатстване за работа, при общуването с клиенти в бизнес сферата и т.н.; да включват както спонтанна, неподготвена реч, така и подготвена – тип интервю, изказване. Това налага определянето на критерий, по който да се класифицират на първо място аудио- и видеозаписите. В BgSpeech записите от разговорна реч са класифицирани според жанровата си характеристика. В жанрово отношение разговорната реч също се отличава от писмената реч, традиционно включваща художествен, научен и административно-делови стил. Жанровата класификация на записите от разговорна реч се прави във връзка с критериите сфера на употреба, официално/неофициално общуване, степен на подготвеност на речта. От тази гледна точка различаваме битова разговорна реч, медийна реч, политическа дискурс, публична реч, ученическа реч, бизнес общуване и интервю. Всеки от записите е придружен и от социолингвистични данни за информаторите, както и от данни за записа (кога и къде е осъществен записът, продължителност, кога и каква част от записа е транскрибирана).

Текстовият архив се състои от транскрибирани записи от разговорна реч, като те могат да бъдат синхронизирани със съответния аудио- или видеозапис. Транскрипциите съдържат лингвистична и нелингвистична информация. За установяване на система за транскрибиране на записите екипът проведе поредица от семинари и консултации с експерти в областта на корпусната лингвистика, фонетиката и фонологията, социолингвистиката и прагматиката. Бяха транскрибирани част от записите, за да се провери приложимостта на избрания стандарт за транскрибиране, в резултат на което бяха нанесени и някои корекции в първоначалния вариант на модела за записване на разговорната реч.

Според така избрания стандарт нелингвистичната информация включва, от една страна, метаинформация по отношение на участниците като пол, социален статус, години, местожителство, месторождение, образование. Имената на участниците са анонимизирани, тъй като това е едно от основните изисквания при публикуването на транскрипции от разговорната реч – те да се използват единствено за научноизследователски и образователни цели. От друга страна, част от нелингвистичната информация, съдържаща се в транскрипциите, е свързана с посочването на темата на разговора, подготвеност/спонтанност на речта, официално/неофициално общуване, жанрова класификация на записа, продължителност на записа, транскрибирана част, наличие на шум или неясни части от записа. Посочените характеристики са направени с помощта на спецификацията на научния консорциум Text Encoding Initiative (TEI) с цел електронната обработка на транскрипциите в рамките на корпуса.

При транскрибирането на разговорна реч е необходимо да се избере стандарт за записването на речта, който да отчита съответствията и несъответствията с писмената форма на книжовния език и в същото време да се отличава от детайлната фонетична транскрипция, възприета при представянето на диалектни записи. Лингвистичната информация, която се представя в транскрибираните текстове, е свързана с няколко типа характеристики на разговорната реч. От една страна, това са някои фонетични особености, интонационното оформяне на изказването и паузите, които говорещите правят и които могат да имат различна продължителност. Разговорната реч се отличава и със засилената употреба на специфични лексеми. Отбелязват се и морфосинтактичните маркери на разговорност (Алексова 2000, 2002, 2005; Тишева 2006), както и типът комуникация, наличието на незавършени изказвания, автокорекции (speech repairs) и прагматични маркери (fillers) (Tisheva, Dzhonova 2006).

При представянето на структурата на диалога в устната комуникация специално внимание се обръща на следните особености: прекъсване и вземане на думата, застъпвания на реплики на говорещите (вместо последователна размяна на реплики), едновременно говорене. Все още за българската разговорна реч липсват проучвания по някои въпроси, свързани с тези явления - в кой момент от речевото общуване е налице прекъсване, застъпване или едновременно говорене, с каква цел и с какви граматически средства се прави това, с какви прагматични маркери се означава този момент от комуникацията.

В разговорната реч говорещите натоварват изказванията си не само с информация за събития, факти или обекти от действителността. В началото, в средата или в края на изказването може да присъстват думи или фрази, които не носят информация по представяната тема, а показват отношението на говорещия към темата, към събеседника, към речевата ситуация. Тези елементи от изказването са т.нар. прагматични маркери. Една от функциите им е да участват в изграждането на текста. С тях говорещият може да цели да въздейства върху поведението на слушателя (като улесни „прочита” на изказването, като предизвика определена реакция, например приемане или несъгласие спрямо изказаното твърдение). Прагматичните маркери са средство и за социално взаимодействие в хода на комуникацията. С тяхна помощ говорещият може да запази или да промени по определен начин своя цялостен имидж, например като омаловажи дадено свое твърдение, като изрази съмнение вместо подкрепа за спорно твърдение и т.н. Системата от прагматични маркери в българския език засега е проучена в сферата на неофициалното общуване. Предстои анотирането в корпуса от разговорна реч на прагматичните маркери, така че научните хипотези във връзка с тяхната употреба да могат да бъдат верифицирани.

При публикуването на текстове, в които се отразява ситуация на реално устно общуване, се налага да се определят и начините, по които ще се организират както отделните текстове, така и целият корпус. За сравнение стандартните писмени текстове се организират в глави, параграфи, абзаци, редове. Практиката при транскрипциите на български език показва приложението на два модела. При транскрибиране на диалектни текстове се записва само речта на информатора, затова резултатът е текст, доста близък по структура до наративните (монологични) текстове. При транскрибиране на разговорна реч от значение е речевото поведение на всички участници в общуването, затова се запазва диалоговата структура. Такава структура е избрана за текстовете във всички публикувани досега бази данни за българската разговорна реч.

Следващата стъпка по обработка на текстовия масив е линеаризацията на диалога. Така се означава процесът на сегментиране на речта на всеки говорещ на по-малки единици, подредени по определен начин. Речевата продукция се организира в реплики, изказвания и интонационни единства. Предстои да се решат някои въпроси, свързани със структурирането на корпуса, например как да се представят няколко последователни реплики на един и същ говорещ, разделени от паузи, смяна на мястото и под., но без смяна на ролите (без включване на изказвания на нов говорещ).

В транскрибираните текстове в BgSpeech се отбелязват и някои паралингвистични особености на изказването, където е налице информация за тях, поради факта, че те са част от цялостния процес на устно общуване. В корпуса се различават два типа паралингвистични средства – кинеми (напр. посочване с пръст, кимане с глава, усмивка) и фонетични паралингвистични средства (напр. ъъъ, м, ъхм).

 

Анотиране на разговорната реч в корпуса

Анотирането на разговорната реч във вид на електронен корпус също налага специфични решения (Атанасов 2006, Atanasov 2006). Както беше посочено, не е възможно да се използват единствено моделите за създаване на анотиран корпус на писмената реч. От една страна, това е свързано с организацията на устната комуникация в изказвания, които не съвпадат с писмените изречения и не са оформени пунктуационно. От друга страна, устната комуникация включва освен реч и редица паралингвистични особености, при нея оказват влияние и социолингвистичните характеристики на говорещите, както и типът речева ситуация.

Анотирането на транскрипциите от разговорна реч цели те да са подходящи за електронна обработка. Това е причината при избора на стандарт за анотиране да се спрем на TEI спецификацията, по-точно на частта, предназначена за обработка на разговорна реч, и да предпочетем XML като формат за записване и анотиране на транскрипциите (XML ). Така корпусът може да се обработва и със свободно достъпни програми за обработка на XML файлове.

Всяка транскрипция във вид на XML файл се състои от два елемента - <teiHeader>, в който се записва нелингвистичната информация, и <text>, в който се представят транскрибираният текст и лингвистичната информация, свързана с него. TEI спецификацията, предназначена за обработка на разговорна реч, препоръчва в TEI header (заглавката на всеки файл от корпуса) да се съдържат следните елементи: <fileDesc>, <profileDesc>, <encodingDesc> и <revisionDesc>.

Тук накратко се представят елементите, които се съдържат в заглавката на всеки файл от корпуса от разговорна реч. Описанието на файла <fileDesc> съдържа пълно библиографско описание на самия компютърен файл, така че потребителят да може да го цитира или каталогизира коректно. Тук се включва и информацията за източника или източниците, от които е създаден електронният документ. В корпуса от разговорна реч са задължителни следните данни за файла: номер на файла, продължителност на записа, издател, източник на файла – т.е. на кой аудио- или видеофайл съответства. Данните за файла могат да бъдат допълнени и с информация за това кой е създал съответния XML файл, кога е публикуван файлът, с каква техника е записан аудио- или видеофайлът, източник на транскрипцията, кой е осъществил записа2.

В заглавката на файловете от корпуса от разговорна реч в рамките на елемента <encodingDesc> се описва и отношението между електронния текст и неговия източник. Тук се предоставя детайлна информация за това дали и как текстът е нормализиран по време на транскрибирането, как са решени двузначностите (ambiguities) в източника, какви нива на анотиране и анализ са приложени.

Данните за самата транскрипция се представят в елемента <profileDesc>. Тук се предоставя класифицираща и контекстуална информация за текста като тема, ситуация, в която е произведена речта, лица, описани в записа или участващи в него, и т.н. В тази част от заглавката задължително се включват следните данни за текста: дата на осъществяване на записа, език, които се използват в общуването, жанр, степен на подготвеност, цел. Транскрипциите се класифицират според няколко критерия. Според използвания канал (<channel>) те се характеризират като устна комуникация, която от своя страна може да е проведена по радиото, по телевизията, по телефона, лице в лице или по интернет. Според сферата на общуване (<domain>) транскрибираните записи се класифицират като битово общуване, медии, политически дискурс, ученическа реч, публична реч, интервю. Отбелязва се и дали речта е спонтанна или е предварително подготвена (<preparedness>). Транскрипциите се класифицират и според целта на общуването: разговор, лекция, интервю, дискусия, изявление, коментар, изпит и др. Тази детайлна класификация на транскрибираните записи позволява разширено търсене в корпуса по посочените елементи.

В рамките на елемента <profileDesc> се предоставят и данните за участниците и присъстващите на разговора. Задължителни са елементите роля на лицето (участник/присъстващ), фиктивен номер и пол. Когато са налице допълнителни данни за лицето, тук се посочват и неговата възраст, занятие, образование, място на раждане и местожителство.

Тук в рамките на елемента <settingDesc> може да се даде информация (ако е налична) за мястото и датата, когато е осъществен записът, както и за съпровождащата разговора дейност, например:

{codecitation style="brush: xml;"}
<setting>
  <name>София, България</name>
  <date>2010</date>
  <locale>училище</locale>
  <activity>урок по български език</activity>
</setting>
{/codecitation}

Тази информация позволява търсенето на данни в корпуса да е свързано с въвеждането на териториални ограничения или с търсене само в записи от определен период от време или свързани само с определен вид дейност.

В рамките на последния елемент от заглавката на файла <revisionDesc>анотаторът описва историята на промените, направени по време на създаването на електронния текст. Тук се отбелязва и наличието на различни версии на файла. В рамките на този елемент се отбелязва дали транскрипцията и анотацията са верифицирани и какви промени са направени при верификацията.

Вторият основен елемент на всеки XML файл в корпуса е text. В него се представят транскрибираният текст и лингвистичната информация, свързана с него.

Речта на участниците се структурира във вид на диалог, като се отбелязва коя реплика на кой от участниците в диалога съответства. На всеки от говорещите се приписва фиктивен номер, съответстващ на номера, под който са въведени участниците с техните социолингвистични характеристики в заглавката (header) на файла (например <u who="3">). В рамките на една реплика се обособяват едно или повече изказвания, като се отбелязва и комуникативният статус на изказванията. Например когато изказването е въпросително, не се слага въпросителен знак, а изказването се маркира като въпросително, което позволява при ползването на корпуса да се прави ограничение на търсенето и по цел на изказването. В някои случаи са налице маркери за коумникативния статус на изказването, какъвто е въпросителната дума какъв в пример 1. В други изказвания обаче (вж. пример 2.) единственият маркер за въпросително изказване е интонацията, с която е произнесено то. Това налага маркирането на комуникативния статус на всички изказвания. Същевременно по този начин се разширяват опциите за търсене в корпуса.

 

1. {codecitation style="brush: xml;"}в какъв смисъл <seg type="interrogative"/>{/codecitation}

2. {codecitation style="brush: xml;"}на самата фасада <seg type="interrogative"/>{/codecitation}

 

Анотирането на комуникативния статус на изказването се налага и от факта, че наличието на въпросителна частица не винаги е белег за въпросително изказване. Както се вижда, изказването в пример 3. е възклицателно въпреки наличието на въпросителната частица ли. Според TEI спецификацията повелителните (вж. пример 4.) и възклицателните изказвания се маркират еднакво като <seg type="exclamation"/>.

 

3. {codecitation style="brush: xml;"}утре нема ли да чистиме <seg type="exclamation"/>{/codecitation}

4. {codecitation style="brush: xml;"}дай ми парите <seg type="exclamation"/>{/codecitation}

 

 

При записването на разговорна реч се анотират и непълните изказвания. Те се отбелязват като незавършен сегмент <seg part="I"/>, когато е налице само началната част от изказването, или като завършващ, довършващ сегмент <seg part="F"/>, когато даден говорещ довършва изказването на друг говорещ – явление, характерно за устното общуване на български език (вж. пример 5.). Не винаги незавършените изказвания са свързани със съответно завършващо изказване от друг говорещ, но завършващите изказвания винаги са свързани с предишен незавършен сегмент.

 

5. {codecitation style="brush: xml;"}<u who="3"> и ако представи си трябва да дадеш седемстотин евро за сушилня нали <seg part="I"/></u>

<u who="2"><seg part="F"/>допълнително:</u>{/codecitation}

 

По-различни са случаите на фалстарт и свързаните с него автокорекции (вж. пример 6.). В тези случаи сегментът, в който е налице фалстарт, се отбелязва като незавършен сегмент <seg part="I"/>. Разликата между фалстарта и незавършените изказвания е, че при фалстарта говорещият продължава своето изказването, често дори без да прави пауза.

 

6. {codecitation style="brush: xml;"}<u who="1">явно че това е някакъв <seg part="I"/> предполагам че свалят от цената за да си правят реклама</u>{/codecitation}

 

Не само изказванията, но и отделни думи може да бъдат прекъснати или незавършени. Това се отбелязва в корпуса, с цел улесняването на анотирането на корпуса по части на речта и избягването на двузначност. В пример 7. незавършената дума е самолет, но ако не се анотира като незавършена дума, при автоматичната обработка ще бъде възприета като фокусираща частица (само).

 

7. {codecitation style="brush: xml;"}<vocal desc="а:"/> само секунда да мине само <w part="I"/> <gap reason="прелита самолет"/>{/codecitation}

 

В пример 8. незавършената дума е маркер и за фалстарт и автокорекция на изказването.

 

8. {codecitation style="brush: xml;"}на всеки год<w part="I"/> на всеки десет години{/codecitation}

 

Често в записите от разговорна реч е налице шум, едновременно говорене на много хора или записът е с лошо качество и това пречи на предаването в писмен вид на части от диалога. В случаите, когато някоя част от разговора не е транскрибирана поради подобна причина, в транскрипцията се отбелязва мястото, което не е транскрибирано, и причината за това, както е в примери 9., 10. и 11.:

 

9. {codecitation style="brush: xml;"}<gap reason="неясен запис"/>{/codecitation}

10. {codecitation style="brush: xml;"}<gap reason="прелита самолет"/>{/codecitation}

11. {codecitation style="brush: xml;"}<gap reason="много гласове"/>{/codecitation}

 

Характерни за разговорната реч са и случаите на едновременно говорене, когато изказванията на двамата говорещи се застъпват изцяло или частично. Поради факта, че тези застъпвания имат прагматична стойност, която се променя, ако изказванията на двамата говорещи се запишат като последователни, а не като застъпващи се, се налага отбелязването на това явление в транскрипциите от разговорна реч. В TEI спецификацията се предлага тези застъпвания да се синхронизират в транскрипцията, като началото и краят на съответния сегмент се отбелязват с поредни номера (вж. пример 12.). Така е възможно да се проследи не само наличието на едновременно говорене, но и в кой момент от разговора е налице застъпване, както и колко често се застъпват репликите на говорещите.

 

12. {codecitation style="brush: xml;"}<u who="1">аха аз помислих<anchor synch="011"/> че е обратното

<anchor synch="012"/></u>

<u who="2"><anchor synch="011"/> имам приятелка с <anchor synch="012"/>

<anchor synch="013"/> по-голямо бебе <anchor synch="014"/></u>

<u who="1"><anchor synch="013"/>да да<anchor synch="014"/></u>{/codecitation}

 

Важна прагматична стойност в процеса на устно общуване имат и паралингвистичните средства. В корпуса те условно се разделят на два типа - фонетични паралингвистични средства и кинеми. При наличието на фонетични паралингвистични средства се отбелязва техният приблизителен звуков строеж (вж. примери 13., 14. и 15.), а отбелязването на кинемите е съпроводено от описателен текст (вж. примери 16. и 17.)

 

13.{codecitation style="brush: xml;"}<vocal desc="ъхм"/>{/codecitation}

14.{codecitation style="brush: xml;"}<vocal desc="ъ:"/>{/codecitation}

15.{codecitation style="brush: xml;"}<vocal desc="м:"/>{/codecitation}

16.{codecitation style="brush: xml;"}<kinesic desc="показва джиесем"/>{/codecitation}

17. {codecitation style="brush: xml;"}<kinesic desc="смях"/>{/codecitation}

 

Заключение

Поддържането на корпус за съвременното състояние на разговорната реч само по себе си е ценно, тъй като позволява на лингвистите да разполагат с надежден ресурс за верификация на своите научни твърдения, показва динамиката в езика, процесите, които още не са довели до промяна в книжовната норма, но се регистрират в нейната устна форма.

Такава база данни за устните форми на езика е особено необходима, тъй като има нужда изследванията върху писмения език да се допълнят и балансират с изследвания върху конкретните реализации на езиковите структури в устната комуникация.

Корпусът от българска разговорна реч има своето приложение при обучението на български студенти – от една страна, като емпиричен материал при представянето на конкретни лингвистични явления, а от друга страна, при разширяването на познанията им за жанровите особености и спецификата на разговорната реч като самостоятелен обект на изследване, в практически упражнения за откриване на дадени явления, характерни за устната комуникация.

Поддържането в рамките на корпуса на данни за устната комуникация в официалната сфера намира своето приложение при обучението с цел формиране на комуникативна компетентност в различни сфери на общуване.

Корпусът от българска разговорна реч и аудио- и видеофайловете, които са неделима част от него, намират своето приложение и при адекватното представяне на моделите на речево поведение пред чуждестранни студенти при преподаването на разговорен български език.

Естествено основното приложение на корпуса от разговорна реч е за лингвистични цели и в изследвания в областта на хуманитаристиката: при проучването на прагматични явления в разговорната реч; за съпоставка на морфосинтактично равнище с корпусите от писмена реч; за представяне на общността на съвременния български език. Както посочва В. Радева, при определяне на общността на диалектите и книжовния език в областта на синтаксиса е необходимо да се сравняват диалектните особености както с писмената форма на книжовния език, така и с устната му (разговорна) форма (Радева 2001: 99). Корпусът от разговорна реч намира своето приложение и при верификацията на данните в сферата на теорията за диалога и комуникативните модели, както и в теорията на комуникацията, философията и социологията на езика.

 

Цитирана литература

Алексова, Красимира. 2000. Езикът и семейството. (Към методиката за проучване на речта в микрообщностите). София: Интервю прес. 5. 9-18. http://bgspeech.net/publications/aleksova2001.pdf

Алексова, Красимира. 2002. Алексова. Езикови атитюди, нормативни статуси и социолингвистични маркери. Проблеми на социолингвистиката 7. Билингвизъм и диглосия – съвременни проблеми. София: Делфи. 127-135. http://www.liternet.bg/publish7/kaleksova/atitudi.htm

Алексова, Красимира. 2005. Йерархията на социолингвистичните променливи според стратифициращата им сила. В: Ангел Ангелов (отг. ред.), Езиковедски приноси в чест на чл.-кор. проф. дфн. Михаил Виденов. Велико Търново: Университетско издателство “Св. св. Кирил и Методий. 299-324.

Атанасов, Атанас. 2006. Проблеми при създаването на езикови корпуси с транскрибирана българска разговорна реч. Паисиеви четения. Научни трудове 44 (1), сб. А. Пловдив: УИ “Паисий Хилендарски”. 289-296. http://bgspeech.net/publications/atanasov_corpusi.pdf

Коева, Светла, Ивелина Стоянова. 2009. Български национален корпус. Български език 3. 137-145.

Ликоманова, Искра. 1988: Организация на репликата в съвременната българска разговорна реч. Български език 6. 525-52. http://bgspeech.net/publications/likomanova_replika.pdf

Николова, Цветанка. 1987. Честотен речник на българската разговорна реч. София: Наука и изкуство.

Радева, Василка. 2001. Увод в ареалната лингвистка. София: УИ „Св. Климент Охридски”.

Симов, Кирил, Петя Осенова. 2005. Корпус от синтактични описания на българския език – BulTreeBank. Семинар, СУ "Св. Климент Охридски". София, 28. 01. 2005 г. http://www.bultreebank.org/bgpapers/BTBSeminar050128.pdf

Тишева, Йовка. 2006. Българската разговорна реч в интернет. Паисиеви четения. Научни трудове 44 (1), сб. А. Пловдив: УИ “Паисий Хилендарски”. 277-288. http://bgspeech.net/publications/Tisheva_razg_rech_internet.pdf

Atanasov, Atanas. 2006. Encoding Bulgarian Colloquial Speech Using TEI Specification. Computer Applications in Slavic Studies. “Boyan Penev” Publishing Centre, Sofia. 233-240. http://bgspeech.net/publications/atanasov_tei.pdf

Simov, Kiril, Petya Osenova. 2004. BTB-TR04: BulTreeBank Morphosyntactic Annotation of Bulgarian Texts. BulTreeBank Project Technical Report № 04. http://www.bultreebank.org/TechRep/BTB-TR04.pdf

Tisheva, Yovka, Marina Dzhonova. 2006. Colloquial Bulgarian on the Web. Computer Applications in Slavic Studies. Sofia: “Boyan Penev” Publishing Centre. 217-232. http://bgspeech.net/publications/TishevaDzhonova_colloquialBg.pdf

 

Проекти и стандарти

БНК: Български национален корпус. http://search.dcl.bas.bg/

Сайт за българска разговорна реч – http://bgspeech.net

СКБЕ: Синтактичен корпус на българския език. http://www.bultreebank.org

BLL: Bulgarian language and Literature at the University of Oslo. Site maintained by Kjetil Rå Hauge. Department of Literature, Area Studies and European Languages, University of Oslo. http://folk.uio.no/kjetilrh/bulg/

TEI: Text Encoding Initiative Consortium. http://www.tei-c.org

XML: Bray, Tim, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler, François Yergau (eds.), Extensible Markup Language (XML) Version 1.0 (Fifth edition), W3C Recommendation 26 November 2008. W3C. http://www.w3.org/TR/RECxml/.

  • 1. Електронните ресурси, публикувани на този адрес, са описани като корпуси, но терминът е употребен като синоним на база данни, тъй като транскрипциите не са анотирани и файловете не са структурирани във вид на корпус.
  • 2. Отбелязването на този елемент е важно, тъй като записващият в повечето случаи съвпада с един от участниците в разговора.
Година: 
2010
Книжка: 
2