Курсовая: Корпус испанского и английского :сопоставительное исследование

2020-06-06
Пётр Прохоров
Английский язык

Диплом777

Email: info@diplom777.ru

Phone: +7 (800) 707-84-52

Url: https://diplom777.ru/

Никольская 10

Москва, RU 109012

Британский национальный корпус – один из больших эталонных корпусов, в котором содержатся сто миллионов слов. Корпус разрабатывался в Оксфордском университете при участии Ланкастерского университета и Британской библиотеки. Процесс создания корпуса вели с 1991 по 1994 годы. Подкорпус, в котором представлен письменный английский язык, составляет девяносто процентов всего корпуса и включает в себя художественную и документальную прозу, газеты, периодические научные издания и журналы, издаваемые для различных возрастов, популярную научную фантастику, опубликованные и неопубликованные письма, школьные и университетские сочинения.
В корпусе имеется много разных стилей и не ограничивается по тематике. В подкорпус устной речи входит речь людей различных возрастов, которые вызвались добровольно поучаствовать в проекте, которые проживают в разных частях Великобритании и которые принадлежат разным социальным классам.
Все тексты Британского национального корпуса сегментированы на предложения. Словам внутри предложения присваиваются соответствующие маркеры, с помощью которых обозначается грамматический класс слова или части речи. Знаки препинания тоже имеют соответствующие маркеры.
Сегментация и автоматическое присвоение словам тэгов выполняется с помощью программы CLAWS, которая была разработана университетом Ланкастера. Процент ошибочной разметки – примерно два процента. Кроме того, если программа автоматической разметки сталкивается со случаем, в котором она не может однозначно присвоить слову маркер, то ему может присвоится сразу два маркера. Такие «синонимичные» маркеры – примерно пять процентов всего корпуса.
Корпус составлен исключительно из текстов современного английского языка, который используется в Великобритании, однако в корпусе можно встретить иностранные слова, которые используются в британском английском.
Тексты, которые представляются в Британском национальном корпусе, отбирают по трем критериям: время, область, описываемая в тексте, и тип издания. Если рассматривать период времени текстов, которые находятся в Британском национальном корпусе, то принадлежат примерно одному периоду, начиная с 1975 года, исключением является художественная литература в виду того, что некоторые произведения популярные и на сегодняшний день. Область художественной литературы занимает двадцать пять процентов текстов. Литературные произведения в Британском национальном корпусе начинаются с 1964 года. Семьдесят пять процентов письменных текстов берут из информативных изданий различных сфер жизни.
Весь десятимиллионный подкорпус устной речи принято разделять на две равные части: демографическую часть, которая содержит транскрипции «спонтанных», естественных диалогов, и часть, важную роль которого играет контекст, контекстно-управляемую часть, которая содержит записи, которые сделаны на каких-либо публичных мероприятиях.
Разработчиками была создана, основывая на разметке SGML, собственная программа, названная SARA. Эту программу изначально разрабатывали в качестве программы клиент/сервер, то есть системы, в которой один или несколько компьютеров имеют по сети доступ к центральному серверу. В настоящее время был создан новый корпусный менеджер – XAIRA.
Крупный известный корпус общего типа – это Чешский национальный корпус. Это синхронический морфологически размеченный корпус, с помощью которого представляется современный чешский язык. Корпусом занимается Институт Чешского национального корпуса, которым руководит профессор Ф. Чермака. Институт создали, базируясь на философском факультете Карлова университета в Праге в 1994 году, его функционирование происходит на средства грантов, спонсоров, также ему оказывает поддержку Министерство образования.
В первоначальном корпусе, который насчитывал сто миллионов словоупотреблений письменных текстов, содержались небольшие коллекции разговорной (семьсот пятьдесят тысяч словоупотреблений) и диалектной речи. Впоследствии этим корпусом, который состоял в основной массе из текстов периода 1990-1999 годов, было получено название SYN2000. Затем были созданы сто миллионные сбалансированные корпусы SYN2005, которые относятся к периоду 2000-2004 годов и SYN2010, которые относятся к периоду 2005-2009 годов, а также другие корпусы.
Все синхронические корпусы объединены в общий «пул», объем которого один миллиард триста миллионов словоупотреблений.
В процессе формирования Чешского национального корпуса наибольшее внимание уделяли вопросам репрезентативности корпуса. Было принято решение, что основная часть корпуса будет создана из текстов периода 1990-1999 годов с дополнительной ретроспективной частью, которая представляет собой чешскую литературу до 1950 года.
Результатом книговедческих исследований стало определение жанровой и тематической структуры корпуса, которую представили следующим образом (табл. 2).

Пётр Прохоров

Учился в СПбГЭТУ «ЛЭТИ» на гуманитарном факультете. Сейчас работаю в университете, преподаю иностранные языки и языкознание. В свободное от работы время занимаюсь репетиторством, преподаю английский школьникам, а также делаю переводы в компании «Диплом777». Люблю свою работу за возможность делиться знаниями и обучать студентов и школьников иностранным языкам, ведь в современной жизни это очень важно.