То, чего не удалось добиться с помощью оружия, может произойти благодаря интернету или цифровой революции. Так, баски веками защищали свой язык от испанского давления, а ирландцы — от английского, но теперь эти языки могут исчезнуть, потому что им не удается идти в ногу с новыми правилами, которые интернет диктует лингвистическому общению. Эти языки не входят в программное обеспечение, которое способно распознавать текст, анализировать его и правильно перевести вплоть до звуковой интерпретации. Поисковые системы не приспособлены к этим языкам.
Анализ 30 языков ЕС
Недостаточно хорошие либо вообще отсутствующие инструменты для распознавания наиболее распространенных 30 языков (23 официальных и 7 региональных языков Европейского Союза) оказались в центре изучения, реализованного Meta-Net, - сети, объединяющей 54 исследовательских центра из 33 стран, финансируемых Европейской комиссией. В 30 томах (по одному - на каждый язык) были проанализированы существующие в настоящее время лингвистические технологии. Цель исследования заключается в создании картины, позволяющей понять технические аспекты, которые нужно улучшить для реализации проекта многоязычного европейского сообщества. Результаты неутешительны: все рассмотренные языки характеризуются значительным дефицитом программного обеспечения, а некоторые подвержены риску «цифрового исчезновения», что в отдаленном будущем в мире, который все больше смотрит на экран компьютера и все меньше на бумагу, может поставить на повестку дня вопрос о выживании письменного языка.
Читайте также: Турция - родина сотни языков?
Рискуют исчезнуть баскский, кельтские и каталанский языки
По сравнению с другими распространенными языками такие языки, как баскский, кельтские и каталанский, мало используются в сети из-за отсутствия инструментов, которые позволили бы их интеграцию. Это приводит к изоляции людей, говорящих на них, делает их незначительной группой внутри сообщества, которое все больше общается через интернет. В рискованной ситуации оказались и скандинавские языки (шведский, норвежский и финский), а также сербский, хорватский и словацкий. Исследователи включили в группу языков, имеющих слабую технологическую поддержку, также греческий и ирландский. Еще более сложно выжить в сети региональным языкам, например - фриульскому и сардинскому. Английский и испанский языки, которые ученые Meta-Net ставят на более высокую ступень при оценке лингвистических технологий, в эру цифрового общения смогут выжить.
Опасность - в стандартизации сети. Если, с одной стороны, новые технологии расширили возможности для развития миноритарных культур, то с другой стороны, требования стандартизации ставит под угрозу разнообразие. Между прочим, это обстоятельство препятствует достижению стратегической цели, заявленной в уставе ЕС и предполагающей возможность равного участия в политической жизни всех европейских граждан независимо от их языка.
«Совершенствование лингвистического обеспечения для сети нужно не только для сохранения языкового и культурного разнообразия, но и для создания единого цифрового рынка, необходимого для лучшей циркуляции товаров и услуг, - обяснила Lettera43.it научный сотрудник Института компьютерной лингвистики Cnr Клаудия Сориа. - Итальянец должен иметь возможность перевести и понять информацию на эстонском сайте и наоборот, если он хочет поехать в путешествие или купить что-нибудь».
Также по теме: Как быстрее всего выучить иностранный язык?
Итальянский язык рискует быть все меньше представленным в интернете
С 2000 по 2010 годы число пользователей интернета в Италии увеличилось на 127,5%. Сегодня 30 миллионов регулярно пользуются сетью (все население составляет 58 миллионов). На мировом уровне процент страниц в сети на итальянском языке увеличился с 1,5% в 1998 году до 3,05% в 2005 году, а в 2004 году на итальянском языке в сети разговаривало 30,4 миллиона человек, среди них - сотни тысяч потомков эмигрантов в таких странах, как Соединенные Штаты или Австралия.
Тем не менее, число новых пользователей интернета в развивающихся странах все увеличивается, а число итальянцев остается стабильным уже в течение пяти лет, что говорит о том, что язык Данте все меньше представлен в сети.
«Развитие лингвистических технологий может сыграть фундаментальную роль в сохранении значения итальянского языка в цифровую эру, - подчеркивает Сория. - Возьмем, к примеру, автоматизированный перевод, который затруднен в итальянском языке по причине его морфологической сложности и свободного порядка слов в предложении. Проблема заключается в том, что большая часть нынешних систем основана на английском языке и обеспечивает перевод только с нескольких языков на итальянский и обратно. Нужны новые инвестиции, чтобы заполнить этот пробел».
Читайте также: Когда писатели формируют язык
Первое и пока единственное финансирование в этой области в 2001 году привело к созданию TAL (автоматической системы обработки языка с помощью компьютера). На эту программу итальянское правительство выделило 1,7 миллиона евро.
Тогда для сети были подготовлены тексты, грамматики и словари. Отсюда началось развитие информационных приложений, которые сегодня позволяют получить краткое содержание текста, услышать произношение слов и сделать перевод».
Распространение идей не имеет границ. Сегодня эти инструменты никого не удивляют. Но они лежали в основе революции такого размаха, что ученые и эксперты сравнивают ее с изобретением печати Гутенбергом.
«В пятнадцатом веке изобретение печати сделало возможным обмен знаниями и их хранение», - заключает Сориа. - Сегодня получение информации с помощью интернета позволяет распространять идеи и знания в обход лингвистических границ и очень быстро. Это эпохальная революция».