My-library.info
Все категории

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Жанр: Научная Фантастика издательство АСТ, год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Издательство:
АСТ
ISBN:
978-5-17-088935-8
Год:
2016
Дата добавления:
20 август 2018
Количество просмотров:
262
Читать онлайн
Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры краткое содержание

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - описание и краткое содержание, автор Жан-Батист Мишель, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info
Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры читать онлайн бесплатно

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать книгу онлайн бесплатно, автор Жан-Батист Мишель

В результате оказывается, что 52% английского языка – большинство слов, используемых в книгах, – представляют собой лексическую темную материю. Подобно темной материи в космосе, составляющей основной объем Вселенной, лексическая темная материя составляет основную массу нашего языка, которая не может быть протестирована обычными способами[106].

Как только ограничения традиционной лексикографии стали понятными, эта область работы начала меняться. Новые игроки на рынке, такие как wordnik.com, wiktionary.com и urbandictionary.com, перестали полагаться на кабинетных лексикографов в деле создания масштабных онлайн-словарей. Напротив, они пытаются использовать силу огромного количества пользователей для документирования всей темной материи – по тому же пути идут и традиционные словари типа OED. Для ускорения работы они дополняют существующие методы новым подходом обработки данных в лексикографии (и даже вплотную приближаются к лексикограферологии!).

В целом все эти нововведения полезны и приятны для лексикографов. Несмотря на многовековые усилия, предстоит проделать еще огромную работу. Можно сказать, что английский язык и по сей день остается неизведанным континентом.

Четыре дня рождения и одни похороны

Новые слова всегда волнуют людей. Каждый год Американское диалектное общество проводит специальное собрание, посвященное словам. Члены общества отдают свои голоса в категориях «Слово года» [107], «Самое странное слово» и даже «Кандидат, у которого мало шансов стать словом» [108]. Стоит отметить, что наше изобретение – слово «культуромика» – в 2010 году было номинировано именно в этой последней категории. С 1991 года список слов года включал в себя cyber (1994), e- (1998), metrosexual (2003) и совсем недавно hashtag (mot-diиse на случай, если нас читают представители французского правительства). Списки, составляемые Американским диалектным обществом, наглядно подтверждают, что язык охотно приветствует новые слова и уделяет им должное внимание.

Однако в том, что касается конца лексического жизненного цикла, никакой бурной деятельности не происходит. Судя по всему, никому не хочется проводить похороны для умерших слов. Именно поэтому так сложно сказать, что оказывается выше, рождаемость или смертность (иными словами, что происходит с английским языком – расширяется ли он, сужается или остается неизменным).

Чтобы разобраться с этим вопросом, мы создали еще два ципфовских списка слов. Для первого мы использовали тексты, опубликованные между 1990 и 2000 годами, и сформировали современный словарь. А для второго мы использовали два исторических периода – десятилетие, предшествовавшее 1900 году, и десятилетие, предшествовавшее 1950-му[109].

Мы обнаружили, что к 1900 году словарный состав насчитывал свыше 550 000 слов. Это больше, чем в новом издании Oxford English Dictionary. В течение следующих 50 лет не происходило ничего интересного и язык оставался неизменным по объему. Рождаемость и смертность почти уравновешивали друг друга.

Однако в период между 1950 и 2000 годами английский язык вошел в период роста и почти удвоился в размере за счет добавления сотен тысяч новых слов. Новая рождаемость значительно превысила смертность слов. В настоящее время каждый год в английский язык добавляется около 8400 слов – иными словами, ежедневно порог преодолевает свыше 20 новых слов.

Наш язык не просто меняется – он растет[110].

Почему так происходит? В точности этого никто не знает, и (как и в случае степенных законов) у нас нет нехватки в домыслах[111]. Одна гипотеза заключается в том, что по мере повышения социальной сплоченности (мы поддерживаем связи с большим количеством людей) и сужения нашего мира (люди находятся на расстоянии телефонного звонка или перелета на самолете друг от друга), новые слова быстрее и проще набирают критическую массу. Другая гипотеза утверждает, что прогресс в науке, медицине и технологиях формирует новые слова вследствие того, что профессиональный жаргон проще попадает в общее употребление. Однако еще одно объяснение кроется в диверсификации, связанной с самими книгами, – основой нашего ципфовского словаря. Чем больше людей публикует тексты в конце XX столетия, тем чаще авторы пишут на различные темы, используя свой собственный идиолект. Иначе говоря, глобальная дискуссия начинает вестись все большим количеством слов.



Если честно, никто точно не знает, какая из гипотез верна, как возникает этот эффект и что будет дальше. Будет ли расти количество слов, появляющихся каждый год? Есть ли границы у нашего словарного состава? Насколько сильно язык ваших детей будет отличаться от вашего собственного? Массивы больших данных позволяют лучше представить себе язык и освещают нам путь к новому научному ландшафту, в котором не скрыться даже снежному человеку.

Однако слова, которые мы используем, способны рассказать куда более интересную историю, чем язык в целом. Слова представляют собой окно в мир наших мыслей, нравов и общества в целом. Поэтому давайте обратимся от механизма коммуникации к сути наших мыслей.

Папа, откуда берутся бэбиситтеры?

В середине XX столетия людям все больше нравилась идея ухода за ребенком (baby) с помощью специально нанятого человека (sitter). Поскольку у слов baby и sitter имелось немало сопоставимых интересов, они стали проводить много времени вместе, и в какой-то момент все чаще употреблялось слово baby sitter[112].

Затем люди принялись соединять их. Поначалу связь осуществлялась через дефис. По мере того как отношения между этими словами становились все более тесными, слово baby-sitter все чаще замещало собой слова baby sitter.

Со временем baby и sitter поняли, что им суждено быть вместе навсегда. Из этого союза родился ребенок. И именно поэтому, дорогой малыш, твои родители оставляют тебя со мной (babysitter).


Глава 4

Семь с половиной минут славы

В ассенизации нет ничего сексуального. Однако это может быть настоящим подвигом героя.

Стоит вспомнить хотя бы историю Геракла, полубога-героя из греческой мифологии. Пятый из двенадцати подвигов Геракла состоял в том, чтобы вычистить Авгиевы конюшни, в которых жили тысячи бессмертных коров. Поскольку конюшни не чистили 30 лет, в них скопилось немало навоза. Геракл сделал так, что две бурные реки изменили свой ход и за один-единственный день вымыли из конюшен все нечистоты. Его героический поступок до сих пор остается одним из величайших достижений в анналах ассенизаторского дела.


Жан-Батист Мишель читать все книги автора по порядку

Жан-Батист Мишель - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.


Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры отзывы

Отзывы читателей о книге Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры, автор: Жан-Батист Мишель. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.