My-library.info
Все категории

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Жанр: Научная Фантастика издательство АСТ, год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Издательство:
АСТ
ISBN:
978-5-17-088935-8
Год:
2016
Дата добавления:
20 август 2018
Количество просмотров:
262
Читать онлайн
Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры краткое содержание

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - описание и краткое содержание, автор Жан-Батист Мишель, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info
Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры читать онлайн бесплатно

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать книгу онлайн бесплатно, автор Жан-Батист Мишель

Разумеется, нет. Ципф был знаменитым литературоведом, глубоко ценившим красоту и силу книги, этого цветка литературного гения. Однако Ципфа отличало то, что он не замыкался на этой красоте и мог оценить цветок с разных сторон. И один из таких способов как раз и состоит в том, чтобы разделить цветок на составные части.

До Ципфа книга была чем-то, что можно было прочитать и понять – строчку за строчкой и страницу за страницей. Ученые воспринимали ее гештальт полностью, как розу в период цветения. Даже Хенли, индекс которого помог Ципфу в его предприятии, предполагал, что его работа послужит помощником в традиционном чтении.

Однако Ципфа интересовало радикально новое понимание того, чем могла бы быть книга. Его великолепная интуиция подсказывала, что возможна и другая форма чтения – анализ небольших лепестков текста, избавление от их цветистого контекста и поиск свидетельств математической конструкции, лежащей в его основе.

В течение последнего столетия ученые активно следовали по пути, указанному этим гениальным провидцем. К моменту завершения анализа глаголов мы изрядно гордились тем, что относимся к этой группе исследователей. Но, честно говоря, мы были слишком захвачены особенностями неправильных глаголов, чтобы в полной мере оценить всю силу подхода Ципфа.

Но этому суждено было измениться. В конечном счете Ципф показал всем нам захватывающие научные горизонты, выбрав для этого ничтожную горстку цветов. Теперь благодаря Google оцифрованными оказались целые библиотеки, одна за другой. Мы хотели проделать то же, что сделал Ципф, но взять для этого не один, а все цветы.

Как правильно «гореть»

Изучая английский язык в своей родной стране, молодой француз learnt («выучил»), что некоторые глаголы произносились (spelt) по-разному в прошедшем времени. Эти «испорченные» (spoilt) глаголы обитали (dwelt) в своем собственном разделе учебника, выделяясь даже среди неправильных глаголов. Хотя заучить их все наизусть было невероятно сложно, он очень старался, запоминая список глаголов, прошедшее время которых образовывалось за счет добавления к основной форме – t вместо – ed.

Наконец-то оказавшись в Соединенных Штатах, студент был уверен в своем мастерском владении языком. Однако вскоре после своего прибытия, читая статью об Олимпийских играх в Лондоне, он с удивлением заметил следующий заголовок в газете Washington Post: Burned-out Phelps fizzles in Water Against Lochte («Выгоревший Фелпс выдыхается в воде под натиском Лохте»). Каждого француза учат, что глагол burn («гореть») – неправильный. В отношении Майкла Фелпса надо было сказать burnt out [73]. «Неужели в американских газетах нет корректоров?» – удивился он.

Вскоре он увидел еще один удивительный заголовок, на сей раз в Los Angeles Times: Kobe Bryant Says He Learned a Lot from Phil Jackson («Коби Брайант говорит, что многому научился у Фила Джексона») [74]. Студент ничего не знал о Филе Джексоне, но был шокирован тем, что для описания действий Коби использовалось слово learned. По правилам оно должно было звучать как learnt.

Постепенно студент понял, что, когда дело касается этого правила, все американцы делали одну и ту же ошибку. Он знал, что большинство американцев довольно скверно говорят по-французски, однако, если верить его учебникам, они были плохи и в своем родном языке. Он почуял (smelt) неладное.

К счастью, у него имелся доступ к новому виду «скопа». И вскоре он понял, что напрасно терял время на учебу во Франции.



Что же случилось? Поскольку глаголы burn – burnt («жечь»), dwell – dwelt («обитать»), learn – learnt («учить»), smell – smelt («чуять»), spell – spelt («произносить»), spill – spilt («проливать») и spoil – spoilt («портить») следуют одному и тому же принципу, они сливаются в сознании говорящих по-английски людей. В результате они остаются неправильными в течение очень долгого времени – гораздо больше, чем можно было ожидать с учетом их индивидуальной частоты.

Эти глаголы до сих пор описываются как неправильные во многих учебниках. Однако в реальности прежде всемогущий альянс постепенно распадается[75]. Два участника группы, глаголы spell и learn, стали правильными к 1800 году. С тех пор правильными стали еще четыре глагола – burn, smell, spell и spill.

Результаты дают основания полагать, что эта тенденция зародилась в Соединенных Штатах. Однако затем она распространилась и на Великобританию, где каждый год количество людей, равное числу жителей Кембриджа, начинает использовать форму burned вместо burnt [76]. По сути, в наши дни выжить в числе неправильных глаголов этой группы удалось лишь форме dwelt. Так что студент зря описывал свою злость на курсы английского языка словом burnt. На самом деле правильное слово для обозначения его злости уже звучит как burned.

Глава 3

Кабинетные лексикограферологи

К 2007 году работа с неправильными глаголами убедила нас в том, что подсчет слов позволяет отслеживать определенные, постепенно происходящие культурные изменения. Однако отслеживать неправильные глаголы просто, поскольку они встречаются достаточно часто. К примеру, слово went (прошедшее время от go – «идти») появляется примерно один раз через каждые 5000 слов или примерно один раз на 20 страниц. Вы постоянно видите его в каждой прочитанной книге. Но как только человек начинает заниматься исследованием чего-то, кроме неправильных глаголов и изучает более сложные проблемы, он рано или поздно попадает на темную сторону закона Ципфа. Часто встречающихся слов (типа went) довольно мало. Подавляющее большинство слов встречается значительно реже.

Давайте предположим, что мы пытаемся найти кое-что более загадочное, вроде снежного человека, известного в английском языке под именем Sasquatch[77]. Пугливый Sasquatch появляется в английских текстах примерно один раз на каждые 10 миллионов слов, или примерно один раз на каждую сотню книг. Выслеживать Sasquatch гораздо сложнее, чем любой привычный неправильный глагол.

Тем не менее найти Sasquatch не очень сложно. Куда реже нам встречается Loch Ness monster («Лох-несское чудовище») – лишь одно появление на каждые 200 книг. Но если вы действительно хотите протестировать, насколько ловко отыскиваете загадочных созданий, попробуйте найти Chupacabra («чупакабру») [78]. Этого кровососа впервые заметили в 1995 году в Пуэрто-Рико. О нем неизвестно практически ничего. Но мы можем сказать, что Chupacabra встречается значительно реже Sasquatch. Ее можно встретить лишь один раз на каждые 150 миллионов слов (или около 1500 книг). Невероятно начитанный человек может встретить слово Chupacabra всего один раз за всю свою жизнь. Так что вот вам еще одно упоминание – Chupacabra. Цените этот момент.


Жан-Батист Мишель читать все книги автора по порядку

Жан-Батист Мишель - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.


Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры отзывы

Отзывы читателей о книге Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры, автор: Жан-Батист Мишель. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.