Reacher said nothing (c)
Рассуждения о терабайтах будущего и советы по выбору будущей профессии Я уже немного писал об этом раньше.
Но недавно появилась статья в New York Times, которая заставила задуматься.
Все, кто знает компьютеры немного больше, чем пользователь текстовых редакторов и Интернета, слышали о существовании LOG файлов. В них записываются действия какой-либо программы, история модификация некоторых файлов и т. п.
На серверах, через которые мы общаемся с Интернетом, в лог файлах записана вся история наших действий. На некоторых фирмах руководители просят айтишников подготовить отчеты, на какие сайты и как часто ходят их сотрудники.
На телефонных станциях хранится история наших звонков. Смартфоны позволили получать информацию не только о том куда мы звонили, но и где мы находились во время звонка.
Все наши электронные письма, все записи в блогах, все комментарии - все это хранится и может быть использовано для анализа.
Записи на камерах слежения, наши покупки, бизнес сделки, переводы денег, походы к врачу, все наши анализы, наши поездки на машинах, заправки, техобслуживание, разнообразные платежи, покупка билетов...
Это все хранится на жестких дисках.
Если потребуется, то вычислить наличие любовниц, начало трат, превышающих официальные доходы, нездоровый интерес к малоприятным сторонам нашей жизни, общение с подозрительными людьми... - все это можно узнать через несколько минут после запроса.
Оценить криминогенность какого-либо района, оценить последствия политического решения, предсказать итоги выборов, спортивных соревнований, влияние новых экономических законов...
Все это можно сделать с большой степенью точности.
И это делают специалисты по анализу ОЧЕНЬ больших баз данных.
В этих базах файл размером в 30 Гигабайт - это нормальный файл. Сто миллионов строк в таблице - ничего страшного.
Человечество накопило и продолжает накапливать информацию.
Чудовищное количество информации.
На анализ этой информации уже тратятся миллиарды долларов.
Вскоре потребуется несколько миллионов специалистов, способных анализировать такие базы данных.
Уже сейчас дефицит таких умельцев.
В медицине требуются спецы, способные понять результаты десятков сложных анализов, сотни фотографий, сделанных томографом, сопоставить это с анализом ДНК и с историческими данными.
В образовании нужно проанализировать миллионы работ, выполненных школьниками, для выбора оптимального учебного процесса, для понимания, какие учебники нужно модифицировать.
Да и вообще неплохо бы понять, куда мы все идем, и как долго просуществует человечество на планете Земля.
Это все могут сделать специалисты по анализу ОЧЕНЬ больших баз данных.
Как-то незаметно, такой анализ превратился в отдельную науку. Наука - как из анализа миллиардов цифр выработать наилучшую стратегию лечения болезни, планировать развития города, уменьшить преступность...
Эта наука - симбиоз теории вероятностей, статистического анализа, теории информации, теории игр, теории множеств, теории случайных процессов, теории графов и др.
Неопытные специалисты начинают пользоваться готовыми программами, позволяющими сделать поверхностный анализ баз данных. Но это самый примитивный уровень, который сейчас мало кого удовлетворяет. Каждая серьезная задача требует индивидуального подхода, нужно понять, что есть главное, а что есть шум. Чем можно пренебречь, а что проанализировать до мельчайших деталей.
И тут необходимо знание программирования. Причем на многих языках: С++, R, SAS, SQL, JAVA, PHP,...
Это я все написал для тех, кто думает о выборе профессии. Это непростая профессия. Легче работать манагером или что-то продавать. Это профессия для тех, кто любит поломать голову за очень приличную зарплату.
И в заключение о неприятном. Огонь позволяет поджарить мясо и согреть жилище. Но он может обернуться смертоносным пожаром.
Люди , владеющие такой информацией, могут творить чудеса, но могут делать страшные ошибки.
Пример НЕ ОЧЕНЬ СТРАШНОЙ ошибки приведен в статье в New York Times. Допустим, вы заинтересовались профессией повара и смотрели в Интернете процесс приготовления нездоровой пищи (гамбургеров и т. п.). Робот, анализирующий ваше поведение, может сделать неправильный вывод, что вы потенциальный любитель фастфуда. Значит, медицинские страховые компании должны быть настороже и брать с вас большую ежемесячную страховую сумму.
Это мелочь, но она иллюстрирует нетривиальность задач по анализу баз данных.
Много хуже, когда ошибка связагна с лечением не от той болезни.
Или с неправильным экономическим или политическим выводом.
Или разработкой стратегии охмурения масс, отвлечения людей от настоящих проблем: заменой мыслей о будущем страны на мысли об уровне тестостерона и цвета тату.
Кому-то может не понравится, что многие его персональные данные хранятся где-то в секретных файлах. Тут выход один: уехать жить в тайгу, желательно без электричества, лечиться у местных шаманов и питаться, чем матушка природа одарила.
А вообще, возможность хранить и анализировать терабайты информации - это из фильма о будущем. И мы с вами как-то незаметно в это будущее перекочевали.
взято отсюдаblogs.mail.ru/mail/vadaragan/700E94311CE12143.h...
Но недавно появилась статья в New York Times, которая заставила задуматься.
Все, кто знает компьютеры немного больше, чем пользователь текстовых редакторов и Интернета, слышали о существовании LOG файлов. В них записываются действия какой-либо программы, история модификация некоторых файлов и т. п.
На серверах, через которые мы общаемся с Интернетом, в лог файлах записана вся история наших действий. На некоторых фирмах руководители просят айтишников подготовить отчеты, на какие сайты и как часто ходят их сотрудники.
На телефонных станциях хранится история наших звонков. Смартфоны позволили получать информацию не только о том куда мы звонили, но и где мы находились во время звонка.
Все наши электронные письма, все записи в блогах, все комментарии - все это хранится и может быть использовано для анализа.
Записи на камерах слежения, наши покупки, бизнес сделки, переводы денег, походы к врачу, все наши анализы, наши поездки на машинах, заправки, техобслуживание, разнообразные платежи, покупка билетов...
Это все хранится на жестких дисках.
Если потребуется, то вычислить наличие любовниц, начало трат, превышающих официальные доходы, нездоровый интерес к малоприятным сторонам нашей жизни, общение с подозрительными людьми... - все это можно узнать через несколько минут после запроса.
Оценить криминогенность какого-либо района, оценить последствия политического решения, предсказать итоги выборов, спортивных соревнований, влияние новых экономических законов...
Все это можно сделать с большой степенью точности.
И это делают специалисты по анализу ОЧЕНЬ больших баз данных.
В этих базах файл размером в 30 Гигабайт - это нормальный файл. Сто миллионов строк в таблице - ничего страшного.
Человечество накопило и продолжает накапливать информацию.
Чудовищное количество информации.
На анализ этой информации уже тратятся миллиарды долларов.
Вскоре потребуется несколько миллионов специалистов, способных анализировать такие базы данных.
Уже сейчас дефицит таких умельцев.
В медицине требуются спецы, способные понять результаты десятков сложных анализов, сотни фотографий, сделанных томографом, сопоставить это с анализом ДНК и с историческими данными.
В образовании нужно проанализировать миллионы работ, выполненных школьниками, для выбора оптимального учебного процесса, для понимания, какие учебники нужно модифицировать.
Да и вообще неплохо бы понять, куда мы все идем, и как долго просуществует человечество на планете Земля.
Это все могут сделать специалисты по анализу ОЧЕНЬ больших баз данных.
Как-то незаметно, такой анализ превратился в отдельную науку. Наука - как из анализа миллиардов цифр выработать наилучшую стратегию лечения болезни, планировать развития города, уменьшить преступность...
Эта наука - симбиоз теории вероятностей, статистического анализа, теории информации, теории игр, теории множеств, теории случайных процессов, теории графов и др.
Неопытные специалисты начинают пользоваться готовыми программами, позволяющими сделать поверхностный анализ баз данных. Но это самый примитивный уровень, который сейчас мало кого удовлетворяет. Каждая серьезная задача требует индивидуального подхода, нужно понять, что есть главное, а что есть шум. Чем можно пренебречь, а что проанализировать до мельчайших деталей.
И тут необходимо знание программирования. Причем на многих языках: С++, R, SAS, SQL, JAVA, PHP,...
Это я все написал для тех, кто думает о выборе профессии. Это непростая профессия. Легче работать манагером или что-то продавать. Это профессия для тех, кто любит поломать голову за очень приличную зарплату.
И в заключение о неприятном. Огонь позволяет поджарить мясо и согреть жилище. Но он может обернуться смертоносным пожаром.
Люди , владеющие такой информацией, могут творить чудеса, но могут делать страшные ошибки.
Пример НЕ ОЧЕНЬ СТРАШНОЙ ошибки приведен в статье в New York Times. Допустим, вы заинтересовались профессией повара и смотрели в Интернете процесс приготовления нездоровой пищи (гамбургеров и т. п.). Робот, анализирующий ваше поведение, может сделать неправильный вывод, что вы потенциальный любитель фастфуда. Значит, медицинские страховые компании должны быть настороже и брать с вас большую ежемесячную страховую сумму.
Это мелочь, но она иллюстрирует нетривиальность задач по анализу баз данных.
Много хуже, когда ошибка связагна с лечением не от той болезни.
Или с неправильным экономическим или политическим выводом.
Или разработкой стратегии охмурения масс, отвлечения людей от настоящих проблем: заменой мыслей о будущем страны на мысли об уровне тестостерона и цвета тату.
Кому-то может не понравится, что многие его персональные данные хранятся где-то в секретных файлах. Тут выход один: уехать жить в тайгу, желательно без электричества, лечиться у местных шаманов и питаться, чем матушка природа одарила.
А вообще, возможность хранить и анализировать терабайты информации - это из фильма о будущем. И мы с вами как-то незаметно в это будущее перекочевали.
взято отсюдаblogs.mail.ru/mail/vadaragan/700E94311CE12143.h...
@темы: утаскано