Данные: топливо для четвертой промышленной революции
Привет. На протяжении всей истории человечества мы видели, что общества превращались из сельских в индустриальные, от промышленного производства до массового производства и от массового производства в цифровое. Сегодня интеллектуальные машины и услуги положили начало четвертой промышленной революции - и соответствующая инфраструктура должна идти с ними в ногу. Ожидается, что интеллектуальные машины и услуги приведут к появлению новых отраслей, сделают многие из существующих - устаревшими и значительно трансформируют общество.
В здравоохранении нейро-радиологи Мейо-клиники используют искусственный интеллект для идентификации генетических маркеров при МРТ-сканировании, что позволяет врачам избегать получения опухолевой ткани через интрузивные хирургические процедуры. Amazon использует те же технологии, что и беспилотные автомобили, такие как слияние данных с датчиков и AI, с концепцией Amazon Go, продуктовым магазином теперь может работь без линий контроля. Даже такие традиционные отрасли, как сельское хозяйство, используют AI - LettuceBot собирает 10 процентов урожая салата в США с использованием искусственного интеллекта, который изучает каждое растение в режиме реального времени для оптимизации урожайности.
Рост AI подпитывается ростом трех ключевых технологий - глубокого обучения (DL), графических процессоров (GPU) и способности хранить и обрабатывать очень большие наборы данных на высокой скорости. Все это крупные прорывы, которые полностью изменили традиционные подходы к инновациям.
Глубокое обучение - это новая вычислительная модель, которая использует массивные параллельные нейронные сети, созданные по принципу человеческого мозга. Вместо специалистов по производству программного обеспечения, модель глубокого обучения пишет свое собственное программное обеспечение, учась на огромном пуле примеров. GPU-это современный процессор с тысячами ядер, наиболее подходящий для выполнения алгоритмов, которые свободно воспроизводят структуру человеческого мозга.
То, что ведет нас к третьему драйверу промышленной революции - это большие данные. В течение последних двух лет объем вычислительной мощности, необходимый для запуска алгоритмов глубокого обучения, увеличился в 15 раз. Вычисление, производимое GPU, подскочило в 10 раз. Но в то время как объем неструктурированных данных показал взрывной рост, устаревшая инфраструктура, которая существенно не изменилась за последние десятилетия, просто позволяет им полностью раскрыть свой мощный потенциал. Глубокое обучение и графические процессоры являются прорывными инновациями, но существующие инфраструктурные технологии не предназначены для таких рабочих нагрузок - они были разработаны в эпоху с совершенно другим набором требований относительно скорости, емкости и плотности.
Сегодня мы живем в разгар изменения характера данных и типов инструментов, доступных для их анализа. В результате все бизнес-модели начали - и будут продолжать - развиваться вместе с ними. В то время как Hadoop был единственным широко доступным аналитическим инструментом десять лет назад, у ученых в области данных сегодня есть много и других инструментов. Apache Spark - это потоковая среда в реальном времени, которая проще и мощнее, чем Hadoop. Kafka - это инструмент обмена сообщениями в реальном времени для любых размеров файлов, маленьких или больших. Hive предлагает SQL-подобный интерфейс, который приводит к случайным, а не последовательным доступам. Этот список будет только расти, и результат - это надвигающееся трансформирующее воздействие технологий практически на все отрасли.
Если данные являются новой валютой для четвертой промышленной революции, система, предоставляющая данные, не должна основываться на архаичных строительных блоках, что может неизбежно замедлить работу машинного обучения. Представьте себе испытывающего сильную жажду марафонского бегуна, который пытается утолить свою жажду через тонкую соломинку - по существу, это то, что происходит с обработкой данных на устаревших платформах.
В конечном счете, значительная часть фактической информации остается заблокированной в процессе обработки данных. Чтобы по-настоящему воспользоваться потенциалом четвертой промышленной революцией, сегодня существует огромная потребность в инновациях - новые платформы для обработки данных, которые должны быть созданы с нуля, для того, чтобы соответствовать современной эпохе интеллектуальной аналитики.
Поскольку новые данные уже выходят за пределы, для которых были разработаны устаревшие технологии, современный подход требует архитектуры, которая работает в реальном времени, является динамичной и массово параллельной. Динамический концентратор данных, на котором любая рабочая нагрузка может увеличиваться по требованию, в вычислениях или в емкости, обеспечивая максимальную производительность для любых неструктурированных данных, должен обладать этими шестью ключевыми качествами:
- Отстроено для любых данных: неструктурированные данные могут иметь любой размер, форму или шаблон доступа, а концентратор данных должен обеспечивать бескомпромиссную производительность для любых данных.
- Работа в режиме реального времени: многие современные приложения, такие как Spark, уже предназначены для потоковой передачи данных.
- Мгновенная работа всех узлов: обмен данных должен происходить значительно быстрее, чем могут позволить устаревшие механические диски.
- Параллельность: обмен данных от программного обеспечения к оборудованию, концентратор данных должен быть массово параллельным и сквозным, без каких-либо последовательных узких мест.
- Эластичность инструментов: сегодняшние инструменты работают в облаке, и подразумевают, что инфраструктура также должна быть быстра и эластична, как облако.
- Простота: исследователи и инженеры хотят сосредоточиться на данных, а не на управлении инфраструктурой. Это означает легкое администрирование, а также прочную, проверенную надежность, устойчивость и доступность.
Платформы обработки данных сегодня должны быть подвергнуты инновационной трансформации для удовлетворения динамических потребностей новой эпохи. Они должны быть простыми, стабильными и эластичными. Поскольку искусственный интеллект и глубокая аналитика уже выходят за рамки теорий в приложениях реального мира, нам необходимо быть уверенными, что мы действительно готовы воспользоваться ими.