((статистически) значимый) линкдамп #178
motusОпубликовано 5.06.2009 в Ссылки
Итак, по просьбам трудящихся — авторский линкдамп!
Для затравки — несколько полезных технологий от Yahoo!:
- Yahoo! Pipes — The mashup tool! Просто удивительно, что на DOU за год так почти и не обсуждали такую замечательную вещь. Обязательно посмотрите на примеры и поищите Yahoo! Pipes в интернетах — найдете массу потрясающих mashup-ов!
- Yahoo! Query Language — (похожий на) SQL интерфейс к чему угодно на вебе. Особенно удобен, если нужно тянуть данные из нескольких Yahoo! API одновременно. Впрочем, теперь и сторонние сайты могут тоже открывать свои API в виде таблиц YQL (см. YQL Open Data Tables), а YQL Execute позволяет даже выполнять код на JavaScript в запросе. И, конечно, самая красота — это YQL Console, где можно поиграть с данными отовсюду в интерактивном режиме.
Быстрый пример — список новых пользователей DOU:
select a.content, p.content from html where url='http://www.developers.org.ua/members' and xpath='//div[@class="members"]/ul/li' - Yahoo! Search BOSS — поисковый API. Фактически, Yahoo! открывает доступ к своему индексу — например, можно посмотреть, кто ссылается на ваш сайт. (Тут примера не будет, т.к. все просто, но нужно зарегистрировать свой appid. Пробуйте сами.)
Теперь тема недели — статистика:
- Тема навеяна появлением на реддите очередного злобного поста от Зеда Шоу: Programmers Need To Learn Statistics Or I Will Kill Them All. Пост весьма по делу, т.к. во-первых, Зед очень здоровый чувак, а во-вторых, Industrial Revolution of Data, о которой так долго говорил О’Райли, давно свершилась.
- В подтверждение — еще одна статья: The Three Sexy Skills of Data Geeks, и цитата:
…with the Age of Data upon us, those who can model, munge, and visually communicate data — call us statisticians or data geeks — are a hot commodity.
(весь блог, кстати, просто отменный).
- И Зед, и Dataspora упоминают в своих постах замечательный пакет R: The R Project for Statistical Computing. Грубо говоря, это
жуткий, но симпатичныйязык программирования и набор библиотек для работы с данными (иными словами — Excel для настоящих пацанов). Прежде всего, впечатляют возможности R по визуализации данных и огромное количество сторонних библиотек: CRAN — аналог знаменитого перлового CPAN-a. - Еще один плюс R — масса прекрасной документации. Ее так много, что рекомендовать что-то конкретное затруднительно. Для новичков, пожалуй, можно начать с simpleR – Using R for Introductory Statistics или icebreakeR. На русском есть серия обширных статей Анализ данных с R.
- And now for something completely different (C) — The speed, size and dependability of programming languages. Интересная статья, вечно животрепещущая (на LtU) тема, и прекрасная графика. Кстати, то же самое делается на R за несколько минут! Навскидку — похожая картинка (только без замечательных звездочек) всего в трех строчках R:
library(lattice)
dd <- read.csv("http://alioth.debian.org/scm/viewvc.php/*checkout*/shootout/website/websites/gp4/data/data.csv?root=shootout")
xyplot(size.B.~log2(cpu.s.)|lang, data=dd)
(Картинку не привожу, чтобы было любопытно попробовать самостоятельно).
Популярные темы на форуме DOU:
- Пост Тренировки по Славяно-Гопницкому бою в Киеве еще раз доказывает: спам работает! Слава роботам!
- Куда податься без опыта работы в команде? В команду, разумеется.
- Работа с целью получения опыта — продолжает вечные темы: “эльфы” vs. “быдлокодеры” (орки?) и “ехать или не ехать?”. Что характерно, наиболее активны “не эльфы”, которые “не ездили”.. уже 244 поста, однако…
Ну, и пару слов от себя:
Меня, кстати, напрягают такие ярлыки: “уехал” (еще лучше — “свалил”, “эмигрировал”, “покинул родину”) — значит, “не наш”; объективности от такого кадра ждать не приходится. Аналогично, те, кто использует свои институтские знания в работе — “эльфы”, и их единицы. Ну блииин. Ребята, да с вашей профессией можно работать где угодно. Само понятие “уехать” теряет смысл. Из Житомира в Киев — это “свалить”? Нет? А в Москву? А в Прагу? Где начинается это “свалить”? Точно так же с математикой — ее в нашей работе ровно столько, сколько мы способны увидеть. Вот классический пример из прекрасной статьи Richard Feynman and The Connection Machine:
By the end of that summer of 1983, Richard had completed his analysis of the behavior of the router, and much to our surprise and amusement, he presented his answer in the form of a set of partial differential equations. To a physicist this may seem natural, but to a computer designer, treating a set of boolean circuits as a continuous, differentiable system is a bit strange.
И вот еще Джоэл: “Google uses Bayesian filtering the way Microsoft uses the if statement”. Ага. Ну Фейнман-то точно “эльф”, да и гугловцы тоже, скажет наш программист, и вернется к своему коду: if (flag == true || (flag == false && count > MAX_COUNT)) { ... И нахрена тут bayesian filtering?
Уфф. Ну, пожалуй, хватит для первого раза — надеюсь, я не сильно тут всех нагрузил… Ставьте ваши зирочки — может, сподоблюсь на продолжение, если хорошо пойдет
Понравилась статья? Подпишись на обновления по RSS/E-mail

(39 голосов, средний: 4.56 из 5)
За ссылки по R спасибо, как-то у самого руки все не доходят. А пайпы уже такой боян, что и не понятно, зачем их обсуждать.
)
Класс. Надо учить (вспоминать забытую?) статистику, 100%.
R – такой себе Матлаб для анализа и визуализации данных.
Правда теория анализа данных, преподаваемая мне в университете с этим анализом данных имеет общим только базовые термины.
Спасибо большое, интересная штука этот “пакет R”. Пойду искать по сусекам давно забытые конспекты по статистике и мат. анализу
Я про Yahoo! Pipes даже статью на DOU под новый год писал, но она пропала из-за какого глюка движка.
За подборку по статистике автору респект. Правда, R меня не пропер. Мне как-то надо было обработать некоторые данные и сделать их стат.анализ.
В итоге проще оказалось сделать по старинке на Haskell (именно за счет предварительной обработки данных, хотя она вовсе не сложная была).
Если бы статистика была сложнее, все равно обрабатывал сначала на Haskell, а потом анализировал на R.
И стиль поста понравился. Так держать
Роман Чепляка: я, кстати, так и делаю – сначала Haskell и/или Pig+Hadoop, а потом R
О! Яху, а что у вас слышно по поводу выхода Bing, судя по статьям он больше не на Гугль нацелен, а на Яху
Уточнение – я б всё-таки сказал, что CRAN – аналог CTAN. Он был первее.
Очень интересный пост. Радует что не просто flat list of links, a есть бекграунд и куча контекстных ссылок на полeзные статьи с других блогов. Keep up!
Спасибо всем! Надо будет еще сподобиться.. Кстати, имно, неплохая идея устраивать тематические линкдампы – во-первых, сразу задается тема для комментариев, во-вторых, открыт простор для дополнений/линков…
А вот бы еще с del.icio.us это дело подружить? Типа, метить каждую ссылку как developers.org.ua и linkdump_XXX (в том числе и ссылки из комментариев)? Тогда сразу будет видно, кто что запостил, и поднять весь линкдамп.
Sergey Kishchenko:
Таки да. Я, кстати, именно CTAN хотел сначала упомянуть, а потом подумал, что перл, наверное, народу ближе, чем ТеХ.
Чувак в Programmers Need To Learn Statistics Or I Will Kill Them All просто пар випустив, видно імбецили дістали. Важко сприймати серйозно.
от мені теж цікаво, я сюди підкруити цей фільтр і чи не оптимальніше буде іфами??
Оптимальнее – это когда легко понять что делает код :Р
Похоже что формулу с ифами Мотус придумал сам, и к сожалению не обяснил что за флаг и что за каунт.По крайней мере в оригинальной статье Джоэля такой формулы не видно. Поэтому совсем неочевидно, можно ли равноценно применить данное условие вместо наивного Баесовского фильтра, на который Мотус ссылается. И вообще я так понял что Джоэль имелл ввиду что гугловцы мыслят абстрактнее чем их собратьа из Майкрософт: для одного и того же алгоритма Баесовского фильтра в гугле сделают фреймворк для решения подобных задач, и потом его применят для конкретных случаев, а в Майкрософт будут копипастить ифы с небольшими изменениями.
Код был к вопросу о том, где в нашей работе начинается математика.. А что, правда ни у кого не возникло желания написать его как
if (flag || count > MAX_COUNT) { ...? Об этом и речь