April 2016: Semantic Web, fuzzy.io, crazy Venn diagrams, et plus!

Welcome to the third edition of the Mtl Data Bulletin, featuring for the first time a Q&A with a local startup. Don’t forget, you can also find us on Facebook, Twitter, LinkedIn and Meetup.

Bienvenue à la troisième édition du Bulletin Mtl Data, incluant pour la première fois une question-et-réponse avec une start-up locale. Gardez en tête que vous pouvez nous trouver aussi sur Facebook, Twitter, LinkedIn et Meetup.

via http://alwaysgro.com/seo/90-days-semantic-web-word-weaving/

A Web of Semantics

Here's our totally oversimplified 50¢ intro to the Semantic Web: The regular ("syntactic") world wide web is full of unstructured data, i.e. text. The Semantic Web is an attempt to extract structured data (e.g. csv, JSON, network graphs) from web pages. An example is DBPedia, which takes the information in the sidebars of Wikipedia articles and aggregates them into an SQL queryable table.

The closing keynote for the prestigious WWW2016 conference, held April 11-15 in Montreal, featured Peter Norvig, one of the world's most famous data scientists since before the phrase "data scientist" ever existed. Members of Mtl Data were invited (albeit at the last minute) to attend for free, so I took advantage of this opportunity. I encourage you to visit his homepage, which as you can tell from the design dates from a long time ago, but contains much information of historical and current importance, including his famous and devastatingly accurate imagining of what the Gettysburg address would have been like had it been a PowerPoint presentation.

Norvig has traditionally been somewhat at odds when it comes to the Semantic Web with its most famous proponent, Tim Berners-Lee, the inventor of the World Wide Web. He was quite conciliatory in his address, however; apparently his perspective has evolved, although he made an excellent point in pointing out that the main obstacles are getting content of sufficient quantity and quality, either from users (who, as he paraphrased Cory Doctorow, tend to be lazy, stupid liars who use different words to describe the same things or the same words to describe different things) or webmasters (who need to be given incentives to complicate their jobs making their websites machine-readable).

Norvig comes from a background in AI, and whereas before he has advocated using technologies like deep learning and word vector embedding in place of the Semantic Web, in his keynote he presented these techniques as a method to feed the Semantic Web.

I would be remiss if I didn't acknowledge Petro Valtchev and Marc-Antoine Parent of the Montreal Semantic Web Users Group who co-hosted a Semantic Web For Dummies intro meetup on April 19 and were great at breaking down the core concepts so people like me could get a grasp of the ideas in play. Any errors in interpretation in this article are a result of my own imperfect understanding. (David Taylor)

Voilà notre brève introduction au web sémantique: le web ordinaire (qu’on appelle ‘syntactique’) comprend les données non-structurées, c’est-à-dire, les textes. Le web sémantique essaie d’extraire des données structurées (par exemple, csv, json, graphes des réseaux) des pages web. Un bon exemple: DBpedia,  
DBPedia, qui prend les données de synthèse des articles de Wikipédia et les regroupe dans une table de style SQL.

La présentation finale de la conférence prestigieuse WWW2016, qui a eu lieu du 11 au 15 avril à Montréal, a été donnée par Peter Norvig, un des premiers scientifiques de données. Les membres de Mtl Data ont été invité à assister, donc j’ai pris avantage de cette opportunité. Je vous encourage à visiter la page web de M. Norvig; selon toute apparence, vous pouvez constater que cela date depuis longtemps! Il contient beaucoup d’information historique et actuelle, y compris sa  célèbre version de  l'adresse de Gettysburg si elle avait été une présentation PowerPoint. 

Norvig a toujours été un peu contre le Web sémantique, comparé au plus célèbre promoteur de ce dernier, Tim Berners-Lee, l'inventeur du World Wide Web. Norvig, cependant, était tout à fait conciliant dans son discours; apparemment son point de vue a évolué, mais il a fait un excellent point en soulignat que l'obstacle principal, c'est la qualité des données. Les données peuvent venir des utilisateurs (qui, comme il a paraphrasé Cory Doctorow, ont tendance à être des menteurs stupides parasseux qui utilisent différents mont pour décrire les mêmes choses out les mêmes mots pour décrire des chose différentes) ou des professionels en Web (qui ont besoin de récompense quelquonque pour compliquer leur travail en rendant leurs sites Web lisibles à la machine).

Norvig vient du milieu de l'intelligence artificelle, et alors qu'auparavant il a recommandé l'utilisation de technologies comme deep learning et word vector embedding au lieu du Web sémantique, il a décrit dans sa présentation ces techniques comme complémentaire au Web sémantique.

Je serais négligent si je ne reconnaissas pas Petro Valtchev et Marc-Antoine Parent du Groupe d'Utilisateurs du Web sémantique de Montréal, qui ont co-organisé avec MTL Data un rencontre d'interoduction du Web sémantique le 19 avril. Ce fut très illuminant. Toute erreur dans l'interprétation du Web sémantique de cet article est le résultat de ma propre compréhension imparfaite. (David Taylor)

We’re trying out a Q&A format this month! We asked Evan Prodromu and Matt Fogel of the Montreal/San Francisco machine learning startup fuzzy.io some questions, suspecting they’d be the type of people who’d give us answers that were both illuminating and entertaining. As you’ll see, they did not disappoint!

Explain fuzzy.io to me like I know nothing about machine learning

Fuzzy.io is an API that makes it easy for developers to bring AI-powered decision-making into their apps. Most developers don’t have experience with AI or machine learning, and they’ll often build out code to make decisions in their apps using dozens or hundreds of nested if-then statements. Fuzzy.io lets them start with if-then type statements that they already understand to create and intelligent agent that then learns and improves automatically over time. Some common uses include dynamic pricing decisions, matching users in marketplaces, and recommendations.

Explain fuzzy.io to me like I'm Andrew Ng.

Fuzzy.io lets developers build intelligent agents without requiring an up-front investment of data. Essentially, you pay for your training data on “layaway”, by getting some intelligent behaviour out of a rules base first. The performance of those decisions in production use is then fed back to the system to optimize the parameters of the rules base, improving the performance of the system over time.

As an example, consider a brand-new artillery officer put in charge of a field cannon (don’t try this at home). They don’t know anything about ballistics, air resistance, or calculus; they just know that if they point the muzzle of the gun higher, the cannonballs go farther, and if they point the gun lower, the cannonballs are closer.

A fuzzy.io agent implementing this system would receive the distance to the target as an input, and would give the muzzle angle as an output. It could then receive the margin of error as a feedback value (“Missed by 10 meters, sir!”) and use that feedback to optimize its parameters. Over time, its margin of error will go down and down.

Why the name 'fuzzy'? That's an evocative word; what are you trying to evoke?

Part of our system that powers the initial heuristics used to get started with Fuzzy.io use fuzzy logic behind the scenes, so we started using ‘fuzzy’ as part of our name, and it just stuck!

What led the two of you to want to make this startup? Both personally and professionally.

The seed of the idea behind Fuzzy.io stemmed from real problems that both of us had experienced in the past. We had both worked on previous startups (Evan as CTO, Matt as head of product) where we wanted to introduce some intelligent behavior to our applications, but either didn’t have engineers with machine learning/AI expertise, or didn’t have enough data to train new models. As a way of ‘faking’ the intelligence we would see teams starting to build some of these features out in procedural code, as a mess of nested if/then statements.

So who are you guys, really?

Evan’s a serial entrepreneur. He started WikiTravel and Status.net, and immediately prior to Fuzzy.io, he was founding CTO at Breather. This is Matt’s first time as a startup founder, but he’s been an early employee at several, and has done digital marketing work for startups and major brands alike. Immediately prior to Fuzzy.io he was VP of Product and Strategic Partnerships at Agendize.

One of us is an astronaut and the other is a caveman. We leave it as an exercise to the reader to figure out who’s who.

In a fight between astronauts and cavemen, who would win?

Probably depends where the fight occurs. In space? The cavemen, who lack space suits, die pretty quickly. Not much of a fight. On the ground? Astronauts get bludgeoned to death. Under water? The sharks win.

Pour faire changement, nous avons soumis des questions à Evan Prodromou et Matt Fogel du startup en apprentissage automatique fuzzy.io, basé à Montréal et à San Francisco. Nous avons pensé qu'ils nous donneraient des bonnes réponses dans ce format, à la fois informatif et divertissant. Ils ne nous ont pas déçus!

Expliquez fuzzy.io comme je ne sais rien à propos de l'apprentissage automatique.

Fuzzy.io est une API qui permet aux développeurs d'apporter à leurs applications des décisions augmentés par l’intelligence artificelle. La plupart des développeurs ne possèdent pas l'expérience avec AI ou avec l'apprentissage automatique, et souvent ils vont inclure dans leurs applications des dizaines ou des centaines de déclarations conditionnelles. Fuzzy.io leur permet de commencer avec les déclarations qu'ils comprennent déjà, et ajouter un agent intelligent qui apprend et s’améliore automatiquement au fil du temps. Ceci peut être utile, par exemple, en ce qui concerne les décisions dynamiques de tarification, correspondant à des utilisateurs dans les marchés et les recommandations.

Expliquez fuzzy.io comme je suis [célèbre scientifique de données] Andrew Ng.

Fuzzy.io permet aux développeurs de créer des agents intelligents sans nécessiter un investissement initial de données. Essentiellement, vous payez pour vos données d'entraînement sur "mise de côté", en obtenant premièrement un certain comportement intelligent selon des règles. La performance de ces décisions en production est ensuite réinjectée dans le système pour optimiser les paramètres des règles, améliorant la performance du système au fil du temps.

Par exemple, considérons un officier d'artillerie flambant neuf  en charge d'un canon (ne pas essayer à la maison). Il ne sait rien à propos de la balistique, la résistance de l'air, ou le calcul; il sait juste que s’il vise plus haut, les boulets de canon vont plus loin, et s’il vise plus bas, les boulets attérissent plus proches.

Un agent fuzzy.io appliqué à ce système pourrait prendre la distance de la cible, et donnerait le bon angle à l’officier l. Il pourrait alors recevoir la marge d'erreur ("räté de 10 mètres, monsieur!») et utiliser cette information pour optimiser ses paramètres. Éventuellement, sa marge d'erreur descendra..

Pourquoi le nom «fuzzy»? Voilà un mot évocateur; ce que vous essayez d'évoquer?

Une partie de notre système qui alimente les heuristiques initiales utilisées au début utilise la logique floue dans les coulisses; nous avons donc commencé à utiliser «fuzzy» dans le cadre de notre nom.

Ce qui a conduit vous deux de vouloir faire cette startup, personnellement et professionnellement.

La semence de l'idée derrière Fuzzy.io découlait de problèmes réels que nous avons vécus dans le passé. Nous avions tous les deux travaillé avec des startups (Evan comme CTO, Matt en tant que chef de produit) où nous voulions introduire un comportement intelligent à nos applications. Mais il nous manquait toujours ou des ingénieurs avec l’expertise nécessaire, ou assez de données pour construire des modèles. Nous avons été témoin de certaines équipes qui ont essayé d’imiter l’intelligence artificielle dans leur code avec une tonne de déclarations conditionnelles.

Alors, qui êtes-vous, les gars, en réalité?

Evan est un entrepreneur en série. Il a commencé avec WikiTravel et Status.net, et immédiatement avant Fuzzy.io, il a été fondateur CTO chez Breather.  C’est  la première fois que Matt est fondateur d’un startup, mais il a été souvent un des premiers employés , et il a travaillé dans le marketing numérique pour les startups et les grandes marques aussi. Immédiatement avant Fuzzy.io il était vice-président des produits et des partenariats stratégiques à Agendize.

L'un de nous est un astronaute et l'autre est un troglodyte. Nous laissons  un exercice pour le lecteur de savoir qui est qui.

Dans un combat entre les astronautes et les troglogytes, qui gagnerait?

Ça dépend probablement où le combat se passe. Dans l'espace? Les troglodytes, qui manquent de scaphandres, mourront assez rapidement, sans beaucoup de combat. Par terre? Les astronautes se feront matraqués jusqu’à la mort. Sous la mer? Les requins gagnent.




  • Consultant en Science de Données/Data Scientist@An Insurance company/Une compagnie d'assurance, via Procom
  • Scientiste de données/Data Scientist/@New Startup/Nouvelle compagnie, via Callière
  • Senior Data Engineer@Breather
  • Data Scientist@Cybercoder
  • Senior Analyst Data scientist Client strategy@National Bank of Canada
  • Data Scientist@CSI Consulting
  • Analyste de données - Data Analyst@Travel company via Experis
  • Senior Data Engineer@Adgear
  • Data Analyst@Ludia (games)
  • Data Scientist@Kronos


In our inaugural issue two months ago, we presented Drew Conway's famous Data Science Venn Diagram. There are other versions around the Internet (e.g., here, here, here and here), but they all have three circles, usually having something to do with Business/Domain Knowledge, Programming/Computer Skills and Statistics. Stephen Kolassa on Stackoverflow added "Communication" to the list, a skill often overlooked in the STEM fields. So we thought we'd show it to you here, if for no other reasons than four-area Venn Diagrams look really cool. (If you want your mind blown, check out a seven-set Venn Diagram.)

Dans notre première édition il y a deux mois, nous avons présenté le célèbre Diagramme de Venn de la science des données de Drew Conway. Il y  a d’autres versions sur l’Internet (par exemple, ici, ici, ici et ici), mais ils sont tous trois cercles, d’habitude ayant comme domaine l’intelligence d’affaires, l’informatique et la statistique. Stephen Kolassa à Stackoverflow a ajouté la communication à la liste, un talent souvent négligé dans la science et technologie. Nous vous le présentons ici; au moins, des diagrammes Venn avec quatre zones ont l’air cool!

Labels: , , , , ,

No comments:

Post a Comment