Bulletin Mtl Data #5: 31 May/mai 2016



MAINTENANT DEUX FOIS PAR MOIS! LA PROCHAINE ÉDITION SERA DIFFUSÉE LE 16 JUIN! • NOW TWICE MONTHLY! LOOK FOR OUR NEXT ISSUE ON JUNE 16!


La réponse à ce bulletin a été si positive et on a tant de choses à ajouter que l’on a décidé de travailler deux fois plus fort afin de vous faire parvenir les nouvelles de la communauté montréalaise des données! The response to this bulletin has been so positive and we have so much content that we’ve decided to do twice as much to bring the news of the Montreal data community to you!

Image 20160523_111410.png


Bienvenue à la cinquième édition (31 mai 2016) du Bulletin Mtl Data; Gardez en tête que vous pouvez nous trouver aussi sur Facebook, Twitter, LinkedIn et Meetup. Cette édition: on recherche des bénévoles, des réactions à notre dernière rencontre, les représentations vectorielles des mots pour les nuls, des liens, un calendrier, des jobs et plus! Et pour cette édition, on a le français en premier avec l’anglais en italique!


Welcome to the fifth edition (May 31, 2016) of the Mtl Data Bulletin. Don’t forget, you can also find us on Facebook, Twitter, LinkedIn and Meetup. This issue: a call for volunteers, reactions to our last meetup, word embeddings for dummies, links, calendar, jobs and more! This month, French is first and English is in italics!






MTL DATA CHERCHE DES BÉNÉVOLES • MTL DATA NEEDS VOLUNTEERS
volunteer.jpg


Champion/ne du Bilinguisme: MTL Data est une communauté inclusive. Nous voulons nous assurer que les deux langues parlées à Montréal sont bien représentées. Le rôle du responsable du bilinguisme est d’impliquer les communautés anglophones et francophones comme participants et présentateurs lors des évènements et de s’assurer du bilinguisme en ligne.


Coordinateur/trice d’évènements: Le coordinateur sera impliqué dans l’organisation de nos évènements de A a Z. Vous aiderez a planifier l’évènement, trouver des présentateurs et sponsors, communiquer, s’occuper de la logistique et publier le contenu en ligne après l’évènement.


Développeur Web: Avec l’agrandissement de notre communauté en ligne, notre site web va attirer de plus en plus de visites et devenir une plateforme pour les membres de MTL Data. Nous voulons ajouter de nombreuses fonctionnalités à notre site web et cherchons un développeur pour étendre notre présence en ligne.


Bilingualism Champion: MTL Data is an inclusive community and we want to make sure that both languages spoken in the city are well represented. The bilingualism champion’s role is to involve the anglophone and francophone communities as participants and speakers during the events and help maintain bilingualism online.


Event Coordinator: The coordinator will be involved with the organization of our monthly events from beginning to end. You will help planning events, finding speakers and sponsors, spreading the word, running the logistics and publishing content online after the event.


Website developer: As we grow our community online, our website will drive more and more traffic and become a hub for the members of MTL Data. We have big plans to add more features to the website and are looking for a lead developer to drive our online presence.




NOTRE PROCHAINE RENCONTRE • OUR NEXT MEETUP


meetup-logo.jpg


Analyse des séries chronologiques: l’approche R et Python
Time Series Analysis: An R and Python Perspective.


Jeudi, le 2 juin 2016, 18h30 @ Flatbook HQ, 3875 rue Saint-Urbain #300, H2W 1V1, Montréal, QC • Thursday, June 2, 2016, 6:30 PM @ Flatbook HQ, 3875 rue Saint-Urbain #300, H2W 1V1, Montréal, QC
Quan Nguyen:  Introduction to Time Series Using R (en anglais)

Un avant-goût de l’analyse de données chronologiques sera présenté commençant avec la préparation des données suivie de la gestion et la manipulation des données manquantes pour des applications typiques telles que la saisonnalité, la prédiction ainsi que la détection d’anomalies. Nous utiliserons des fonctions dont ts, zoo, stl, Decompose, Arima & AnomalyDetection. Les échantillons de codes seront accessibles par Github. Nous utiliserons les données de ventes d’autos par mois au Canada depuis 2010.  • A taste of time series analysis starting with data set preparation & handling missing samples for typical applications such as seasonality, forecasting and anomaly detection. You will be using time series functions such as Ts, Zoo, Stl, decompose, Arima, & AnomalyDetection. Sample working code will be provided in github. We will use a dataset of monthly car sales volume in Canada since 2010.

Josef Perktold: Time Series using Python’s Statsmodels (en anglais)


Une introduction à la modélisation des séries chronologiques à la prévision, en utilisant le module Python statsmodels, présenté par un des ses créateurs. Nous nous concentrons sur la construction de modèles de prévision ARMA ou SARIMAX pour illustrer certains problèmes qui se présentent avec différents types de données. Nous utiliserons les méthodes de manipulation de séries chronologiques pandas, mais sans donner trop de détails sur ce module Python. Tom Augspurger a fourni une très belle introduction à ce dernier dans son récent blogue et bloc-notes. • An introduction to time series modeling and forecasting using the statsmodels Python library, from one of its creators and maintainers since its beginning. We will focus on building ARMA or SARIMAX models for forecasting and illustrate some issues that arise with different kinds of datasets. We will be using pandas time series data handling, but without going much into details. Tom Augspurger provided a very nice introduction in his recent blog post and notebook.


Sponsor and host :
flatbook-logo-blue.png





RÉACTIONS À NOTRE DERNIÈRE RENCONTRE • REACTIONS TO OUR LAST MEETUP
reaction.jpg


Le rencontre de Mtl Data pour le mois de mai était, selon l'énergie dans la salle, quelque chose de spécial, donc nous avons demandé à un membre de l'auditoire et une présentatrice de  partager avec nous leurs impressions afin d'assurer que cette impression n'était pas juste dans la tête des organisateurs!


Zafarali Ahmed, scientifique des données et membre de l'auditoire:


La semaine dernière, les "Lightning Talks" de MTL Data était un moyen fantastique pour en apprendre davantage sur la communauté, sur ce qu'ils pensent et  comment ils utilisent leurs outils familiers d'une manière nouvelle. Les représentants des compagnies ont démontré comment certaines choses que nous prenons pour acquis, exigent beaucoup de réflexion et d’ingénierie, affirmant comment, par exemple, «La partie la plus difficile de l'apprentissage automatique, ce n'est pas l'apprentissage automatique"! Les amateurs nous ont impressioné avec leurs projets, confirmant encore une fois qu'il n’est pas nécessaire d’être professionnel dans le domaine des données pour avoir de la passion pour les données. Enfin, il y avait des représentants de la ville et des écoles de données qui voulaient entendre ce que nous avions à dire sur nos expériences avec des sources de données ouvertes de Montréal et de Québec. Cela montre que la ville est intéressé par nos projets et explore la façon de travailler avec nous afin de trouver pour notre ville une meilleure utilisateur des données. Dans l'ensemble, les "Lightning Talks" sont un excellent moyen d'apprendre de nouveaux trucs, faire de nouveaux amis, ou tout simplement pour voir qui fait quoi!


Marianne Corvellec, présentatrice:


Il était très agréable de voir la communauté au dernier meetup Montréal Data. Quel taux de participation impressionnant! Les bureaux de Breather sont accueillants et confortables, très Mile End. J'ai vraiment apprécié cette édition Lightning Talks: fun, rapide, diversifiée. J'étais aussi impressionnée par la configuration de livestream -- félicitations à tous ceux qui ont rendu cette rencontre possible. Bien sûr, j'ai manqué de temps pour ma démonstration. Bien sûr. Mais cela n'a pas d'importance. Cet événement a été l'un où vous pouvez sentir que nous bâtissons ensemble la culture de la science de données, ici et actuellement.


The May meetup of Mtl Data was, judging by the energy in the room, something special, so we reached out to one audience member and one presenter to get their impressions of it to make sure it wasn't just the organizers' wishful thinking!


Zafarali Ahmed, data scientist & audience member:


Last week, the MTLdata "Lightning Talks" was a fantastic way to learn about what the community is up to, what they think about and how they use familiar tools in a novel way. Individuals from companies expanded on how some of the features that we take for granted, require much thought and engineering. This perfectly conveyed that "The hard part about machine learning, is not machine learning"! Hobbyists infected us with their mind blowing projects, once again confirming that we don't need to be working in data to have a passion for our projects in data. And finally, we had representatives from the city and data schools who were interested in hearing what we had to say about our experiences with Montreal and Quebec open data sources. This shows that the city is interested in our projects and is looking into working with us to make our city better using data.  All in all, "Lightning Talks" are a great way to learn new tricks, make new friends, or just to see who's doing what!


Marianne Corvellec, presenter:


It was delightful to catch up with the community at the last Montreal Data Meetup.  What an impressive turnout!  The Breather offices are welcoming and cosy; very Mile End.  I really enjoyed this Lightning Talks edition: fun, fast-paced, diverse.  So impressed with the livestream setup -- congrats to everyone who made it happen.  Of course I ran out of time for my demo.  Of course.  But it doesn't matter. This event was one where you can sense that we are shaping data science culture, here and now.






QUELQUES SUJETS QUI ONT ATTIRÉ NOTRE ATTENTION • THINGS THAT CAUGHT OUR EYE
(les langues de la description correspondent aux langues des liens / languages of descriptions correspond to languages of links)
  • HackCité a eu lieu la fin de semaine du 13 mai au Desjardins Labs, en partenariat avec MTLDATA. Le Défi des Données Vertes rassemblait  diverses organizations, bases de données, idées, problèmes et solutions dans le but de promouvoir la biodiversité à Montréal, spécifiquement en créant des corridors verts. Plus de 100 bases de données ont été fournies, surtout autour des données informatiques géographiques. Des équipes ont travaillé jour et nuit pour créer des résultats impressionnants. HackCité took place the weekend of May 13th at Desjardins Labs with MTLDATA as a partner organization. The Green Data challenge was a confluence of organizations, data sets, ideas, problems and solutions relating to enhancing biodiversity in Montreal, specifically focusing on connecting Les Corridors Verts. More than 100 data sets were provided, mostly of the GIS variety. Teams worked through the night to build some very polished hacks.
  • Choisir son quartier grâce aux mégadonnées par startup montréalais Local Logic Il y aura un profil de cet organisme dans ce bulletin dans deux semaines! / Choose your Montreal neighborhood based on big data by local Startup Local Logic. There will be a profile of this organization next issue -- in only two weeks!
  • faire mtl: une plateforme collaborative bâtie autour de projets contribuant à améliorer la ville / faire mtl: a collaborative platform built around projects to enrich the city
  • De faire mtl (ci-dessus): Cour municipal en ligne développe des apps pour aider la communauté / from faire mtl (above): Municipal Court Online develops apps to help the community
  • Open Data 150: A study of companies that use open data, sponsored in part by Open North. Take the survey! Remplissez le sondage
  • Business.com: Pack Your Bags: 10 Great Startup Cities that aren’t San Francisco. Hint: one of them is Montreal!
  • The first ever Statistical Society of Canada’s Excellence in Data Journalism Award, presented by the Canadian Science Writer’s Association, just went to the Globe and Mail’s Election 2015 Forecast
  • Le Devoir sur les données ouvertes du gouvernment du Québec: Des données ouvertes, mais peu accessibles.






CALENDRIER COMMMUNAUTAIRE • COMMUNITY CALENDAR








ANNONCES COMMUNAUTAIRES • COMMUNITY ANNOUNCEMENTS


Montreal Internet of Things Alliance forme une équipe talentueuse pour le défi aquahacking.com 2016. Ils recrutent des scientifiques de données qui désirent aborder des questions touchant notre fleuve St-Laurent. Si vous aimez travailler avec la technologie IoT, IBM Bluemix, et les données ouvertes (et aussi la chance de gagner 10k$), contactez scott@miota.ca. • Montreal Internet of Things Alliance is entering a very talented team for the aquahacking.com 2016 Challenge. They are recruiting data scientists that are eager to tackle issues facing our St-Laurent River. If you enjoy working with IoT technology, IBM Bluemix, and open data (and also the chance to win $10k) contact scott@miota.ca.






EMPLOIS • JOBS


  • Data Scientist @ CyberCoders
  • Senior Data Engineer @ Breather
  • Senior Data Scientist @ Kronos
  • Conseiller senior, science de données (Senior Data Scientist), Exploration & Modélisation @ Banque nationale
  • The Job You Didn’t Know You Wanted @ Shopify






REPRÉSENTATIONS VECTORIELLES DES MOTS POUR LES NULS • WORD EMBEDDINGS FOR DUMMIES


Les représentations mathématiques dans le traitement du langage naturel étaient auparavant limitées aux “sacs de mots", d'énormes matrices creuses avec des mots en colonnes, des documents  en rangées et les fréquences en tant que valeurs (souvent transformé en fréquence des termes fois fréquence inverse dans les documents).


Mais la publication en 2013 de l'article Représentations distributées de mots et de phrases et leur composition par Mikolov et al. de Google a déclenché un changement de paradigme, en utilisant la puissance des réseaux neuronaux récurrents utilisant l'apprentissage en profondeur pour créer l'algorithme word2vec. Maintenant, les mots peuvent être définis non pas comme des cellules dans une matrice, mais comme vecteurs définis par leurs voisins. Le fameux résultat obtenu dont tout le monde a parlé est le suivant:




Maintenant, dans l'espace n-dimensionel (simplifié ici en deux dimensions), vous pourriez prendre un mot, par exemple «homme», mesurer l'angle et la distance du vecteur vers un autre mot, par exemple son équivalent féminin, «femme», et être sûr que pour tout autre mot dans votre ensemble de vecteurs (à condition que votre ensemble d'apprentissage est grand et assez robuste), s'il y a un mot qui existe au même angle et à la même distance, ces mots représentent une paire mâle-femelle. De même, suivant l'exemple à droite, un vecteur différent avec un angle différent et sa distance vous donnera des formes plurielles.


Il est difficile d'exagérer l'ampleur de changement que ces représentations linguistiques vectorielles ont porté à la capacité de l'intelligence artificielle à "comprendre" le contexte des mots. Cette découverte (pour être juste, ces vecteurs existaient avant Mikolov, c'est l'utilisation de l'apprentissage en profondeur et une technique appelée skip-grams qui étaient révolutionnaire) ont conduit à une explosion de modèles de vecteurs de mots, tels que GloVe, doc2vec, lda2vec (l'analyse latente de Dirichlet pour l'analyse des sujets a été souvent utilisé pour compenser les insuffisances des sacs de mots, de sorte que cette mise en œuvre donne le meilleur des deux mondes) et, l'entrée la plus récente à l'écurie, tweet2vec.


Il y a une courbe d'apprentissage pour s'habituer aux vecteurs des mots, mais ça vaut la peine. Le module gensim en Python a une implémentation de word2vec extraordinaire et facile à utiliser, et des modules similaires existent pour R et d'autres langues de programmation.


Mathematical representations in natural language processing used to be restricted to “bags of words”, huge sparse matrices with words as columns, documents as rows, and frequencies as values (often morphed into term frequency-inverse document frequency).
But the 2013 publication of the paper Distributed Representations of Words and Phrases and their Compositionality by Google’s Mikolov et. al. set off a paradigm shift, using the power of deep learning recurrent neural nets to create the algorithm word2vec. Now words could be defined not as cells in a matrix but as vectors defined by their neighbors. The famous example that got everyone talking is the following:
Now, in n-dimensional space (simplified here in two dimensions), you could take any word, e.g. “man”, measure the angle and distance towards another word, say its female equivalent, “woman”, and be confident that for any other word in your set of vectors (provided your training set is large and robust enough), if there is a word at the same angle and distance, then those words represent a male-female pair. Similarly, on the example on the right, a different vector with a different angle and distance would give you plural forms.


It is difficult to overstate the sea change that word embeddings have had on our ability to get artificial intelligence to “understand” context. This discovery (to be fair, word embeddings existed before Mikolov, it was the utilization of deep learning and a technique called skip-grams that revolutionized it) led to an explosion of word vector models, such as GloVe, doc2vec, lda2vec (latent Dirichlet analysis for topic analysis was often used to make up the shortcomings of bags of words, so this implementation gives the best of both worlds) and, the newest entry to the stables, tweet2vec.


There is a big of a learning curve to getting used to word embeddings, but it’s worth the effort. The Python package gensim has a great and easy-to-use implementation of word2vec, and similar packages exist for R and other languages.


-- par/by David Taylor, www.prooffreader.com; toute erreur est la responsabilité de l'auteur / any errors are the author’s




PENSÉE FINALE • FINAL THOUGHT

Labels: , , , , ,
edit

No comments:

Post a Comment