経理マンがKaggleに登録してみた

この連休中に、以前から興味があったKaggleに今更ながら登録してみましたので、記録として記事を書きます。

Kaggleとは、データ解析コンペティションを開催している英語サイトであり、2017年にGoogle(の持株会社であるAlphabet社)に買収されています。コンペがメインですが、世界中の優秀なデータサイエンティストが公開しているNotebookを閲覧したり、ディスカッションに参加したりすることで、最先端のデータサイエンスの英知にアクセスすることができます。

www.kaggle.com

Kaggleの登録

Kaggleの登録は、Kaggleのサイトから誰でも無料で簡単に行えます。以下のサイトが参考になります。

aizine.ai

Kaggle参加者には以下の5つのランクがあります。Grandmasterは日本に10人程度(世界でも百数十人程度)しかいないといわれる最高ランク、Masterも上位ランカーとして尊敬を集めるようなステータスです。実際、Grandmasterの方はもちろん、Masterの方も書籍を出版されたりしています。

  • Novice

  • Contributor

  • Expert

  • Master

  • Grandmaster

登録した時点では誰もがNovice(初心者)ですが、以下の決められた行為を実施すれば、誰でもすぐにContributorにランクアップできます。せっかくなので、登録したらすぐにContributorになっておくと良いと思います*1。これで、あと2回ランクを上げれば、すぐにMasterになれそうです。(大嘘)

  • Add a bio to your profile

  • Add your location

  • Add your occupation

  • Add your organization

  • SMS verify your account

  • Run 1 script

  • Make 1 competition submission

  • Make 1 comment

  • Cast 1 upvote

Kaggle登録後のNext step

Kaggleは、私のような門外漢の初心者にはかなりハードルが高いイメージがありましたが、最近は日本語での初心者向け情報も充実してきました。

たとえば以下のサイトが参考になります。私も、この記事を参考に、これからKaggleでの学習を進めてみたいと思います。

qiita.com

なお、上記のサイトの著者による書籍が最近出版されたようです。さらに、この本を卒業した後は、こちらのKaggle本で学ぶのが良いようです。

このように、先人たちが日本語での情報をどんどん公開してくれているのは、初心者にとってありがたいことです。感謝の気持ちを忘れないようにしたいですね。

Kaggleの学習コンテンツ

Kaggleの中にも、Faster Data Science Educationと題した、無料で学べる簡単な学習コンテンツ(micro-courses)があります*2

About Kaggle Learn

These micro-courses are the single fastest way to gain the skills you'll need to do independent data science projects.

We pare down complex topics to their key practical components, so you gain usable skills in a few hours (instead of weeks or months).

全て英語ではありますが、かなり幅広い領域がコンパクトにまとまっている印象であり、私のような初心者には参考になると思いますので、以下にコースの概要を紹介したいと思います。

  • Python: Learn the most important language for data science.

  • Intro to Machine Learning: Learn the core ideas in machine learning, and build your first models.

  • Intermediate Machine Learning: Learn to handle missing values, non-numeric values, data leakage and more. Your models will be more accurate and useful.

  • Data Visualization: Make great data visualizations. A great way to see the power of coding!

  • Pandas: Solve short hands-on challenges to perfect your data manipulation skills.

  • Feature Engineering: Discover the most effective way to improve your models.

  • Deep Learning: Use TensorFlow to take machine learning to the next level. Your new skills will amaze you.

  • Intro to SQL: Learn SQL for working with databases, using Google BigQuery to scale to massive datasets.

  • Advanced SQL: Take your SQL skills to the next level.

  • Geospatial Analysis: Create interactive maps, and discover patterns in geospatial data.

  • Microchallenges: Solve ultra-short challenges to build and test your skill.

  • Machine Learning Explainability: Extract human-understandable insights from any machine learning model.

  • Natural Language Processing: Distinguish yourself by learning to work with text data.

  • Intro to Game AI and Reinforcement Learning: Build your own video game bots, using classic algorithms and cutting-edge techniques.

*1:一見すると要件が多いようですが、一定のプロフィールを入力したうえで、上記のサイトの流れにしたがってデータ提出を体験すれば、ほとんどの項目をクリアできます。

*2:Kaggleのメニューの中からCoursesを選択します。