TOP

クリップ
2016/10/30(日) 13:30 開催
東京都 大久保

【10月30日(日)データ解析講習会Part5@新大久保】

基本情報

日 時: 2016/10/30(日) 13:30 〜 16:30
会 場: ソレイユ新宿
住 所: 新宿区百人町1-18-10太陽堂ビル7階

イベント内容

【10月30日(日)データ解析講習会Part5@新大久保】
【内容】
・最近データサイエンスのコンテストで威力を発揮しているxgboost(Extreme Gradient Boosting)を用いて、kaggleのコンテストのお題を解く例を示す。
・230種類もの機械学習のモデルを統一的に扱うことができる、caretパッケージを用いて、パラメータチューリングやモデル間比較を行う(Ridge回帰, Lasso回帰, Elasticnet,,,)。http://topepo.github.io/caret/index.html
・最近公開された、厚労省のレセプトデータ(全国の病院での診療や薬剤データ)の解析例を示す。http://www.mhlw.go.jp/stf/seisakunitsuite/bunya/0000139390.html
※言語はRです。

【目的】
・よく使う機械学習の手法の理解。
・パラメータチューリングの理解。
・実際によくあるExcel形式のデータをどう加工すればよいかの理解。

【日時】2016年10月30日(日)13:30-16:30

【会場】ソレイユ新宿(http://ameblo.jp/soleil-sinjuku/)
住所:新宿区百人町1-18-10太陽堂ビル7階
アクセス:JR総武線大久保駅北口徒歩1分、JR山手線新大久保駅徒歩4分

以下イベント詳細となります。

【タイムライン】
13:15- 開場
13:30- 13:35 企画紹介と参加者自己紹介
13:35-14:20 xgboostを用いたkaggleコンテスト出場デモ
14:20-14:30 休憩
14:30-15:30 caretパッケージの紹介と各種機械学習でのパラメータチューリング
15:30-15:40 休憩
15:40-16:00 caretパッケージを用いた機械学習
16:00-16:20 厚労省が公開したレセプトデータの紹介と解析例紹介
16:20-16:30 質疑応答
※あくまでこのタイムラインは目安です。
※初めに各参加者の興味分野と今回参加したモチベーションを一人ひとりお聞きします。その内容によって各話題のボリュームや量を調整しようと思います。

【注意点】
・基本的にPart1を受講なさられた方が対象です。基本的なRプログラミングの説明は飛ばしがちにます。あと可視化についても同様です。

【Rとは?】
 オープンソースで無償である高機能な統計ソフト。世界中のRユーザが開発したRプログラム(パッケージ)がCRAN(The Comprehensive R Archive Network)というネットワークにより提供されています。プログラミング初心者でも扱いやすく、Referenceが充実しています。Excelと比べデータ可視化のツールのレパートリーが圧倒的に豊富です。R言語によりプログラムを記述します。

【参加方法】
Doorkeeperでご登録ください。
https://0f1304e65103e294f80c0307ba.doorkeeper.jp/events/53633

【定員】
10名

【参加費】
学生 無料(学生の方は受付で学生証をお見せください)
社会人3000円

【当日の持ち物・必要なPCのスペック・必要なソフトウェア】
※ご自身のノートPCを必ずお持ちください。
※kaggleのアカウント登録はできるだけ事前によろしくお願いします(https://www.kaggle.com/)。登録しなくても結構ですが、その場合前半1時間ほどデモを
追えなくなります。

【Windowsの方】
Windows 7以上を推奨 (Xquartzのダウンロードは不要。Rだけダウンロードインストールお願いします)
Rを事前にダウンロードしてきてください(RStudioではありません)。
https://cran.r-project.org/
のDownload R 3.3.1 for Windows (62 megabytes, 32/64 bit)をクリックして、インストールを進めてください。(Download R for Windowsをクリック、baseの文章内のinstall R for the first timeをクリック、Download R 3.3.1 for Windows (70 megabytes, 32/64 bit)をクリックしてダウンロードののち、インストールを行ってください。

【Macの方】
Mac OSX(10.6以上推奨)
Rを事前にダウンロードしてきてください(RStudioではありません)。
https://cran.r-project.org/
Download R for (Mac) OS Xをクリック、R-3.3.1.pkgをクリックするとダウンロードできます。そののちにインストールしてください。
XQuartz(Macのみ)が入っていない方いましたら、ダウンロードを事前に行ってください。
https://www.xquartz.org/
ダウンロード後、ユーティリティの中にあるx11をダブルクリックしてからRをで、コードをご使用ください。
※Windows環境とMac環境両方お持ちの場合は、Windowsを推奨します。
(※当日のパソコン貸し出しは行いません。もし動作がうまくいかない場合、講義を聞くだけになります。その旨ご了承いただける方のみご参加ください。RはOSだけでなく各マシンの種類・設定によっても一部動作しない場合がありますが、それをご理解いただける方のみご参加ください)

【Linuxの方】
https://cran.r-project.org/
から、Download R for Linuxをクリック、その後、各々の環境に沿ってダウンロードインストールを行ってください。
・無線LAN搭載
・HDD空き容量2GB以上
・メモリ4GB以上

【開発環境設定】
当日の運営を円滑に行うため、環境設定はできるだけご自身で事前に行ってください。
※RとRパッケージのダウンロード・インストールで生じたマシンのすべての不具合に関して運営側は責任を負いかねます。

【お願い】
当日、一部でネット環境を必要とします。会場のWi-Fi回線は混みあうことが予想されますので,お持ちの方はモバイルルーターなどをご持参ください(こちらでも用意しています)。

【前回開催したPart5の講習会のご感想】
・今後の業務につながる非常に濃い内容でした。ありがとうございました!また、次の勉強会、期待しています!
・Kaggle参加、チューニングについての実践的なコメントがあり良かった。
・Kaggle、チューニングに関する泥臭い実践的ノウハウを増やしていただけると嬉しいと思います。

【前回開催したPart5の講習会のアンケート結果】
・満足66% やや満足33%
・講義の難易度 普通100%
・ハンズオンの難易度 普通100%

【講師紹介】
鈴木瑞人(東京大学大学院新領域創成科学研究科 メディカル情報生命専攻 博士課程1年)
2014年3月東京大学理学部生物学科卒業
2016年3月東京大学大学院新領域創成科学研究科 メディカル情報生命専攻 修士課程卒業

【お問い合わせ先】
machine.learning.r@gmail.com

【今までの講習会の内容】
Part1: 機械学習入門とデータ可視化
Part2: 機械学習の実践と時系列データ解析入門
Part3: 統計、状態空間モデル、一般化線形モデル、Pythonでの機械学習入門 
Part4: Rのデータセットを用いた、データ可視化と解析演習

【主催】
東京大学機械学習勉強会
http://www.machine-learning-r.com/

【東京大学機械学習勉強会とは?】
東大・早稲田・慶応の大学生・大学院生のデータ解析力の底上げを図り、また、学生がもつ大学の知識を一般に還元しようとしている東大生4名で活動している団体。もうじきHP作って組織拡大する予定。
活動内容は上記二つに加え、行政・研究機関などがOpenにしたデータを真っ先に解析し、解析結果を一般に公開することを予定。

  • Twitterでシェア
  • 0
    Facebookでシェア
  • 0
    Google+でシェア
  • 0
    はてなブックマークに追加

タグに関連するイベント

2016/12/11(日) 15:00 〜 16:30
東京都 浅草橋
2016/12/10(土) 13:00 〜 15:00
東京都 神泉
2016/12/17(土) 14:00 〜 17:30
東京都 勝どき
2016/12/18(日) 14:00 〜 18:00
東京都 品川

Facebookページ

dots.で申込可能なイベント