Pythonによる実務に役立つデータサイエンス・AIのためのデータ前処理【提携セミナー】
開催日時 | 未定 |
---|---|
担当講師 | 松本 和幸 氏 |
開催場所 | 未定 |
定員 | 未定 |
受講費 | 未定 |
Pythonによる実務に役立つ
データサイエンス・AIのためのデータ前処理
《Google Colabで動作するサンプルコードによる演習》
【提携セミナー】
主催:株式会社R&D支援センター
◆セミナー趣旨
本セミナーでは,データサイエンスや人工知能のためのデータ分析において欠かせないデータの前処理技術についてレクチャー,実演をメインに行います。自らGoogle Colab環境上でサンプルコードを動かすことで実践的な前処理技術を習得することが目標です。Google Colab上にはじめからインストールされている数値計算,機械学習ライブラリ,深層学習フレームワークは,大変便利で実用的です。しかし,市販の参考書を片手に整理整頓された教科書的なデータを分析するだけでデータサイエンスやAIを理解した気になっていると,実際の業務において,一筋縄ではいかないデータに直面した時,何をどうしてよいのかわからずに思考停止に陥るのではないでしょうか。
データサイエンスやAIを一から学びたい人,仕事で使用するためにとにかく手っ取り早く手を動かしながらコツをつかみたい人,ご心配はご無用です。このセミナーでは,困ったときに参考になる実用的な前処理用のサンプルコードを豊富に準備しています。また,講師の研究経験から,データ前処理だけでなく有用なデータ収集の困難さやその極意,上手くいかないときのチューニングのノウハウなども伝授したいと思います。
◆習得できる知識
- Google Colabを用いて実用的かつ効率的なデータ分析を行う知識
- Pythonを使った基本的なデータの前処理知識
- 数値,テキストなどに対する前処理の知識
- ファインチューニングやデータ拡張,大規模言語モデルなど最近のAIでは常識になっている技術に関する知識
◆受講対象
- データサイエンスやAIを一から学びたい方
- Pythonを使いこなすために勉強を始めた方
- すでにPythonを使ってデータ分析をされている方、など
◆キーワード
Python,人工知能,機械学習,ディープラーニング,データ,前処理,研修,講座,セミナー
担当講師
徳島大学 大学院 社会産業理工学研究部 准教授 博士(工学) 松本 和幸 氏
≪専門≫
感性情報処理,自然言語処理
≪略歴≫
2008年徳島大学大学院工学研究科博士後期課程修了.博士(工学).2009年10月徳島大学大学院ソシオテクノサイエンス研究部助教.2017年4月より徳島大学大学院社会産業理工学研究部助教,2020年4月より准教授.現在に至る.
感情計算,自然言語処理,感性ロボティクス,ビッグデータ解析,医療や介護福祉におけるテキストマイニング,マルチモーダル感情推定に基づくストレス自動検出システム,生活習慣病注意喚起システムの研究に従事.情報処理学会,電子情報通信学会,言語処理学会,電気学会,人工知能学会,日本感性工学会,ヒューマンインタフェース学会,ITヘルスケア学会などの会員.
セミナープログラム(予定)
0.序章「AI・機械学習における前処理」
1.準備
1.1 Google ColabによるPython実行環境と便利な使い方
1.2 便利なライブラリ
1.2.1 NumPy, pandas による数値データの処理
1.2.2 scikit-learnを用いた簡単な機械学習
1.2.3 matplotlibによる可視化の基本
1.2.4 Tensorflow, Keras を用いた深層学習の基本
2.基本的な前処理
2.1 標準化と正規化,ビニング
2.2 外れ値や欠損値への対処法
2.2.1 四分位範囲による外れ値除去
2.2.2 外れ値に頑健な標準化法
2.2.3 単一代入法による欠損値の補完
2.2.4 多重代入法による欠損値の補完
2.3 特徴選択手法
2.3.1 フィルタ法(カイ二乗検定,ANOVA,ピアソン積率相関係数)
2.3.2 ラッパ法(RFE,Boruta)
2.3.3 正則化(リッジ回帰,LASSO回帰,弾性回帰ネット)
2.4 次元削減と可視化
2.4.1 PCA
2.4.2 NMF
2.4.3 UMAP
2.4.4 その他の次元削減
3.高度な前処理
3.1 カテゴリカルデータから数値データへの変換
3.1.1 one-hotエンコーディング
3.2.2 ラベルエンコーディングとその他のエンコーディング法
3.2.3 特徴量ハッシング
3.2.4 カテゴリ変数の分散表現(エンティティ埋め込み)
3.2 アンバランスなデータへの対処法
3.2.1 アンダーサンプリング(ENN, NearMiss, TomekLinks, etc.)
3.2.2 オーバーサンプリング(SMOTE, ADASYN, BorderlineSMOTE, etc.)
3.3 時系列データ処理の基本
3.3.1 窓付き統計値
3.3.2 タイムゾーンの変換
3.3.3 時系列データの補完
4.テキストデータの前処理
4.1 テキスト抽出,分かち書きと形態素解析
4.2 単語分散表現,トピックモデリング
4.3 ニューラルネットワークによる文書分類
4.3.1 畳み込みニューラルネットワーク
4.3.1 BERTのファインチューニング
4.3.2 テキストデータの拡張方法
4.5大規模言語モデルとその周辺
4.5.1 言語モデルのファインチューニング
4.5.2 言語モデルの軽量化
4.5.3 言語モデルの説明可能性
5.まとめ
5.1 演習問題
5.2 もっと詳しく学びたい人へ
【質疑応答】
公開セミナーの次回開催予定
開催日
未定
開催場所
未定
受講料
未定
※セミナー主催者の会員登録をご希望の方は、申込みフォームのメッセージ本文欄に「R&D支援センター会員登録希望」と記載してください。ご登録いただくと、今回のお申込みから会員受講料が適用されます。
※R&D支援センターの会員登録とは?
ご登録いただきますと、セミナーや書籍などの商品をご案内させていただきます。
すべて無料で年会費・更新料・登録費は一切かかりません。
備考
- 本セミナーは「Zoom」を使ったWEB配信セミナーとなります。
- セミナー資料は開催前日までにお送りいたします。無断転載、二次利用や講義の録音、録画などの行為を固く禁じます。
お申し込み方法
★下のセミナー参加申込ボタンより、必要事項をご記入の上お申し込みください。
★【LIVE配信】、【アーカイブ配信】のどちらかご希望される受講形態をメッセージ欄に明記してください。