東大松尾研究室が提供するあの人気講座が待望の書籍化!本書は、2017年と2018年に東京大学で実施された「グローバル消費インテリジェンス寄付
講座」の学生向けオフライン講義と、社会人向けオンライン講座で使われた教材がベースになっています。約400名ほどの受講枠(2年間)に、のべ1,800人以上の応募があった人気の講義です。この本のベースとなるコンテンツはJupyterNotebook形式で公開されていますが、この内容をさらに精査、ブラッシュアップし、読みやすく整えたものが本書になります。
●本書の内容本書には、データサイエンティストになるための基礎をつめこんでいます。データサイエンティストは、Pythonや確率・統計、機械学習など、幅広くさまざまな分野の知識を必要とします。すべての分野を1冊で学ぶことは無理ですので、各分野で深入りはせず基礎的な事項を取り扱っています。データサイエンティストになるための地図と羅針盤のような位置づけとなることをイメージしています。
この本は主にPython3を使って、基本的なプログラムの書き方、データの取得、読み込み、そのデータ操作からはじまり、さまざまなPythonのライブラリの使い方、確率統計の手法、機械学習(教師あり学習、教師なし学習とチューニング)の使い方についても学びます。取り扱っているデータは、マーケティングに関するデータやログデータ、金融時系列データなどさまざまで、モデリングの前にそれらを加工する手法も紹介しています。データサイエンティストになるには、どれも必要なスキルです。
本書には、さらに以下の3つの特徴があります。・実際のデータを使って手を動かしながら、データサイエンスのスキルを身に付けることができる
・データ分析の現場で使える実践的な内容(データ前処理など)が含まれている
・練習問題や総合問題演習など実際に頭を使って考える内容がたくさんある
この本に書いてあることを実践し、読み終えた後には、実際の現場でデータ分析ができるようになるはずです。
●この本の対象読者この本は、プログラミングの経験があり、理系の大学1~2年生程度の教養課程の数学(線形代数、微分積分学、確率統計の基礎など)を終えている方を対象にしています。具体的には、勉強熱心な大学3~4年生の理系の学生さんや大学院生の方、また社会人になってデータサイエンスを学ぼうという意欲の高い方たちが対象です。データサイエンスの入門レベルから中級レベルの手前までを考えている人に最適で、本書のゴールもデータサイエンス入門レベルを卒業できることを想定しています。
●著者による「はじめに」より編集・抜粋世の中は多種多様でさまざまな問題があります。非効率的な仕事や処理、無駄があることもご承知の通りです。人工知能等が注目される一方で、いろいろな誤解や過剰な期待がされていることもあります。この本を手にとってくださっている方たちには、このような状況でも現実的になって、データサイエンスや人工知能等を使って何ができて何ができないのか、ぜひ見極めてください。この読者の方たち、受講生の方たちの中から、このデータサイエンスの力を活かして、今の世の中の無駄や非効率を少しでもなくし、さらに新しい価値を創り出して、この世界を良くしていく人が増えていってくれたら、著者としては本望です。
●本書で学べること
・Python/Numpy/Scipy/Pandas/Matplotlibの基礎
・確率/統計/推定/回帰の基礎
・Numpy/Scipyによる科学計算
・Pandasを使ったデータ加工処理(欠損データ/異常値の取り扱い、時系列データの取り扱い)
・Matplotlibによるデータ可視化
・機械学習(重回帰、ロジスティック回帰、決定木、k-NN、クラスタリング、主成分分析、マーケットバスケット分析、モデルチューニング)内容(「BOOK」データベースより)データ分析に必要な知識を全方位で手に入れよう!東大松尾研究室が提供する人気講座が待望の書籍化!
[著者について]著者:
■塚本邦尊現職は某金融機関の研究開発部門にて、分析環境構築からデータ前処理自動化、分析、アルゴリズム開発と実装、取引実弾とその検証、定型レポーティング作成などを担当。ナノ秒(10億分の1秒単位)の世界でニューヨークやロンドンの猛者たちと日々戦っています(?)が、HFT(高速取引)自体は世の中の役に立っているかどうか私にはまだわかっていませんので、この最先端技術をIoTやら何か他領域でも役立てようと目論んでいます。他、個人事業として本講義の講師やさまざまな企業(メーカー、システム会社、広告代理店など)の分析サポートやアドバイスを実施したり、某コンピューター系の研究所の技術フェローを兼務。学生時代の専攻は数学で、今まで携わってきた業界は、システム会社、広告代理店、マーケティング、コンサルティング企業等。取り扱ってきた開発ツールはVisualStudio、RStudio、JupyterNotebookなどで、C#やSQL、VBA、RやPython、シェル、SASなどを使ってきました。最近はFPGAがらみのプロジェクトに関わることが多く、ハードウェア面(FPGA、Verilog、Vivadoなど)やネットワーク面(WireSharkなど)からも少しずつ学び、AWSなどクラウド環境も日々扱っています。最近時間があるときは、ラズベリーパイを使ってロボティクスについて学んだり、色々な本を読んでいます。
監修:
■中山浩太郎東京大学大学院工学系研究科特任講師2000年10月(株)関西総合情報研究所代表取締役社長就任
2002年4月同志社女子大学非常勤講師就任
2007年3月大阪大学大学院情報科学研究科博士号取得
2007年4月大阪大学大学院情報科学研究科特任研究員就任
2008年4月東京大学知の構造化センター特任助教就任
2012年4月東京大学知の構造化センター特任講師就任
人工知能、Web、データベース、機械学習、Wikipedia、知識抽出、Twitter、脳科学、自己組織化などの研究を行う。ソフトウェア関連の受賞多数。
協力:
■松尾豊東京大学大学院工学系研究科特任准教授1997年東京大学工学部電子情報工学科卒業
2002年東京大学大学院工学系研究科電子情報工学博士課程修了(工学博士)
2002年独立行政法人産業技術総合研究所研究員
2005年スタンフォード大学CSLI客員研究員
2007年東京大学大学院工学系研究科総合研究機構准教授
グローバル消費インテリジェンス寄附講座共同代表。研究・人材育成の推進リーダーとして、
研究テーマの設定、管理、学会発表、研究会・セミナー等の主催、学生の募集や指導、参画企業との調整にあたる。著者略歴(「BOOK著者紹介情報」より)中山/浩太郎
2000年10月(株)関西総合情報研究所代表取締役社長就任。2002年4月同志社女子大学非常勤講師就任。2007年3月大阪大学大学院情報科学研究科博士号取得。2007年4月大阪大学大学院情報科学研究科特任研究員就任。2008年4月東京大学知の構造化センター特任助教就任。2012年4月東京大学知の構造化センター特任講師就任。2014年12月東京大学工学系研究科技術経営戦略学専攻特任講師就任松尾/豊
1997年東京大学工学部電子情報工学科卒業。2002年同大学院博士課程修了。博士(工学)。同年より、産業技術総合研究所研究員。2005年10月よりスタンフォード大学客員研究員。2007年10月より、東京大学大学院工学系研究科総合研究機構/知の構造化センター/技術経営戦略学専攻准教授。2014年より、東京大学大学院工学系研究科技術経営戦略学専攻グローバル消費インテリジェンス寄付講座共同代表・特任准教授。2002年人工知能学会論文賞、2007年情報処理学会長尾真記念特別賞受賞。2012年~14年、人工知能学会編集委員長を経て、現在は倫理委員長。専門は、人工知能、Webマイニング、ビッグデータ分析、ディープラーニング塚本/邦尊
現職は某金融機関の研究開発部門にて、分析環境構築からデータ前処理自動化、分析、アルゴリズム開発と実装、取引実弾とその検証、定型レポーティング作成などを担当。その他、講師やさまざまな企業(メーカー、システム会社、広告代理店など)の分析サポートやアドバイスを実施したり、某コンピューター系の研究所の技術フェローを兼務。学生時代の専攻は数学で、今まで携わってきた業界は、システム会社、広告代理店、マーケティング、コンサルティング企業等山田/典一
株式会社クリエイティブ・インテリジェンス代表取締役。ヤフージャパン、ブレインパッド、GREE、外資系メディアエージェンシーなどで、データマイニング・機械学習を活用した高度アナリティクス業務に従事。情報の価値の観点から、インテリジェンスマネジメントの在り方、インテリジェンスプロセスと機械学習との融合可能性を考察し、日本コンペティティブ・インテリジェンス学会より最優秀論文賞を受賞(2015年)。現在は、機械学習・ディシジョン科学・シミュレーション科学を活用した、より複雑で高度なディシジョン支援に向けた技術の研究開発、機械学習の導入コンサルティング、データ活用アドバイザリーを行っています大澤/文孝
テクニカルライター。プログラマー。情報処理技術者(「情報セキュリティスペシャリスト」「ネットワークスペシャリスト」)。雑誌や書籍などで開発者向けの記事を中心に執筆。主にサーバやネットワーク、Webプログラミング、セキュリティの記事を担当しています。近年は、Webシステムの設計・開発に従事(本データはこの書籍が刊行された当時に掲載されていたものです)