# Ubuntu/Debian
sudo apt-get update
sudo apt-get install -y python3-pip python3-dev openjdk-8-jdk git
# CentOS/RHEL
sudo yum install -y python3-pip python3-devel java-1.8.0-openjdk-devel git
# 下载PyCharm
wget https://download.jetbrains.com/python/pycharm-professional-2023.2.tar.gz
# 解压
tar -xzf pycharm-professional-2023.2.tar.gz -C /opt/
# 创建启动器
sudo ln -s /opt/pycharm-2023.2/bin/pycharm.sh /usr/local/bin/pycharm
pycharm
命令启动PyCharm# 创建虚拟环境
python3 -m venv ~/venvs/bigdata
source ~/venvs/bigdata/bin/activate
# 安装常用大数据分析库
pip install numpy pandas matplotlib seaborn scikit-learn pyspark jupyterlab
wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
tar -xzf spark-3.3.2-bin-hadoop3.tgz -C /opt/
SPARK_HOME=/opt/spark-3.3.2-bin-hadoop3
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.5-src.zip:$PYTHONPATH
增加内存分配:
/opt/pycharm-2023.2/bin/pycharm64.vmoptions
-Xms512m
-Xmx4096m
禁用不必要的插件(Version Control, Database等如果不需要)
创建$SPARK_HOME/conf/spark-defaults.conf
:
spark.executor.memory 4g
spark.driver.memory 2g
spark.local.dir /tmp/spark
spark.sql.shuffle.partitions 200
project_root/
├── data/ # 原始数据
├── processed/ # 处理后的数据
├── notebooks/ # Jupyter notebooks
├── src/ # Python源代码
│ ├── etl/ # 数据提取转换加载
│ ├── analysis/ # 分析代码
│ └── utils/ # 工具函数
├── config/ # 配置文件
└── requirements.txt # 依赖列表
.limit(1000)
减少数据集大小http://localhost:4040
查看作业详情通过以上配置,您可以在Linux系统上高效地使用PyCharm进行大数据分析工作。根据具体项目需求,可能还需要安装额外的库或工具。