ptt_crawler

Dependencies:

或是手動安裝

python3 -m pip install lxml
python3 -m pip install beautifulsoup4
python3 -m pip install psycopg2

目標：

步驟：

說明：

儲存文章和推文時是以當天日期做識別，沒有檢查資料是否有重複，一天只要run一次ptt.py & update_pushes.py就好了，要不然會重複存到相同內容
conn_info.py & ptt.py會被import到其他.py中，若要更改路徑請注意
表格有兩個，分別是文章article與推文push，其中article的primary key:article_id為push的 foreign key
PTT網頁板格式時常跑掉，若該網頁格式不符，則會印出錯誤訊息：Wrong format on this page: url
若只是單純下載當日文章以及推文存成json的話，請直接運行pttjson.py即可，但此方式就沒有檢查推文是否更新的功能

Provide feedback

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
.idea		.idea
.gitignore		.gitignore
README.md		README.md
conn_info.py		conn_info.py
create_table.py		create_table.py
ptt.py		ptt.py
pttjson.py		pttjson.py
requirements.txt		requirements.txt
update_pushes.py		update_pushes.py