GitHub - yuji96/parse-abstract-ANLP: 言語処理学会予稿集から各論文の概要を抽出するプログラム

言語処理学会予稿集から各論文の概要を抽出するプログラム

準備

git clone https://github.com/fmalina/PDFtranscript
pip install -r ./PDFtranscript/requirements.txt

# 予稿集アーカイブより NLP-2025.zip をダウンロードして展開
# https://www.anlp.jp/resource/annual_meeting.html
# NLP-2025 への path を環境変数 DATA_DIR に指定

rm -rf NLP-2025/html
mkdir NLP-2025/HTML
mv NLP-2025/pdf_dir NLP-2025/PDF

概要取得

PDFtranscript を用いて pdf を html に変換する

echo $DATA_DIR
python PDFtranscript/pdf2html.py
# 1論文あたり7秒程度

python PDFtranscript/transcript.py

タグを元にアブストに該当する文字列を抽出する

python src/extract_abstract.py

その他論文情報はダウンロードしたプログラムページをスクレイピングして取得する

python src/extract_paper_info.py
python merge_csv.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Mini-Conf @ 0b1bdc8		Mini-Conf @ 0b1bdc8
src		src
.env.sample		.env.sample
.envrc		.envrc
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

準備

概要取得

About

Uh oh!

Releases

Packages

Languages

yuji96/parse-abstract-ANLP

Folders and files

Latest commit

History

Repository files navigation

準備

概要取得

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages