文章

GitHub repository - arxiv-txt 將 ArXiv 轉為純文字工具

GitHub repository - arxiv-txt 將 ArXiv 轉為純文字工具

在處理學術論文時,會需要將 ArXiv PDF 轉換為純文字,以便 AI 解析、檢索或進一步分析。 arxiv-txt 就是來完成這項工作,適用於 LLM、AI 應用與學術研究。

如果不想在本地端部署服務,也可以直接使用 arXiv-txt.org 來轉換論文內容。

專案特色

支援 ArXiv ID 或完整網址輸入

首先可以輸入 ArXiv 的 ID,或是完整的連結,點擊 Open 就可以看到下圖的結果

雙欄顯示模式

左邊的 Summary 其實就是摘要的內容,如 https://arxiv.org/abs/1706.03762 這篇的摘要。

右邊的 PDF 則是將 PDF 轉為純文字,但是缺少了圖片或表格關係,只有文字內容,所以在閱讀上並不是很方便。

提供 API

如果要取得 Summary 可以透過以下方式

1
GET https://arxiv-txt.org/raw/abs/{id}

如果要取得 PDF 可以透過以下方式

1
GET https://arxiv-txt.org/raw/pdf/{id}

使用情境

  • 提供給 LLM 使用
  • 程式分析與數據檢索

結論

提供本地部署服務,一個簡單實用的工具,讓學術研究者可以更方便地處理 ArXiv 論文。

訂閱每週電子報

每週一會分享一篇管理與技術的文章,可以輸入你的 Email 訂閱每週電子報!

本文章以 CC BY 4.0 授權