{% extends "base.html" %} {% block title %}配置 - 论文被引画像🦞{% endblock %} {% block content %}
任务配置
✓ 已保存
{% if captured_url %}
已捕获引用列表URL:
{{ captured_url }}
{% else %}
提示: 未检测到URL,请先从首页启动浏览器捕获URL
{% endif %}
ScraperAPI配置
建议使用多个API Key轮换,降低被封概率
OpenAI兼容API配置
建议使用需要实时联网才能回答的问题,以验证Web Search功能
Prompt配置
用于搜索论文作者列表及对应单位
用于搜索每位作者的详细学术信息(引用、头衔、职位等)
二次筛选配置 (可选)
开启后将使用cheaper model进行二次筛选,找出重要学者
作者信息校验配置 (可选)
开启后将使用web search能力对作者信息进行真实性核验
输出配置
输出文件将命名为: {前缀}_author_information.xlsx
每页抓取后等待的秒数,降低被封概率
1=串行, 3-5=推荐并行数
0表示从头开始,如果中断可设置从某页继续
重试配置
所有错误类型统一使用此重试次数(-1 = 无限重试直到成功)
输入单个数值如 10 表示固定间隔10秒;输入 5,10,20 表示第1/2/3次分别等待5/10/20秒。超出部分重复最后一个值
ScraperAPI会话与过滤 (可选)
开启后同一任务内所有请求使用同一个代理IP,避免命中不同数据中心导致结果不一致
开启后在Google Scholar链接追加 &filter=0,禁止Google自动过滤相似结果
数据中心不一致重试时,通过 country_code 切换代理国家以命中不同数据中心。Hobby/Startup计划仅支持 us 和 eu
ScraperAPI代理模式 (可选,消耗更多额度)
使用住宅代理IP,降低被封概率
最高质量代理,优先使用此项时Premium将被忽略
高级选项
开启后将按年份分别抓取,可突破单次最多1000条的限制,适用于引用数很多的论文
开启后每页抓取完成都会在 debug/ 目录下保存原始 HTML 和解析日志,方便排查抓取异常
开启后使用 test/mock_author_info.jsonl 中的预设数据,不消耗任何 API 配额,用于验证曾用名合并、仪表盘渲染等效果
返回首页
{% endblock %} {% block scripts %} {% endblock %}