科学批判性思维

系统评估科学研究质量的专业工具，用于评审实验设计、识别偏倚、评估证据等级，并运用 GRADE 和 Cochrane 框架判断结论的可靠性。

论文质量评估：在正式同行评审之前，或个人阅读文献时，系统检查研究的方法学严谨性、统计有效性以及结论是否得到数据的充分支持。

研究设计规划：在启动新研究前，获取关于随机化、盲法、样本量计算、混杂因素控制等方面的专业建议，帮助设计更严谨的实验方案。

证据综合判断：进行系统评价或荟萃分析时，评估纳入研究证据等级，判断不同研究的质量差异，确定结论的可信度。

方法学批判：全面评估研究设计是否支持研究问题，检查内部效度、外部效度、构念效度和统计结论效度，识别随机化、盲法、对照组设置中的问题。

偏倚识别：系统检测认知偏倚（如确认偏倚、HARKing）、选择偏倚、测量偏倚、分析偏倚（如 P-hacking、选择性报告）以及混杂因素，评估它们对结果的影响。

证据质量评估：运用 GRADE 系统和证据等级框架，评估研究设计类型、偏倚风险、结果一致性、间接性和精确性，判断证据的可信度等级。

科学批判性思维主要用于个人研究评估、证据质量判断或同行评审前的内部质量检查。它不生成正式的评审意见书或给作者的反馈。如果需要撰写正式的同行评审报告，应该使用 peer-review 技能。

相关性研究本身不能直接证明因果关系。需要评估：时间顺序（原因是否先于结果）、是否存在剂量-反应关系、混杂因素是否得到控制、生物学机制是否合理、不同研究是否一致。如果论文用相关性语言（"相关"、"关联"）来表述因果结论，这是一个红旗信号。

GRADE 系统从研究设计类型出发（RCT 初始为高质量，观察性研究初始为低质量），然后考虑五个降级因素：偏倚风险（随机化、盲法、随访是否充分）、不一致性（不同研究结果是否矛盾）、间接性（人群、干预、结局是否与目标一致）、不精确性（置信区间宽、样本小）、发表偏倚。每遇到一个严重问题就降一级。

检查：是否报告了所有预设结局（可对比研究注册方案与发表内容）、是否进行了多次分析但只报告显著结果、是否在看到结果后修改假设（HARKing）、是否过度进行亚组分析而无多重比较校正、P 值是否可疑地集中在 0.05 附近。

小样本研究即使统计显著也应谨慎对待：效应量可能被夸大、置信区间通常很宽、研究可能严重功效不足。需要关注：是否进行了先验功效分析、效应量是否有实际意义、是否有其他研究重复、是否过度解读结果。单个小样本研究通常只能提供低质量证据。

scientific-critical-thinking